http://www.silicon.fr/gtc-2013-barcelone-veut-construire-des-clusters-a-base-de-puces-arm-et-de-gpu-84550.html
http://www.pcper.com/news/General-Tech/GTC-2013-Pedraforca-Power-Efficient-ARM-GPU-Cluster-Homogeneous-GPU-Workloads
http://www.hardware.fr/news/12991/gtc-cuda-on-arm-tegra-3-tesla-k20.html

GTC 2013에서 HPC(High Performance Computing, 고성능 컴퓨팅) 프로토타입에 대한 정보가 나와서 이에 대해 다뤄볼까합니다.

지난 번 몽블랑 프로젝트에 대해 대략적으로 다뤘습니다.
(
ARM기반 슈퍼 컴퓨터 프로젝트, 몽블랑(Mont-Blanc))
ARM기반 슈퍼컴퓨터 만들어 높은 전력대성능비를 갖는 HPC 컨셉을 구현하겠다는겁니다.


목표인 2014년(매년 6월, 11월에 발표하니 아무래도 2015년에 가깝겠지요)이면 Top500의 1위가 100PFLOPS,
최하위인 500위가 1PFLOPS에 육박할 것으로 예상됩니다.



목표 달성을 위한 프로토타입들.
Tibidabo
Pedraforca

Tibidabo(티비다보, 띠비다보) - 바르셀로나에 위치한 산으로 높이 516.6m
Pedraforca(페드라포르카) - 바르셀로나주 베르게다지구에 위치한 산으로 높이 2506.4m

프로젝트명이 서유럽 최고봉인 Mont Blanc(몽블랑, 4810m)인걸보니 다 산에서 이름을 따왔나봅니다.
프로젝트를 진행하는 곳이 BSC(바르셀로나 슈퍼컴퓨팅 센터)라서 프로토타입 이름을 바르셀로나 주변 산에서 따온듯.


앞으로 나올 테스트 결과 항목들.
사실 이걸 다 알아볼 수준은 안 되니 이런 테스트가 있다더라 수준입니다.


- Tibadabo
Cortex-A9 1GHz 듀얼코어 사양의 테그라2 만을 사용했습니다.


노드 하나당 테그라2 하나.
자료를 보면 린팩에서 212개 코어로 103.3 GFLOPS, 502.99W, 205.371 MFLOPS/W를 달성했다고 합니다.
(
http://www.epcc.ed.ac.uk/wp-content/uploads/2013/02/Submission-1146632.pdf)
이론적인 배정밀도(DP) 연산성능이 212 GFLOPS이니 효율이 49% 정도고,
0.2 GFLOPS/W의 전성비를 달성했습니다.


ARM기반 HPC라는 컨셉이 가능하다는걸 입증.


- Pedraforca
외부 가속기, 즉 GPGPU를 통해 전력효율(전성비)을 높인다는 컨셉을 입증하는게 목적입니다.
현재 두 단계로 알려져 있습니다.





- Pedraforca v1
노드 하나당 Cortex-A9 1.3GHz 쿼드코어 테그라3 와 쿼드로 1000M을 사용. (CARMA 개발 킷)
테그라3의 연산성능은 5.2GFLOPS
쿼드로 1000M은 96코어, 쉐이더클럭 1.4GHz로 134GFLOPS의 연산성능을 갖습니다.
(쿼드로 1000M이 DP을 지원하는지 모르겠네요.)
초기에는 쿼드로 5010M(384코어, 쉐이더클럭 900MHz, 345GFLOPS)가 거론되었는데 바뀐듯 합니다.


클러스터는 16개 노드로 구성되었습니다.
개발보드에 쿨러달린쪽이 쿼드로입니다.






구체적인 결과는 아직 안 나왔지만,
쿼드로쪽이 절대성능과 전성비에 압도적으로 우위에 있다는 결과.


같은 40nm 공정에 같은 아키텍처지만 멀티코어 덕에 에너지 소비가 67% 줄었다는데,
전성비가 좋아졌다는 얘기겠지요?
전력 효율 측면에서 코어 수가 많을수록 좋다는듯.



다음이 이번에 발표된 Pedraforca v2 입니다.



- Pedraforca v2
Cortex-A9 1.3GHz 쿼드코어 테그라3
테슬라 K20 (1173GFLOPS)

Pedraforca v1이 ARM+GPU 컨셉이었다면, Pedraforca v2는 각 부분의 역할이 다릅니다.
테그라3는 시스템 관리나 노드간의 GPU 통신을 담당할뿐, 연산을 담당하지 않습니다.
순수하게 GPU의 연산성능만을 활용합니다.
테그라3는 향후 상황에 따라 테그라4 로 바뀔 가능성도 있다는듯.


노드간 통신에는 InfiniBand를 사용합니다.
서버간 데이터 통신에 흔히 사용되는 방식입니다.
40Gb/s의 대역폭을 제공하는걸로봐서 4X로 보입니다.
QDR(8b/10b 인코딩)이냐 FDR(64b/66b 인코딩)이냐에 따라 실제 데이터 전송속도는 32Gb/s나 40Gb/s가 될듯.
이전 타입이 1Gb 이더넷을 사용했던 것에 비하면 장족의 발전입니다.
(테스트 타입이니 기가비트를 썼겠지만요.)

테그라3가 테슬라와 인피니밴드 카드와 통신하는데 PCI-E 레인을 사용하는데,
테그라3는 PCI-E 1.0 4레인 밖에 지원하지 않습니다.

테슬라가 PCI-E 3.0 x16, 인피니밴드카드가 PCI-E 3.0 x8 을 지원하는데 이것에 비하면 그야말로 새발의 피입니다. (최대 대역폭의 1/24 밖에 제공하지 못 합니다.)
그 때문에 브릿지 칩을 사용한 것으로 보입니다.
PEX8796과 PEX8780을 사용했다고 합니다.
(
http://www.plxtech.com/products/expresslane/pex8796)
(
http://www.plxtech.com/products/expresslane/pex8780)
둘 다 쓴건지 그냥 이미지만 따온거고 둘 중 하나만 쓴건지 모르겠지만, 전자의 가능성이 높겠지요.
설마하니 저런 자료에 후자같은 허술한 짓을 했을리가...
브릿지 칩이 물리적인 대역폭 한계를 늘려주지는 못 하지만 한정된 대역폭을 유동적으로 사용할 수 있게
해주니 불가피한 선택이었을겁니다.

(
CF/SLI에서 네이티브 PCI-E x16과 브릿지칩 PCI-E x16의 성능차이.)

Pedraforca v2 클러스터는 64개의 노드로 이루어집니다.

TDP 100W 수준의 CPU가 담당하던 역할을 TDP 2~3W 수준의 테그라3가 담당하기때문에 소비전력 절감이
있을 것으로 예상됩니다.



- Mont-Blanc 프로토 타입.
삼성 엑시노스5250이 선택되었지요.
Cortex-A15 1.7GHz 듀얼코어. (6.8 GFLOPS)
Mali-T604 (533MHz에서 DP 17GFLOPS)


한 다이에 집적되어있는 CPU와 GPU를 활용하겠다는겁니다.
외장 GPU로 인해 발생하는 전력낭비를 줄이겠다는 것.

 

엑시노스5250(빨간)과 테그라3(파랑) 비교.
코어수 차이에도 불구하고 비슷한 성능을 보입니다.


싱글코어 비교에서는 차이가 큽니다.


에너지 효율은 전반적으로 엑시노스 5250이 우세한 편.
연산성능은 엑시노스 5250이 테그라3의 2배 이상인 것으로 보고 있는듯.



올해 안에 개발될 예정.


-
BSC에서는 궁극적으로 ARMv8 을 생각하고 있는듯 합니다.
ARMv8 기반 제품부터 64bit를 지원하고, 연산성능도 두 배 수준으로 올라가기 때문입니다.

몽블랑 프로젝트의 1차 목표가 50PFLOPS, 7MW로 Green500 에 진입하겠다는 것인데, 7
GFLOPS/W 이상을 달성하겠다는거지요.
현재 슈퍼컴퓨터 전성비의 3배 수준입니다.
현재 공정에서는 불가능하다는 얘기지요.
내년까지 공정 미세화가 얼마나 진행되느냐에 따라 결과가 결정될듯 합니다.

공정미세화가 이루어지면 x86이나 GPU도 그 혜택을 받고 그만큼 성능과 전성비가 올라가기때문에
목표 성능으로 Top500 진입이 아닌 Green500 진입을 목표로 하지 않았을까 싶기도 합니다.



- 2012.03.28 내용 추가.



신고
Posted by gamma0burst Trackback 0 : Comment 2

댓글을 달아 주세요

  1. addr | edit/del | reply 플리즈 2013.03.27 21:00 신고

    말 그대로 프로토 타입이고 서버 지원이 본격적으로 되는 V8에서 가닥을 잡을 것 같네요. 내년이면 이제 V8 도입된 AP가 우수수 쏟아져 나올테니 말입니다.

    벌써 삼성에서 6시리즈 양산을 하반기로 계획중이라는 말이 나오는 거 보니 다른 업체들도 준비중일 테고, 올해 말이나 내년 하반기에는 스몰코어 서버를 더 많이 만나 볼 수 있을 것 같아요.

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.03.27 21:11 신고

      저는 ARMv8 적용 AP 출시도 늦어질걸로 봅니다.
      cortex-a15도 본격적인 출시는 3~4분기나 되어야하는 상황에 얼마나 많은 업체들이 적극적으로 A57을 만들지 의문입니다.
      게다가 A15도 소비전력에서 말이 많은 상황에서 A57이 나오려면 공정이 또 바뀌어야겠지요.
      최소 20nm
      대다수의 업체가 생산을 TSMC에 의존하고 있으니 TSMC가 차기 공정을 내놓아야 A57도 나올텐데 그게 언제쯤될 것이며 안정적인 수율이 확보되면서 잘 넘어갈지도 의문.

      몽블랑 프로젝트가 원하는대로 돌아가려면 최소 올해말~내년초까지 ARMv8 시제품이 나와줘야되는데 과연 어떤 업체가 그게 가능할런지 모르겠습니다.
      삼성정도 밖에 없으려나.