ARM기반 HPC 프로토타입 : Pedraforca

http://www.silicon.fr/gtc-2013-barcelone-veut-construire-des-clusters-a-base-de-puces-arm-et-de-gpu-84550.html
http://www.pcper.com/news/General-Tech/GTC-2013-Pedraforca-Power-Efficient-ARM-GPU-Cluster-Homogeneous-GPU-Workloads
http://www.hardware.fr/news/12991/gtc-cuda-on-arm-tegra-3-tesla-k20.html

GTC 2013에서 HPC(High Performance Computing, 고성능 컴퓨팅) 프로토타입에 대한 정보가 나와서 이에 대해 다뤄볼까합니다.

지난 번 몽블랑 프로젝트에 대해 대략적으로 다뤘습니다.
(ARM기반 슈퍼 컴퓨터 프로젝트, 몽블랑(Mont-Blanc))
ARM기반 슈퍼컴퓨터 만들어 높은 전력대성능비를 갖는 HPC 컨셉을 구현하겠다는겁니다.

목표인 2014년(매년 6월, 11월에 발표하니 아무래도 2015년에 가깝겠지요)이면 Top500의 1위가 100PFLOPS,
최하위인 500위가 1PFLOPS에 육박할 것으로 예상됩니다.

목표 달성을 위한 프로토타입들.
Tibidabo
Pedraforca

Tibidabo(티비다보, 띠비다보) - 바르셀로나에 위치한 산으로 높이 516.6m
Pedraforca(페드라포르카) - 바르셀로나주 베르게다지구에 위치한 산으로 높이 2506.4m

프로젝트명이 서유럽 최고봉인 Mont Blanc(몽블랑, 4810m)인걸보니 다 산에서 이름을 따왔나봅니다.
프로젝트를 진행하는 곳이 BSC(바르셀로나 슈퍼컴퓨팅 센터)라서 프로토타입 이름을 바르셀로나 주변 산에서 따온듯.

앞으로 나올 테스트 결과 항목들.
사실 이걸 다 알아볼 수준은 안 되니 이런 테스트가 있다더라 수준입니다.

- Tibadabo
Cortex-A9 1GHz 듀얼코어 사양의 테그라2 만을 사용했습니다.

노드 하나당 테그라2 하나.
자료를 보면 린팩에서 212개 코어로 103.3 GFLOPS, 502.99W, 205.371 MFLOPS/W를 달성했다고 합니다.
(http://www.epcc.ed.ac.uk/wp-content/uploads/2013/02/Submission-1146632.pdf)
이론적인 배정밀도(DP) 연산성능이 212 GFLOPS이니 효율이 49% 정도고,
0.2 GFLOPS/W의 전성비를 달성했습니다.

ARM기반 HPC라는 컨셉이 가능하다는걸 입증.

- Pedraforca
외부 가속기, 즉 GPGPU를 통해 전력효율(전성비)을 높인다는 컨셉을 입증하는게 목적입니다.
현재 두 단계로 알려져 있습니다.

- Pedraforca v1
노드 하나당 Cortex-A9 1.3GHz 쿼드코어 테그라3 와 쿼드로 1000M을 사용. (CARMA 개발 킷)
테그라3의 연산성능은 5.2GFLOPS
쿼드로 1000M은 96코어, 쉐이더클럭 1.4GHz로 134GFLOPS의 연산성능을 갖습니다.
(쿼드로 1000M이 DP을 지원하는지 모르겠네요.)
초기에는 쿼드로 5010M(384코어, 쉐이더클럭 900MHz, 345GFLOPS)가 거론되었는데 바뀐듯 합니다.

클러스터는 16개 노드로 구성되었습니다.
개발보드에 쿨러달린쪽이 쿼드로입니다.

구체적인 결과는 아직 안 나왔지만, 쿼드로쪽이 절대성능과 전성비에 압도적으로 우위에 있다는 결과.

같은 40nm 공정에 같은 아키텍처지만 멀티코어 덕에 에너지 소비가 67% 줄었다는데,
전성비가 좋아졌다는 얘기겠지요?
전력 효율 측면에서 코어 수가 많을수록 좋다는듯.

다음이 이번에 발표된 Pedraforca v2 입니다.

- Pedraforca v2
Cortex-A9 1.3GHz 쿼드코어 테그라3
테슬라 K20 (1173GFLOPS)

Pedraforca v1이 ARM+GPU 컨셉이었다면, Pedraforca v2는 각 부분의 역할이 다릅니다.
테그라3는 시스템 관리나 노드간의 GPU 통신을 담당할뿐, 연산을 담당하지 않습니다.
순수하게 GPU의 연산성능만을 활용합니다.
테그라3는 향후 상황에 따라 테그라4 로 바뀔 가능성도 있다는듯.

노드간 통신에는 InfiniBand를 사용합니다.
서버간 데이터 통신에 흔히 사용되는 방식입니다.
40Gb/s의 대역폭을 제공하는걸로봐서 4X로 보입니다.
QDR(8b/10b 인코딩)이냐 FDR(64b/66b 인코딩)이냐에 따라 실제 데이터 전송속도는 32Gb/s나 40Gb/s가 될듯.
이전 타입이 1Gb 이더넷을 사용했던 것에 비하면 장족의 발전입니다.
(테스트 타입이니 기가비트를 썼겠지만요.)

테그라3가 테슬라와 인피니밴드 카드와 통신하는데 PCI-E 레인을 사용하는데,
테그라3는 PCI-E 1.0 4레인 밖에 지원하지 않습니다.
테슬라가 PCI-E 3.0 x16, 인피니밴드카드가 PCI-E 3.0 x8 을 지원하는데 이것에 비하면 그야말로 새발의 피입니다. (최대 대역폭의 1/24 밖에 제공하지 못 합니다.)
그 때문에 브릿지 칩을 사용한 것으로 보입니다.
PEX8796과 PEX8780을 사용했다고 합니다.
(http://www.plxtech.com/products/expresslane/pex8796)
(http://www.plxtech.com/products/expresslane/pex8780)
둘 다 쓴건지 그냥 이미지만 따온거고 둘 중 하나만 쓴건지 모르겠지만, 전자의 가능성이 높겠지요.
설마하니 저런 자료에 후자같은 허술한 짓을 했을리가...
브릿지 칩이 물리적인 대역폭 한계를 늘려주지는 못 하지만 한정된 대역폭을 유동적으로 사용할 수 있게
해주니 불가피한 선택이었을겁니다.
(CF/SLI에서 네이티브 PCI-E x16과 브릿지칩 PCI-E x16의 성능차이.)

Pedraforca v2 클러스터는 64개의 노드로 이루어집니다.

TDP 100W 수준의 CPU가 담당하던 역할을 TDP 2~3W 수준의 테그라3가 담당하기때문에 소비전력 절감이
있을 것으로 예상됩니다.

- Mont-Blanc 프로토 타입.
삼성 엑시노스5250이 선택되었지요.
Cortex-A15 1.7GHz 듀얼코어. (6.8 GFLOPS)
Mali-T604 (533MHz에서 DP 17GFLOPS)

한 다이에 집적되어있는 CPU와 GPU를 활용하겠다는겁니다.
외장 GPU로 인해 발생하는 전력낭비를 줄이겠다는 것.

엑시노스5250(빨간)과 테그라3(파랑) 비교.
코어수 차이에도 불구하고 비슷한 성능을 보입니다.

싱글코어 비교에서는 차이가 큽니다.

에너지 효율은 전반적으로 엑시노스 5250이 우세한 편.
연산성능은 엑시노스 5250이 테그라3의 2배 이상인 것으로 보고 있는듯.

올해 안에 개발될 예정.

-
BSC에서는 궁극적으로 ARMv8 을 생각하고 있는듯 합니다.
ARMv8 기반 제품부터 64bit를 지원하고, 연산성능도 두 배 수준으로 올라가기 때문입니다.

몽블랑 프로젝트의 1차 목표가 50PFLOPS, 7MW로 Green500 에 진입하겠다는 것인데, 7 GFLOPS/W 이상을 달성하겠다는거지요.
현재 슈퍼컴퓨터 전성비의 3배 수준입니다.
현재 공정에서는 불가능하다는 얘기지요.
내년까지 공정 미세화가 얼마나 진행되느냐에 따라 결과가 결정될듯 합니다.

공정미세화가 이루어지면 x86이나 GPU도 그 혜택을 받고 그만큼 성능과 전성비가 올라가기때문에
목표 성능으로 Top500 진입이 아닌 Green500 진입을 목표로 하지 않았을까 싶기도 합니다.

- 2012.03.28 내용 추가.

'기타하드웨어' 카테고리의 다른 글

몽블랑 프로젝트 현황. (2013.08.07.) (2)	2013.08.07
HPC에서 모바일 프로세서의 미래. (15)	2013.05.27
ARM기반 슈퍼 컴퓨터 프로젝트, 몽블랑(Mont-Blanc) (4)	2012.11.19
23인치, 27인치 IPS 모니터 고르기. (8)	2012.04.07
삼성전자 SMH-6200UB 마우스 간단 리뷰. (0)	2011.09.22