엔비디아에서 ARM Cortex-A9 기반 쿼드코어 SoC, 코드네임 KAL-EL을 발표했습니다.

코드네임은 미국의 히어로 코믹스 주인공들의 본명을 따서 만든듯.
(슈퍼맨, 배트맨, 울버린, 아이언맨)


테그라2는 gpu가 8코어(버텍스쉐이더4 + 픽셀쉐이더4)였지만,
KAL-EL은 12코어를 갖습니다.
여전히 통합쉐이더는 아닌데, 버텍스, 픽셀 쉐이더의 개수는 불명입니다.


cpu는 ARM Cortex-A9 쿼드코어, 1MB의 L2 캐시를 갖습니다.

이전에 공개했던 로드맵으로 보아 최대 1.5GHz의 클럭을 갖을 것으로 보입니다.

NEON이라고 알려진, ARM의 Media Processing Engine(MPE)이 내장되었습니다.
테그라2는 이 기능이 없었습니다.

메모리는 여전히 LPDDR2 싱글채널을 지원합니다.
쿼드코어 제품인만큼 메모리 대역폭이 부족할 것 같은데, 엔비디아에서는 싱글채널로 충분한 것으로 판단한 모양입니다. 현재 대부분의 LPDDR2 메모리가 600MHz인데, KAL-EL을 사용한 플랫폼에서는 더 고클럭의 메모리를 사용할지도 모르겠습니다.





테그라2의 구조

기존의 테그라2 대비 KAL-EL이 5배, WAYNE은 10배, LOGAN은 약 30배의 성능을 갖는다고 합니다만,
소비전력을 생각하지 않을 수 없습니다.

성능향상에는 소비전력 증가가 필연적으로 따라오니까요.
현재 배터리 성능향상이 한계에 부딪힌 상황에서, 성능을 위해 무조건적인 소비전력 증가는 달갑지 않겠지요.
성능은 증가시키면서, 소비전력은 최소한 현 상태를 유지해야하는데, 현실적으로 가능한 방법은 공정미세화뿐입니다.
결국 관건은 엔비디아의 칩을 생산하고 있는 TSMC의 공정미세화가 순조롭게 진행되느냐입니다.



TSMC 40nm 공정으로 제작된 KAL-EL의 샘플입니다.

패키징의 면적은 14mm x 14mm이고, 다이사이즈는 80mm^2 수준으로 알려졌습니다.
테그라2의 다이사이즈는 49mm^2 입니다.
늘어난 면적만큼 트랜지스터가 증가했고, 트랜지스터의 증가는 곧 소비전력의 증가와 같은 의미입니다.
소비전력이 크게 늘어날 것으로 보입니다.



KAL-EL 탑재 제품.

로드맵에서, 이 벤치결과를 놓고 코어2듀오보다 빠르다고 홍보하고 있습니다.
(T7200 : 2GHz의 인텔 모바일 듀얼코어 제품)





일단 테그라2보다 5배 빠르다는건 아닌거 같네요.
넉넉하게 잡아도 2배수준입니다.
로드맵에 비교대상으로 cpu를 넣어놓고 cpu와 gpu의 성능을 모두 반영한거라고 할 수는 없겠지요.

코어마크라는 프로그램이 멀티스레드를 지원하기때문에 듀얼코어보다 쿼드코어가 유리하긴합니다.

벤치결과 사진을 좀 더 크게보겠습니다.

아래는 좀 더 선명한 사진입니다.


KAL-EL의 옵션을 보지요.
최신버전의 GCC4.4.1(이건 테그라2도 동일하네요.)
최고 수준의 최적화 옵션 (-O3)
각종 루프 구문 최적화 기법 (unroll-loop, align-loop)
모두 최대한의 성능을 끌어내기위한 옵션들입니다.

T7200의 옵션.
GCC 3.4 (GCC 3.x와 4.x는 최적화 부분에서 성능 차이가 있다네요.)
최적화 옵션 -O2

사실상 다른 프로그램을 돌린 것과 다름없습니다.
찾아보면 인텔 셀러론 E3300(2.5GHz)이 14500정도 나온 결과도 있습니다.
이런걸 놓고 코어2듀오보다 높은 성능이라고 홍보하고 있네요.

ARM 기반의 제품도 X86에 근접하는 성능을 낼 수 있다는걸 보여주고 싶은 마음은 알겠는데,
오해의 소지가 다분한 방법으로 홍보하는건 무슨 생각인지 모르겠네요.

-추가-
http://www.ilsistemista.net/index.php/hardware-analysis/10-published-kal-el-performance-is-nvidia-soc-truly-faster-than-a-core2-.html?start=3
엔비디아의 발표를 보고 벤치마크를 한 곳이 있었습니다.
결론부터 말하면 엔비디아의 치팅이 확인되었습니다.


컴파일러의 차이에 따른 벤치마크 결과입니다.
엔비디아가 T7200에 사용한(정확히는 기존의 벤치결과를 퍼온겁니다.) GCC3.4.6과 최신인 GCC4.4.4를 사용했을 때의 결과.
GCC4.4.4와 GCC4.4.1은 사실상 차이가 없습니다.

컴파일러의 차이만으로도 약12% 성능차이가 날뿐더러, 옵션이 O2냐 O3냐에 따라서 약28%의 차이가 발생합니다.
거기에 loop 옵션까지 넣으면 미세하게나마 성능이 더 오릅니다.

KAL-EL과 동일한 옵션에서 테스트를 하면 기존의 옵션보다 약44% 높은 결과가 나오는겁니다. 


엔비디아가 공개한 KAL-EL의 결과와 비교해보지요.

이게 과연 코어2듀오보다 빠른 성능인가요?

코어마크사의 벤치마크결과 사이트(
http://www.coremark.org/benchmark/index.php)에 있는 비슷한 cpu의 결과로 동일옵션에서의 T7200의 유추해서 엔비디아가 크게 잘못되지 않았다고 주장하는 사람들이 간혹 보이는데,
일단 그 주장은 틀린 것이고,
그 다음으로, 변인을 최대한 일치시켜야한다는 벤치마크의 기본철칙조차 무시한 엔비디아의 태도를 옹호하는건 무슨 생각인지 모르겠습니다.
엔비디아에 대한 무한 사랑인가요??


Posted by gamma0burst Trackback 0 : Comment 0

댓글을 달아 주세요