본문 바로가기
스마트폰/nvidia Tegra

Nvidia Tegra K1 정보/분석.

by gamma0burst 2014. 1. 7.

북미 시간 2014년 1월 5일 엔비디아는 CES2014 개막에 앞서 보도 관계자를 위한 이벤트를 개최하고 차세대 모바일 SoC인 Tegra K1을 발표했습니다.
Tegra K1은 기존에 Tegra5, 코드네임 Logan으로 알려져있던 제품입니다.


(엔비디아의 테그라 로드맵.)



이번에 발표된 내용은 G-SYNC, 차량용 테그라 솔류션, 테그라 K1 이지만, 당연히 여기서는 테그라 K1만 다룰겁니다.



테그라 K1의 라인업은 두 가지입니다.
(테그라4도 테그라4와 테그라4i의 두가지 라인업이 있었지요.)
Cortex-A15 기반과 Denver 기반.
두 칩의 핀이 호환된다는게 인상적. (하드웨어 개발하기 편합니다.)


- CPU
Cortex-A15 기반 제품부터.





Cortex-A15 r3p3 쿼드코어. (부하가 낮을 때 동작하는 1코어가 포함된 4+1 구조.)
최대 2.3GHz
L1 캐시 32KB/32KB(명령어/데이터)
메모리 대역폭 17GB/s
28nm HPM 공정.
2014년 상반기 출시 예정.

Cortex-A15의 리비전은 현재 r4까지 나와있습니다만 현존 거의 모든 제품이 r2 입니다.
엑시노스를 포함해서 말이지요. 테그라4도 r2p1이었습니다.
차기 엑시노스에서도 r3를 쓴다고 하니 리비전 차이에 따른 성능 격차는 크지 않을 것으로 보입니다.
애초에 r2라 해도 버전에 따라 r3의 변경 요소가 도입되는 경우가 있기때문에 버전만으로 성능, 소비전력 차이를 확신할 수는 없습니다.




(리비전에 따른 소비전력 감소.)

다음은 Denver 코어 기반.



Denver 기반 듀얼코어.
최대 2.5GHz
L1 캐시 128KB/64KB(명령어/데이터)
메모리 대역폭 17GB/s
28nm HPM 공정.
2014년 하반기 출시 예정.

이미지로 봐서 Cortex-A15 기반같은 추가 저전력 코어는 없는듯 합니다.





Denver 코어는 ARMv8 명령어 기반의 엔비디아 자체 아키텍처입니다.
당연한 얘기이지만 64비트 프로세서입니다.
7-way issue 구조라고 밝히고 있지만 구체적인 명령어 구성을 알 수 없습니다.
Cortex-A15가 3-way issue라고 비교하고 있는데 정수연산 관련 issue만 카운트한 것으로 보입니다.
정수연산 관련 issue 기준으로 7-way issue이면 엄청난 성능이 예상되는데 실제로 어떨지는 지켜볼 일 입니다.


- GPU
GPU는 CPU 차이에 관계없이 동일한 것으로 보입니다.



GPU는 케플러 아키텍처 기반의 192코어입니다.
케플러 아키텍처 이전에는 데스크탑용 GPU에서 FP32유닛 4개를 1코어로 보았고,
테그라2/3에서는 FP32(혹은 FP20)유닛 1개를 1코어로 보았습니다.
그래서 코어 수와 동일한 기준에서 비교할 수가 없었습니다.
하지만 케플러 아키텍처부터는 데스크탑용 GPU에서도 FP32유닛 1개를 1코어로 보기때문에 테그라 K1에서 말하는 192코어는 데스크탑용 GPU 기준에서봐도 192코어입니다.



발표 자료를 보면 연산성능이 365GFLOPS로 나옵니다.
SIGGRAPH에서 Logan의 데모가 공개됐을 때, 엔비디아는 GPU의 연산성능이 400GFLOPS에 달한다고 주장하기도 했으니 갑작스럽게 나온 이론 성능은 아닙니다.
192코어로 365GFLOPS의 연산성능이 나오려면 산술적으로 950MHz라는 클럭이 나옵니다.
사양표의 이론 텍셀 성능이 7.6 GTexel/s 인데 8TMU, 950MHz라는 사양인듯 합니다.



기존 케플러 기반 제품의 사양 중에서 이와 가장 가까운 것이 GK208입니다.
384코어, 16TMU, 8ROP
테그라 K1의 GPU 사양은 GK208의 딱 절반으로 보입니다.
192코어, 8TMU, 4ROP

950MHz는 과할 정도의 고클럭으로 보이지만 케플러 아키텍처가 기존의 아키텍처에 비해 클럭을 올리기 쉬운 구조이기때문에 불가능한 클럭은 아닙니다.
아주 좋게 생각(해석)하면 엔비디아가 밝힌 5W라는 TDP도 납득할 수 있습니다.
CPU의 소비전력을 제외한다해도 GPU의 TDP는 4W 수준일겁니다.
(최대 소비전력이라고 봐도 무방하겠지요.)

진짜라면 사양과 클럭을 생각했을 때 낮은 수준입니다.
950MHz는 SKU상의 최대 클럭정도이고 실제로는 태블릿에서나 들어갈 수 있는 클럭인듯 합니다.
그나마도 쓰로틀링으로 인한 성능 저하를 피할 수 없을거고요. (테그라4의 사례를 보면 그렇습니다.)
스마트폰에 들어가기위해서는 클럭다운이 필요할듯 하네요.



언리얼 엔진 얘기가 많이 나오더군요.
언리얼 엔진4
DX 11
OpenGL 4.4
등등 지원.



GFXBench 3.0 맨해튼에서 애플 A7 대비 2.5배의 성능을 보인다고 합니다.
GFX3.0은 아직 일반에 공개되지는 않았습니다. 주요 개발 업계에서 RC버전으로 테스트하고 있는걸로 알고 있습니다.
GFX2.5/2.7 대비 성능 저하 폭, 비율이 제품마다 천차만별이고, 아직까지 모든 제품의 최적화가 이루어진 상태가 아니기때문에 이 결과만으로 테그라K1 성능이 압도적이라고 해석할 순 없습니다.
지켜볼 부분입니다.



- 요약
- CPU

Cortex-A15 r3p3 쿼드코어. (부하가 낮을 때 동작하는 1코어가 포함된 4+1 구조.)
최대 2.3GHz
L1 캐시 32KB/32KB(명령어/데이터)
메모리 대역폭 17GB/s
28nm HPM 공정.
2014년 상반기 출시 예정.

Denver 기반 듀얼코어. (ARMv8 기반 자체 아키텍처.)
최대 2.5GHz
L1 캐시 128KB/64KB(명령어/데이터)
메모리 대역폭 17GB/s
28nm HPM 공정.
2014년 하반기 출시 예정.

- GPU
케플러기반 192코어, 8TMU, 4ROP
최대 950MHz
7.6 GTexel/s
3.8 GPixel/s
364.8 GFLOPS

구체적인 GPU 성능 예상은 이후에 해보겠습니다.


 

댓글34