엔비디아 테그라 X1 발표. (1) CPU (Tegra X1)

- 엔비디아가 CES2015에서 테그라 K1의 후속작, 테그라 X1을 발표했습니다.

코드네임 Erista로 Maxwell 기반 GPU 탑재로 알려졌던 제품입니다.

- 사양은 대충 이렇습니다.

(링크 : http://international.download.nvidia.com/pdf/tegra/Tegra-X1-whitepaper-v1.0.pdf)

Processor
CPU	CPU Quad 64-bit A57 cores + Quad 64-bit A53 cores
Cache	Cortex A57 cluster: 2 MB Shared L2 Cache, 48KB /32KB (I/D) L1 Cache per core Cortex A53 cluster: 512KB shared L2 Cache, 32KB/32KB (I/D) L1 Cache per core
Memory
Frequency	LPDDR3, LPDDR4-1600, 64-bit (25.6 GB/s)
Memory Size	Up to 4 GB
GPU
Cores	256-core Maxwell GPU with support for FP16
API Support	OpenGL ES 3.1, OpenGL4.5, DirectX 12.0, AEP, CUDA 6.0
Video
Decode	VP9, H.265, H.264 4K 60 fps; H.265 4K 60fps 10-bit color; VP8 1080p 60fps;
Encode	H.264, H.265 4K 30 fps; VP8 1080p 60 fps;
Imaging
Image Processing	Dual ISP, 1.3 GigaPixels/s, 4096 focus points, 100 MP Sensor support, up to 6 camera inputs
JPEG Decode/Encode	600 MPixels/s
Display
Display Controller	2 Simultaneous
HDMI	HDMI 2.0, HDCP 2.2, 4K 60 fps
Local Display	4K 60 fps VESA DSC compression
Storage
Storage interface	e-MMC 5.1 (HS533), CMD Queuing

공정은 TSMC 20nm SoC 공정입니다.

- 실물

엔비디아가 공개한 AP, 레퍼런스 보드.

AP 상부에 메모리가 PoP되지 않았습니다. (테그라 K1도 그랬습니다.)

테그라K1 최대 전력소비는 11W였고, 테그라X1도 10W 정도로 알려져 있는데, 이 때문에 PoP은 힘든 것으로 보입니다.

AP 아래에 있는 두 개가 LPDDR4 입니다.

GFX벤치 시스템 정보로 봐서는 총 3GB인듯 합니다.

SEC라고 마킹된거봐서 삼성 메모리같네요.

뒷면에는 32GB e-MMC가 탑재되어 있습니다.

- 여기서는 GPU를 제외한 부분에 대해 다루겠습니다.

CPU만 해도 나름 얘기거리가 많더군요.

- Cortex-A57 쿼드 + Cortex-A53 쿼드

사양은 알려진대로 Cortex-A57 쿼드 + Cortex-A53 쿼드 의 옥타코어 구조입니다.

A57은 각 코어별로 48KB의 명령어 L1 명령어 캐시, 32KB의 L1 데이터 캐시를 갖고, 2MB의 L2 공유 캐시를 갖고 있습니다.

A53은 각 코어별로 32KB의 명령어 L1 명령어 캐시, 32KB의 L1 데이터 캐시를 갖고, 512KB의 L2 공유 캐시를 갖고 있습니다.

여기까지만 보면 빅리틀 HMP(GTS) 지원인거 같습니다.

하지만......

- 클러스터 마이그레이션??

GFX벤치에 올라온 시스템 정보로는 1.9GHz 입니다.

그리고 쿼드코어로 표기되어있지요.

HMP(GTS) 지원 옥타프로세서들이 시스템 정보에서 옥타코어로 표기되는걸 생각하면, 저건 상당히 의심스러운 상황입니다.

최대 4코어 밖에 안 돌아간다고 볼 수도 있는데, 클러스터 마이그레이션인 엑시노스5410이 옥타코어로 표시되고 있기때문에 단정지을 수는 없습니다.

하지만 의심스러운게 사실.

게다가 아난드텍, 탐스 하드웨어 등에서 클러스터 마이그레이션을 사용하고 있다고 밝히고 있습니다.

설명대로면 ARM CCI-400 이 아닌 엔비디아 자체의 Cache Coherent solution을 사용했다고 합니다.

시스템 컨트롤도 ARM의 IPA(Intelligent Power Allocation)이 아닌 자체적인 System EDP Management를 사용했다고 하고요.

아무래도 기존 테그라에 들어갔던 vSMP에서 적용된 기술의 응용으로 보입니다.

(저전력의 컴패니언 코어가 추가되어 전체적으로 4+1 코어 구조였습니다.)

그래서 기존 클러스터 마이그레이션보다 성능, 전력 효율이 높아졌다고 하는데......

상당히 신뢰도가 떨어집니다.

vSMP만해도 상당히 우수한 솔루션으로 홍보했지만 실제 그렇게 인상적인 모습을 보이지 않았고,

(공학적으로는 어떨지 모르겠지만 상업적으로는 그런듯.)

쿼드코어를 동기식으로 돌려놓고 문제없다고 했지만, 동기식은 역시 동기식이었습니다.

확실한건 나와봐야 알겠지만 개인적으로 별로 기대되지는 않습니다.

- 최대클럭이 1.9GHz가 맞는가?

테그라K1의 CPU 최대전력은 6.5W 정도로 나왔습니다.

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

테그라X1도 이와 비슷할겁니다.

밑에서 언급하겠지만 20nm 공정의 엑시노스5433 A57 1코어의 1.9GHz 소비전력이 1.94W, 2.0GHz에서 2.20W 정도입니다.

FAB은 다르지만 같은 20nm 공정, A57이기때문에 클럭/전력 특성은 크게 다르지 않을 것으로 보입니다.

클러스터 마이그레이션이라면 최대 전력은 1코어 전력의 4배일테고, 1.9GHz 1코어의 전력은 엑시노스와 비슷한 1.94W 선으로 잡는다면, CPU 최대전력은 7.76W가 나옵니다.

2.0GHz라면 8.8W 정도고요.

20nm 공정 A57 코어의 현실적인 한계 클럭이 1.9GHz정도 인걸로 보입니다.

물론 확정되는건 긱벤치 결과같이 다른 정보가 나오고 나서 입니다.

- 엔비디아 주장 자료 검증.

이런 자료를 내놨습니다.

SPECint 기준으로 엑시노스5433 대비,

동일 성능에서 전력 절반 -> 동일 성능에서 전력효율 2배

동일 전력에서 성능 1.4배.

이것만보면 클러스터 마이그레이션이면서 진짜 전력효율이 좋다고 생각할 수도 있는데, 그래프보면 CPU 전력이 최대 1.25W입니다.

A57 쿼드코어 풀로드 전력이 저 정도는 절대 아니지요.

저건 확실히 싱글코어 전력입니다.

클러스터 마이그레이션 효율을 비교하려면 멀티코어에서 성능/전력을 봐야하고, 그나마도 최대전력이 아니라 평균전력을 봐야합니다.

싱글코어 전력으로는 확인하기 힘듭니다.

어쨌든 그건 그거고 위 자료의 사실여부를 확인해보겠습니다.

테그라K1 때는 테그라4와 비교해서 분석하기 쉬웠는데, 이번건 구체적인 SPECint 수치가 없는 엑시노스5433과 비교해서 좀 힘드네요.

ARM 자료를 보면 싱글기준 Cortex-A15 1.5GHz -> Cortex-A57 1.7GHz : +36% 입니다.

Cortex-A57 1.7GHz 싱글코어가 1250 이 넘는다고 하고요.

(ARMv7, AArch32, AArch64 중 어떤걸로 테스트됐는지 모르겠지만 저 수치를 그대로 쓰겠습니다.)

테그라K1을 보면 Cortex-A15 2.3GHz에서 1400점, 1625mW로 나옵니다.

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

계산해보면 Cortex-A15 1.5GHz에서 921점이 나옵니다.

이것의 +36%라면 1256점이 됩니다.

ARM 자료와 일치합니다.

ARM 자료를 그대로 써도 괜찮을듯 합니다.

엔비디아 자료를 다시 보지요.

잘 보면 테그라X1 그래프는 x축 구간 끝까지 안 가고, 엑시노스는 x축 구간을 넘어가는 것으로 보입니다.

테그라X1 성능이 최대 구간까지 표시되었다고 볼 수 있을듯 합니다.

그렇다면 오른쪽 최상단 점이 테그라X1 최대성능(1.9GHz)이라고 가정할 수 있습니다. 소비전력은 1223mW

저 포인트와 같은 전력에서 엑시노스 점수는 25%정도 낮습니다.

같은 A57이니 클럭당점수가 같다고 생각하면 1223mW에서 엑시노스는 1.4GHz 정도라는 얘기가 됩니다.

그런데 이거 얼토당토않은 얘기인게,

엑시노스5433 탑재 갤럭시 노트4(SM-N910L) 커널 정보,

동클럭에서 20nm A57과 28nm A15 전력이 비슷하다는 ARM의 자료,

커널을 통해 확인된 엑시노스5430의 전력,

20nm와 28nm 간 공정성능 차이에 관한 TSMC의 자료를 종합하면,

(28nm -> 20nm, 동일 스피드에서 전력 20% 감소.)

엑시노스5433의 A57 1코어의 클럭별 소비전력은 다음과 같습니다.

Exynos5433 A57 Single core Power Coefficient : 64?
Frequency	Voltage	Power
MHz	Volt	mW
2500	1.35	2916
2400	1.35	2799
2300	1.35	2683
2200	1.35	2566
2100	1.35	2449
2000	1.3125	2205
1900	1.2625	1938
1800	1.2125	1694
1700	1.175	1502
1600	1.1375	1325
1500	1.1125	1188
1400	1.0875	1060
1300	1.0625	939
1200	1.0375	827
1100	1.0125	722
1000	0.975	608
900	0.9375	506
800	0.9125	426
700	0.9125	373
600	0.9	311
500	0.9	259
400	0.9	207
300	0.9	156
200	0.9	104

1.4GHz에서 1060mW 밖에 안 됩니다.

1250mW 정도면 1.6GHz정도에 해당합니다.

어쨌든 엔비디아 주장이 맞다면 이렇다는겁니다.

엑시노스5433이 2.4GHz에서 낼 수 있는 성능은 테그라X1은 1.9GHz로 낼 수 있으며,

그 때 테그라X1 소비전력은 1.23W 수준으로, 2.8W인 엑시노스5433보다 절반이상 낮습니다.

그리고

테그라K1에서는 1.65W까지 1코어 소비전력을 잡았었지요.

그런데 이번엔 고작 1.23W 입니다.

1.65W면 산술적으로 20~30%는 클럭을 더 올릴 수 있습니다. 2.3GHz 이상이 됩니다.

그런데 엔비디아는 그렇게 하지 않았다는게 됩니다.

왠만하면 자료를 믿고 싶은데 정황이 너무 수상합니다.

- 자료가 안 맞는 원인의 가능성들.

1. 엑시노스5433 성능/전력 측정이 제대로 되지 않았을 가능성

엑시노스5433 성능/전력 측정을 갤럭시 노트4로 했다는데, 그걸로 SPECint가 제대로 돌아가지 않았을 가능성이 있습니다.

2. 테스트 모드 차이

테그라X1은 AArch64에서 돌아가고, 엑시노스5433은 AArch32 혹은 ARMv7로 돌아가서 성능 격차가 났을 가능성이 있습니다.

모드가 다를 경우 같은 제품이라도 10~30%의 SPECint 성능 차이가 납니다.

3. 코어 리비전의 결과

A57 리비전의 효과일지도 모르겠습니다.

테그라K1도 테그라4와 같은 Cortex-A15 코어였지만 코어 리비전의 결과로 SPECint 전성비가 크게 올랐습니다.

현재 엑시노스5433이 r1p0 이고, 최신은 r1p3 입니다.

출시 시기를 생각하면 r1p2까지는 무난하게 될거 같고, 잘하면 r1p3로 나올 가능성도 있는듯 합니다.

- 왜 Denver가 아닌 Cortex-A57 ??

테그라K1에서 보여줬던 Denver 코어가 아닌 ARM의 Cortex-A57이 들어갔습니다.

이에 대해 엔비디아는 이렇게 얘기합니다.

'자체 디자인은 시간과 리소스 투입이 많아서 출시까지 시간이 오래 걸린다. 빠른 시장 투입을 위해 ARM의 IP 디자인을 썼다.'

(이 말은 나중에 덴버코어 버전의 테그라X1이 나올 가능성이 있다는 얘기가 됩니다.)

테그라K1이 A15 버전이 먼저 나오고, Denver 버전이 나중에 나온 이유도 이와 같을 것으로 보입니다.

ARM 라이센스 코어와 자체 코어의 투 트랙 라인업을 가져가려는걸지도 모르겠습니다.

- 메모리

LPDDR4 1600MHz (64bit)를 지원해서 25.6GB/s의 대역폭을 갖습니다.

LPDDR4로 가면서 메모리 자체의 소비전력도 줄고, 맥스웰 아키텍처의 메모리 압축기술 덕에 메모리 대역폭 효율이 좋아져서 테그라K1 대비 2배 이상의 효율을 갖는다고 합니다.

압축 기술은 맥스웰 아키텍처 기반 그래픽 카드 출시 때 나왔던 얘기인데, 테그라X1에도 그대로 적용됐습니다.

- 하드웨어 인코더/디코어

4K 영상을 지원하는 하드웨어 인코더/디코더가 내장되어 있습니다.

지원 포맷과 사양은 이렇습니다.

- 다음 편에서는 GPU를 다루겠습니다.

- 2015.03.08 엑시노스5433 CPU 소비전력 추정치 수정. 하지만 결론은 큰 차이없습니다.

'스마트폰 > nvidia Tegra' 카테고리의 다른 글

엔비디아 테그라X1 초기 벤치마크 분석. (Tegra X1) (24)	2015.05.28
엔비디아 테그라 X1 발표. (2) GPU (Tegra X1, Maxwell) (23)	2015.01.13
맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista) (14)	2014.12.02
엔비디아 덴버코어 AArch64(64bit) 성능 분석. (Denver, Tegra K1) (15)	2014.11.22
엔비디아 덴버 코어 긱벤치 성능 분석. (Nvidia, Denver, Geekbench3) (update 14.11.01) (30)	2014.11.01