엔비디아 테그라 X1 발표. (2) GPU (Tegra X1, Maxwell)

- 전편에 이어 테그라X1 GPU를 다루겠습니다.

- 사양

GPU	Tegra K1 (Kepler GPU)	Tegra X1 (Maxwell GPU)
SM	1	2
CUDA Cores	192	256
Max GPU Frequency	950MHz	1GHz
GFLOPs (FP32) Peak	365	512
GFLOPs (FP16) Peak	365	1024
Texture Units	8	16
Texel fill-rate	7.6 GTex/s	16 GTex/s
Memory Clock	930MHz	1600MHz
Memory Bandwidth	14.9 GB/s	25.6 GB/s
ROPs	4	16
L2 Cache size	128KB	256KB
Manufaturing Process	28nm	20nm
Z-cull	256 pixels/clock	256 pixels/clock
Raster	4 pixels/clock	16 pixels/clock
Texture	8 bilinear filters/clock	16 bilinear filters/clock
ZROP	64 samples/clock	128 samples/clock

간단히 말하면 이렇습니다.

256코어 - 16TMU - 16ROP - 1GHz

- 사양에 대하여

예상대로 256코어로 나왔습니다. 2 SM 구성이지요.

다만 TMU, ROP는 예상과 완전히 다르게 갔습니다.

(링크 : 맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista))

테그라K1의 전례를 따라 8TMU - 4ROP로 나올걸로 예상했는데, 16TMU - 16ROP로 나왔습니다.

TMU는 2 SM 사양과 같은 수를 유지했고, ROP는 오히려 2 SM 사양보다 두 배로 늘었습니다.

맥스웰 기반의 하위 라인업 사양도 이런 식으로 구성될지도 모르겠습니다.

클럭은 1GHz로 적으나마 올랐습니다.

맥스웰에서 전력효율이 나아지기는 했지만, 192코어에서 256코어로 늘어났기때문에 클럭을 크게 높이기는 힘들었을듯 합니다.

저전력 공정 특성으로 인한 클럭상승 한계도 있을듯 하고요.

- 연산성능

엔비디아에서는 세계최초로 GPU 연산성능이 1TFLOPS인 모바일 프로세서라고 얘기합니다.

그래프에도 나와있지만 FP16 기준입니다.

사양표를 봐도 알 수 있듯이 테그라K1은 FP16과 FP32 연산성능이 같지만, 테그라X1은 FP16 연산성능이 FP32의 두 배입니다.

이는 FP16 연산이 달라졌기때문입니다.

아주 간단히보면 FP32 유닛은 FP16 유닛 두 개가 붙어있는걸로 볼 수 있습니다.

케플러 아키텍처는 FP32에서 FMA(Fused Multiply-Add)를 지원해서 1클럭에 2회 연산을 합니다.

2 op/cycle 이지요.

하지만 FP16은 FMA 미지원이라 1 op/cycle 입니다.

그래서 연산성능이 이렇게 나온겁니다.

FP32 : 192코어 x 2op/cycle x 950MHz = 364.8 GFLOPS

FP16 : 192코어x2 x 1op/cycle x 950MHz = 364.8 GFLOPS

맥스웰 아키텍처는 FP16에서도 FMA를 지원하게 되어서 FP16의 연산성능이 FP32의 두 배가 되었습니다.

FP32 : 256코어 x 2op/cycle x 1GHz = 512 GFLOPS

FP16 : 256코어x2 x 2op/cycle x 1GHz = 1024 GFLOPS

PowerVR 6XT는 기존 제품과 비교해서 FP16 연산성능 증가 외에 이렇다할 차이가 없었는데 그래픽 성능이 20~30%가 증가했었고,

(링크 : 애플 A8 사양/성능 분석. (2) GPU)

Mali 계열이 Adreno 계열과 비교해서 연산성능 대비 그래픽 성능이 떨어지는 것도 FP16 성능 부족과 연관성이 있는걸로 생각됩니다.

(링크 : Adreno330 vs Mali-T628 GFXBench Manhattan 성능 차이 분석)

이런 점을 봤을 때, FP16 연산성능의 증가는 그래픽 성능 증가에 긍정적인 영향이 있을 것으로 보입니다.

- 벤치마크

실제 벤치마크 결과를 보겠습니다.

이번엔 엔비디아에서 GPU쪽은 적극적으로 벤치마크 결과들을 공개했더군요.

테그라K1 때는 CPU쪽에서 그러다가 이번에 엄청 짜게 군걸 생각하면 의외입니다.

엔비디아의 자료에서는 테그라K1과 비교해서 맨해튼은 2배, 티렉스는 1.8배 정도의 성능을 보인다고 합니다.

1. GFX벤치

(링크 : http://www.notebookcheck.net/Nvidia-announces-Tegra-X1-SoC.134068.0.html)

맨해튼 오프스크린은 65.8 fps, 티렉스 오프스크린은 124.2 fps 입니다.

테그라K1이 맨해튼 32.7 fps, 티렉스 66.9 fps 이니,

(링크 : http://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&D=Google%20Nexus%209)

맨해튼은 2배, 티렉스는 1.86배입니다.

엔비디아의 자료와 제대로 맞아 떨어집니다.

제가 예상했던 성능과도 비슷네요.

(링크 : 맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista))

2. 3DMark

(링크 : http://www.slashgear.com/nvidia-tegra-x1-benchmarks-put-apple-a8x-on-notice-05361880/)

GPU 점수는 58448

테그라K1은 37797 입니다.

(링크 : http://www.futuremark.com/hardware/mobile/HTC+Nexus+9/review)

GT630M과 비슷한 성능입니다.

테그라K1 대비 1.55배 수준으로 엔비디아 자료와 맞습니다.

A8X와의 비교도 있습니다만, A8X의 3DMark 결과는 CPU 병목의 가능성이 있기때문에 동등한 비교로 보기 힘듭니다.

(링크 : 애플 A8X 다이(Die) 공개, GPU 클럭 추정.)

- 소비전력 분석

엔비디아가 패기있게 내놓은 소비전력 비교를 검증해보겠습니다.

(링크 : http://www.slashgear.com/nvidia-tegra-x1-benchmarks-put-apple-a8x-on-notice-05361880/)

문제의 그래프.

GPU 전력 비교인데, A8X는 평균 2.7W, 테그라X1은 평균 1.5W 입니다.

그런데 테스트 조건에 대한 얘기는 또 없습니다.

일단 GPU 전력이 차이나는거봐서는 동일 TDP는 아닌거 같고, 가장 유력한게 동일 성능에서 비교일듯 합니다.

어쨌든 일단 보지요.

A8X와 같은 성능에서 전력은 60%(58.8%) 수준이라는 엔비디아 자료.

위의 실측 자료에서 테그라X1의 평균 전력이 A8X의 56.4%이니 일단 맞습니다.

표시된 A8X 점의 위치와 이 때의 성능(맨해튼 33.3 fps, 2.7W)을 기준으로 그래프의 각 지점을 계산해보면,

테그라X1의 최대점은 59.6 fps, 3.87W

테그라K1의 최대점은 30.8 fps, 3.84W

테그라는 최대 성능까지 표시되지 않은 것 같네요.

저 그래프를 연장해서 최대 성능일 때 전력을 계산해보면,

테그라X1 : 65.8 fps, 4.74W

테그라K1 : 32.7 fps, 4.58W

예전에 테그라K1 GPU 소비전력을 최대 4.5W 정도로 추정했는데, 이와 비슷한 수준입니다.

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

그렇다면 그래프에서 엔비디아 부분은 믿을만하다는거고,

문제는 A8X가 제대로 표시되었냐인데 이 부분은 확인하기가 어렵습니다. (일단 보류)

엔비디아의 주장을 그대로 수용하면 같은 TSMC 20nm임에도 아키텍처의 우수성으로 인해 GX6850에 비해 전성비가 70%나 높습니다.

- 테그라X1 GPU 정리

1. 맥스웰 아키텍처 기반 256코어 - 16TMU - 16ROP - 1GHz

2. GFX벤치 맨해튼 오프스크린 65.8 fps, 티렉스 오프스크린 124.2 fps

테그라K1 대비 2배.

GT630M과 비슷한 성능.

3. GPU 최대전력 4.7W로 추정.

'스마트폰 > nvidia Tegra' 카테고리의 다른 글

차세대 테그라 긱벤치3 결과 분석. (파스칼 사양) (24)	2016.07.20
엔비디아 테그라X1 초기 벤치마크 분석. (Tegra X1) (24)	2015.05.28
엔비디아 테그라 X1 발표. (1) CPU (Tegra X1) (21)	2015.01.11
맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista) (14)	2014.12.02
엔비디아 덴버코어 AArch64(64bit) 성능 분석. (Denver, Tegra K1) (15)	2014.11.22

감마의 하드웨어정보.

엔비디아 테그라 X1 발표. (2) GPU (Tegra X1, Maxwell)

'스마트폰 > nvidia Tegra' 카테고리의 다른 글

댓글

티스토리툴바

엔비디아 테그라 X1 발표. (2) GPU (Tegra X1, Maxwell)

'스마트폰 > nvidia Tegra' 카테고리의 다른 글

관련글

댓글

티스토리툴바