본문 바로가기
스마트폰/nvidia Tegra

엔비디아 테그라 X1 발표. (2) GPU (Tegra X1, Maxwell)

by gamma0burst 2015. 1. 13.

 

- 전편에 이어 테그라X1 GPU를 다루겠습니다.

 

- 사양

GPU

Tegra K1 (Kepler GPU)

Tegra X1 (Maxwell GPU)

SM

1

2

CUDA Cores

192

256

Max GPU Frequency

950MHz

1GHz

GFLOPs (FP32) Peak

365

512

GFLOPs (FP16) Peak

365

1024

Texture Units

8

16

Texel fill-rate

7.6 GTex/s

16 GTex/s

Memory Clock

930MHz

1600MHz

Memory Bandwidth

14.9 GB/s

25.6 GB/s

ROPs

4

16

L2 Cache size

128KB

256KB

Manufaturing Process

28nm

20nm

Z-cull

256 pixels/clock

256 pixels/clock

Raster

4 pixels/clock

16 pixels/clock

Texture

8 bilinear filters/clock

16 bilinear filters/clock

ZROP

64 samples/clock

128 samples/clock

 

간단히 말하면 이렇습니다.

256코어 - 16TMU - 16ROP - 1GHz

 

 

- 사양에 대하여

예상대로 256코어로 나왔습니다. 2 SM 구성이지요.

다만 TMU, ROP는 예상과 완전히 다르게 갔습니다.

(링크 : 맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista))

테그라K1의 전례를 따라 8TMU - 4ROP로 나올걸로 예상했는데, 16TMU - 16ROP로 나왔습니다.

TMU는 2 SM 사양과 같은 수를 유지했고, ROP는 오히려 2 SM 사양보다 두 배로 늘었습니다.

 

맥스웰 기반의 하위 라인업 사양도 이런 식으로 구성될지도 모르겠습니다.

 

클럭은 1GHz로 적으나마 올랐습니다.

맥스웰에서 전력효율이 나아지기는 했지만, 192코어에서 256코어로 늘어났기때문에 클럭을 크게 높이기는 힘들었을듯 합니다.

저전력 공정 특성으로 인한 클럭상승 한계도 있을듯 하고요.

 

 

- 연산성능

엔비디아에서는 세계최초로 GPU 연산성능이 1TFLOPS인 모바일 프로세서라고 얘기합니다.

그래프에도 나와있지만 FP16 기준입니다.

 

 

사양표를 봐도 알 수 있듯이 테그라K1은 FP16과 FP32 연산성능이 같지만, 테그라X1은 FP16 연산성능이 FP32의 두 배입니다.

이는 FP16 연산이 달라졌기때문입니다.

아주 간단히보면 FP32 유닛은 FP16 유닛 두 개가 붙어있는걸로 볼 수 있습니다.

 

케플러 아키텍처는 FP32에서 FMA(Fused Multiply-Add)를 지원해서 1클럭에 2회 연산을 합니다.

2 op/cycle 이지요.

하지만 FP16은 FMA 미지원이라 1 op/cycle 입니다.

그래서 연산성능이 이렇게 나온겁니다.

FP32 : 192코어 x 2op/cycle x 950MHz = 364.8 GFLOPS

FP16 : 192코어x2 x 1op/cycle x 950MHz = 364.8 GFLOPS

 

맥스웰 아키텍처는 FP16에서도 FMA를 지원하게 되어서 FP16의 연산성능이 FP32의 두 배가 되었습니다.

FP32 : 256코어 x 2op/cycle x 1GHz = 512 GFLOPS

FP16 : 256코어x2 x 2op/cycle x 1GHz = 1024 GFLOPS

 

PowerVR 6XT는 기존 제품과 비교해서 FP16 연산성능 증가 외에 이렇다할 차이가 없었는데 그래픽 성능이 20~30%가 증가했었고,

(링크 : 애플 A8 사양/성능 분석. (2) GPU)

Mali 계열이 Adreno 계열과 비교해서 연산성능 대비 그래픽 성능이 떨어지는 것도 FP16 성능 부족과 연관성이 있는걸로 생각됩니다.

(링크 : Adreno330 vs Mali-T628 GFXBench Manhattan 성능 차이 분석)

이런 점을 봤을 때, FP16 연산성능의 증가는 그래픽 성능 증가에 긍정적인 영향이 있을 것으로 보입니다.

 

 

- 벤치마크

실제 벤치마크 결과를 보겠습니다.

이번엔 엔비디아에서 GPU쪽은 적극적으로 벤치마크 결과들을 공개했더군요.

테그라K1 때는 CPU쪽에서 그러다가 이번에 엄청 짜게 군걸 생각하면 의외입니다.

 

엔비디아의 자료에서는 테그라K1과 비교해서 맨해튼은 2배, 티렉스는 1.8배 정도의 성능을 보인다고 합니다.

 

1. GFX벤치

(링크 : http://www.notebookcheck.net/Nvidia-announces-Tegra-X1-SoC.134068.0.html)

맨해튼 오프스크린은 65.8 fps, 티렉스 오프스크린은 124.2 fps 입니다.

 

테그라K1이 맨해튼 32.7 fps, 티렉스 66.9 fps 이니,

(링크 : http://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&D=Google%20Nexus%209)

맨해튼은 2배, 티렉스는 1.86배입니다.

엔비디아의 자료와 제대로 맞아 떨어집니다.

제가 예상했던 성능과도 비슷네요.

(링크 : 맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista))

 

2. 3DMark

(링크 : http://www.slashgear.com/nvidia-tegra-x1-benchmarks-put-apple-a8x-on-notice-05361880/)

GPU 점수는 58448

테그라K1은 37797 입니다.

(링크 : http://www.futuremark.com/hardware/mobile/HTC+Nexus+9/review)

GT630M과 비슷한 성능입니다.

 

테그라K1 대비 1.55배 수준으로 엔비디아 자료와 맞습니다.

A8X와의 비교도 있습니다만, A8X의 3DMark 결과는 CPU 병목의 가능성이 있기때문에 동등한 비교로 보기 힘듭니다.

(링크 : 애플 A8X 다이(Die) 공개, GPU 클럭 추정.)

 

 

- 소비전력 분석

엔비디아가 패기있게 내놓은 소비전력 비교를 검증해보겠습니다.

 

(링크 : http://www.slashgear.com/nvidia-tegra-x1-benchmarks-put-apple-a8x-on-notice-05361880/)

문제의 그래프.

GPU 전력 비교인데, A8X는 평균 2.7W, 테그라X1은 평균 1.5W 입니다.

그런데 테스트 조건에 대한 얘기는 또 없습니다.

일단 GPU 전력이 차이나는거봐서는 동일 TDP는 아닌거 같고, 가장 유력한게 동일 성능에서 비교일듯 합니다.

어쨌든 일단 보지요.

 

A8X와 같은 성능에서 전력은 60%(58.8%) 수준이라는 엔비디아 자료.

위의 실측 자료에서 테그라X1의 평균 전력이 A8X의 56.4%이니 일단 맞습니다.

 

표시된 A8X 점의 위치와 이 때의 성능(맨해튼 33.3 fps, 2.7W)을 기준으로 그래프의 각 지점을 계산해보면,

테그라X1의 최대점은 59.6 fps, 3.87W

테그라K1의 최대점은 30.8 fps, 3.84W

 

테그라는 최대 성능까지 표시되지 않은 것 같네요.

저 그래프를 연장해서 최대 성능일 때 전력을 계산해보면,

테그라X1 : 65.8 fps, 4.74W

테그라K1 : 32.7 fps, 4.58W

 

예전에 테그라K1 GPU 소비전력을 최대 4.5W 정도로 추정했는데, 이와 비슷한 수준입니다.

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

그렇다면 그래프에서 엔비디아 부분은 믿을만하다는거고,

문제는 A8X가 제대로 표시되었냐인데 이 부분은 확인하기가 어렵습니다. (일단 보류)

 

엔비디아의 주장을 그대로 수용하면 같은 TSMC 20nm임에도 아키텍처의 우수성으로 인해 GX6850에 비해 전성비가 70%나 높습니다.

 

 

- 테그라X1 GPU 정리

1. 맥스웰 아키텍처 기반 256코어 - 16TMU - 16ROP - 1GHz

2. GFX벤치 맨해튼 오프스크린 65.8 fps, 티렉스 오프스크린 124.2 fps

테그라K1 대비 2배.

GT630M과 비슷한 성능.

3. GPU 최대전력 4.7W로 추정.

 

 

 

댓글23