- 전편에 이어 테그라X1 GPU를 다루겠습니다.

 

- 사양

GPU

Tegra K1 (Kepler GPU)

Tegra X1 (Maxwell GPU)

SM

1

2

CUDA Cores

192

256

Max GPU Frequency

950MHz

1GHz

GFLOPs (FP32) Peak

365

512

GFLOPs (FP16) Peak

365

1024

Texture Units

8

16

Texel fill-rate

7.6 GTex/s

16 GTex/s

Memory Clock

930MHz

1600MHz

Memory Bandwidth

14.9 GB/s

25.6 GB/s

ROPs

4

16

L2 Cache size

128KB

256KB

Manufaturing Process

28nm

20nm

Z-cull

256 pixels/clock

256 pixels/clock

Raster

4 pixels/clock

16 pixels/clock

Texture

8 bilinear filters/clock

16 bilinear filters/clock

ZROP

64 samples/clock

128 samples/clock

 

간단히 말하면 이렇습니다.

256코어 - 16TMU - 16ROP - 1GHz

 

 

- 사양에 대하여

예상대로 256코어로 나왔습니다. 2 SM 구성이지요.

다만 TMU, ROP는 예상과 완전히 다르게 갔습니다.

(링크 : 맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista))

테그라K1의 전례를 따라 8TMU - 4ROP로 나올걸로 예상했는데, 16TMU - 16ROP로 나왔습니다.

TMU는 2 SM 사양과 같은 수를 유지했고, ROP는 오히려 2 SM 사양보다 두 배로 늘었습니다.

 

맥스웰 기반의 하위 라인업 사양도 이런 식으로 구성될지도 모르겠습니다.

 

클럭은 1GHz로 적으나마 올랐습니다.

맥스웰에서 전력효율이 나아지기는 했지만, 192코어에서 256코어로 늘어났기때문에 클럭을 크게 높이기는 힘들었을듯 합니다.

저전력 공정 특성으로 인한 클럭상승 한계도 있을듯 하고요.

 

 

- 연산성능

엔비디아에서는 세계최초로 GPU 연산성능이 1TFLOPS인 모바일 프로세서라고 얘기합니다.

그래프에도 나와있지만 FP16 기준입니다.

 

 

사양표를 봐도 알 수 있듯이 테그라K1은 FP16과 FP32 연산성능이 같지만, 테그라X1은 FP16 연산성능이 FP32의 두 배입니다.

이는 FP16 연산이 달라졌기때문입니다.

아주 간단히보면 FP32 유닛은 FP16 유닛 두 개가 붙어있는걸로 볼 수 있습니다.

 

케플러 아키텍처는 FP32에서 FMA(Fused Multiply-Add)를 지원해서 1클럭에 2회 연산을 합니다.

2 op/cycle 이지요.

하지만 FP16은 FMA 미지원이라 1 op/cycle 입니다.

그래서 연산성능이 이렇게 나온겁니다.

FP32 : 192코어 x 2op/cycle x 950MHz = 364.8 GFLOPS

FP16 : 192코어x2 x 1op/cycle x 950MHz = 364.8 GFLOPS

 

맥스웰 아키텍처는 FP16에서도 FMA를 지원하게 되어서 FP16의 연산성능이 FP32의 두 배가 되었습니다.

FP32 : 256코어 x 2op/cycle x 1GHz = 512 GFLOPS

FP16 : 256코어x2 x 2op/cycle x 1GHz = 1024 GFLOPS

 

PowerVR 6XT는 기존 제품과 비교해서 FP16 연산성능 증가 외에 이렇다할 차이가 없었는데 그래픽 성능이 20~30%가 증가했었고,

(링크 : 애플 A8 사양/성능 분석. (2) GPU)

Mali 계열이 Adreno 계열과 비교해서 연산성능 대비 그래픽 성능이 떨어지는 것도 FP16 성능 부족과 연관성이 있는걸로 생각됩니다.

(링크 : Adreno330 vs Mali-T628 GFXBench Manhattan 성능 차이 분석)

이런 점을 봤을 때, FP16 연산성능의 증가는 그래픽 성능 증가에 긍정적인 영향이 있을 것으로 보입니다.

 

 

- 벤치마크

실제 벤치마크 결과를 보겠습니다.

이번엔 엔비디아에서 GPU쪽은 적극적으로 벤치마크 결과들을 공개했더군요.

테그라K1 때는 CPU쪽에서 그러다가 이번에 엄청 짜게 군걸 생각하면 의외입니다.

 

엔비디아의 자료에서는 테그라K1과 비교해서 맨해튼은 2배, 티렉스는 1.8배 정도의 성능을 보인다고 합니다.

 

1. GFX벤치

(링크 : http://www.notebookcheck.net/Nvidia-announces-Tegra-X1-SoC.134068.0.html)

맨해튼 오프스크린은 65.8 fps, 티렉스 오프스크린은 124.2 fps 입니다.

 

테그라K1이 맨해튼 32.7 fps, 티렉스 66.9 fps 이니,

(링크 : http://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&D=Google%20Nexus%209)

맨해튼은 2배, 티렉스는 1.86배입니다.

엔비디아의 자료와 제대로 맞아 떨어집니다.

제가 예상했던 성능과도 비슷네요.

(링크 : 맥스웰 GPU 탑재 테그라, 에리스타 GPU 사양/성능 추정.(Maxwell, Erista))

 

2. 3DMark

(링크 : http://www.slashgear.com/nvidia-tegra-x1-benchmarks-put-apple-a8x-on-notice-05361880/)

GPU 점수는 58448

테그라K1은 37797 입니다.

(링크 : http://www.futuremark.com/hardware/mobile/HTC+Nexus+9/review)

GT630M과 비슷한 성능입니다.

 

테그라K1 대비 1.55배 수준으로 엔비디아 자료와 맞습니다.

A8X와의 비교도 있습니다만, A8X의 3DMark 결과는 CPU 병목의 가능성이 있기때문에 동등한 비교로 보기 힘듭니다.

(링크 : 애플 A8X 다이(Die) 공개, GPU 클럭 추정.)

 

 

- 소비전력 분석

엔비디아가 패기있게 내놓은 소비전력 비교를 검증해보겠습니다.

 

(링크 : http://www.slashgear.com/nvidia-tegra-x1-benchmarks-put-apple-a8x-on-notice-05361880/)

문제의 그래프.

GPU 전력 비교인데, A8X는 평균 2.7W, 테그라X1은 평균 1.5W 입니다.

그런데 테스트 조건에 대한 얘기는 또 없습니다.

일단 GPU 전력이 차이나는거봐서는 동일 TDP는 아닌거 같고, 가장 유력한게 동일 성능에서 비교일듯 합니다.

어쨌든 일단 보지요.

 

A8X와 같은 성능에서 전력은 60%(58.8%) 수준이라는 엔비디아 자료.

위의 실측 자료에서 테그라X1의 평균 전력이 A8X의 56.4%이니 일단 맞습니다.

 

표시된 A8X 점의 위치와 이 때의 성능(맨해튼 33.3 fps, 2.7W)을 기준으로 그래프의 각 지점을 계산해보면,

테그라X1의 최대점은 59.6 fps, 3.87W

테그라K1의 최대점은 30.8 fps, 3.84W

 

테그라는 최대 성능까지 표시되지 않은 것 같네요.

저 그래프를 연장해서 최대 성능일 때 전력을 계산해보면,

테그라X1 : 65.8 fps, 4.74W

테그라K1 : 32.7 fps, 4.58W

 

예전에 테그라K1 GPU 소비전력을 최대 4.5W 정도로 추정했는데, 이와 비슷한 수준입니다.

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

그렇다면 그래프에서 엔비디아 부분은 믿을만하다는거고,

문제는 A8X가 제대로 표시되었냐인데 이 부분은 확인하기가 어렵습니다. (일단 보류)

 

엔비디아의 주장을 그대로 수용하면 같은 TSMC 20nm임에도 아키텍처의 우수성으로 인해 GX6850에 비해 전성비가 70%나 높습니다.

 

 

- 테그라X1 GPU 정리

1. 맥스웰 아키텍처 기반 256코어 - 16TMU - 16ROP - 1GHz

2. GFX벤치 맨해튼 오프스크린 65.8 fps, 티렉스 오프스크린 124.2 fps

테그라K1 대비 2배.

GT630M과 비슷한 성능.

3. GPU 최대전력 4.7W로 추정.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 23

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon ㅁㄴㅇㄹ 2015.01.13 21:09

    GPU는 본업이다 이건가요... 근데 저 매직그래프는 정말...

  2. addr | edit/del | reply system421 2015.01.14 00:00

    역시 엔당은 그래픽만 믿고 가네요.. 그나저나 이번 테그라x1에서 조금 의아한 부분이 있는데 클러스터 마이그레이션을 사용한걸로 추정되는 부분입니다 아무래도 자동차계열에 사용되는 칩들은 성능도 중요하지만 안정성이 가장 중요할텐데 클러스터 마이그레이션이 충분히 안정적으로 동작할런지는 조금 의문이네요.. 스위칭딜레이가 스마트폰 같은데서는 그다지 중요하지 않을수있지만 자동차같은 경우에는 문제가 조금 달라질수도 있을거 같은데 말이죠

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.14 07:53 신고

      인간의 딜레이가 얼마나 긴지 생각하면 클러스터 마이그레이션 스위칭 딜레이는 딜레이도 아닐듯 하네요.;

    • addr | edit/del BlogIcon ㅁㄴㅇㄹ 2015.01.14 08:02

      주파수까지도 일일히 맞추는 MCU에서는 클러스터 마이그레이션이 문제가 있을 수도 있죠... 차에 들어가는건 그 기능을 안쓰지 않을까 하네요(자동차가 전력 부족한것도 아니고)

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.14 08:12 신고

      저걸 MCU에 쓴다고요?
      센서나 카메라 정보를 처리해서 그래픽 구현하거나, 영상처리 결과를 제어부에 피드백 주는 정도겠지요.
      뭘 믿고 저걸 MCU로 쓰겠습니까.

  3. addr | edit/del | reply BlogIcon 흡혈귀왕 2015.01.14 01:02

    사양 테이블에
    FP16이 FP32로 오타나있네용~

    암튼 진짜 GPU 성능은 인정...
    짱짱....
    폰에 안달려서 문제지만 ㅡㅡa

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.14 07:55 신고

      또 태블릿이나 하나 나오고 말겠지요.

      이번 발표나 백서에서 auto쪽 비중이 높은거 봐서는 제대로 방향잡은듯 합니다.
      각종 기능, 특히 영상 처리를 그렇게 하는데 SoC 하나의 메모리 대역폭으로 해결해버렸다는게 주목할만한 부분이라고 하더군요.
      아무래도 프레임 압축 기술같은게 도움이 되긴 한듯.

  4. addr | edit/del | reply BlogIcon 2015.01.14 02:19

    7420이 이 성능을 잡을 수 있나요? ㄷㄷ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.14 07:56 신고

      스마트폰에도 못 들어갈 전력/성능을 스마트폰에 들어갈 AP가 잡을 필요는 없지요.

  5. addr | edit/del | reply Favicon of https://repilria.tistory.com BlogIcon 레필리아 2015.01.14 11:23 신고

    GT630M과 비슷한 성능이란 것을 어떻게 알 수 있나요?
    기재하신 링크 눌러봐도 의미를 파악하기 힘든데요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.14 16:15 신고

      3DMark GPU 점수로 비교가 됩니다.

      http://www.notebookcheck.net/Mobile-Graphics-Cards-Benchmark-List.844.0.html?&3dmark06=1&3dmark13_ice_gpu=1&architecture=1&archive=0&benchmark_values=&boostspeed=0&codename=0&condensed=0&corespeed=0&daysold=0&deskornote=0&directx=0&dx=0&glbenchmark=1&gpu_fullname=1&gpubenchmarks=0&memorybus=0&memoryspeed=0&month=&multiplegpus=0&or=0&pixelshaders=0&professional=0&search=&shaderspeed=0&showBars=0&showClassDescription=0&showCount=0&showPercent=0&sort=b_201_714&technology=0&vertexshaders=0

  6. addr | edit/del | reply 피노키오 2015.01.16 09:05

    같은 맥스웰 혈통이면서 16Rop이면, 베이스는 거의 gtx750 이네요?
    모바일에선 uhd를 대비한 포석인지... 아뭏튼 배짱하난 두둑하군요 와

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.16 17:27 신고

      ROP만 보면 그런데, GM107를 베이스라고 보기에 GM204와 같은 베이스를 갖고 있어서 테그라X1이 특이한 경우로 보입니다.

  7. addr | edit/del | reply Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2015.01.16 11:59 신고

    10W 초반이면서 19W의 Haswell ULT에 근접하는 수준이군요. 브로드웰은 한세대 이후의 공정을 쓰니 같은선에서 비교하면 안되는걸 감안하면 CPU에선 조금 밀려도 GPU 효율이 완전 넘을 수 없는 격차가 나오는데 효율으론 뛰어넘었습니다, Haswell ULT의 Power Limit을 11W로 강제하면 Icestorm Unlimited 기준으로 36-37k 정도밖에 안나옵니다만, X1은 43k가 나오는군요.같은 데스크탑 GPU 아키텍쳐임에도 맥스웰 아키텍쳐 자체가 매우 준수한거 같습니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.16 17:55 신고

      haswell이 15W 그러는건 TDP라서 비교가 안 됩니다.
      테그라는 TDP를 최대 5W선으로 제한할테니까요.
      인텔한테는 SDP라는 꼼수를 부려야 나올 수 있는 수치지요.
      (성능 차이 생각하면 당연한거지만......)

      GPU 효율이야 애초에 인텔과 엔비디아를 비교하기 좀 그렇지요.
      그래도 HD5000이 65000 이상 나오는거보면, GPU 전성비가 크게 떨어지지는 않는듯 합니다.
      CPU 전력이 ARM 수준으로 낮아질 수 없다는게 문제인듯.

    • addr | edit/del Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2015.01.16 18:25 신고

      그 부분은 샌디브릿지 세대부터 전력통제가 발열이 아니라 전력량에 기반해서 통제가 되어서 4.5W라는 것도 작동하는걸 보면 실제로 전력소비를 강제로 클럭을 다운시켜서 4.5W에다가 가져다 맞추기 때문에 부하 상태에서의 소비전력은 거기에 거의 근접합니다. 해서 실제 작동 클럭을 보면 3DMark에서 스톡상태(하즈웰 6W, 브로드웰 4.5W)로 놓게되면 CPU 동작클럭이 부스트 클럭의 절반 정도에서 어정거립니다. 최대 소비전력은 어느정도 서로 비슷한 급으로 맞춰주고 있는거죠. 문제는 소비전력의 하한선을 맞춰내지 못하는데 CS 상태에서 윈도우즈 서비스가 하나도 안돌아가야 간신히 ARM 계열의 대기전력 수준을 맞추고 화면이 켜진 상태에서는 PCH까지 프로세서 패키지가 2W 좀 못되는 대기전력을 계속 삼키는 등 전력컨트롤이 영 안되서 평균소비전력을 잡아먹고 있습니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.16 18:51 신고

      결국 같은 총 소비전력 내에서 인텔 GPU가 힘을 못 쓰는건 CPU때문이라고 봐야겠지요.
      GPU먹을껄 지가 먹고 있으니.
      거꾸로 보면 그런 상태인데도 3Dmark 결과가 저 정도 나오는거면 의외로 인텔 내장 효율이 괜찮다는걸지도 모르고요.
      물론 (인텔 내장이니만큼......) 벤치와 실성능의 차이를 생각 안 할수는 없겠고,
      결정적으로 공정 차이도 있어서 엔비디아쪽이 효율이 좋다는 결론은 여전할듯 하지만요.

      전력 얘기하다보면 결국 CPU 얘기도 나올 것 같은데 하스웰과 A57은 비교 자체가 무의미.

  8. addr | edit/del | reply BlogIcon 폰벌래 2015.01.20 04:44

    테그라 X1이 달린 제품이 대충 언재쯤 나올꺼라 예상하죠??

  9. addr | edit/del | reply 폰충 2015.02.11 17:45

    http://m.ittoday.co.kr/news/articleView.html?idxno=57910
    이기사 믿어야 할까요 ?
    3월달 출시면 흠

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.02.12 22:16 신고

      사실 이렇게까지 빨리 나올거라 생각되지는 않습니다.
      테그라K1 경우보면 1월 발표에 최초 벤치 유출이 5월이었거든요.
      쉴드 태블릿 발표가 7월 말.
      1주일 쯤 후에 출시.
      결국 AP 발표에서 태블릿 출시까지 6개월정도 걸린다는거니까요.

      다른 게이밍 컨트롤러일거라는 추정도 있으니 일단은 지켜봐야할듯.

  10. addr | edit/del | reply ㅁㄴㅇㄹ 2016.08.27 00:02

    CPU떄문은 아닐거에요 인텔은 터보부스트때문에 실제 tdp보다 높은전력소모를 하는경우가 매우많습니다. 하스웰 gt3가 전력소모 30w내외로먹으니 규모가 절반인 gt2는 최소 15w는먹겠지요. 클럭좀내려도 10w는 넘을테고요. 작성하신글에서 x1이 5w내외로먹는다면 효율은 2배는 가뿐히넘습니다.