- 엔비디아가 CES2015에서 테그라 K1의 후속작, 테그라 X1을 발표했습니다.

코드네임 Erista로 Maxwell 기반 GPU 탑재로 알려졌던 제품입니다.

 

 

 

- 사양은 대충 이렇습니다.

(링크 : http://international.download.nvidia.com/pdf/tegra/Tegra-X1-whitepaper-v1.0.pdf)

 

Processor

 

CPU

CPU Quad 64-bit A57 cores + Quad 64-bit A53 cores

Cache

Cortex A57 cluster: 2 MB Shared L2 Cache, 48KB /32KB (I/D) L1 Cache per core
Cortex A53 cluster: 512KB shared L2 Cache, 32KB/32KB (I/D) L1 Cache per core

Memory

 

Frequency

LPDDR3, LPDDR4-1600, 64-bit (25.6 GB/s)

Memory Size

Up to 4 GB

GPU

 

Cores

256-core Maxwell GPU with support for FP16

API Support

OpenGL ES 3.1, OpenGL4.5, DirectX 12.0, AEP, CUDA 6.0

Video

 

Decode

VP9, H.265, H.264 4K 60 fps; H.265 4K 60fps 10-bit color; VP8 1080p 60fps;

Encode

H.264, H.265 4K 30 fps; VP8 1080p 60 fps;

Imaging

 

Image Processing

Dual ISP, 1.3 GigaPixels/s, 4096 focus points, 100 MP Sensor support,

up to 6 camera inputs

JPEG Decode/Encode

600 MPixels/s

Display

 

Display Controller

2 Simultaneous

HDMI

HDMI 2.0, HDCP 2.2, 4K 60 fps

Local Display

4K 60 fps VESA DSC compression

Storage

 

Storage interface

e-MMC 5.1 (HS533), CMD Queuing

 

공정은 TSMC 20nm SoC 공정입니다.

 

 

- 실물

엔비디아가 공개한 AP, 레퍼런스 보드.

AP 상부에 메모리가 PoP되지 않았습니다. (테그라 K1도 그랬습니다.)

테그라K1 최대 전력소비는 11W였고, 테그라X1도 10W 정도로 알려져 있는데, 이 때문에 PoP은 힘든 것으로 보입니다.

 

AP 아래에 있는 두 개가 LPDDR4 입니다.

GFX벤치 시스템 정보로 봐서는 총 3GB인듯 합니다.

SEC라고 마킹된거봐서 삼성 메모리같네요.

뒷면에는 32GB e-MMC가 탑재되어 있습니다.

 

 

 

- 여기서는 GPU를 제외한 부분에 대해 다루겠습니다.

CPU만 해도 나름 얘기거리가 많더군요.

 

 

- Cortex-A57 쿼드 + Cortex-A53 쿼드

사양은 알려진대로 Cortex-A57 쿼드 + Cortex-A53 쿼드 의 옥타코어 구조입니다.

A57은 각 코어별로 48KB의 명령어 L1 명령어 캐시, 32KB의 L1 데이터 캐시를 갖고, 2MB의 L2 공유 캐시를 갖고 있습니다.

A53은 각 코어별로 32KB의 명령어 L1 명령어 캐시, 32KB의 L1 데이터 캐시를 갖고, 512KB의 L2 공유 캐시를 갖고 있습니다.

 

여기까지만 보면 빅리틀 HMP(GTS) 지원인거 같습니다.

하지만......

 

 

- 클러스터 마이그레이션??

 

GFX벤치에 올라온 시스템 정보로는 1.9GHz 입니다.

그리고 쿼드코어로 표기되어있지요.

HMP(GTS) 지원 옥타프로세서들이 시스템 정보에서 옥타코어로 표기되는걸 생각하면, 저건 상당히 의심스러운 상황입니다.

최대 4코어 밖에 안 돌아간다고 볼 수도 있는데, 클러스터 마이그레이션인 엑시노스5410이 옥타코어로 표시되고 있기때문에 단정지을 수는 없습니다.

 

하지만 의심스러운게 사실.

게다가 아난드텍, 탐스 하드웨어 등에서 클러스터 마이그레이션을 사용하고 있다고 밝히고 있습니다.

 

설명대로면 ARM CCI-400 이 아닌 엔비디아 자체의 Cache Coherent solution을 사용했다고 합니다.

시스템 컨트롤도 ARM의 IPA(Intelligent Power Allocation)이 아닌 자체적인 System EDP Management를 사용했다고 하고요.

아무래도 기존 테그라에 들어갔던 vSMP에서 적용된 기술의 응용으로 보입니다.

(저전력의 컴패니언 코어가 추가되어 전체적으로 4+1 코어 구조였습니다.)

 

그래서 기존 클러스터 마이그레이션보다 성능, 전력 효율이 높아졌다고 하는데......

상당히 신뢰도가 떨어집니다.

vSMP만해도 상당히 우수한 솔루션으로 홍보했지만 실제 그렇게 인상적인 모습을 보이지 않았고,

(공학적으로는 어떨지 모르겠지만 상업적으로는 그런듯.)

쿼드코어를 동기식으로 돌려놓고 문제없다고 했지만, 동기식은 역시 동기식이었습니다.

 

확실한건 나와봐야 알겠지만 개인적으로 별로 기대되지는 않습니다.

 

 

- 최대클럭이 1.9GHz가 맞는가?

테그라K1의 CPU 최대전력은 6.5W 정도로 나왔습니다. 

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

테그라X1도 이와 비슷할겁니다.

 

밑에서 언급하겠지만 20nm 공정의 엑시노스5433 A57 1코어의 1.9GHz 소비전력이 1.94W, 2.0GHz에서 2.20W 정도입니다.

FAB은 다르지만 같은 20nm 공정, A57이기때문에 클럭/전력 특성은 크게 다르지 않을 것으로 보입니다.

클러스터 마이그레이션이라면 최대 전력은 1코어 전력의 4배일테고, 1.9GHz 1코어의 전력은 엑시노스와 비슷한 1.94W 선으로 잡는다면, CPU 최대전력은 7.76W가 나옵니다.

2.0GHz라면 8.8W 정도고요.

20nm 공정 A57 코어의 현실적인 한계 클럭이 1.9GHz정도 인걸로 보입니다.

 

물론 확정되는건 긱벤치 결과같이 다른 정보가 나오고 나서 입니다.

 

 

- 엔비디아 주장 자료 검증.

이런 자료를 내놨습니다.

SPECint 기준으로 엑시노스5433 대비,

동일 성능에서 전력 절반 -> 동일 성능에서 전력효율 2배

동일 전력에서 성능 1.4배.

 

이것만보면 클러스터 마이그레이션이면서 진짜 전력효율이 좋다고 생각할 수도 있는데, 그래프보면 CPU 전력이 최대 1.25W입니다.

A57 쿼드코어 풀로드 전력이 저 정도는 절대 아니지요.

저건 확실히 싱글코어 전력입니다.

클러스터 마이그레이션 효율을 비교하려면 멀티코어에서 성능/전력을 봐야하고, 그나마도 최대전력이 아니라 평균전력을 봐야합니다.

싱글코어 전력으로는 확인하기 힘듭니다.

 

어쨌든 그건 그거고 위 자료의 사실여부를 확인해보겠습니다.

테그라K1 때는 테그라4와 비교해서 분석하기 쉬웠는데, 이번건 구체적인 SPECint 수치가 없는 엑시노스5433과 비교해서 좀 힘드네요.

 

ARM 자료를 보면 싱글기준 Cortex-A15 1.5GHz -> Cortex-A57 1.7GHz : +36% 입니다.

Cortex-A57 1.7GHz 싱글코어가 1250 이 넘는다고 하고요.

(ARMv7, AArch32, AArch64 중 어떤걸로 테스트됐는지 모르겠지만 저 수치를 그대로 쓰겠습니다.)

 

테그라K1을 보면 Cortex-A15 2.3GHz에서 1400점, 1625mW로 나옵니다.

(링크 : 엔비디아 테그라 K1 GPU 소비전력 추정.)

계산해보면 Cortex-A15 1.5GHz에서 921점이 나옵니다.

이것의 +36%라면 1256점이 됩니다.

ARM 자료와 일치합니다.

ARM 자료를 그대로 써도 괜찮을듯 합니다.

 

엔비디아 자료를 다시 보지요.

잘 보면 테그라X1 그래프는 x축 구간 끝까지 안 가고, 엑시노스는 x축 구간을 넘어가는 것으로 보입니다.

테그라X1 성능이 최대 구간까지 표시되었다고 볼 수 있을듯 합니다.

그렇다면 오른쪽 최상단 점이 테그라X1 최대성능(1.9GHz)이라고 가정할 수 있습니다. 소비전력은 1223mW

저 포인트와 같은 전력에서 엑시노스 점수는 25%정도 낮습니다.

 

같은 A57이니 클럭당점수가 같다고 생각하면 1223mW에서 엑시노스는 1.4GHz 정도라는 얘기가 됩니다.

그런데 이거 얼토당토않은 얘기인게,

 

엑시노스5433 탑재 갤럭시 노트4(SM-N910L) 커널 정보,

동클럭에서 20nm A57과 28nm A15 전력이 비슷하다는 ARM의 자료,

커널을 통해 확인된 엑시노스5430의 전력,

20nm와 28nm 간 공정성능 차이에 관한 TSMC의 자료를 종합하면,

(28nm -> 20nm, 동일 스피드에서 전력 20% 감소.)

 

엑시노스5433의 A57 1코어의 클럭별 소비전력은 다음과 같습니다.

 

Exynos5433 A57 Single core
Power Coefficient : 64?

Frequency

Voltage

Power

MHz

Volt

mW

2500

1.35

2916

2400

1.35

2799

2300

1.35

2683

2200

1.35

2566

2100

1.35

2449

2000

1.3125

2205

1900

1.2625

1938

1800

1.2125

1694

1700

1.175

1502

1600

1.1375

1325

1500

1.1125

1188

1400

1.0875

1060

1300

1.0625

939

1200

1.0375

827

1100

1.0125

722

1000

0.975

608

900

0.9375

506

800

0.9125

426

700

0.9125

373

600

0.9

311

500

0.9

259

400

0.9

207

300

0.9

156

200

0.9

104

 

1.4GHz에서 1060mW 밖에 안 됩니다.

1250mW 정도면 1.6GHz정도에 해당합니다.

 

어쨌든 엔비디아 주장이 맞다면 이렇다는겁니다.

 

엑시노스5433이 2.4GHz에서 낼 수 있는 성능은 테그라X1은 1.9GHz로 낼 수 있으며,

그 때 테그라X1 소비전력은 1.23W 수준으로, 2.8W인 엑시노스5433보다 절반이상 낮습니다.

그리고

테그라K1에서는 1.65W까지 1코어 소비전력을 잡았었지요.

그런데 이번엔 고작 1.23W 입니다.

1.65W면 산술적으로 20~30%는 클럭을 더 올릴 수 있습니다. 2.3GHz 이상이 됩니다.

그런데 엔비디아는 그렇게 하지 않았다는게 됩니다.

 

왠만하면 자료를 믿고 싶은데 정황이 너무 수상합니다.

 

 

- 자료가 안 맞는 원인의 가능성들.

1. 엑시노스5433 성능/전력 측정이 제대로 되지 않았을 가능성

엑시노스5433 성능/전력 측정을 갤럭시 노트4로 했다는데, 그걸로 SPECint가 제대로 돌아가지 않았을 가능성이 있습니다.

 

2. 테스트 모드 차이

테그라X1은 AArch64에서 돌아가고, 엑시노스5433은 AArch32 혹은 ARMv7로 돌아가서 성능 격차가 났을 가능성이 있습니다.

모드가 다를 경우 같은 제품이라도 10~30%의 SPECint 성능 차이가 납니다.

 

3. 코어 리비전의 결과

A57 리비전의 효과일지도 모르겠습니다.

테그라K1도 테그라4와 같은 Cortex-A15 코어였지만 코어 리비전의 결과로 SPECint 전성비가 크게 올랐습니다.

현재 엑시노스5433이 r1p0 이고, 최신은 r1p3 입니다.

출시 시기를 생각하면 r1p2까지는 무난하게 될거 같고, 잘하면 r1p3로 나올 가능성도 있는듯 합니다.

 

 

- 왜 Denver가 아닌 Cortex-A57 ??

테그라K1에서 보여줬던 Denver 코어가 아닌 ARM의 Cortex-A57이 들어갔습니다.

이에 대해 엔비디아는 이렇게 얘기합니다.

'자체 디자인은 시간과 리소스 투입이 많아서 출시까지 시간이 오래 걸린다. 빠른 시장 투입을 위해 ARM의 IP 디자인을 썼다.'

(이 말은 나중에 덴버코어 버전의 테그라X1이 나올 가능성이 있다는 얘기가 됩니다.)

테그라K1이 A15 버전이 먼저 나오고, Denver 버전이 나중에 나온 이유도 이와 같을 것으로 보입니다.

ARM 라이센스 코어와 자체 코어의 투 트랙 라인업을 가져가려는걸지도 모르겠습니다.

 

 

- 메모리

LPDDR4 1600MHz (64bit)를 지원해서 25.6GB/s의 대역폭을 갖습니다.

 

LPDDR4로 가면서 메모리 자체의 소비전력도 줄고, 맥스웰 아키텍처의 메모리 압축기술 덕에 메모리 대역폭 효율이 좋아져서 테그라K1 대비 2배 이상의 효율을 갖는다고 합니다.

 

압축 기술은 맥스웰 아키텍처 기반 그래픽 카드 출시 때 나왔던 얘기인데, 테그라X1에도 그대로 적용됐습니다.

 

 

- 하드웨어 인코더/디코어

4K 영상을 지원하는 하드웨어 인코더/디코더가 내장되어 있습니다.

 

지원 포맷과 사양은 이렇습니다.

 

 

- 다음 편에서는 GPU를 다루겠습니다.

 

 

- 2015.03.08 엑시노스5433 CPU 소비전력 추정치 수정. 하지만 결론은 큰 차이없습니다.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 21

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon ㅁㄴㅇㄹ 2015.01.11 00:54

    이번 ces를 보면서 든생각인데
    어쩌면 테구라 라는 별명을 다시 획득 할지도 모르겠어요...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.11 01:30 신고

      specint는 소비자가 검증하기 힘들어서 저게 거짓이라도 별 얘기없을듯 합니다.

  2. addr | edit/del | reply 지나가던폰덕 2015.01.11 00:57

    오옷 잘 읽었습니다! 그리고 중간에 오타...(갤럭시 노트 4는 SM-G910L이 아니라 SM-N910L... SM-G910은 갤럭시 라운드였죠 아마.... L은 없고 S만 있었다는....)

    역시 제조사들이 슬슬 ARMv8로 넘어오면서 Cortex-A9 도입 당시보다 더 재미난 모습들을 보여주고 있네요ㅎㅎ 대표적으로 20nm 공정에서 Cortex-A57의 현실적인 한계 클럭이 1.9 GHz인 정황에서 우리의 퀄컴 옹은 왜 스냅810을 2.1 GHz까지 올리려고... 왜....ㅠㅠ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.11 01:33 신고

      수정했습니다.
      퀄컴은, GPU 전력에서 여유가 있다면 CPU 전력을 올릴 수 있어서 그런게 아닌가 싶기도 합니다.
      그런데 그것도 뭐 다 의미없어졌지요. ㅠㅠ

  3. addr | edit/del | reply Favicon of https://random-ad.tistory.com BlogIcon JordanK 2015.01.11 01:14 신고

    늘 수고하십니다. 그래프 저거 뭐하잔 플레인지 ㅋㅋㅋㅋㅋㅋ;

  4. addr | edit/del | reply Favicon of http://wolfibox.pe.kr BlogIcon Wol-Fi 2015.01.11 09:30

    테구라 2세대 때의 전례(이 쪽은 성능도 성능이지만 특히 커널과 관련된 문제가 심각했던지라...)를 생각해 보면 저거 탑재된 물건을 사야 할 이유는 없으리라 봅니다. 한 번은 겪어도 두 번은 개떡 같은 걸로 겪기 싫은지라, 저 업체를 괜히 엠+비디아라고 씹는 게 아닙니다.

  5. addr | edit/del | reply 흡혈귀왕 2015.01.11 11:51

    이놈의 CPU 비교질은
    항상 장난질하네요 테그라3때부터....

    제가 암만 테그라를 좋아해도 이건 진짜 ㅋㅋㅋㅋㅋ
    늘 타사 그래프는 자기네들 유리하게 구린 결과를 가져와서 비교질 ㅋ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.11 14:30 신고

      A15가 r2p2 -> r3p3 가면서 specint 확 뛴거 생각하면
      (전력이 실제 그런지는 엔비디아의 주장이었지만...)
      이번에도 그런 식일 가능성이 높아보이는데, 고작 r1p0 -> r1p2/3로 그런 큰 변화가 있을지 모르겠습니다.

  6. addr | edit/del | reply 성당기사단장 2015.01.12 15:28

    A8X랑 전력소모 비교하는 부분에서도 말이 많더군요;;;예전에 인텔이 클로버트레일+소개할때 SDP로 장난친게 생각나네요...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.12 17:01 신고

      계산해봐야 알겠지만 장난쳤을거 같지는 않더라고요.
      실측 자료까지 보여줬는데 그걸 안 믿는 것도 좀 그렇지요.

    • addr | edit/del BlogIcon 성당기사단장 2015.01.12 19:34

      테그라x1을 다운클럭해서 TDP를 A8X에 맞춰서 했고...그럼 동급 성능이냐고 했더니 그건 아니라고 했단 얘기도 있고..풀로드 상태 측정도 아니었다 얘기가 나오더라구요. 이번에 이래저래 말이 많은 듯 합니다.

    • addr | edit/del BlogIcon 호로록 2015.01.13 20:02

      33프레임으로 A8X 성능에 맞춰 낮춰서 측정했다고 하더라구요

  7. addr | edit/del | reply qwerty 2015.01.12 21:42

    연산성능이 1tflops인대 지금 amd firepro w5000 이 1.2tflops입니다 이게 같은 연산수치 맞나요? 맞다면 만약 프로그램이 지원만한다면 똑같이 전문 3d 랜더링 작업이 가능한가요

    • addr | edit/del 흡혈귀왕 2015.01.13 01:07

      저 1.02TFLOPs는 FP16 유닛 기준에서 입니다.
      보통 PC용 GPU들은 FP32 유닛 기준에서 연산 성능을 표기하죠...

      FP32유닛 기준에서 512GFLOPs 정도 입니다...

      현재 모바일 쪽에서 1TFLOPs 대라고 주장하는
      테그라X1의 맥스웰이나 이메지네이션사의 PowerVR7XT
      비반테 GC7600 모두 FP16 기준...

      3D렌더링 프로그램이라....테그라X1이 안드로이드외에
      리눅스도 지원할테고...
      뭐 ARM 리눅스 환경에서 작업 할수있는
      유명한 오픈소스툴인 블렌더3D가 있긴하네요....

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.13 18:51 신고

      파이어프로는 FP32 기준이고, 테그라X1은 FP16 기준입니다.
      같은 기준으로 잡으면 최대 4배 이상 연산성능 차이가 납니다.

      쿠다코어를 활용하는건 가능할텐데 엔비디아에서 미들웨어를 지원하느냐가 관건일듯 합니다.
      3D쪽이 어떻게 돌아가는지는 모르겠지만, ARM 기반 SoC 괜찮은 솔루션으로 보이지는 않습니다.

  8. addr | edit/del | reply BlogIcon 플리즈 2015.01.13 10:52

    출시전 홍보자료에서 소개되는 비교나 자랑(?)은 과장이 들어갈 수 있어서 이해는 하지만;; 테그라는 유독 심하니.. 이젠 출시전 홍보 자료는 못 믿겠더라구요; 그래도 예전보다 많이 좋아지고 있다는 것으로 생각하고 넘어가야죠 ㅎㅎ
    확실히 자체 설계는 출시까지 오래 걸리네요. 덴버로 엄청 떠들었던 것 같은데. 퀄컴이 왜 이번 800시리즈를 ARM 설계로 냈는지 알 것 같습니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.13 18:47 신고

      다 그런건 아닌데 대게 자사제품하고 비교는 얼추 맞고, 타사제품과 비교는 반반이더군요.
      처음에는 덴버코어의 성능적 한계때문에 포기한게 아닌가 했는데, 상황보니 늦게라도 나올듯 합니다.

  9. addr | edit/del | reply BlogIcon A TNT 2015.05.31 18:08

    엑시노스 7420이나 다른 AP들의 정확한 전력소모량을 알고싶은데 어떻게 해야하나요? 일단 전력소모량을 알아야 전성비같은걸 역산할수 있을거같은데...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.31 22:16 신고

      정확히 측정하려면 개발보드에 계측기 달아서 측정해야합니다.
      보드에서 핀 지원정도에 따라서 각 모듈별 소비전력까지 따로 측정할 수 있고요.
      현실적으로 왠만해서는 힘들다고 봐야겠지요.
      제품별 전압 편차도 있어서 소비전력에서 차이가 있을거고요.