Nvidia의 쿼드코어 AP, 테그라3 (Tegra3) 공식발표.

http://www.4gamer.net/games/049/G004964/20110920090/
http://pc.watch.impress.co.jp/docs/news/event/20111028_487029.html
http://www.nordichardware.com/test-lab-cpu-chipset/44634-nvidia-tegra-3-worlds-first-quad-core-for-mobiles.html?start=1#content
http://www.4gamer.net/games/049/G004964/20111107058/
http://pc.watch.impress.co.jp/docs/column/ubiq/20110921_478870.html
http://pc.watch.impress.co.jp/docs/news/20111109_489407.html
http://pc.watch.impress.co.jp/docs/column/kaigai/20110805_465346.html

엔비디아의 스마트폰, 태블릿용 SoC (System on Chip)인 테그라 시리즈의 신모델,
테그라3 (Tegra 3)를 발표했습니다.
(스마트폰이나 태블릿에 쓰이는 SoC는 AP(Application Processor)라고 부르기도 하지요.)
테그라3 는 그동안 Project Kal-El 이라는 코드네임으로 알려져왔습니다.

(테그라 로드맵)

(스펙 요약)

- cpu 부분은 vSMP 구조

Cortex-A9 기반 쿼드코어 입니다.
하지만 구조적으로 다이 사진에서도 알수 있듯이 4+1 코어의 형태입니다.
각각의 코어는 64KB의 L1캐시(명령어 32KB + 데이터 32KB)를 갖고 있고, 공유 L2 캐시는 1MB 입니다.
테그라2 에 비해 코어수가 2배로 늘었음에도 L2 캐시 용량은 같습니다.

4개의 코어와 1개의 컴패니언(companion) 코어로 구성되어있습니다.
컴패니언 코어는 우리 말로 옮기면 보조코어 정도가 적당할 것 같네요.

게임, 멀티미디어같은 무거운 작업에는 4개의 메인코어가 사용되고,
상대적으로 가벼운 작업은 보조코어만으로 소화합니다.

각 작업에 따른 코어의 로드를 보여줍니다.

보조코어의 경우 최대 500MHz 로 동작.
메인코어는 4코어가 모두 동작할 때는 최대 1.3GHz,
2코어나 1코어가 동작할 때는 최대 1.4GHz 로 동작합니다.

엔비디아는 이러한 멀티코어 구조를 vSMP (Variable Symmetric Multi Processing)라고 이름 붙였습니다.
하지만 OS 상에서는 쿼드코어로 보이고, 메인코어와 보조코어 간의 변환은 자동적으로 이루어집니다.

- vSMP 의 장점

(왼쪽 : 다이 사진, 오른쪽 : 아수스 트랜스포머 프라임(태블릿)에 탑재된 테그라3)

테그라3 의 다이사이즈는 약 80mm^2 로 알려져있습니다.
49mm^2 였던 테그라2 에 비해 60% 이상 증가한 크기입니다.

이는 코어개수, 쉐이더 개수의 증가를 비롯해서 각종 기능이 추가되었음에도 테그라2 와 동일한 40nm 공정을 사용했기때문입니다.
다이 사이즈의 증가(= 트랜지스터의 증가)는 소비전력의 증가로 이어집니다.
소비전력의 증가를 억제하기위한 것이 vSMP 구조입니다.

(TSMC의 공정)
엔비디아의 발표에 따르면,
메인코어는 TSMC의 40nm G(CLN40G) 공정을 사용했고,
보조코어는 40nm LP(CLN40LP) 공정을 사용했다고 합니다.

반도체 공정은 크게 성능에 특화된 HP(High Performance)와 소비전력에 특화된 LP(Low Power) 공정으로 분류됩니다.
그리고 반도체의 소비전력은 크게보면 (거의) 항상 발생하는 누설전력과 로드시에 사용되는 전력의 합으로 결정됩니다.

(HP와 LP의 성능, 전력 관계)
HP 공정은 누설전력은 크지만, 클럭(성능)을 높여도 로드전력의 증가가 적습니다.
LP 공정은 누설전력은 작지만, 클럭(성능)을 높이면 로드전력의 증가가 큽니다.

(vSMP 구조에 의한 성능, 전력 관계)
엔비디아의 vSMP 구조는 누설전력과 로드전력을 모두 잡기위한 구조입니다.

LP 공정의 보조코어를 사용하여 유휴 상태에서 누설전력을 최대한 억제할 수 있고,
저(낮은)로드 시에도 클럭이 최대 500MHz 정도로 낮기때문에 로드전력도 낮은 수준으로 유지할 수 있습니다.
로드가 심해지면, HP 공정의 메인코어로 전환해서 보조코어에 비해 낮은 로드전력으로 고성능을 달성할 수 있습니다.

쿼드코어 AP를 만들기에는 40nm 공정은 소비전력때문에 약간 무리가 있는데, 엔비디아에서도 이 점을 의식했는지 전력대비성능 크게 개선되었다는 주장을 합니다.

2~3배 낮은 소비전력으로 같은 성능을 달성.

테그라2 와 비교해서도 소비전력 감소가 있다는걸 강조.
(왼쪽의 자료는 1GHz 동작 기준으로 실제와는 차이가 있음.)

이론적으로는 이러한 구조로인해 스펙에 비해 소비전력이 크게 낮아질 것으로 보이고, 엔비디아도 그렇다고 주장을 하지만, 엔비디아는 테그라1 에서 소비전력과 사용시간으로 사기를 친 전력이 있습니다.
실제로 어떨지는 물건이 나와봐야 확실해질듯 합니다.

(테그라1 슬라이드. MP3 재생 100시간 이상의 위엄.
스마트폰 대기시간 100시간도 쉽지않은 현실을 생각하면 어이가 없을 지경.)

그 외에는, NEON 이라고 불리는 ARM 의 Media Processing Engine(MPE) 이 추가되었습니다.
테그라2 에는 이 기능이 빠져있었는데, 그 덕분에 다이사이즈는 좀 줄일 수 있었지만,
코덱 호환성이 엉망이여서 동영상 호환성이 망했다는 평가를 들었습니다.
테그라3 에서는 이 기능이 추가되었으니, 동영상 호환성 문제는 많이 해소될 것으로 보입니다.

성능이라고 공개한건데, 엔비디아 측 주장이니 신뢰도는 참고 수준입니다.

- 메모리

싱글채널 LPDDR2-1066, DDR3L-1500 지원.
(LPDDR2 의 경우 1066Mbps, 4.26GB/s)

테그라2 가 싱글채널 LPDDR2-600, DDR2-667 을 지원했던 것에 비하면 메모리 대역폭이 크게 증가했습니다.
다만, 현재 대부분이 대부분의 AP가 듀얼채널을 통해 LPDDR2-800 의 대역폭을 지원하고 있는데,
고클럭 LPDDR2 메모리가 없는건 아니지만, 싱글채널로 얼마나 대역폭을 확보할 수 있을지가 의문입니다.
현실적으로 메모리 탑재에 여유가 많은 태블릿에서나 제 힘을 발휘할 것으로 보입니다.

- gpu

테그라2 에 비해 4개 늘어난 12코어를 갖습니다.
코어라고 표현하지만, 파이프라인의 개념입니다.
일반적으로 사용되는 코어라는 개념과 거리가 멉니다.

테그라에 들어가는 ULP Geforce 는 G70 계열(Geforce 7000 탑재)의 버텍스, 픽셀 쉐이더를 축소, 개량해서 탑재된 것으로 알려져있습니다.
버텍스, 픽셀 쉐이더 당 파이프라인이 4개씩 입니다.

테그라2 는 1 버텍스 쉐이더 + 1 픽셀 쉐이더 = 총 8개의 파이프라인 구조였는데,
테그라3 는 1 버텍스 쉐이더 + 2 픽셀 쉐이더 = 총 12개의 파이프라인 구조로 보입니다.

픽셀 쉐이더를 강화한 것은 현재 대부분의 게임과 컨텐츠에서 중요한 것이 픽셀 성능이기때문인 것으로 보입니다.

http://www.nvidia.com/content/PDF/tegra_white_papers/tegra-whitepaper-0911a.pdf
http://www.nvidia.com/content/PDF/tegra_white_papers/tegra-whitepaper-0911b.pdf
게임 프레임을 근거로 엔비디아는 테그라2 에 비해 3배 높은 그래픽 성능이라고 합니다.
테그라2 중 초기 제품이 8코어 300MHz 이고, 현재 최상위는 8코어 400MHz 입니다.
산술적으로는 픽셀 쉐이더 개수(성능)가 두배가 되었으니, 클럭이 1.5배(450MHz)가 되면 3배의 성능이 가능합니다.
3배라는 수치에 cpu의 성능 향상이 기여한 바가 없지는 않겠지만, 450MHz 라는 클럭도 크게 어렵지 않은 수준이기때문에 불가능할 것 같지도 않습니다.
어느 쪽이든 큰 폭의 성능향상이 있는건 분명하다고 봅니다.

아래 스샷은 테그라2 보다 나아진 효과라고 하네요.
왼쪽은 테그라2, 오른쪽은 테그라3

- 그 외

3D 컨텐츠를 지원한다지만, 이미 테그라2 3D 에서도 지원 중.

각종 콘솔 컨트롤러 지원.

테그라2 와 비교해서,
최대 지원 해상도 : 1680 x 1050 -> 1920 x 1080
HDMI : 1.2 -> 1.4
사운드 : 2채널 -> 7.1채널 HD
스토리지 : eMMC 4.3 -> 4.41, SATA2 미지원 -> 지원

- PC와의 성능비교 논란

이전에 인텔의 T7200 과 성능 비교를 하면서 PC급 cpu 성능을 뛰어넘었다고 홍보한게 큰 논란이 되었던 적이 있었습니다.
(엔비디아의 쿼드코어 SoC, 코드네임 KAL-EL 발표.)
하지만 변수가 제대로 통제되지 않은 상태에서 이루어진 벤치라는게 밝혀지면서 사실상 치팅으로 결론났습니다.

T7200 old - 엔비디아가 공개한 점수,
T7200 current - Kal-El 과 동일한 옵션으로 테스트한 점수.

그런데 이번 발표때도 정보들을 보니 여전히 T7200 과 동급이라는 얘기를 공공연히 하고 있습니다.
엔비디아가 공개한 칼엘의 점수가 11,352 였는데, 당시에는 1GHz로 테스트한 결과였습니다.
현재는 4코어 로드시 1.3GHz 이니 단순 계산해보면, 14,700~14,800 정도 나옵니다.
T7200 을 뛰어넘지는 못하지만, 많이 양보해서 동'급'이라는 표현을 쓰기에 부족하지는 않아보입니다.
실제로 저 두 제품이 시장에서 승부할 일은 없겠지만요.

- 잡담

-
vSMP 라는 시스템은 이론적으로는 훌륭한 발상이지만, 실제 소비전력 감소효과가 있을지는 제품이 나와봐야 확실해질듯합니다.

하지만 대부분의 AP 제조사들이 저런 구조를 그대로 따르지는 않을겁니다.

ARM에서는 이미 고성능과 저전력을 잡기위해 big.LITTLE 이라는 시스템을 발표했습니다.
테그라3 의 메인코어와 보조코어의 관계과 거의 동일합니다.
Cortex-A15 듀얼코어를 메인으로 하고, Cortex-A7 듀얼코어로 보조하는 구조입니다.
코어 전환을 위해서 가상화 기술이나 명령어 호환이 이루어졌고요.

메인코어와 보조코어에 모두 같은 Cortex-A9 기반 코어를 사용했기때문에 동작 특성을 바꾸기위해서 다른 공정을 적용했는데, 이건 여러모로 번거로운 방법입니다.
(big.LITTLE의 프로토 타입같은 제품이 되었다고봅니다.)
ARM이 제공하는 개발 기반을 두고 굳이 독자적인 구조를 선택할 이유는 없을겁니다.
쿼드코어를 준비하는 대부분의 업체들은 big.LITTLE 시스템을 선택할 것으로 보입니다.

-
최초의 쿼드코어라는 점에서 주목받을 수 있겠지만, 실제 성능이 앞으로의 운명을 결정할겁니다.
듀얼 때도 테그라2 가 세계 최초 타이틀을 달고 나왔지만, 이후에 쏟아지는 듀얼코어 AP 들에게 성능으로 밀리면서 실망스러운 점유율을 보였지요.

-
40nm 공정을 사용했는데, 타사의 쿼드코어 AP는 대부분 32nm, 28nm 공정을 사용할 것으로 보입니다.
다이 사이즈가 크기때문에, 소비전력과 단가에서 확실히 불리합니다.
아마도 28nm 공정이 보급될 때쯤에는 28nm 공정의 새로운 쿼드코어 AP를 내놓을지도 모르겠네요.

문제는 대부분의 업체가 사용하게될 TSMC의 28nm LP 공정이 누설전류에 취약한 SiON 공정이라는겁니다.
그에 반해 삼성은 32nm/28nm LP 공정에서 HKMG를 사용합니다.
같은 공정이거나 수치적으로 약간 뒤쳐져도 삼성쪽이 훨씬 전력에서 유리합니다.

테그라3 에서 메인코어는 HP 공정을 쓰고, 보조 코어는 LP 공정을 사용한 것으로 보아서,
AP에도 똑같은 방식으로 HP 공정과 LP 공정을 부분적으로 적용하게 될지도 모르겠습니다.
(TSMC도 28nm HP는 HKMG 공정.)

- 2013.03.07 메모리 대역폭 오류 수정.

저작자표시 비영리 변경금지 (새창열림)

'스마트폰 > nvidia Tegra' 카테고리의 다른 글

엔비디아 테그라4 스펙 유출. (19)	2012.12.22
테그라3 GPU 클럭 추정 (0)	2012.03.10
테그라3 다이 이미지는 엔비디아의 편집이 이루어진 것. (10)	2012.02.02
테그라3 (Tegra3) 그래픽 성능 분석. (7)	2011.11.20
엔비디아의 쿼드코어 SoC, 코드네임 KAL-EL 발표. (0)	2011.02.17