http://www.4gamer.net/games/049/G004964/20110920090/
http://pc.watch.impress.co.jp/docs/news/event/20111028_487029.html
http://www.nordichardware.com/test-lab-cpu-chipset/44634-nvidia-tegra-3-worlds-first-quad-core-for-mobiles.html?start=1#content
http://www.4gamer.net/games/049/G004964/20111107058/
http://pc.watch.impress.co.jp/docs/column/ubiq/20110921_478870.html
http://pc.watch.impress.co.jp/docs/news/20111109_489407.html
http://pc.watch.impress.co.jp/docs/column/kaigai/20110805_465346.html



엔비디아의 스마트폰, 태블릿용 SoC (System on Chip)인 테그라 시리즈의 신모델,
테그라3 (Tegra 3)를 발표했습니다.
(스마트폰이나 태블릿에 쓰이는 SoC는 AP(Application Processor)라고 부르기도 하지요.)
테그라3 는 그동안 Project Kal-El 이라는 코드네임으로 알려져왔습니다.


(테그라 로드맵)


(스펙 요약)


- cpu 부분은 vSMP 구조 

Cortex-A9 기반 쿼드코어 입니다.
하지만 구조적으로 다이 사진에서도 알수 있듯이 4+1 코어의 형태입니다.
각각의 코어는 64KB의 L1캐시(명령어 32KB + 데이터 32KB)를 갖고 있고, 공유 L2 캐시는 1MB 입니다.
테그라2 에 비해 코어수가 2배로 늘었음에도 L2 캐시 용량은 같습니다.


4개의 코어와 1개의 컴패니언(companion) 코어로 구성되어있습니다.
컴패니언 코어는 우리 말로 옮기면 보조코어 정도가 적당할 것 같네요.

 

게임, 멀티미디어같은 무거운 작업에는 4개의 메인코어가 사용되고,
상대적으로 가벼운 작업은 보조코어만으로 소화합니다.

각 작업에 따른 코어의 로드를 보여줍니다.

보조코어의 경우 최대 500MHz 로 동작.
메인코어는 4코어가 모두 동작할 때는 최대 1.3GHz,
2코어나 1코어가 동작할 때는 최대 1.4GHz 로 동작합니다.

엔비디아는 이러한 멀티코어 구조를 vSMP (Variable Symmetric Multi Processing)라고 이름 붙였습니다.
하지만 OS 상에서는 쿼드코어로 보이고, 메인코어와 보조코어 간의 변환은 자동적으로 이루어집니다.  


- vSMP 의 장점

 

(왼쪽 : 다이 사진, 오른쪽 : 아수스 트랜스포머 프라임(태블릿)에 탑재된 테그라3)

테그라3 의 다이사이즈는 약 80mm^2 로 알려져있습니다.
49mm^2 였던 테그라2 에 비해 60% 이상 증가한 크기입니다.

이는 코어개수, 쉐이더 개수의 증가를 비롯해서 각종 기능이 추가되었음에도 테그라2 와 동일한 40nm 공정을 사용했기때문입니다.
다이 사이즈의 증가(= 트랜지스터의 증가)는 소비전력의 증가로 이어집니다.
소비전력의 증가를 억제하기위한 것이 vSMP 구조입니다.


(TSMC의 공정)
엔비디아의 발표에 따르면,
메인코어는 TSMC의 40nm G(CLN40G) 공정을 사용했고,
보조코어는 40nm LP(CLN40LP) 공정을 사용했다고 합니다.

반도체 공정은 크게 성능에 특화된 HP(High Performance)와 소비전력에 특화된 LP(Low Power) 공정으로 분류됩니다.
그리고 반도체의 소비전력은 크게보면 (거의) 항상 발생하는 누설전력과 로드시에 사용되는 전력의 합으로 결정됩니다.



(HP와 LP의 성능, 전력 관계)
HP 공정은 누설전력은 크지만, 클럭(성능)을 높여도 로드전력의 증가가 적습니다.
LP 공정은 누설전력은 작지만, 클럭(성능)을 높이면 로드전력의 증가가 큽니다.


(vSMP 구조에 의한 성능, 전력 관계)
엔비디아의 vSMP 구조는 누설전력과 로드전력을 모두 잡기위한 구조입니다.

LP 공정의 보조코어를 사용하여 유휴 상태에서 누설전력을 최대한 억제할 수 있고,
저(낮은)로드 시에도 클럭이 최대 500MHz 정도로 낮기때문에 로드전력도 낮은 수준으로 유지할 수 있습니다.
로드가 심해지면, HP 공정의 메인코어로 전환해서 보조코어에 비해 낮은 로드전력으로 고성능을 달성할 수 있습니다.

쿼드코어 AP를 만들기에는 40nm 공정은 소비전력때문에 약간 무리가 있는데, 엔비디아에서도 이 점을 의식했는지 전력대비성능 크게 개선되었다는 주장을 합니다.

 

2~3배 낮은 소비전력으로 같은 성능을 달성.

 

테그라2 와 비교해서도 소비전력 감소가 있다는걸 강조.
(왼쪽의 자료는 1GHz 동작 기준으로 실제와는 차이가 있음.)

이론적으로는 이러한 구조로인해 스펙에 비해 소비전력이 크게 낮아질 것으로 보이고, 엔비디아도 그렇다고 주장을 하지만, 엔비디아는 테그라1 에서 소비전력과 사용시간으로 사기를 친 전력이 있습니다.
실제로 어떨지는 물건이 나와봐야 확실해질듯 합니다.


(테그라1 슬라이드. MP3 재생 100시간 이상의 위엄.
스마트폰 대기시간 100시간도 쉽지않은 현실을 생각하면 어이가 없을 지경.)


 

그 외에는, NEON 이라고 불리는 ARM 의
Media Processing Engine(MPE) 이 추가되었습니다.
테그라2 에는 이 기능이 빠져있었는데, 그 덕분에 다이사이즈는 좀 줄일 수 있었지만,
코덱 호환성이 엉망이여서 동영상 호환성이 망했다는 평가를 들었습니다.
테그라3 에서는 이 기능이 추가되었으니, 동영상 호환성 문제는 많이 해소될 것으로 보입니다.


 

성능이라고 공개한건데, 엔비디아 측 주장이니 신뢰도는 참고 수준입니다.


- 메모리

싱글채널 LPDDR2-1066, DDR3L-1500 지원.

(LPDDR2 의 경우 1066Mbps, 4.26GB/s)

테그라2 가 싱글채널 LPDDR2-600, DDR2-667 을 지원했던 것에 비하면 메모리 대역폭이 크게 증가했습니다.
다만, 현재 대부분이 대부분의 AP가 듀얼채널을 통해 LPDDR2-800 의 대역폭을 지원하고 있는데,
고클럭 LPDDR2 메모리가 없는건 아니지만, 싱글채널로 얼마나 대역폭을 확보할 수 있을지가 의문입니다.
현실적으로 메모리 탑재에 여유가 많은 태블릿에서나 제 힘을 발휘할 것으로 보입니다.


- gpu


테그라2 에 비해 4개 늘어난 12코어를 갖습니다.
코어라고 표현하지만, 파이프라인의 개념입니다.
일반적으로 사용되는 코어라는 개념과 거리가 멉니다.

 

테그라에 들어가는 ULP Geforce 는 G70 계열(Geforce 7000 탑재)의 버텍스, 픽셀 쉐이더를 축소, 개량해서 탑재된 것으로 알려져있습니다.
버텍스, 픽셀 쉐이더 당 파이프라인이 4개씩 입니다.

테그라2 는 1 버텍스 쉐이더 + 1 픽셀 쉐이더 = 총 8개의 파이프라인 구조였는데,
테그라3 는 1 버텍스 쉐이더 + 2 픽셀 쉐이더 = 총 12개의 파이프라인 구조로 보입니다.

픽셀 쉐이더를 강화한 것은 현재 대부분의 게임과 컨텐츠에서 중요한 것이 픽셀 성능이기때문인 것으로 보입니다.

http://www.nvidia.com/content/PDF/tegra_white_papers/tegra-whitepaper-0911a.pdf
http://www.nvidia.com/content/PDF/tegra_white_papers/tegra-whitepaper-0911b.pdf
게임 프레임을 근거로 엔비디아는 테그라2 에 비해 3배 높은 그래픽 성능이라고 합니다.
테그라2 중 초기 제품이 8코어 300MHz 이고, 현재 최상위는 8코어 400MHz 입니다.
산술적으로는 픽셀 쉐이더 개수(성능)가 두배가 되었으니, 클럭이 1.5배(450MHz)가 되면 3배의 성능이 가능합니다.
3배라는 수치에 cpu의 성능 향상이 기여한 바가 없지는 않겠지만, 450MHz 라는 클럭도 크게 어렵지 않은 수준이기때문에 불가능할 것 같지도 않습니다.
어느 쪽이든 큰 폭의 성능향상이 있는건 분명하다고 봅니다.

아래 스샷은 테그라2 보다 나아진 효과라고 하네요.
왼쪽은 테그라2, 오른쪽은 테그라3

 

 

 

 



- 그 외

3D 컨텐츠를 지원한다지만, 이미 테그라2 3D 에서도 지원 중.

각종 콘솔 컨트롤러 지원.

테그라2 와 비교해서,
최대 지원 해상도 : 1680 x 1050 -> 1920 x 1080
HDMI : 1.2 -> 1.4
사운드 : 2채널 -> 7.1채널 HD
스토리지 : eMMC 4.3 -> 4.41, SATA2 미지원 -> 지원


- PC와의 성능비교 논란

이전에 인텔의 T7200 과 성능 비교를 하면서 PC급 cpu 성능을 뛰어넘었다고 홍보한게 큰 논란이 되었던 적이 있었습니다.
(엔비디아의 쿼드코어 SoC, 코드네임 KAL-EL 발표.)
하지만 변수가 제대로 통제되지 않은 상태에서 이루어진 벤치라는게 밝혀지면서 사실상 치팅으로 결론났습니다.

T7200 old - 엔비디아가 공개한 점수,
T7200 current - Kal-El 과 동일한 옵션으로 테스트한 점수.

그런데 이번 발표때도 정보들을 보니 여전히 T7200 과 동급이라는 얘기를 공공연히 하고 있습니다.
엔비디아가 공개한 칼엘의 점수가 11,352 였는데, 당시에는 1GHz로 테스트한 결과였습니다.
현재는 4코어 로드시 1.3GHz 이니 단순 계산해보면, 14,700~14,800 정도 나옵니다.
T7200 을 뛰어넘지는 못하지만, 많이 양보해서 동'급'이라는 표현을 쓰기에 부족하지는 않아보입니다.
실제로 저 두 제품이 시장에서 승부할 일은 없겠지만요.


- 잡담

-

vSMP 라는 시스템은 이론적으로는 훌륭한 발상이지만, 실제 소비전력 감소효과가 있을지는 제품이 나와봐야 확실해질듯합니다.

하지만 대부분의 AP 제조사들이 저런 구조를 그대로 따르지는 않을겁니다.


ARM에서는 이미 고성능과 저전력을 잡기위해 big.LITTLE 이라는 시스템을 발표했습니다.
테그라3 의 메인코어와 보조코어의 관계과 거의 동일합니다.
Cortex-A15 듀얼코어를 메인으로 하고, Cortex-A7 듀얼코어로 보조하는 구조입니다.
코어 전환을 위해서 가상화 기술이나 명령어 호환이 이루어졌고요.

메인코어와 보조코어에 모두 같은 Cortex-A9 기반 코어를 사용했기때문에 동작 특성을 바꾸기위해서 다른 공정을 적용했는데, 이건 여러모로 번거로운 방법입니다.
(big.LITTLE의 프로토 타입같은 제품이 되었다고봅니다.)
ARM이 제공하는 개발 기반을 두고 굳이 독자적인 구조를 선택할 이유는 없을겁니다.

쿼드코어를 준비하는 대부분의 업체들은 big.LITTLE 시스템을 선택할 것으로 보입니다.

-
최초의 쿼드코어라는 점에서 주목받을 수 있겠지만, 실제 성능이 앞으로의 운명을 결정할겁니다.
듀얼 때도 테그라2 가 세계 최초 타이틀을 달고 나왔지만, 이후에 쏟아지는 듀얼코어 AP 들에게 성능으로 밀리면서 실망스러운 점유율을 보였지요.

-
40nm 공정을 사용했는데, 타사의 쿼드코어 AP는 대부분 32nm, 28nm 공정을 사용할 것으로 보입니다.
다이 사이즈가 크기때문에, 소비전력과 단가에서 확실히 불리합니다.
아마도 28nm 공정이 보급될 때쯤에는 28nm 공정의 새로운 쿼드코어 AP를 내놓을지도 모르겠네요. 

문제는 대부분의 업체가 사용하게될 TSMC의 28nm LP 공정이 누설전류에 취약한 SiON 공정이라는겁니다.
그에 반해 삼성은 32nm/28nm LP 공정에서 HKMG를 사용합니다.
같은 공정이거나 수치적으로 약간 뒤쳐져도 삼성쪽이 훨씬 전력에서 유리합니다.

테그라3 에서 메인코어는 HP 공정을 쓰고, 보조 코어는 LP 공정을 사용한 것으로 보아서,
AP에도 똑같은 방식으로 HP 공정과 LP 공정을 부분적으로 적용하게 될지도 모르겠습니다.
(TSMC도 28nm HP는 HKMG 공정.)


- 2013.03.07 메모리 대역폭 오류 수정.



Posted by gamma0burst Trackback 0 : Comment 8

댓글을 달아 주세요

  1. addr | edit/del | reply 찬형 2011.11.11 10:32

    잘보고 있습니다. 혹시 LCD에서 IPS, PLS, FFS패널들에 관련해서도 포스팅해주실 수 있나요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2011.11.11 22:31 신고

      LCD 관련 내용은 검색해보면 많이 나와서 제가 다룬다해도 크게 특별한 내용을 없습니다.
      거기에 기술적으로 많이 발전되어서 갖가지 기술들이 존재하는데 그걸 다 다루는데도 무리가 있고요.

      정보를 파악해보고 적당한 선에서 작성해보겠습니다.

  2. addr | edit/del | reply 123 2011.11.11 21:47

    TSMC사의 그것도40nm에 SiON 공정을 단 테그라3는 전혀 매력적이지 않을것같습니다. 삼성의 기술력이 정말 대단합니다. 허밍버드는 여전히 싱글코어의 종결자이고 엑시노스는 가장 강력한 듀얼코어중의 하나이니 스펙덕후들은 삼성의 플래그십 갤럭시를 기다릴수밖에 없지요. 물론 저라도 다르겠습니까만. 좋은자료 잘 보고갑니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2011.11.12 03:40 신고

      안녕하세요.^^

      개인적으로 테그라는 싫어하는데,
      테그라3은 4+1 코어 구조의 소비전력 감소 효과가 어느 정도인가가 중요할듯 합니다.
      솔직히 저게 스마트폰에 들어갔는데, 소비전력 관리가 제대로 안 되면 사용시간은 그냥 끝난겁니다.

      PSP VITA에 들어가는 AP도 쿼드코어인데, 삼성 45nm 공정으로 만듭니다. HKMG 공정이 아닙니다.
      PSP VITA 도 그렇고 아수스 트랜스포머 프라임도 그렇고, 현재 공정에서 쿼드코어 AP는 태플릿급 기기에나 어울릴듯.

  3. addr | edit/del | reply Kkk 2012.01.25 17:41

    사실이야 따지고 보면 삼성은 ARM이 해놓은 cpu, gpu에 드라이버까지 그대로 가져다 쓰지만 단지 공정기술의 edge때문에 득을 보는것이죠. 그게 언제까지 갈지야 모르지만 퀄컴, 엔비디아를 기술력에서 앞섰다고 말하기엔 SW의 부재 때문에 솔직히 챙피한일임. 더더욱 저 두회사는 TSMC에 위탁 생산을 하기때문에 비교는 거기에다 해야하고.
    개인적으론 삼성은 아직도 공정 기술만 가지고 언론, 영업 플레이로 돈버는 수준임. 특히 SW는 아주 갈길이 멀죠.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2012.01.26 05:12 신고

      그건 아니지요.

      ARM 이 해놓은 CPU, GPU 그대로 가져다써서 이루어진거면 대체 다른 업체들은 뭐하고 있는건가요.
      똑같이 돈주고 똑같은 라이센스 받아놓고 말이지요.
      다른 제품들과의 성능차이는 공정만으로 설명할 수 있는게 아닙니다.
      ARM 코어 라이센스받았다고 그거 그대로 쓰는 회사 거의 없습니다.
      정도 차이가 있을뿐 다 자사의 커스텀이 추가됩니다.
      삼성이 만드는 물건보면 퀄컴 엔비디아보다 기술력으로 앞섰다고 말할만합니다.

      삼성이 ARM 프로세서 만든 역사는 엄청 오래됐습니다.
      인텔이 Xcale 이라고 ARM 프로세서 만들던 시절에도 브랜드때문에 가격이 더 비싼 인텔것보다 삼성것이 성능이 더 좋게 나왔습니다.
      오죽하면 그것때문에 인텔이 ARM 프로세서 생산 접었다는 농담같지 않은 농담마저 있습니다.

      공정기술의 덕이라는 것도 그렇지요.
      삼성 공정이 다른 업체들이 쓰고 있는 TSMC의 공정보다 크게 낫던가요?
      삼성 45nm나 TSMC 40nm나 거기서 거기입니다.
      무슨 공정이 성능에 절대적인 영향을 끼치는 것처럼 말씀하시는데, 중요한건 아키텍처와 설계능력이고, 공정은 그걸 거들뿐입니다.

      SW의 부재도 그렇지요.
      퀄컴, 엔비디아가 SW 기술이라는게 있던가요?
      그들이 독자적으로 이룬 SW 란게 있습니까?
      오히려 바다같이 물밑에서 뭐라도 해보려고 꾸준히 하고 있는 삼성이 퀄컴, 엔비디아보다는 훨씬 나아보이네요.
      바다 그거 별볼일도 없다고 까는 사람도 있는데,
      장기적인 안목이 없다고 깔때는 언제고, 이제와서 꾸준히하고 있으니까 가시적인 성과가 없다고 까는 격이지요.
      모순의 극치.

      애플이 미쳤다고 언플, 영업뿐이고 실상은 별 볼일없는 삼성의 제품을 사용할까요?
      그것도 경쟁사의 제품인데 말이이죠.
      자기들의 요구 성능, 조건에 맞으니까 사는겁니다.
      TSMC는 애플이 물건 사준다고해도 요구조건 못 맞춰서 포기했습니다.

      인정할건 인정하고 깔건 까야지, 밑도 끝도 없이 다 까면 맞는 말까지 설득력이 떨어집니다.

  4. addr | edit/del | reply 안시성주 2013.03.07 23:15

    좋은 포스팅 잘 보았습니다.
    많은 도움이 되었습니다^^

    다른 건 아니고,
    LPDDR2-1066 이면
    Memory Bandwidth가 4.26GB/s 가 아닌지요?
    Tegra 3 는 32bit Single channel로 알고 있습니다.

    유익한 포스팅 감사합니다!^^