본문 바로가기
스마트폰/nvidia Tegra

엔비디아 테그라4, 테그라4i 정보.

by gamma0burst 2013. 2. 25.

http://pc.watch.impress.co.jp/docs/news/event/20130225_589168.html
http://pc.watch.impress.co.jp/docs/column/ubiq/20130219_588384.html
http://pc.watch.impress.co.jp/docs/column/kaigai/20130225_589158.html
http://www.anandtech.com/show/6787/nvidia-tegra-4-architecture-deep-dive-plus-tegra-4i-phoenix-hands-on
http://pc.watch.impress.co.jp/docs/column/kaigai/20130228_589799.html

MWC(Mobile World Congress) 2013 을 맞아 테그라4/4i 의 구체적인 정보가 공개됐습니다.
테그라4i의 대략적인 정보는 나온지 좀 됐지만 여기서 같이 다루지요.



크게 두 가지.
테그라4 (코드네임 Wayne)
테그라4i (코드네임 Grey)


- 테그라4 (Tegra 4)



CPU - Cortex-A15 쿼드코어. 최대 1.9GHz 
 4+1 코어 구조.
(Power-saving 코어는 825MHz)

 L1 캐시 32KB/32KB (명령어/데이터), L2 캐시 2MB (공유)
GPU - 72코어. CPA (Compitational Photogrphy Architecture) 지원.
 버텍스 쉐이더 24개
 픽셀 쉐이더 48개
공정 - TSMC 28nm HPL
메모리 - DDR3L/LPDDR3 1866MHz 듀얼채널. 최대용량 4GB
디스플레이 - 지원 해상도 3200 x 2000, HDMI 출력 (4K, Ultra HD)
모뎀 (BP) - 외장
패키지 - BGA (23mm x 23mm), FCCSP (14mm x 14mm)
다이 사이즈 - 86mm2 내외.

쿼드코어에서 1.9GHz로 동작한다고 합니다.
물론 다양한 클럭 차이를 갖는 테그라4 시리즈가 나올 예정.

부하가 있을 때 4코어가 동작하고, 부하가 낮아지면 1코어로 전환되는 4+1 코어 구조입니다.
4코어는 동기식으로 알려져 있습니다.


분기예측 향상으로 비순차식 연산(Out-of-Order) 효율 향상.


L2 캐시 공유로 필요에 따라 각 코어에 유연하게 자원 공급.
(Krait(스냅드래곤)은 코어마다 L2 캐시가 분리되어 공유하지 않는듯.)
L2 캐시와 연산 유닛을 함께 쓰기때문에 벤치마크보다 실성능이 더 좋을거라는데 그건 나와봐야 알 일이고.


연산 리소스가 더 많아서 ILP가 향상되고 비순차적 명령어 처리에 더 적합해졌음.
분기 예측 향상.
모바일에 적합한 균형잡힌 소비전력. (전력대성능비가 좋다는 얘기인듯.)
MLP 향상.

ILP (Instruction Level Parallelism, 명령어 수준 병렬성), MLP (Memory Level Parallelism, 메모리 수준 병렬성)
모두 비순차 실행과 관련있습니다.

어떤 명령어가 실행 중에 캐시 미스, 버퍼 미스 등으로 지연되면, 비순차적 실행에서는 뒤따르는 명령어 중에서 미리 실행할 수 있거나 동시에 실행할 수 있는 것을 먼저 처리합니다.
이것을 ILP 라고 하고 보통 하드웨어가 직접 ILP를 찾아서 명령어 처리율을 높입니다.
비순차 실행을 위해 현재 지연되고 있는 명령어와 관련된 메모리 참조를 보류하고 다음 명령어를 위한 메모리 연산이 일어나는데 이러한 다중 메모리 작업 기능을 MLP라고 합니다.

요약하면 Cortex-A15는 Cortex-A9 에 비해 비순차적 실행에 최적화됐다는거.


스냅드래곤 600과 비교해서 모두 2배 이상의 성능이라고 주장.
클럭을 통해 추정되는 스냅드래곤 800 성능과 비교해도 앞선다고 주장.


GPU 구성은 다음과 같습니다.
버텍스 쉐이더 24코어.
픽셀 쉐이더 48코어.
클럭은 672MHz



버텍스 쉐이더는 크게 6개의 유닛(VPE : Vector Processing Engine)으로 구성.

VPE는 96개 분의 오프젝트를 버퍼할 수 있는 VBO(Vertex Buffer Object) 캐시 16KB
각 VPE는 4개의 MAD(Multiply-ADD) 유닛(코어)로 구성.
각 MAD 유닛은 FP32 지원.

캐시를 강화해서 메모리 액세스 전력을 감소.
기존 테그라와 비교시 VPE의 성능은 동클럭에서 1.5배.
한 클럭에 최대 8픽셀 생성.



2x/4x MSAA(Multisample Antialiasing) 지원.
24-bit Z버퍼 지원. (테그라3는 20-bit)
8-bit 스텐실 지원.
DirectX 9 레벨의 인스턴스화 지원.
정점 자동 생성.


픽셀 쉐이더는 크게 4개의 유닛으로 구성.
유닛 1개당 L1 캐시 4KB, 3개의 ALU(Arithmetic Logic Unit), 1개의 텍스처 유닛.
ALU는 4개의 MAD 유닛과 1개의 MFU(Multi Function Unit)로 구성.

각 ALU는 4KB의 L1 픽셀 캐시가 있는데, 이를 통해 외부 프레임 버퍼 메모리 액세스를 50% 이상
줄일 수 있다고 주장.

MFU는 곱하기, 더하기 외의 초월함수(로그, e, 삼각함수, 제곱근 등)를 위한 장치.

MAD 유닛은 FP20 지원.
엔비디아는 인간의 눈이 인식하는 영역이 FP16은 넘지만 FP32 보다는 낮기때문에 FP20 으로 충분하다고
설명.

FP20으로는 GPGPU 지원이 불가능한데 이는 풋 프린트를 줄이고, 소비전력을 줄이기위한 것.
총 픽셀 성능은 4픽셀/클럭.


각 텍스처 유닛은 16KB의 공유 L2 캐시를 갖고 있는데 이는 테그라4 에서 추가된 것으로
외부 메모리 액세스를 줄이기위한 것입니다. 전력절감이 가능한거지요.

16x Anisotropic Filtering (이등방성 필터링) 지원.
텍스처 크기 최대 4k x 4k

ROP는 픽셀 쉐이더 내부에 있습니다.


OpenGL ES 3.0 에서 32비트의 연산정밀도를 요구하지만,
테그라4는 OpenGL ES 3.0 의 요소 중에서 FP32와 텍스처 압축을 제외한 많은 부분을 지원하고 있습니다.



동영상 디코딩, 인코딩 성능.

- 디코딩
H.264 HP/MP/BP - 4K x 2K (62.5 Mbps 24p), 1440p (62.5 Mbps 30p), 1080p (62.5 Mbps 30p)
VC1 AP/MP/SP - 1080p (40 Mbps 60i/30p)
MPEG-4 SP - 1080p (10 Mbps 30fps)
WebM VP8 - 1440p (60 Mbps 30p), 1080p (60 Mbps 60p)
MPEG-2 MP - 1080p (80 Mbps 60p/60i)

- 인코딩
H.264 HP/MP/BP - 1440p (50 Mbps 30p), 1080p (50 Mbps 60p)
MPEG-4 SP - D1 (1M 30p)
VP8 - 1440p (50 Mbps 30fps), 1080p (20 Mbps 60p)


- 테그라4i



CPU - Cortex-A9 R4 쿼드코어. 최대 2.3GHz
 4+1 코어 구조.
 L1 캐시 32KB/32KB (명령어/데이터)
GPU - 60코어. CPA (Compitational Photogrphy Architecture) 지원.
 버텍스 쉐이더 12개
 픽셀 쉐이더 48개
공정 - TSMC 28nm HPM
메모리 - LPDDR3 1866/2133MHz 싱글채널. 최대용량 2GB
디스플레이 - 지원 해상도 1920 x 1200, HDMI 출력 (1080p)
모뎀 (BP) - 내장
패키지 - PoP (12mm x 12mm), FCCSP (12mm x 12mm)
다이 사이즈 - 62mm2 내외.

테그라4i의 가장 큰 특징은 i500 이라는 모뎀칩(BP)을 통합했다는겁니다.
테그라4i는 기본적으로 테그라4와 유사하기때문에 차이가 있는 부분만 다루겠습니다.

역시나 4+1코어입니다.
동기식/비동기식 여부는 확인되지 않았습니다.

테그라4와 달리 28nm HPM 공정인데 28nm HPL 공정에 비해 높은 전력대성능비를 얻을 수 있습니다.
CPU 클럭이 높기도 하지만, 통합된 모뎀부를 빠르게 작동시킬 필요성이 있습니다.
단점으로는 아이들(idle) 시 누설전류가 증가한다는 것입니다.
이 때문에 테그라4에는 28nm HPL을 사용했습니다.

Cortex-A15가 Cortex-A9 보다 두 배 이상 크고 많은 로직 트랜지스터를 갖고 있기때문에 누설전류 문제에 취약할 가능성이 있기때문입니다.



Cortex-A9 임에도 TLB(Translation Lookaside Buffer) 용량을 Cortex-A15 수준으로 증가.
분기 예측 정확도 향상, 메모리 레이턴시 감소.

테그라3의 Cortex-A9에 비해 15~30%의 성능 향상을 기대.

엔비디아가 Cortex-A9에 관한 아키텍처 라이센스가 없기때문에 이런 개량은 ARM과의 공동개발일 것이라고 합니다.
공동개발의 대가로 엔비디아에 우선 탑재(출시) 권리를 부여했다는거지요.

참고로,
테그라2 - Cortex-A9 r1p1
테그라3 - Cortex-A9 r2p9
테그라4의 Cortex-A9 R4p1 은 Cortex-A9의 최신버전입니다.


버텍스 쉐이더 12코어.
픽셀 쉐이더 48코어.
클럭은 최대 660MHz

버텍스 쉐이더는 크게 3개의 유닛으로 구성.

픽셀 쉐이더는 크게 2개의 유닛으로 구성.
유닛 1개당 L1 캐시 2KB, 24개의 연산유닛, 1개의 텍스처 유닛.

테그라4와 다르게 버텍스 유닛(VPE)가 3개, 픽셀 유닛 2개.
구조가 다르기때문에 2 텍셀/클럭, 2 픽셀/클럭으로 테그라4 의 절반 성능입니다.
코어 수는 테그라4와 큰 차이가 없지만 그래픽 성능은 절반인거지요.
메모리 대역폭이 테그라4의 절반이기때문에 성능을 축소한 것으로 보입니다.






- 성능, 소비전력


엔비디아가 공개한 테스트 결과들.


스냅드래곤 800의 Krait 400 보다 성능이 높다고 합니다.


GLBencmark 2.5 이집트 HD 결과는 6468 frame = 57.2 fps
현재 최고 성능은 애플 A6X의 SGX554MP4의 51.9 fps보다 높은 결과입니다.

지난 번에 다뤘던 초기 성능 벤치마크는 테그라4i 의 결과일 가능성이 있다고 봅니다.
(
테그라4(Tegra4) 초기 그래픽 성능 벤치마크.)
사양과 클럭을 고려하면 이론적으로 테그라4i 의 그래픽 성능이 테그라4의 절반정도인데,
초기 벤치의 결과가 32.6 fps이고 이는 테그라4의 57.2 fps의 57% 수준입니다.



엔비디아가 주장하는 GPU 효율.
오류가 몇 개 있습니다.
GFLOPS 성능은 단순히 코어 숫자만 따져서 계산한 것 같은데, 그렇게하면 안 되지요.
5250 GPU는 53 GFLOPS가 아니라 72.5 GFLOPS
1.8 이 아니라 3.9 GFLOPS/mm2 이 나옵니다.

애초에 FP32도 제대로 지원 못 하면서 연산성능을 논하는게 에러.

스냅드래곤S4 프로 (APQ8064)를 탑재한 HTC Droid DNA와 테그라4 레퍼런스 스마트폰 플랫폼의 비교.
둘 다 해상도는 1080p
각종 작업에서 테그라4의 소비전력이 더 적습니다. (모뎀 제외)


(
http://www.tomshardware.com/reviews/tegra-4-tegra-4i-gpu-architecture,3445.html)
GLBenchmark 2.5 테스트시 소비전력.
GPU 풀로드 상태일텐데 3.7W 정도입니다.
CPU 로드 상태까지 알 수 없어서 이 수치를 최대 소비전력으로 볼 수는 없습니다.
어쨌든 GPU의 전력대성능비가 좋다는건 분명하네요.


- 외형


엔비디아가 제시하는 레퍼런스 플랫폼입니다.
디스플레이 해상도는 1080p


(
http://www.androidpolice.com/2013/02/24/eyes-on-tegra-4-tegra-4i-and-the-phoenix-reference-phone-at-mwc-with-benchmarks-and-stats/)


테그라4/4i 의 PoP과 FSCCP
PoP은 테그라4i 만 지원합니다.




스마트폰 레퍼런스 디자인 보드.
위는 테그라4i, 아래는 테그라4
모두 FCCSP 패키지.
테그라 왼쪽의 칩은 MCP 타입의 DRAM+NAND 이고, 그 왼쪽은 위에서부터 Icera i500 모뎀, 모뎀 DRAM
테그라4i 에는 모뎀이 통합되어있기때문에 테그라4 보드에 비해 칩의 숫자가 적습니다.


- 2012.02.28 내용 수정 및 추가.


댓글26