본문 바로가기
스마트폰/삼성 SAMSUNG

ISSCC 2013 삼성 세션 정보 (엑시노스5 옥타)

by gamma0burst 2013. 2. 21.
반응형

http://techon.nikkeibp.co.jp/article/EVENT/20130220/266913/?ST=p_bizboard
http://www.anandtech.com/show/6768/samsung-details-exynos-5-octa-architecture-power-at-isscc-13

아직 pcwatch에서 정보가 올라오지 않았지만 지금까지 확보된걸 올리겠습니다.
앞으로 추가 정보가 올라오면 갱신될겁니다.

-
ISSCC 2013에서 삼성이 발표할 것으로 알려진 엑시노스 관련 내용은 크게 두 가지입니다.
1. 28nm High-K Metal gate heterogeneous Quad-core CPUs for high performance and
energy-efficient mobile application processor

2. 72. 5 GFLOPS 240 Mpixel/s 1080p 60fps Multi-format video codec application
processor enabled with GPGPU for Fused multimedia application


하나씩 보도록 하지요.


1. 28nm High-K Metal gate heterogeneous Quad-core CPUs for high performance and
energy-efficient mobile application processor


삼성은 빅리틀 기술을 채용한 28nm 공정 SoC를 발표했습니다.
엑시노스5 옥타로 알려져있는 제품이겠지요.
빅리틀은 고성능 CPU 클러스터와 저전력 CPU 클러스터를 동일한 칩에 집적하여 처리부하에 따라
두 클러스터를 전환하면서 동작하는 기술입니다.




고성능 CPU 클러스터는 Cortex-A15 기반 쿼드코어.
최대 클럭 1.8GHz
크기 19mm2
삼성 28nm LP HKMG

저전력 CPU 클러스터는 Cortex-A7 기반 쿼드코어.
최대 클럭 1.2GHz
크기 3.8mm2
삼성 28nm LP HKMG

1MHz당 소비전력은 Cortex-A7 이 Cortex-A15 의 1/6 수준입니다.

32nm 공정의 Cortex-A9 쿼드코어가 9mm2 내외였던걸 생각하면 Cortex-A15 쿼드코어의 크기는 상당한 규모입니다.
ARM 자료에 따르면 28nm Cortex-A7 싱글코어가 0.45mm2 (L2 캐시 제외)인데,
쿼드코어(L2 캐시 포함) 3.8mm2 이면 ARM 자료에 크게 다르지 않은 수치로 보입니다.






그래프에서 스위칭 레벨은 7500 DMIPS 정도이고, 그 때 소비전력은 470mW 정도입니다.
그래프에서 Cortex-A15 최대 성능의 28000 DMIPS 정도이고, 그 때 소비전력은 5250mW 정도입니다.

Cortex-A7의 성능이 1.9 DMIPS/MHz 이고, 쿼드코어 1.2GHz라면 9120 DMIPS 입니다.
7500 DMIPS라면 Cortex-A7 쿼드코어 1.0GHz 정도의 이론성능 수치입니다.

Cortex-A15의 성능이 3.5 DMIPS/MHz 이고, 쿼드코어 1.8GHz라면 25200 DMIPS 입니다.
28000 DMIPS라면 Cortex-A15 쿼드코어 2.0GHz 정도의 이론성능 수치입니다.

발표 클럭과 자료상의 클럭이 안 맞는 이유에 몇가지 가능성이 있습니다.
1. 빅리틀의 예시를 보여주기위한 자료로 발표된 클럭과 다른 셋팅의 결과이다.
2. 삼성이 만들어서 일반적인 Cortex-A15, A7과 성능이 다르다.

2번의 경우라면 모순에 빠집니다.
발표한 클럭의 결과라고 가정하고 계산해보면,

삼성의 Cortex-A15는 3.9 DMIPS/MHz 로 레퍼런스보다 10% 이상 높은 성능이고,
삼성의 Cortex-A7은 1.6 DMIPS/MHz 로 레퍼런스보다 20% 가까이 낮은 성능이니까요.
둘 다 높든가, 둘 다 낮아야지 하나는 높고, 하나는 낮은 경우는 이상하지요.

1번의 경우로 보는게 타당합니다.
그렇다면 그래프의 자료는 Cortex-A15 2.0GHz 쿼드코어, Cortex-A7 1.0GHz 쿼드코어를 기준으로 작성된 것으로 생각됩니다.

앞서 1MHz당 소비전력은 Cortex-A7 이 Cortex-A15 의 1/6 수준이라고 했습니다.
그래프대로라면,
Cortex-A7은 1000MHz/470mW = 2.13MHz/mW
Cortex-A15는 2000MHz/5250mW = 0.38MHz/mW
(각각 쿼드코어 기준)
2.13 / 0.38 = 5.6
1/6 수준이라는 발표 내용과 들어맞습니다.
그래프가 Cortex-A15 2.0GHz 쿼드코어, Cortex-A7 1.0GHz 쿼드코어를 기준으로 작성된 것이라는 추측이 틀리지 않았다는 반증이기도 합니다.

그런데 삼성이 발표한 스펙의 클럭은 각각 1.8GHz, 1.2GHz 였단 말이지요.
산술적으로 소비전력은 Cortex-A15 1.8GHz 쿼드코어가 약 4700mW,
Cortex-A7 1.2GHz 쿼드코어가 약 560mW 가 됩니다.
Cortex-A15 1.8GHz 는 25200 DMIPS 이고, 그래프 상에서 그 성능 포인트를 찾아보면 전력은 약 4500mW 입니다.

(풀로드 6W라는 소리가 있던데 그렇지 않다는거.)



(코어마다 파워게이팅)



다중 문턱전압(Multi Threshold voltage, MTCOMS), DVFS(Dynamic Voltage and Frequency Scaling),
바디 바이어스(Body Bias), CPU 코어 당 파워게이팅(Power Gating) 등의 방법으로 소비전력을 줄였습니다.


DVFS는 전압과 클럭을 조절해서 동적 소비전력을 줄이는 기법입니다.
파워게이팅이 함께 적용되면서 부하에 따라 동작하는 코어 수를 조절하는 방식도 사용합니다.

파워게이팅은 시스템에서 동작하지 않는 블록에 전원 공급을 차단함으로써 전력소모를 줄이는 기술입니다.
PMU(Power Management Unit, 전력관리유닛)를 통해서 제어되는데, 스위치 트랜지스터가 turn-on 되면 블록에 전원이 공급되고 turn-off 되면 전련 공급이 차단됩니다.
스위치 트랜지스터의 동작 상태에 따라 블록의 on/off가 결정되기때문에 스위치 트랜지스터는 낮은 누설전류를 가져야합니다.
누설전류가 작은 트랜지스터는 Vth가 높은 소자이기때문에 다중 문턱전압 CMOS(MTCOMS) 공정이 필요합니다.

다중 문턱전압 CMOS(MTCOMS)는 클럭과 소비전력을 최적화하기위해 다양한 문턱전압(Vth)을 갖는 트랜지스터(TR)로 칩을 구성하는겁니다.
문턱전압은 inversion layer를 형성하는데, 낮은 Vth를 갖는 소자는 스위칭속도(클럭)가 빠르지만 누설전류가 큽니다.
높은 Vth을 갖는 소자는 누설전류가 작지만(일반적으로 낮은 Vth 소자의 1/10 이하) 스위칭속도가 느립니다.
SoC 내의 블록 전체를 단일 Vth 소자로 만들면 누설전류가 많아지거나 원하는 클럭에 맞출 수 없는 문제가
발생하는겁니다.

그렇기때문에 블록 내에서 critical path에는 낮은 Vth를 갖는 소자를 사용하고,
그렇지 않은 path에는 높은 Vth 소자를 사용해서 원하는 클럭과 낮은 누설전류를 달성합니다.



(하이브리드 클럭 메쉬)

6 트랜지스터 구성의 고속 커스텀 SRAM은 센스 앰프 회로의 통계적 편차와 셀 전류의 편차를 고려한 센싱 기술과 결합하여 동작 속도와 소비전력, 칩 면적의 균형을 갖게 되었습니다.

H형 회로 블록을 칩 위에 균일하고 대칭적으로 배치하는 하이브리드 클럭 메쉬(Hybrid Clock Mesh) 구조를
도입하여 고속 동작시 클럭 스큐(Clock Skew)를 줄였습니다.

클럭 스큐는 물리적인 거리 차이 등의 이유로 각 부분에 클럭 신호가 도착하는 타이밍이 어긋나는 현상을 말합니다. 

삼성은 발표에서 엑시노스5 옥타를 상용화하기위한 커스텀 라이브러, 타이밍 트윅, 공정 기술 선택의 가치를 강조했다고 합니다.
(쓸만하게 만드느라 고생했다는거...)


다이 사진도 공개했습니다.


(간단하게 레벨만 조정해본거)


2. 72. 5 GFLOPS 240 Mpixel/s 1080p 60fps Multi-format video codec application
processor enabled with GPGPU for Fused multimedia application


이 내용은 엑시노스5 옥타와 관련된 내용으로 생각했는데 엑시노스 5250 에 대한 내용이었습니다.
1.7GHz 듀얼코어 CPU와 72.5 GFLOPS의 연산 성능을 가진 AP에 대한 내용이라고 하는데 이건 엑시노스 5250 이니까요.
발표된 내용 중 확인된건 다음과 같습니다.

GPU 병렬처리의 전력 효율이 CPU 대비 10.7배.
CPU, GPU, 메모리 시스템, 내부 로직의 네 영역에 각기 다른 DVFS를 적용해 소비전력 절감.
12.8GB/s의 메모리 대역폭.
삼성의 32nm HKMG 공정으로 제작.


- 2012.02.23. 소비전력 추정 수정.



반응형

댓글