- 컴퓨텍스 2016에서 ARM의 신규 CPU 아키텍처, Cortex-A73이 발표되었습니다.

그 동안 코드네임 아르테미스(Artemis)로 알려진 아키텍처입니다.

(링크 : http://pc.watch.impress.co.jp/docs/column/kaigai/759881.html)

(링크 : http://www.anandtech.com/show/10347/arm-cortex-a73-artemis-unveiled)

 

 

- 개요

성능, 전력 효율이 올라간다는 내용인데 당연한 얘기입니다.

동일 클럭에서 성능 비교를 보면 A72 -> A73 이 +5% 정도로 표기되어있습니다.

A72 -> A73 성능 상승치는 +13%로 나옵니다.

(성능축은 1부터가 아니라 0부터 봐야합니다.)

다른 내용으로 봤을 때, A72는 16nm, A73은 10nm 일겁니다.

 

16nm A72 대비 10nm A73은

최대 2.8GHz, 성능 +30%

전력 효율 +30%

1코어 면적 0.65mm2

 

최대 성능과 (일정 TDP 내에서) 유지 가능한 성능의 비교입니다.

기존과 달리 피크 성능과 유지 성능간 차이가 거의 없다는 내용.

 

그래프를 비례관계로 보면,

Spec2K

20nm A57

16nm A72

10nm A73

최대 성능(Ratio)

0.68

1.00

1.12

유지 성능(Ratio)

0.60

1.00

1.29

최대 클럭(GHz)

1.9

2.5

2.8

유지 클럭(GHz)

1.41

2.11

2.74

클럭당 성능(Ratio)

0.89

1.00

1.00

 

Spec2k에서 A73의 동클럭성능이 A72와 같은 수준이라는 결과가 나옵니다.

이는 동클럭 성능 차이가 5% 정도로 나왔던 첫번째 자료와 맞지 않는 내용입니다.

 

ARM이 표기한 x1.3, x2.1 이라는 성능 차이나 기존에 Specint2K에서 A57-A72의 동클럭성능 차이가 11% 내외였던 점이 차트와 일치하는걸 봤을 때, Spec2k는 정확히는 Specint 2K로 보이고 A73의 동클럭성능이 A72와 같은 수준이라는 내용을 부정하기는 어려워 보입니다.

동클럭 성능은 같지만 전력효율을 개선하여 실사용시 성능(=유지 가능한 성능)을 높였다라는걸 어필하고 싶은듯 합니다.

 

첫번째 자료에서 동클럭 성능 향상이 +5% 정도로 나왔고, 최대 성능 +13%이니 최대 클럭은 +8%로 계산됩니다. Spec2K 기준 자료에서 최대 성능차이, 최대 클럭 둘 다 +12% 였고요.

첫번째 자료는 Spec2K 기준이 아닐 가능성도 있어 보입니다.

그런데 Spec2K 기준으로 안 보자니 Performance/cycle 이란 표현을 쓴다는게 문제입니다.

이건 차트의 기준이 되는 벤치마크가 CPU 클럭에 비례하는 결과를 보여준다는걸 의미합니다.

긱벤치처럼 메모리 점수가 반영되어서 총점이 CPU 클럭에 비례하지 않는, 그런 벤치마크가 기준이 아니라는거지요.

그렇다면 대체 어떤 벤치마크 기준이냐하는게 의문인데 ARM의 전례를 봤을 때는 Specint 외에 딱히 꼽을만한게 없습니다.

Specint2K라면 앞뒤가 안 맞는데 추가 정보를 기다려봐야겠습니다.

 

각 조건에서 성능 향상치인데 딱히 계산해볼 수 있는 툴을 쓴게 아니네요.

 

정수, 부동소수점, 메모리 전력 효율 비교.

+20% 이상 좋아졌다고 하네요.

 

프리미엄 CPU(빅코어 아키텍처) 면적 감소를 보여줍니다.

16nm A72 대비 -46%

기본적으로 효율적인 설계가 뒷받침되어야겠지만 공정 미세화의 영향도 따져봐야 합니다.

 

(뒤에서 다루겠지만) 공정이 각각 TSMC 16FF+ , 10FF로 보이는데,

TSMC 16nm 공정은 백엔드가 20nm와 같아서 최종적인 면적은 20nm와 차이가 없는 것으로 알려져 있습니다.

위 슬라이드의 값으로 계산해보면, 면적비는 20nm A57 : 16nm A72 : 10nm A73 = 1 : 0.56 : 0.3 입니다.

공정상 면적 감소가 거의 없는 20nm -> 16nm 에서 면적이 44%나 줄은건 확실히 설계의 힘이겠지요.

하지만 16nm -> 10nm는 얘기가 다릅니다.

TSMC의 경우 EUV를 쓴다는 얘기까지 나왔으니 면적 감소는 확실한 상황이고 얼마나 줄어들지가 불확실한 상황일뿐입니다.

 

삼성의 경우, 20nm -> 14nm 에서 면적 -15% 정도로 알려져 있고, 최근 풀노드 공정미세화에서 면적감소치가 -30% 정도인 점을 감안하면, 삼성의 면적 감소는 20nm -> 10nm에서 -40% 정도로 계산해볼 수 있습니다.

TSMC가 이 차이를 따라잡는다고 가정하면 TSMC 16nm -> 10nm 면적 감소치는 -40% 내외로 볼 수 있습니다.

그런 차원에서 본다면 16nm A72 -> 10nm A73에서 면적 -46%는 그렇게 큰 값이 아닙니다.

단순 계산으로 보면 면적감소에서 설계에 의한 비중은 10%정도가 됩니다.

 

10FF 같은 최신 공정은 물론, 28HPC같은 중저가형을 위한 공정에서도 쓸 수 있는 아키텍처라는 내용.

하지만 A72 사례에서 알 수 있듯이 최신 빅코어 아키텍처를 (상대적으로) 구형 공정에서 쓰는건 라인업 구성, 원가 등 현실적 제약때문에 쉽지 않아 보입니다.

 

진화하고 있는 빅리틀.

기존에 빅리틀은 단순히 마이그레이션, MP 정도로 알려있었지만 IPA, EAS 같은 것들이 추가되고 있습니다.

IPA는 이미 커널 등에서 보이고 있는 방식으로 간단히 말하면 기존 방식에 발열관리가 추가된 개념으로 보면 될듯 합니다.

빅코어 로드맵에서 A73이 2016년에 배치된걸 기억할 필요가 있습니다. (뒤에서 다룰겁니다.)

 

 

- 아키텍처

(원래 구구절절 있는 얘기 다 쓰려고 했는데 그냥 다 생략하겠습니다.)

A72와 비교해서 간략히 보면

명령 디코더는 3명령/cycle에서 2명령/cycle로 축소.(3 Macro-OPs)

최대 6 Micro-OP 발행. (FP 2 OPs 포함)

파이프라인 최대 15 stage에서 11 stage로 감소.

수치적인 사양은 내려간듯 하지만 분기예측, prefetch, 메모리 액세스 등에서 개선이 이루어져서 성능이 올라갔습니다.

Cortex-A9가 2명령/cycle decode 구조인걸 생각하면 그동안 엄청나게 개량이 되었다는걸 알 수 있지요.

 

사실 A72 -> A73은 A15 -> A17에서의 변화와 유사해서, A15 -> A17 과 같은 방식의 개량이 A57 -> A73에서도 이루어졌다라고 보는 시각과, A15 -> A57, A17 -> A73 의 병렬적인 아키텍처 라인업이라고 보는 시각이 가능합니다.

개인적으로 후자 쪽이 더 적당하지 않을까 싶네요. (개발팀이 다르기도 하고요.)

 

 

- 테스트 칩

테스트 칩 테스트 결과입니다.

(링크 : http://www.pcper.com/reviews/Processors/ARM-Produces-10nm-Artemis-Test-Chip)

 

A73 쿼드에 Mali GPU 1코어 구성입니다.

TSMC 10FF 공정으로 15년 12월 테이프 아웃, 16년 4/5월에 나왔다고 하네요.

 

 

10FF A73 - 16FFLL A72(저전력 구성이라고 생각하면 됩니다.)를 비교하면

동일 전력에서 성능 +11~12%

동일 성능에서 전력 -30%

 

전력 기준이 dymanic power, leakage power를 포함했기때문에 +11~12%가 speed gain값이라고 확정하기는 어려울듯 합니다.

게다가 아래에 있듯이 PDK v0.5인걸 보면 A73이 아직 10FF 공정에 최적화되어있지 않을 가능성도 있습니다.

아키텍처도 달라서 이 데이터로 10FF 공정 성능을 평가하기는 어렵다고 봅니다.

 

아래 표를 보면 A73 클럭이 오히려 낮습니다.

성능 향상치는 클럭 향상치가 아니라 어떤 툴을 활용한 테스트 결과를 비교한 것이라고 봐야합니다.

 

클럭을 보면 A73이 10% 정도 낮은데 성능은 오히려 10% 정도 높게 나왔다는 얘기가 됩니다.

동클럭 성능으로 보면 +20% 내외가 됩니다.

이 역시 성능 기준을 알 수 없으니 뭔가 결론을 내기 힘듭니다.

 

 

- 로드맵

앞서 A73이 2016년으로 표기된 내용이 있었습니다.

이걸 기존에 나왔던 로드맵과 비교해 보겠습니다.

 

시간축을 보면 2014년까지만 표기되어 있습니다.

Cortex-A72가 나와 있는데 2015년 2월에 발표되었고, 당시 발표에서 16FF+에서 최대 클럭은 2.53GHz라고 했습니다.

위 로드맵과 잘 안 맞다고 봐야겠지요.

2015년 이전, 2014년에 나온 로드맵일 가능성이 높습니다.

 

또 다른 부분은 아르테미스 외에 다른 아키텍처로 프로메테우스, 아레스가 나와있습니다.

아르테미스 타겟 공정은 16FF, 프로메테우스 타겟 공정은 10FF 입니다.

아르테미스는 라인업상 최상위 코어도 아닙니다.

플래그쉽급이 아닌 하이엔드-미드레인지급 코어로 취급되고 있는거지요.

 

이건 그 이후에 나온 로드맵입니다.

프로메테우스, 아레스는 빠지고 아르테미스만 표기되어 있습니다.

 

이 두 건을 종합하면 아르테미스는 본래 최상위 코어로 계획되지 않았습니다.

타겟 공정이 최상위 공정이 아닌(심지어 16FF+도 아니고 16FF 입니다.) 하이엔드-미드레인지급 코어였고, 그러기위해서는 성능보다는 전력 효율을 중시하는 타입이었을 가능성이 높습니다.

A57 - 아르테미스 - 프로메테우스 - 아레스 순의 로드맵을 생각해 볼 수 있습니다.

 

아르테미스는 로드맵에서 A72의 후속이 아닌 A57의 후속으로 나와있는걸 봐서는 A57과 비슷한 성능에 전력효율을 높인 형태였을 가능성이 있습니다.

최종적으로 A73이 나온 형태는 전력효율이 개선되고, 성능은 A57 대비 A72 수준으로 올라간게 되는데 이건 초기 로드맵으로 보면 아르테미스와 프로메테우스의 중간 형태가 됩니다.

 

아레스는 전력범위 자체가 다르니 넘어가고, 아르테미스와 프로메테우스만 보면 A73에 대한 포지셔닝은 두 가지 경우로 볼 수 있습니다.

기존 아르테미스와 프로메테우스를 통합한 형태로 로드맵상 프로메테우스는 삭제되는 경우.

혹은 아르테미스가 로드맵상 상향되고, 그에 따라 프로메테우스도 상향되는 경우.

 

어느 쪽일지는 시간이 지나봐야 알겠지요.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 24

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon 스타벅 2016.06.03 22:23

    A73이라고 해서 다음 단계의 AP를 기대했는데, 인텔로 치면 톡에 가까운 느낌이네요. ㅎㅎ A72가 나온지 얼마 안되서 A53의 후속 AP가 발표되지 않을까 싶었는데, 좀 아쉽기도 하고 그러네요. 지난 번에도 a35가 발표되고.. 미드레인지 칩셋이 어떻게 나올지 제일 궁금합니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.03 23:10 신고

      중간에 보면 28HPC 공정에서도 쓸 수 있다든가, 다른 자료를 보면 A53 옥타 대신 A73 듀얼 + A53 쿼드가 비슷한 면적에 성능은 더 좋다고 보여주는거 봐서는 미드레인지도 A73으로 커버하려는거 같습니다.

  2. addr | edit/del | reply 흡혈귀왕 2016.06.04 00:01

    기다리고있었습니다~
    다음은 Mali-G71 차례군요~ㅋㅋ

    극적인 성능향상보다는 뭐랄까 A17 후속인 느낌이네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.04 10:18 신고

      A17 기준으로보면 성능향상은 맞지요.
      전력효율이 얼마나 올라갔는지에 따라 평가가 달라질듯 합니다.

  3. addr | edit/del | reply 2016.06.04 00:36

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.04 10:20 신고

      말한대로 나오는게 오히려 이상하게 느껴지는게 이 동네라서 그렇지 결국 공언한대로 된거네요.ㅎ

    • addr | edit/del 2016.06.05 18:50

      비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.05 19:53 신고

      지금도 레퍼런스 코어로 성능 따라가기 힘든데, 차기 빅코어라고 나온게 전성비만 챙기고 성능은 공정미세화를 통한 클럭 향상이 전부이니 커스텀 아키텍처 없는 곳은 속터지겠지요.

  4. addr | edit/del | reply ㅁㄴㄹㅎ 2016.06.04 10:19

    arm의 이런 행보가 좋다고봅니다. 모바일은 모바일다워야죠. 그렇다고 a73 2.8ghz정도면 성능이 낮은것도아니구요. 어차피 빅코어 쿼드코어구성으로 고만고만하게 갈거라면 체감차이도별로없는 성능 10~20%더올리고 전력소모 많아지는거보단 효율을 중시하는게 맞다고봅니다. 애플같은경우 아예 듀얼코어구성인데다가 os자체가 폐쇄적이고.. 효율성이 높으니 고 IPC 저클럭 정책도 괜찮지만 안드로이드는 아예 빅코어 쿼드코어이상이 대세니까요. 플래그쉽은요. 갤럭시s8도 괜히 성능성능하지말고 CPU는 고만고만하게가고 효율성위주로하고 GPU를 강화하는게 낫다고봅니다. CPU 성능을 포기할수가없다면 괜히 8890처럼 2.6ghz 부스트만들어서 전력효율성을 망치는거보단(과도한고클럭,고전압) 리틀코어 4개더달아서 멀티점수로 승부보는게 더 나을거같아요..

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.04 10:28 신고

      ARM의 레퍼런스 아키텍처와 제조사의 플래그쉽향 커스텀 아키텍처는 존재의의와 개발목적부터 차이가 있습니다.

      ARM은 플래그쉽뿐만 아니라 하이엔드-미드레인지까지 포괄하는 IP 시장에 대응해야하기때문에 절대성능보다 전력효율을 먼저 챙기는 방향으로 갈 수 밖에 없습니다.
      하지만 플래그쉽만을 위한 커스텀 아키텍처는 얘기가 다르지요.
      전력효율보다 절대성능이고 CPU의 경우 싱글, 멀티 스레드 성능 다 잡아야됩니다.
      필요이상으로 A53 코어 늘려서 멀티 점수 올리는건 플래그쉽에서는 의미없는 짓에 그칠겁니다.

  5. addr | edit/del | reply ㅁㄴㄹㅎ 2016.06.04 10:22

    저같은경우 갤7의 부스트클럭같이 전력효율성을 낮추는게싫어서 절전모드로 사용하는데 삼성이 갤7절전모드는 세분화해놓지않고 절전모드 가동하면 성능제한+에 아예 여러가지 백그라운드제한(토렌트백그라운드사용불가)에 밝기제한등 여러가지 제한을 걸어놨더군요 예전처럼 cpu성능만 제한할수있게 선택가능하면 좋을텐데요 그리고 전력표를보니까 10nm공정은 이전의 28nm 20nm차이처럼 전력소모,성능향상이 크지않나보네요 14nm 16nm은 finfet덕분에 차이가 큰게맞던거같구요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.04 10:34 신고

      10FF 성능은 본문에 썼듯이 판단하기 이릅니다.
      삼성에서 발표한 내용이나 Mali-G71 성능 얘기로 봐서는 삼성이든 TSMC든 10nm 공정 성능향상이 10% 수준에 머물지는 않을거 같습니다.

  6. addr | edit/del | reply BlogIcon A TNT 2016.06.04 16:31

    10ff에 대해 더 검색해 보니 TSMC 측에서는 10FF가 16FF+ 대비 20%의 클럭 상승이나 40%의 전력소모 감소를 이룰 수 있다고 하더군요. http://community.cadence.com/cadence_blogs_8/b/ii/archive/2015/04/14/tsmc-symposium-10nm-is-ready-for-design-starts-at-this-moment 이 링크를 참조해 봐도 될거 같습니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.04 19:44 신고

      A57 테스트칩 결과라니까 그래도 이전에 비해서는 믿을만할지도?

    • addr | edit/del BlogIcon 응흠? 2016.06.06 19:40

      16FFLL+ 대비 면적 2.1배, 속도향상 11~12%or 전력소모 30% 감소라 봤는데 16FF+ 랑 16FFLL+ 하고 다른 것인가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.07 07:07 신고

      본문에도 있지만 11~12%는 성능이라고 했지 클럭을 얘기하는게 아닙니다.
      보면 10FF 클럭이 16FF+ 보다 오히려 낮지요.
      같은 아키텍처끼리 비교도 아니라서 공정 성능을 그대로 보여주는 것도 아니고요.
      일반적으로 공정 speed gain을 얘기할 때 performance 몇% 라는 식으로 표현해서 performance = clock freq 로 이해하면 되는데 이 자료는 그렇게 해석하면 안 될 것 같습니다.

    • addr | edit/del BlogIcon 응흠? 2016.06.07 17:58

      아 그렇군요 ㅎㅎ 답변 감사합니다

  7. addr | edit/del | reply 2016.06.07 17:58

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.08 09:08 신고

      시나리오 한 번 써볼까요.

      821의 존재를 인정하면 가능성이 높은건 두 가지 경우일겁니다.
      1. 821 = 820의 클럭업 버전, 823 = 기본 사양은 820과 같고 GPU 등 일부 사양 변경.
      이 경우의 근거는 스냅800의 사례입니다.
      801은 800의 클럭업 버전이었고, 805는 GPU 등 사양이 바뀌었지요.

      2. 821 = 820 에서 사양 변경된 버전, 823 = 821의 클럭업 버전.
      (억지스러울수도 있겠지만 801 -> 805 의 차이에 비해 820 -> 823 차이는 상대적으로 작게 느껴지지요.)

      로드맵을 보면 본래 821은 없었지요.
      823 = msm8996pro 만 있었습니다.
      스냅의 네이밍 정책이 바뀌면서 오래된 얘기가 됐습니다만 pro가 붙은건 스냅s4 시절에 있었습니다.
      msm8960과 S4 pro라고 불린 msm8960T.
      msm8960T는 GPU가 a225에서 a320으로 변경됐습니다.
      이걸보면 스냅823이 gpu 변경 등 사양 변경 버전인건 거의 확실해보입니다.
      결국 네이밍으로 봤을 때, 스냅821이 스냅820에 가깝냐 스냅823에 가깝냐는게 스냅821의 성격을 결정하는 관건이 될겁니다.
      이미 로드맵 자료나 정황을 봐서는 스냅821은 기존에 계획에 없다가 추가된 상황이고,
      예전에 말씀하신 공정 내용까지 추가해보면, 마지막에 쓰신대로 결론이 날 수 밖에 없을듯 합니다.
      2번 처럼 봐야될거 같습니다.
      기존 로드맵에 823이 3분기로 잡혀있었지만 이렇게되면 821이 3분기, 823은 내년으로 맞춰지겠고요.
      추가로 상상해볼 수 영역은 왜 저렇게 나눠서 가게 됐는가 하는 점이겠고요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.08 15:37 신고

      근데 젠폰3 정보봐서는 821 = 820 클럭업 이네요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.08 16:30 신고

      정리해보면.....
      823은 3분기에서 15년말~16년초(늦어도 1월?)로 지연.
      그 사이 820 클럭업 버전인 821로 땜빵침.
      823이 저거보다 늦어지면 내년 2분기초에 나올 10nm 엑시노스(정황상 가능성 높음)를 14nm 823으로 대응해야되는 상황이 발생.
      이라는게 대충 낼 수 있는 결론이고,

      공정 얘기를 포함하면 이렇게도 될듯 합니다.
      3분기에 스냅821, 저클럭 스냅823 동시에 나옴.
      823은 일부 업체에만 선공급.
      내년에는 15년말~16년초(늦어도 1월?) 정클럭 823 출시.

      삽질 한 번 하니까 정정하려고 말이 길어지네요.

    • addr | edit/del BlogIcon A TNT 2016.06.08 18:10

      16년 1월 지난지 5개월째인데 스냅 823 구경도 못했네요

  8. addr | edit/del | reply cherry 2016.06.12 15:46

    감마님 궁금한게 있는데요

    체리트레일 z8700의 안드로이드 긱벤치3 결과가 너무 낮습니다 ( a15 쿼드코어 테그라 k1 수준 )
    대략 롤리팝 5.1.1 기준으로 멀티 3300점대 나오네요 (64비트)

    엑시노스 7420 8890 스냅 820과는 차이가 큰데 긱벤치3 멀티점수는 빅 + 리틀 코어 전부 돌아가나요???
    그럼 대략 7420 ( a57 )기준으로 리틀코어 점수를빼면 어느정도일까요???
    a57 = 체리트레일 성능 이라고 본 것 같은데
    긱벤치 멀티 자료보면 테그라 k1수준이니 a15 = 체리트레일 성능이라서요

    종합적인 성능은 a57 쿼드 + mali t760mp6수준이니
    엑시노스 7420과 동급으로 보면 되는건가요???

    acer 프레데터 8 태블릿 특가로 구매후 궁금해서 덧글 드렸습니다~
    언제나 좋은 자료 감사합니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.06.12 17:54 신고

      긱벤치에서 x86 점수가 원래 낮게 나옵니다.
      같은 명령어 그룹끼리 비교하는게 의미가 있지 다른 그룹끼리는 비교가 잘 안 맞습니다.

      다른 벤치마크 종합한거보면,
      http://gamma0burst.tistory.com/875
      동클럭에서 실버몬트 듀얼 = A15 쿼드, 실버몬트 싱글 = A57 싱글 정도로 매칭됩니다. (정확히 같다는건 아니고 대충 비슷한 수준.)

      단순비교하면,
      엑시노스7420 A57 쿼드 2.1GHz이고, Z8700이 실버몬트 1.6GHz~2.4GHz이니 비슷한 수준이고,
      GPU는 T760MP8 대비 20% 정도 떨어집니다.

      긱벤치 멀티점수는 현 시점에서는 대부분 리틀코어 점수도 포함하는데 앞에서 말했듯이 다른 명령어 아키텍처 간에 비교에는 적합하지 않아서 빅코어만의 점수를 계산해보는건 별 의미가 없을거 같네요.