- 넥서스9이 발표됐습니다.

테그라K1 탑재인데 기존의 Cortex-A15 코어가 아닌 엔비디아 ARMv8 기반 커스텀인 덴버(Denver) 코어입니다.

대략적인 내용은 테그라K1 발표 당시 포스팅 참고.

(링크 : Nvidia Tegra K1 정보/분석.)

 

 

- 시스템 정보

긱벤치3 결과도 올라왔습니다.

링크 : http://browser.primatelabs.com/geekbench3/1037443

 

 

 

CPU는 듀얼코어, 클럭은 2.5GHz

램 2GB

 

안드로이드 5.0인데 왜 인지 AArch32로 테스트됐습니다.

구글 홈페이지에서는 2.3GHz 하는데 여기서는 2.5GHz로 나오는 것도 의문.

(링크 : http://www.google.com/nexus/9/)

일견 생각해볼 수 있는게 싱글로드에 클럭 올리는건데 이건 어디까지나 추측이니 일단 2.5GHz라고 생각해야할듯.

 

Flonder라고 나오는데 넥서스 시리즈 코드네임은 전통적으로 물고기 이름이었습니다.

넥서스9가 맞는듯 합니다.

 

넥서스 one : Mahimahi - 만새기

넥서스 S : Herring - 청어

갤럭시 넥서스 : Tuna - 참다랑어

넥서스 4 : Mako - 청상아리

넥서스 5 : Hammerhead - 귀상어

넥서스 6 : Shamu - 범고래 (시월드 올랜도 범고래쇼 이름인듯?)

넥서스 7 : Grouper - 농어과 물고기. 석반어라고도 하는듯.

넥서스 7 2013 : Flo, Deb - ??

넥서스10 : Manta - 가오리

넥서스 9 : Flounder - 도다리, 가자미

 

 

- 결과 분석.

테그라K1 Cortex-A15 : http://browser.primatelabs.com/geekbench3/907462 등

테그라K1 Denver : http://browser.primatelabs.com/geekbench3/1014854 등

엑시노스5433 : http://browser.primatelabs.com/geekbench3/878432 등

애플 A8 : http://browser.primatelabs.com/geekbench3/831873 등

 

Update 14.11.01 긱벤치3 결과 갱신으로 결과 분석 수정.

 

1. 정수 점수

동클럭 비교입니다.

 

 

A15 대비 +84% +102%

이건 굳이 설명할 필요가 없습니다. 다 높습니다.

동클럭 정수성능이 A15의 두 배입니다.

 

A57 대비 +20% +32%

일부 항목에서 매우 높게 나오고, 그 외 항목들도 전반적으로 높게 나옵니다.

 

Cyclone 대비 -15% -6%

빨간색으로 명암처리된 세 항목에서만 앞서고 나머지 항목에서는 모두 밀립니다.

앞선 부분의 힘으로 10% 이하의 차이를 보입니다. 이 정도면 동급이지요.

 

 

2. 부동소수점 점수

동클럭 비교입니다.

 

 

A15 대비 동급

특정항목은 크게 올랐지만(빨간색) 그 외에서는 비슷하거나 오히려 떨어졌습니다.

A57 사례를 봤을 때 AArch64 적용시 성능이 올라갈 가능성이 높지만, AArch32에서도 A15대비 10%이상 높은 결과를 보였던 A57에 비하면 실망스러운 결과.

 

A57 대비 -15%

세부 항목별 편차가 심합니다.

종합적으로 15% 정도 떨어지는 결과.

 

Cyclone 대비 -59%

전 영역에서 다 떨어집니다.

 

 

3. 동클럭 성능 비교.

 

 

정수 : A57과 Cyclone 사이. Cyclone과 동급.

부동소수점 : A15와 동급.

메모리 : 매우 높음.

 

 

4. 최종점수 비교.

동클럭성능 따져봤자 결국 중요한건 최종사양에서의 성능.

 

 

정수 싱글 : Cyclone급의 동클럭성능에 2.5GHz라는 고클럭까지 얹으니 현존 싱글성능 TOP.

정수 멀티 : 듀얼코어임에도 코어당 정수성능이 높아서 A15 테그라K1 보다도 높은 결과.

부동소수점 싱글 : A15 테그라K1, 엑시노스5433 대비 +10% 정도.

부동소수점 멀티 : 듀얼코어라는 한계로 인해 비교군 중 최하위. 심지어 A15 테그라K1보다 낮음.

메모리 : 매우 높음.

총점 : 메모리 점수가 높지만 듀얼코어라는 한계를 극복하기에는 부족. 그래도 A15 테그라K1 수준.

 

 

- 정리

Denver 기반 테그라K1

28nm 듀얼코어 2.5GHz

이번에 나온 테스트 결과를 AArch32 이지만, 테그라K1 발표당시 공개한 슬라이드를 보면 안드로이드4.4에서 AArch64로 동작하는 것으로 나와있어서 AArch64 지원에는 문제가 없는 것으로 보임.

 

1. 정수

동클럭성능은 A57과 Cyclone 사이. Cyclone급.

Cyclone급이라는 현존 최고 수준의 동클럭 성능에 2.5GHz라는 고클럭의 힘까지 더해져 타제품을 압도. 듀얼코어라는 한계에도 불구하고 멀티코어에서는 A15 테그라K1 수준.

 

2. 부동소수점

동클럭성능은 A15와 동급.

싱글성능이 이러니 멀티코어 성능은 쿼드코어인 A15 테그라K1에도 턱없이 못 미치는 수준.

타제품과의 비교는 더 볼 것도 없음.

 

3. 메모리

타제품을 압도하는 수준.

테그라K1 발표시 공개한 메모리 대역폭은 17GB/s로 비교군과 거의 차이가 없음.

그럼에도 저런 성능 차이가 난다는건,

메모리가 PoP이 아니어서 발열문제에서 자유롭거나, 메모리 인터페이스 자체가 뛰어나기때문일 가능성이 있을듯.

 

4. 사견

싱글코어 성능은 높지만 듀얼코어라는 한계가 명확합니다.

물론 이는 28nm 공정에서의 한계겠고요.

그래도 싱글 성능이 워낙 좋고, GPU 성능도 좋으니 그걸 위안거리 삼아야할듯.

못든걸 취하고 싶으면 최소 20nm로 넘어가야할텐데 카파는 죄다 애플과 삼성이 잡아먹고 있으니 비집고 들어갈 틈이 한동안 그럴 일은 없을듯.

저 정도 사양과 소비전력이면 스마트폰에도 못 들어가는데 넥서스에라도 들어간건 다행입니다.

잘못됐으면 제품 구경도 못 할뻔 했으니.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 30

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon ㅁㄴㅇㄹ 2014.10.19 17:29

    공정이 24나노라도 됬으면 어땠을까요?
    부동소수점 성능이 심히 골룸하네요... 엔비디아가 강조하는게 게이밍성능일텐데 부동소수점이 저러면;;

    • addr | edit/del BlogIcon ㅁㄴㅇㄹ 2014.10.19 17:37

      그리고 코드명 flo, deb는 픽사의 카와 니모를찾아서에 나온 등장인물명을 따온것 같네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.10.19 19:47 신고

      24나노공정은 없으니까요.

      어차피 게이밍 성능은 GPU가 알아서하니 CPU FP 성능으로 게이밍 성능 걱정할 필요는 없습니다.

      코드명은 진짜 그렇네요.
      니모를 찾아서에 나온 캐릭터였다니;;
      저게 각각 WiFi판, LTE판 코드명인데 마침 또 성우가 같은거봐서 맞는듯.

  2. addr | edit/del | reply 지나가던폰덕 2014.10.19 18:39

    오오 드디어 나왔군요!!

    이렇게 보니까 뭔가 엑시노스 5433(7 옥타 1세대)가 조금 낮아 보인다는 느낌을 받습니다. 허허ㅋㅋㅋㅋㅋㅋ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.10.19 19:48 신고

      대신 멀티코어를 얻었으니까요.
      아무래도 ARMv8 부터는 커스텀 코어없이는 경쟁이 힘들어질듯 합니다.

  3. addr | edit/del | reply BlogIcon 성당기사단장 2014.10.20 15:55

    기존 k1대비 전력소모가 어느정도 될까요?

  4. addr | edit/del | reply Favicon of http://heartinpiece.tistory.com BlogIcon Heartinpiece 2014.10.27 00:41 신고

    혹시, 듀얼코어인 것과(멀티코어 점수) 28nm간에 어떤 관계가 있나요?
    1900 * 2 = 3800 정도 나와야되는데, 그게 3200정도밖에 안나와서 그런 말씀을 하신건가요?

    그리고 20nm에서는 이부분이 개선될수 있는것인가요?
    듀얼코어로 돌릴때는 두 코어 다 2.5GHz로 못돌린 탓에 점수가 떨어진 것이겠죠?

    메모리 밴드위스는, GPU를 고려해서 넓게 만들어 놓은게 긱벤치에서도 빛을 받은게 아닐까요? ㅎㅎ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.10.27 16:47 신고

      -
      총점에서는 멀티코어 점수가 싱글코어 점수의 코어수 배로 나올 수가 없습니다.
      총점은 정수+부동소수점+메모리 점수의 합인데 메모리 점수는 멀티코어라고해서 코어수에 비례해 나오지 않기때문입니다.
      따라서 멀티코어 점수가 코어수에 비례해서 나오지 않은건 공정이나 클럭과는 무관한, 당연한 결과입니다.

      -
      메모리 대역폭 사양은 타제품과 비교하면 비슷한 수준입니다.
      특이한건 그런데도 불구하고 타제품에 비해 메모리 점수가 월등히 높게나왔다는거고요.

      -
      28nm와 듀얼코어의 연관성은 이런겁니다.
      1. 성능과 소비전력은 비례한다고 보면 됩니다.
      2. 제품의 소비전력은 스마트폰이나 태블릿같은 탑재 제품의 방열성능에 의해 제한받습니다.
      3. 다이사이즈와 소비전력은 대체적으로 비례합니다. (선형비례는 아닙니다.)
      4. 고성능 코어의 다이사이즈는 대체적으로 저성능 코어보다 큽니다.

      이 내용들을 종합하면 이런 결론을 낼 수 있습니다.
      1. 특정 공정에서 만들 수 있는 다이사이즈는 제한된다.
      2. 특정 공정에서 낼 수 있는 최대성능은 한계가 있다.

      이 최대성능을 구현하는 방법은 크게 두가지입니다.
      코어당성능을 낮추고 코어수를 늘리든가, 코어당성능을 늘리고 코어수를 줄이든가.
      소비전력, 다이사이즈 측면에서 높은 코어성능과 많은 코어수를 모두 취하는건 불가능합니다.
      덴버코어와 사이클론 코어는 이 중 후자의 방법을 선택했습니다.
      그래서 듀얼코어에 그친겁니다.
      Cortex-A57은 후자의 방법을 선택했지요.

  5. addr | edit/del | reply 2014.11.01 18:57

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.11.01 21:13 신고

      -
      노트4 커널을 봤는데 기존 내용과 별 차이가 없습니다.
      커널 내용으로 사양특정하기는 힘들듯 합니다.
      최근 올라오는거보면 건질게 별로 없는데, 이게 그냥 우연인지 몇번 까발려버려서 검열들어간건지 모르겠네요.
      롤리팝 적용되고 나서 다시봐야할듯 합니다.

      -
      최종사양은 저도 아직 모릅니다.
      그 쪽이랑 제가 직접적인 접점이 있는게 아니라서요.
      정확히는 모르겠지만 무지하게 굴리고 있는거 같긴한데 그게 어느정도 성과를 내느냐에 따라 사양이 정해질듯 합니다.

  6. addr | edit/del | reply BlogIcon ㅇㅂㅇ 2014.11.02 00:16

    크롬북에 들어가면 딱이겠군요

  7. addr | edit/del | reply BlogIcon Seagate 2014.11.02 00:38

    엑시노스5433이 싱글코어에서는 좀 뒤쳐진감이 없잖아 있군요;;;

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.11.02 10:54 신고

      자체 커스텀 코어가 아직 없는게 가장 큰 이유겠지만, 결과적으로 보면 A57은 멀티코어를 위해 싱글코어 성능을 버린거고, cyclone이나 denver는 코어수를 포기하고 싱글코어 성능을 선택한거지요.
      공정이 2단계 이상 앞서지 않는 이상 둘 다 얻을수는 없습니다.

  8. addr | edit/del | reply Favicon of http://ㄴ BlogIcon ㅋㅋㅋ 2014.11.03 10:07

    그럼 최종성능은 5433 k1어떤것이 더 좋나요?

  9. addr | edit/del | reply Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2014.11.04 13:43 신고

    잉헬 파운드리의 22nm 카파는 여유가 널럴하다고 들었는데 차라리 그쪽에 비벼보지 싶어서 아쉽긴 합니다.

  10. addr | edit/del | reply BlogIcon 정수 부동소수점 2014.12.27 22:32

    정수연산 부동소수점 연산 성능은 각각 어떨때 쓰이는지 알수 있을까요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.12.28 17:42 신고

      CPU에 있어서 정수연산이 메인이고요, 부동소수점은 게임, 인코딩, 물리엔진 등에서 씁니다.

  11. addr | edit/del | reply Maleficar 2014.12.30 19:08

    덴버는 폭망한 Transmeta Crusoe/Efficeon의 효용성이 의심스러운, 실패작으로 검증 된 기술을 계승한 것입니다.
    즉, ARM 코드가 네이티브로 구동되는 것이 아니라 에뮬레이션을 거치게 되는데, 병렬처리에 특화된 네이티브 유닛의 특성상 짧고 반복적이며 메모리 사용량이 낮은 루틴은 빠르게 구동되는 반면 if문이 많고 예측 불가하며 다소 많은 용량의 메모리가 사용되는 경우 어마어마하게 느려집니다. 무엇보다도 별도의 VFP/NEON 로직 없이 에뮬레이터에 의존하기에 이에 최적화 된 앱들은 대단히 느리게 구동됩니다.

    따라서 단순한 벤치마크 점수가 실제 성능으로 이어지지 않는 구조이며, 넥서스9이 실사용시 유달리 굼뜬 이유입니다.
    if문의 연속인 Sunspider 점수가 실제 성능에 가장 근접한데 여기서 A8x대비 3분의 1정도밖에 나오지 않습니다.

    더군다나 반복성 벤치마크를 속이기 대단히 쉬운 구조이기에 높은 점수를 믿을 수 없습니다. 벤치마크로 인식되는 순간 (연산 결과값이 그냥 버려지는 것을 감지) 에뮬레이터 차원에서 중간과정을 모조리 생략해 버리는게 가능하기 때문인데, 이는 Transmeta가 사용하다가 적발 된 사례가 있고, nVidia 또한 3DMark 치팅 선례가 있기에 상당히 의심이 갑니다.
    동일 대역폭인데 메모리 점수가 높게 나왔다는게 특히 의심스럽습니다. 벤치마크 특성상 같은 위치에 동일한 내용을 반복해서 기록하기에 에뮬레이터 차원에서 이를 한 번만 써 주는 것으로 바꾸고 너무 튀면 곤란하니 약간의 딜레이를 주도록 프로그래밍 하는 것은 너무나도 간단합니다.
    http://www.vanshardware.com/articles/2003/07/030715_Transmeta/030715_Transmeta.htm

    넥서스9 구매는 절대 비추입니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.12.31 07:53 신고

      transmeta 오랜만에 듣네요.
      구조가 GPU와 비슷하니 엔비디아 입장에서는 괜찮았을지도 모르겠네요.
      이건 뭐 추측의 영역이니 넘어가고......

      말씀하신대로 sunspider에서 떨어집니다.
      싱글스레드 반영이라고 해도 A9 수준으로 나오니 안 좋다고 해야겠지요.

      이건 시각차이겠지만 저걸 무조건 치팅으로 몰아가는건 좀 아니라고 봅니다. CMS의 특성이라고 봐야겠지요.
      결국은 이거 아닙니까.
      '긱벤치 결과로 성능을 대표할 수 없다.'
      그렇다면 뭐로 성능을 대표할 수 있을까요?
      말씀하신 sunspider는 성능을 대표할만한 벤치마크로 자격이 있을까요?
      아닐겁니다.
      단순한 반복구문에 강한 것도, 그렇지 않은데서 약한 것도 CMS 방식의 장단점인데 어느 한쪽이 대표가 된다는건 장단점 중 하나만 부각된다는거니까요.
      그렇다고 실사환경을 특정할 수 있는 것도 아니고요.

      대충 종합해보면, 상황에 따라 극과극의 성능을 보인다고 보면 될듯 하네요.

    • addr | edit/del Maleficar 2015.01.02 14:24

      말씀하신대로 단순반복 처리가 빠른 대신 그렇지 않은 구간에서 느린 것은 아키텍쳐의 특성으로 볼 수 있습니다. 하지만 그 괴리가 덴버에서는 비정상적으로 크고, 결정적으로 VFP 속도가 기대 이하입니다.

      VFP연산은 단순반복이더라도 치팅하기 쉽지 않은 것이 IEEE754 규약에 따른 확인절차를 거치기 때문이니 더욱 더 의심이 가는 부분이고 (NaN, Subnormal numbers, rounding model), 특히 제가 구동 해 본 NEON 테스트 루틴의 속도측정치가 애플 A7 4분의 1정도밖에 나오지 않습니다.

      무엇보다도 실사용시 체감되는 속도가 넥서스9에서 대단히 떨어집니다.

      백 번 양보해서 설사 치팅을 하지 않았다 하더라도 좋은 칩이라 하기 힘든 것이, 객체지향에서 수시로 발생하는 인스턴스 생성/소멸 등 사용자 입력에 반응하는 파트에서 극도로 취약하고, 그 대신 대량 데이터 반복연산에 강하다 하더라도 이런 종류의 프레임웍 루틴 대부분은 칩/폰 제조사에서 전력소모 감소 차원에서라도 GPU나 DSP, 혹은 NEON으로 돌리는 경우가 다반사기에 실사용시 UX관점에서 메리트가 전혀 없습니다.

      특히 NEON을 사용한 루틴이 느린 것은 상당히 치명적입니다.

      이렇게 잠재적인 문제가 많고 ARMv8과 특성이 동떨어진 에뮬레이터 구조의 칩을 레퍼런스 모델에 채택 한 구글의 판단은 부적절하다 생각합니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.01.02 20:01 신고

      구글이 성능으로 칩을 선정하지는 않았을테니까요.

      성능부분은 말씀하신대로 한계가 극명한데, 엔비디아 입장에서는 나름 자신있는 부분을 선택했다고 봐야할겁니다.
      구조가 GPU와 유사하니까 조금이라도 도움이 됐을듯.

      NEON을 비롯한 FP성능은 에뮬레이팅하는 순간 경쟁력이 확 떨어진다는건 기존 테그라2나, ios와 안드로이드의 성능 비교 등에서 이미 나타난 부분이니 떨어지는게 맞겠지요.

      시각 차이겠지만 FP성능 떨어지거나 아키텍처적인 부분이 문제점이라고 보지는 않습니다.
      스냅805가 엑시노스5433보다 CPU 성능 떨어진다고 문제제품이라고 하지 않듯이, 그냥 성능이 낮은거라고 봅니다.
      애초에 28nm를 선택하고 그에따라 듀얼코어가 된 순간 경쟁력을 잃었습니다. GPU 성능으로 체면치레하는 수준이었지요.
      FP 연산 비중을 생각하면 정수성능만으로 본전치기는 되는거 같기도 하고요.

  12. addr | edit/del | reply BlogIcon ㅇㅇ 2015.03.08 20:39

    부동소수점 성능이 낮은만큼 게이밍에서 손해가 있을까요?(CPU의 부동소수점 성능도 게임에 영향을 미치나요) 아니면 GPU쪽에서 모두 담당하는 부분일까요.

    만악 그렇다면 CPU에서 부동소수점 성능은 아주 낮아도 되는것 아닐까요? 이쪽에 대해서는 잘 모릅니다

    • addr | edit/del BlogIcon ㅇㅇ 2015.03.08 23:35

      음.. 그리고 실제 게임 중에
      FPS가 수직동기화 한계까지 못 도달해서 버벅임이 있는데도 CPU와 GPU 클럭이 최대로 돌아가고 있지 않으면 게임의 최적화가 잘못되었다고 판단해도 되겠지요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.09 15:24 신고

      긱벤치나 sunspider 기준으로보면 A15급은 나오기때문에 부동소수점 성능때문에 게이밍 성능에 문제가 생기지는 않을듯 합니다.

      모바일 기기에서 수직동기화 프레임까지 도달하지 못 했는데 CPU, GPU 클럭이 최대가 아닌거면 발열에 의한 쓰로틀링 상태라고 보는게 일반적입니다.
      발열이 적절히 해소되지 않기때문에 더 이상 클럭을 올릴 수 없는 상황인거지요.

    • addr | edit/del ㅇㅇ 2015.03.10 00:16

      말 하려다가 깜빡한게 있는데
      스로틀링은 완전히 해제한 상태였습니다
      CPU의 부동소수점 성능도 게이밍에 영향을 미치긴 미치나 보군요?
      GPU에서 처리하는 부동소수점 연산과는 다른 부분을 처리하겠죠?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.10 16:48 신고

      게임에서 정수, 부동소수점 둘 다 씁니다.
      쓴다해도 AI, 로직, 물리엔진같은걸 처리해서 이론적으로 그래픽 연산과 독립되어있습니다만, CPU가 제 때 필요한 연산을 못 해주면(=병목현상이 일어나면) GPU가 제 성능을 다 못 내겠지요.
      CPU와 GPU 조합이 자유로운 PC라면 모를까 모든게 결정되어 나오는 AP에서는 CPU 성능 저하로 인한 게임성능 저하는 잘 안 나올듯 합니다.
      그런 경우가 있다면 말 그대로 하드웨어나 게임에 문제가 있다고 봐야겠고요.

      말씀하신 현상은 지금 내용만 봐서는 모르겠네요.
      게임 최적화 문제부터해서,
      진짜 제대로 쓰로틀링이 해제됐는지,
      하드웨어 차원에서 쓰로틀링 설정이 별개로 있는지도 모르겠고요.