- 삼성의 커스텀 코어로 알려진 몽구스(Mongoose)에 대한 찌라시가 나왔습니다.

지금 성능 얘기가 흘러나올정도면 몇 년 전부터 시작했을테고, 코드네임은 그당시 경쟁사 제품을 의식했겠지요.

퀄컴의 CPU 아키텍처가 Krait인데 이게 독사거든요.

스냅 씹어먹겠다는 의지로 몽구스라고 지었나봅니다.

 

 

- 찌라시 내용

(그냥 내용만 올리니까 왠지 출처가 저인것처럼 보일까봐 이제는 이런 식으로 캡쳐를 올릴까 합니다. 제가 찌라시라고 올리는건 커뮤니티 돌면서 주은 내용들이고 신뢰도가 불분명하다고 보기때문에 찌라시라고 얘기하는겁니다. 저렇게 해놔도 누가 올리는건지는 알만한 분들은 다들 아시겠지요.)

2.3GHz

긱벤치3 싱글 점수 2240점

 

 

- 분석1

일단 ARMv8 명령어 기반 커스텀 아키텍처인게 거의 확실할겁니다.

 

긱벤치 점수 구성을 보면,

긱벤치 총점 = 정수점수 x0.4 + 부동소수점점수 x0.4 + 메모리점수 x0.2

 

정수, 부동소수점 클럭당점수를 알기위해서는 메모리 점수를 빼고 계산해야 합니다.

그런데 여기서는 그걸위한 정보가 아무 것도 없습니다.

가정을 해야겠지요.

 

Cortex-A72와 메모리 인터페이스 성능이 같다고 가정하겠습니다.

커스텀이니 최소 A72급은 되겠지요.

자체 IP를 쓸지도 모르겠지만 거기까지가면 분석이고 뭐고 아무 것도 못 하니 이 정도로 가정.

 

MT8173 긱벤치3 결과를 보면 17.1GB/s에서 싱글 1873점 나옵니다.

(링크 : http://browser.primatelabs.com/geekbench3/2114001)

같은 사양의 A57 보다 +41% 높은 결과로 보이지만, 이건 A57 MT8173 결과가 낮게 나왔기때문인 것 같고,

엑시노스7420 결과로 유추해보면 +21% 높은 수준.

(링크 : http://browser.primatelabs.com/geekbench3/1656634)

 

대역폭이 12.8GB/s -> 25.6GB/s 에서 긱벤치 메모리 점수 +30%

몽구스가 들어간 제품의 현재 테스트 조건이라면 LPDDR4 25.6GB/s 일 확률이 높음.

17.1GB/s -> 25.6GB/s 라면 선형적으로 가정했을 때 메모리 점수 +13%

1873점 x 1.13 = 2117점

 

총점 중 메모리 점수는 2117 x0.2 = 423점

총점 2240점 중 정수/부동소수점 점수는 2240 - 432 = 1808

 

 

- 분석2

변환 전 정수/부동소수점 점수는 1808 / 0.4 = 4541점

2.3GHz 클럭으로 나눠보면 4541 / 2.3 = 1974점/GHz

정수/부동소수점 합의 클럭당점수는 1974점/GHz

 

엑시노스7420 2.1GHz

정수 : 1808

부동소수점 : 1280

3088 / 2.1 = 1470점/GHz

 

애플 A8X 1.5GHz

정수 : 1836

부동소수점 : 1700

3536 / 1.5 = 2357점/GHz

 

엔비디아 덴버 코어처럼 극단적으로 정수 성능만 높은 경우도 있으니 정수/부동소수점 점수를 합쳐서 단순 비교할 수는 없지만 지금 정보량에서 둘의 점수를 분리해낼 수 없으니......

단순히 클럭당점수만 비교하면,

애플 사이클론 대비 84% 수준.

Cortex-A57 대비 134% 수준.

(사이클론이 싱글코어 성능에 얼마나 투자를 했는지 보여줍니다.)

 

이걸로는 Specint 성능이나 Dhrystone 성능을 유추할 수 없겠네요.

 

MT8173 결과로 추정해보면 긱벤치에서 Cortex-A72는 A57 대비 동클럭점수가 8% 정도 높은 것로 추정됩니다.

(자세한건 좀 더 정보가 쌓이고 확실해졌을 때 다룰 예정.)

그렇다면 몽구스는 A72 대비 상당한 성능 향상이 있다는게 됩니다.

간단히 계산해봐도 +30% 가까이 높습니다.

 

 

- 분석3

클럭이 2.3GHz 정도로 잡힌다면 공정은 14nm인듯 합니다.

클럭도 그렇고, 벌써 테스트 가능한 10nm 샘플이 나올거라 보기 힘드니.

 

코어는 최소 쿼드코어인듯 합니다.

싱글 2200점대에 듀얼코어이면 멀티점수가 잘 해야 5000점 후반대일텐데,

엑시노스7420이 이미 5600점 수준이고 거기서 클럭을 조금만 올려도 가볍게 6000점 넘어섭니다.

커스텀까지 한 코어로 A57만도 못한 벤치마크라는건 용납하기 힘들겠지요.

 

커스텀 코어가 쿼드면 빅리틀을 선택할 가능성이 높습니다.

가장 생각하기 쉬운게 몽구스 쿼드 + A53 쿼드

 

스냅800처럼 몽구스 쿼드 구조도 생각해볼 수 있을텐데, 아무래도 가능성이 낮아보입니다.

비교 대상인 A15보다 절대성능은 낮지만 적당한 성능과 전력을 선택한 크레이트와 달리, 몽구스는 A57보다 더 높은 성능을 선택했으니 아무리 클럭을 낮춰도 아이들 전력에서 한계가 있을겁니다.

싸이클론처럼 클럭이 낮은 것도 아니고요.

 

스냅드래곤820에 들어간다는 Kyro 아키텍처와의 비교도 기대됩니다.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 47

댓글을 달아 주세요

  1. addr | edit/del | reply qwerty 2015.03.21 22:57

    삼성이 아마 퀄컴의 커스텀은 못따라갈것같습니다

    krait가 a15기반임애도 불구하고 a15이상혹은 그정도의 성능을 보여줄만큼 깡패였던걸 생각하면 삼성이

    첫제품에 그정도 포텐셜을 터트려줄지는 모르겠습니다

    그리고 커스텀코어인대 빅리틀할만큼 다이사이즈가 줄어들 수 있을까요?

    • addr | edit/del 흡혈귀왕 2015.03.21 23:05

      크레이트는 A15 기반이 아닙니다.
      그리고 실제 동클럭 기준에선 오히려 A15가
      크레이트 코어보다 뛰어납니다;

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.21 23:26 신고

      크레이트는 전성비가 좋았던거지 절대 성능이 좋았던게 아닙니다.
      A15 커스텀도 아니고요.

      코어 사이즈가 커질수록 빅리틀은 더더욱 필요해지지요.
      커진만큼 늘어날 소비전력을 어떻게 감당할겁니까.

  2. addr | edit/del | reply BlogIcon 2015.03.21 23:33

    드디어 삼성이 뭔가를 보여주는군요!

  3. addr | edit/del | reply 흡혈귀왕 2015.03.21 23:44

    코어도 코어지만 GPU도 굉장히 기대중입니다.
    예전부터 루머로 있던 비반테의 GPU를 커스텀하게될지

    여전히 Mali를 쓰게될지...
    리틀코어도 커스텀해서 빅코어 몽구스 + 리틀코어 라텔

    하면은 왠만한 파충류는 씹어먹을수있는 독종 포유류 조합이 될듯하네요ㅎㅎㅎ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.21 23:43 신고

      삼성이 굳이 리틀코어까지 커스텀할까요.
      (라텔 얘기는 또 어떻게 나온건지 ㅋ)

      GPU도 아직까지 별 얘기가 없는걸보면 시간이 좀 더 필요할 것 같네요.

    • addr | edit/del 흡혈귀왕 2015.03.21 23:47

      아~ 라텔은 그냥 가정으로 쓴거입니다~ㅎㅎ

      빅코어가 몽구스이니
      리틀코어도 커스텀하면 라텔이란 코드네임이
      어울릴거 같아서요~ㅎㅎ

      말씀하신거처럼 굳이 리틀코어까진
      커스텀 할 필요없을듯하네요 A53 자체도
      이미 충분한 성능에 공정 미세화로 전력이점이 있는데다
      지속 리비전 될테니깐요


      GPU는 말씀하신거처럼 역시 좀더 기다려야되겠죠?ㅎ
      뭐 저도 익숙한 Mali 달리는게 더 마음에들듯하네요

      이번 크로노스의 차기 GL Next인 Vulkan 개발에
      ARM이 상단 부분 참여했다고해서 지원도 문제없을듯하구요
      (현재 프로토타입 드라이버가 Mali-T760에서 동작중이라네요)

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 00:05 신고

      GPU 성능은 내년 경쟁사 제품 상황봐가면서 조정할 것 같네요.
      7420이 그랬듯이...

  4. addr | edit/del | reply BlogIcon 2015.03.21 23:54

    'samsung은 설계능력이 없다!' 라고 외치던 양반들에게 빅엿을 선사할지 ㅎ...
    2016년은 pc던 모바일이던 재미있는 상황이 펼쳐질것 같네요

  5. addr | edit/del | reply Favicon of https://random-ad.tistory.com BlogIcon JordanK 2015.03.22 00:10 신고

    #1 실 탑재 제품은 언제쯤 나오려나요. 올해 말은 무리일려나... #2 이제 '엑시노스는 레퍼코어 설계 그대로 찍어내기만 한거 뿐인데 무슨 설계...' 이따위 소리는 못하겠군요. 뭐 답정까라면 어떻게든 GR하겠지만.

    • addr | edit/del Favicon of https://random-ad.tistory.com BlogIcon JordanK 2015.03.22 00:11 신고

      #3 과연 퀄컴의 운명은...? 810의 똥망을 딛고 일어서서 과거 Krait의 영광을 재현할 수 있을 것인가?! (뭐래)

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 00:17 신고

      #1
      찌라시 나온 시점이나 성능향상 추세로 봐서는 내년 중에 나올듯 하니다.
      개발 상황이나 시장 상황 따라 달라질 수 있겠지만요.

      #2
      ㅋㅋㅋ

      #3
      Kyro가 제대로 나올 것.
      지금 맛이간 A57 기반 제품 제대로 정상화 할 것.
      즉, 하이엔드 라인업 제대로 못 돌리면 힘들어질겁니다.

    • addr | edit/del Favicon of https://random-ad.tistory.com BlogIcon JordanK 2015.03.22 00:19 신고

      근데 지금 810이 이모양 이꼴 난것에서 SW가 차지하는 비중이 있을려나요? 아니 혹시나 해서...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 00:33 신고

      그런거였으면 벌써 퀄컴에서 SW 문제라고 진화했을거 같네요.
      거의 100% 해결할 수 있는거니까요.
      그런데 대응이 저런거 봐서는 SW쪽은 아닌듯 하고요.

  6. addr | edit/del | reply 흡혈귀왕 2015.03.22 00:23

    지금 보면 엑시노스7 옥타(5433)이 얼마나 잘만든 칩셋인지
    세삼 느껴지네요.....

    퀄콤보다 먼저 상용화한 ARMv8 빅리틀 프로세서에 20nm 공정....
    UFS2.0와 LPDDR4 미지원빼면 진짜 군더더기 없는 대단한 AP...
    4K UHD H265/HEVC 30fps 영상도 재생되니..

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 00:34 신고

      퀄컴이 스냅810 문제 해결 못하고 장기화되면, 삼성보고 빅리틀 마스터라고 불러도 문제없을정도로 재평가받을듯.;;

    • addr | edit/del Favicon of https://random-ad.tistory.com BlogIcon JordanK 2015.03.22 00:43 신고

      5410 : 내 덕인줄 알아라...(?)

  7. addr | edit/del | reply 흡혈귀왕 2015.03.22 01:38

    감마님 그러고보니 이번 갤럭시S6 분해샷보니깐

    엑시노스7420에 7밴드 LTE모뎀 내장이라고 나와있던데
    이리되면 LSI 최초의 플래그쉽 모뎀+AP 원칩 칩셋이 되는걸까요?ㄷㄷㄷㄷㄷㄷㄷ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 12:02 신고

      아닐겁니다.
      자세한건 제대로 된 분해 사진나오면 그 때 의견정리해서 ㅎㅎ

  8. addr | edit/del | reply BlogIcon sammy 2015.03.22 15:20

    It is said that Samsung's own GPU will use AMD's GCN architecture, Samsung is working with AMD to jointly develop GCN2.0, and supports HSA architecture! Do you have other news?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 16:22 신고

      저 GCN 얘기가 궁금한게......

      AMD한테 라이센스받아서 쓰는거면 뭐가 자체 GPU인지?
      GCN 기반으로 커스텀하는거라면 AMD에서 아키텍처 라이센스도 허용한다는건지?

    • addr | edit/del 아무개 2015.08.22 17:42

      오래된글입니다만.. 애플도 자체 아키텍처를 사용하지만 GPU부분은 PowerVR 쪽에서 라이센스해옵니다..

  9. addr | edit/del | reply BlogIcon A TNT 2015.03.22 15:24

    몽구스 보니 계속 모 밥버거나 몽주니어드립이 생각나는...

  10. addr | edit/del | reply BlogIcon sammy 2015.03.22 17:52

    The following is a message to get my friend in Korea: On the Samsung test tablet, 2 × CPU and 4 × GPU Antutu benchmark run up to 120,000! This is the case in open HSA architecture model. If you close the HSA, score of 60,400 points. It is worth noting that it is based on GCN1.0 GPU architecture, if it is GCN2.0, simply unimaginable. Samsung has been AMD's authorization.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 22:56 신고

      삼성 태블릿
      2 x CPU, 4 x GPU
      HSA on : 안투투 120,000점 이상.
      HSA off : 안투투 60,400점.
      GCN1.0 기반으로 생각됨. GCN2.0은 아닌듯.

      다른 분들 생각은 어떤지 모르겠네요.

      첫번째 의문이, 듀얼코어 CPU, MP4 GPU로 저 점수가 나올 수 있을 것인가?
      두번째 의문이, HSA on/off 차이가 안투투에서 점수 차이 2배가 날 정도의 차이인가.

    • addr | edit/del 성당기사단장 2015.03.24 13:17

      HSA on으로 특정연산에서 말도 안되게 뻥튀기 되긴하는데...부동소수점 연산을 주로 측정하는 벤치마크가 아닌 이상 저렇게까지....흠

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.24 20:20 신고

      이런 경우라면 가능할지도 모르겠습니다.
      HSA off : CPU 병목, CPU 부하가 심하니 GPU에 할당되는 전력이 적어서 GPU 클럭이 낮음.
      HSA on : 오버헤드 감소로 CPU 병목 해소, GPU가 제 성능을 최대로 내고 추가로 CPU 사용 전력이 줄어서 GPU 클럭을 올릴 여지가 생겨 GPU 성능이 높아짐.

      이론상 불가능한건 아닌데 좀 상상하기 힘든 상황이라 어떨지 모르겠네요.

  11. addr | edit/del | reply BlogIcon 플리즈 2015.03.22 22:55

    생각보다 되게 잘 나온 것 같은데 벌써부터 망할 것 같다는 소리를 하는 사람들도 있더라고요. 정말 애플의 커스텀은 비교할 수록 기술력이 굉장히 녹아들어있는 것 같군요. 듀얼코어로도 나올까요..?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.22 23:01 신고

      망했으면 하는거겠지요.

      사이클론은 태블릿에서조차 쿼드코어를 안 쓸 정도로 싱글코어 성능에 올인한 컨셉이라서, 타 제품이 싱글성능에서 밀리는건 어쩔 수 없어보입니다.

      이후 라인업이 어떻게 진행될지 모르겠지만 듀얼코어는 나오기 힘들지 않을까 싶습니다.
      커스텀 코어면 아무래도 다이사이즈 = 원가 측면에서 꽤 높은 편일테고, 설계나 사후지원도 직접해야해서 손이 많이 갈테니, 하이엔드만 커스텀 코어로 진행하고 미드레인지 이하는 ARM 아키텍처를 활용할 것으로 예상됩니다.

  12. addr | edit/del | reply BlogIcon ㅁㅁ 2015.03.23 17:41

    최근 5420GPU성능이 팍올랏잖아요
    5430도 해당되나요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.24 00:47 신고

      이미 그 최적화가 적용된 상태입니다.
      5420 탑재 제품 중 일부가 그 최적화를 뒤늦게 받은거고요.

  13. addr | edit/del | reply Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2015.03.24 19:42 신고

    빅/리틀의 필요성 부분은 케이스바이케이스인데, 실제로 빅리틀에서 실제 사용환경에서 매우 유용한 부분은 전력컨트롤의 유연성을 극대화시켜주는건데 사이클론코어의 전례 같이 큰 코어를 유연하게 컨트롤해내는 것도 답이죠. 상당히 어렵다는게 문제고 실제로 인텔도 이런 부분에선 애를 먹고 있지만요. 아니면 Morphcore 같은 방식도 있긴 합니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.24 20:25 신고

      사이클론은 다양한 상황이 겹쳐서 괜찮은거라고 생각됩니다.

      소위 말하는 iOS의 반멀테로 인해 아이들 상황이 진짜 아이들처럼 돌아갈 수 있을 것이고,
      (안드로이드는 백그라운드 프로세스때문에 사용자가 안 쓴다고 진짜 아이들 상태에 들어가지 않지요. A9 쿼드와 빅리틀만 비교해도 사양대비 대기전력 차이가 발생할 정도니까요.)
      기본적으로 클럭이 낮아서 저전력에 맞는 설계가 적용됐을 가능성도 있습니다.
      2GHz 선까지 올라가는 다른 코어들에 비해 커버해야할 클럭 범위가 좁으니 설계 최적화가 가능할듯.

      거꾸로보면 그런 조건들을 고려했기때문에 애플이 사이클론같은 코어를 선택할 수 있었다고 볼 수도 있겠고요.

    • addr | edit/del BlogIcon ㅇㅇ 2015.03.29 02:09

      morphcore가 뭡니까?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.29 15:12 신고

      제가 완벽하게 이해한건 아닌데, workload에 따라 In-order와 out-of-order를 전환할 수 있는 것이라고 보면 될 것 같습니다.
      현재같은 SMT 구조에서 OoO는 멀티스레드 효율이 떨어집니다.
      코어수에 비례해서 throughput이 안 나오는건데, 이에 반해 In-order는 멀티스레드 효율이 좋습니다. 스레드당 성능은 낮지만요.
      이 둘의 장점을 취해서 싱글스레드, 멀티스레드 모두에서 성능과 에너지효율을 챙기겠다는게 컨셉입니다.

      최근에 인텔 스카이레이크나 AMD ZEN 관련 루머때문에 얘기가 나오네요.
      이거때문인지 몰라도 스카이레이크가 넷버스트 - 코어 급의 향상(변화)이 있을거라는 얘기까지 나오고 있는데, 실제 그럴지는 두고 볼 일.

    • addr | edit/del BlogIcon ㅇㅇ 2015.03.30 00:03

      그렇군요
      그런데 어떻게 싱글스레드에서 효율이 좋은 OoO 방식이 멀티스레드에선 비효율적인가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.30 21:27 신고

      자료 설명대로면 1코어의 peak throughput의 한계(명령어 발행 등)가 있기때문에 스레드가 늘어나도 그 이상 성능이 높아지지 않는다고 합니다.
      이건 아무래도 같은 면적, 전력 조건 하에서 비교했을 때 그렇다는 것 같습니다.
      자료에서 든 비교가 in-order는 3코어, 코어당 2스레드, 2 issue
      OoO가 1코어, 코어당 4스레드, 4 issue인데 이건 누가봐도 같은 자원을 투자한다는 조건이 붙었다고 볼 수 있는 사양 설정입니다.

      뭐 어쨌든 저런 조건에서 in-order는 싱글 peak throughput이 2op/cycle, 멀티 peak throughput이 6op/cycle
      OoO는 싱글 peak throughput이 4op/cycle, 멀티 peak throughput이 4op/cycle
      같은 자원을 투자했을 때 in-order에서 멀티스레드 성능이 잘 나오고, OoO에서 싱글스레드 성능이 잘 나온다고 본거지요.
      물론 멀티스레드 프로그램의 병렬성이 충분히 높다는 조건이 붙습니다.

  14. addr | edit/del | reply 2015.04.01 20:10

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.04.01 20:47 신고

      아마 아니겠지요.
      중저가에 들어가기에는 사치스러운 코어라서ㅋ

    • addr | edit/del 2015.04.02 16:58

      비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.04.02 22:00 신고

      설계측면에서 TV는 따로라고 봐야할듯 합니다.
      들어가기 힘들거 같습니다.
      멀티 점수가 좀 애매하긴하네요.

    • addr | edit/del 2015.04.03 15:19

      비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.04.03 18:25 신고

      이번건 이것저것 다 섞은 느낌이 강하네요.
      쓰로틀링은 테스트 조건마다 다른거라 신중하게 봐야할듯 합니다.