- 퀄컴 SDM845 GPU, Adreno630 벤치마크 결과 분석입니다.

 

- GFX벤치 결과

(링크 : https://gfxbench.com/device.jsp?benchmark=gfx40&os=Android&api=gl&D=Samsung+Galaxy+S9%2B+%28Adreno+630%2C+SM-G965%29&testgroup=overall)

현재 올라와있는건 갤럭시S9 결과 밖에 없습니다.

(QRD 결과가 이전에 있었던거 같은데 말입니다.)

(커널 정보로 보면 SD835=MSM8998 GPU 클럭은 v2, v2.1에서 터보클럭으로 최대 710MHz까지 설정되어 있습니다.)

그래픽 성능 +30%라는 발표치는 맨해튼 결과 기준으로 지켜진거 같습니다.

맨해튼3.1 , 카 체이스는 오히려 그보다 더 올랐네요.

 

참고로 애플 A11이 맨해튼3.1 64.5 fps / 맨해튼 93.6 fps / 티렉스 186.7 fps

(사기적인 면적대성능비 얘기할 때 참고하라고 써놓은겁니다.)

 

 

- 클럭, 공정, 전력

커널상 SDM845 GPU 클럭은 이렇습니다. 이 중에 실제 출시된건 v2나 v2.1 이지요.

710, 675, 596, 520, 414, 342, 257MHz (v2, v2.1)

600, 548, 487, 425, 338, 280, 210MHz (v1)

 

v1이 아마 소문의 10LPE 공정 버전이었겠지요.

실제 제품은 10LPP로 나왔고요.

덕분에 클럭이 올랐습니다만 18%나 올랐습니다.

10LPE -> 10LPP에서의 공정 성능 향상치라면 10% 정도였어야 됩니다.

 

(링크 : https://www.xda-developers.com/qualcomm-snapdragon-845-hands-on-benchmarks-first-impressions/)

(뒤에서 얘기하겠지만) 사양이 증가한 덕인지, 공정 대비 클럭을 더 올린 덕인지 모르겠지만 쓰로틀링 특성이 악화됐습니다.

SD835가 최대 3%정도 떨어지는데, SDM845는 최대 17%정도 떨어집니다.

클럭으로치면 596MHz 정도로 수렴하네요.

 

SD835 -> SDM845 v1 이면 같은 10LPE 공정인데 GPU 클럭은 653MHz -> 600MHz로 -8% 입니다.

사양 증가때문에 클럭이 8% 낮아져야 전력이 비슷해진다고 가정하고, 여기에 10LPP 공정 성능치를 반영하면 660MHz

여러모로 710MHz는 많이 올린 클럭같네요.

이런 점도 있고 이미 v1을 건너뛰고 바로 v2, v2.1이 첫 출시 제품이된걸 봐서는 SD821, SD835처럼 나중에 클럭이 올라간 후속작이 나오기 어려울듯 하네요.

 

아난드텍 자료로는 SD835 대비 전성비가 맨해튼3.1 기준으로 +17%, 티렉스 기준 +9%

(링크 : https://www.anandtech.com/show/12520/the-galaxy-s9-review/6)

10LPE -> 10LPP에서 전력효율이 +15%라고 하니 얼추 맞습니다.

거꾸로 말하면 아키텍처에 의한 전력효율 개선은 거의 없다는게 됩니다.

(링크 : https://news.samsung.com/kr/%ec%82%bc%ec%84%b1%ec%a0%84%ec%9e%90-10%eb%82%98%eb%85%b8-2%ec%84%b8%eb%8c%80-%ed%95%80%ed%8e%ab-%ea%b3%b5%ec%a0%95%ea%b0%9c%eb%b0%9c-%ec%99%84%eb%a3%8c)

 

 

(링크 : http://www.igao7.com/news/201802/N8DOsb5eXzHNTtJF.html)

아래쪽 두 개는 맨해튼 30 fps 고정시 소비전력.

같은 성능에서 전력은 -22%

맨해튼 30 fps라면 SD835라도 최대 성능의 절반 수준인 저클럭이라서 전력효율이 더 좋은 구간일겁니다.

 

 

- 사양

GFX벤치 로우레벨 결과를 보면 A540 대비 ALU2 +30%, 텍스처 결과 +50% 입니다.

클럭은 같으니 일단 텍스처 유닛 사양이 1.5배라고 하고, 연산유닛 사양은 1.3배라고 해야할텐데 다른 내용을 보면 앞뒤가 잘 안 맞습니다.

 

- 텍스처 유닛

먼저 그나마 간단한 텍스처 유닛.

GFX벤치 결과로만 보면 15497 / 710 = 21.8, 24 Tex/s 정도로 봐야할겁니다.

아난드텍도 사양을 그렇게 밝혔습니다. 어디선가 정보를 얻은건지 단순 계산인지 모르겠지만요.

그런데 커널에서 정보를 보면 A630의 TP(Texture Pipeline)는 4x4=16 혹은 배수인 32 로 보입니다.

16 Tex/s 라면 이론치가 710 x16 = 11360 MTex/s인데 이미 벤치마크 결과가 이보다 높게나와서 16 Tex/s로 보기는 어렵고, 저 내용에 맞추면 32 Tex/s 가 됩니다.

이러면 이론치는 22720 MTex/s가 되는데 벤치마크 결과는 이의 68% 수준입니다.

32 Tex/s 쪽을 맞춰놓고 해석하면 텍스처링 테스트시 520MHz로 돌아가든가, 벤치마크가 아직 최대 결과를 뽑아내지 못 한게 됩니다.

A540은 커널상 TP가 3x4=12 혹은 배수인 24 인데 12TMU면 결과가 이론치보다 높고, 24TMU면 너무 저클럭입니다.

A630 이랑 같은 상태인데, 이미 나온지 오래된 A540이 벤치마크 앱 문제로 최대 결과를 아직까지 뽑아내지 못 했다고 보기는 어렵겠지요.

현실적으로 24TMU로 해석하는게 타당한데 그렇다면 커널을 어떻게 해석해야 하느냐는 문제가 남습니다.

 

- 렌더링 유닛

아난드텍에서는 16 ROP라고 하는데 커널 내용으로는 2x4=8 단위로 보입니다.

8 ROP 혹은 16 ROP

이건 아난드텍 내용하고 같네요.

(이 패턴이면 32 TMU라고 해석하는게 맞는 방향일지도...)

 

- 연산 유닛

커널 내용을 보면 A540은 4CCU x2 x4SP = 32, 연산유닛이 32개 단위가 되고, A630도 같은 식으로 32개 단위로 보입니다.

일반적이라면 1SP는 FP32 x4로 구성되었을겁니다.

그렇다면 A540, A630은 32 x4 = 128코어의 배수 구성일겁니다. 128, 256, 512 이런 식.

이걸 먼저 깔아놓고 벤치마크 결과를 보면......

 

ALU2 결과는 A540 -> A630 에서 고작 30% 올라갔습니다.

연산 유닛 수는 최소로 잡아도 2배인데 이걸 1.3배로 깎아먹으려면 A630 테스트시 클럭이 35% 낮아져야되는데 현실성이 없어보입니다.

이거야 말로 테스트 결과가 충분히 높게 안 나온 것으로 보입니다.

여기서 참고할만한게 GPU GFLOPS 결과.

 

갤럭시S9 초기에 테스트 한 결과를 보면 529.4, 613.6 , A540 결과가 335.2 였습니다.

1.83배인데 연산성능에 비례해서 잘 나온 결과라고 가정해서 계산해보면,

A630 529.4 - 520MHz, 613.6 - 596MHz / A540 335.2 - 670MHz

ALU2보다 그래도 앞뒤가 맞아 보입니다.

A630은 A540에서 연산유닛이 2배로 늘어난듯하고, 연산성능 결과로 보아 A540 256ALU, A630 512ALU로 보입니다.

 

 

- 면적대성능비

(링크 : http://www.techinsights.com/about-techinsights/overview/blog/samsung-galaxy-s9-teardown/)

A630 면적은 10.7mm2 내외로 나옵니다.

엑시노스9810의 G72MP18 면적의 절반 미만입니다.

(링크 : 엑시노스9810 GPU(Mali-G72) 성능 분석. (GFX벤치))

 

맨해튼 오프스크린을 기준으로 면적대성능비를 비교해보면

A630 (SDM845) : 83.1 fps / 10.7mm2 = 7.8

G72MP18 (엑시노스9810) : 77.6 fps / 24.5mm2 = 3.2

애플 A11 : 93.8 fps / 15.3mm2 = 6.1

 

엑시노스9810의 2.45배, A11의 1.27배 입니다.

TSMC와 삼성 공정 간의 면적 차이를 고려해도 차이가 큽니다.

 

 

- 정리 : SDM845 Adreno630

10LPP 공정, 최대 710MHz

512ALU - 24TMU - 16ROP (32TMU 가능성도 없진 않음.)

최대 727.0 GFLOPS, 17.0 GTex/s, 11.4 GPix/s

A540 대비 그래픽 성능 +30% 이상, 연산성능 2배.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 22

댓글을 달아 주세요

  1. addr | edit/del | reply ㅇㅇ 2018.04.29 20:53 신고

    애플의 사기적인 성능과 퀄컴의 사기적인 효율... ARM은 뭐하나?? 삼성도 답답할듯...

    (G71때는 얼추 따라잡나 했지만 그 당시 Mali는 간만에 변화가 컸된 주제에 제자리걸음 수준이던 Adreno를 따라잡지도 못했으니 그 뒤로 더 멀리 추월당하는 것은 당연한듯...)

    ####

    안습의 G72로 Adreno를 상대해야 하는 삼성은 쉐이더 때려박는 신공을 통해 면적 손실을 보면서 MP18이나 되는 거대한 구성을 설계했고 그 결과 전성비 면에서 동급 수준을 유지했지만..
    이후 로드맵에서마저 발전이 요원해 보이는 Mali를 최소 내년에까지는 사용할 엑시노스가 과연 스냅드래곤을 상대할 수 있을지..?
    면적 늘리기도 한계가 있는데 스냅드래곤이 폭망하지 않는 이상... 내년 엑시노스도 GPU는 안습일듯.
    (소문만 무성한 S-GPU에 모든 것이 달려 있다.)

    ####

    성능 100%를 기준으로 스로틀링 폭은 835보다 845가 더 크지만, 성능 자체가 많이 올랐기 때문에 스로틀링 걸렸을 때도 순수 성능 자체는 835보다 845가 낫습니다.
    동 성능에서 전성비 향상도 있고 하니 이번 845 물건인듯 함.

  2. addr | edit/del | reply ㅇㅇ 2018.04.29 20:54 신고

    A11, 스냅드래곤 845, 엑시노스 9810
    CPU GPU 전성비 관련 자료는 없습니까??

  3. addr | edit/del | reply ㅁㅁ 2018.05.01 12:07 신고

    삼성아~~~
    스냅드래곤판 내줘!!

  4. addr | edit/del | reply A TNT 2018.05.06 18:01 신고

    10mm^2의 면적, 6~7W 내의 풀로드 소비전력으로 베가 8 사이즈의 GPU를 우겨넣는 퀄컴 당신은 도덕책...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.05.06 21:01 신고

      512ALU라는 것도 추측이고 아키텍처나 기능에 차이가 있어서 단순 비교하기 힘들긴 합니다.
      (메모리 사양이나 부가 기능에서 아무래도 모바일용이 부족하겠지요.)
      베가가 그렇게 효율면에서 좋은 아키텍처인 것도 아니고요.

      GFX벤치 결과만 대충 비교해보니까 성능 효율은 그래도 비슷한거 같네요.

  5. addr | edit/del | reply 피노키오 2018.05.08 22:19 신고

    저 작은 칩을 보라. 저 안에 모든것이 있다. 저것이 오늘날의 최신 기술력이다. 저것이 SoC다.

    이 곳에서 과거 당신이 사랑하던 모든 시스템들. 아톰 베이트레일, 코어2켄츠필드 혹은 페넘2데네브가
    지금은 각각 Kryo 실버와 골드코어라는 이름으로 재연되어있고, 또 당신이 알고 들어봤던
    한시대의 많은 보급형브가 지포스 GTX 550Ti GTX650 GT740, 그리고 라데온HD5770 7750... R7 250
    그러한 형들의 염원을담아 동생 아드레노가 유사한수준의 그래픽환경을 재연해냈다.
    거기에 또 그 시절엔 상상조차 힘들었던 유선 기가비트광랜보다 빠른 초고속의 무선 5G모뎀도 달렸다.
    또한 그 시대엔 이름 한번이나 들어볼까말까한 HEVC UHD 60fps 실시간 영상재생이 가능해졌다.
    이 모든경험을 TDP 5W이내에서 당신은 당신의 손바닥 안에서 누릴 수 있게된 것이다.

    우리의 모든 고통과 희노애락이 교차했던 수많은 OS들 도스, 윈도우3.1 95/98/Me은 이제 도스박스 에뮬로,
    2000/XP/7,8,10은 윈도CE와 RT를 넘어 어느덧 윈10 for ARM으로 대신할 수 있게되었다.
    또한 리눅스도 돌릴 수 있으며 각종 패미컴시절부터 플스2, 지원만 된다면 플3,엑박한바퀴까지도
    온갖 시대를 넘나드는 백수십기종의 콘솔게임기들도 에뮬레이션으로 이제 한 시스템 위에서 누릴 수 있다.

    그 운영체제 안에서 돌렸던 수많은 슈퍼컴퓨터, 과학연산프로그램들, 이미지편집기, 오피스 엑셀 스프레드시트,
    영상장치, 소형서버, 온갖 퍼즐, 어드벤쳐, 슈팅, 아케이드, 액션, 시뮬 게임들부터 최신 3D게임까지
    우리가 이뤄왔던 역사 속 수많은 거대 가상세계들이, 지금은 저 손톱만한 작은 칩 위에서 이뤄지고있는 것이다.

    우리의 대부분의 일상을 함께하는 단말기는 지구라는 끊없이 거대한 암석덩어리 세계에서 긁어모은
    고운 한 줌의 모래로 가공한 돌조각하나에 불과할 뿐이지만, 우리의 전용 안식처이자 또 하나의 거대세계가 되었다.



    -칼세이건의 명언을 살짝 패러디해봤습니다.

    원본출처 :https://m.fmkorea.com/?mid=humor&document_srl=1017059684

  6. addr | edit/del | reply ㅁㄴㅇㄹ 2018.05.28 16:50 신고

    메모리대역폭한계떄문에 2mb 캐시를넣은거같은데 캐시넣고 그런거생각하면 전력효율이 안올라갔다고 보기는 힘들지않을가요. 아무래도 대역폭한계가 커서 공정에의한 향상치를 지킨거만해도 그럭저럭 선방한거같네요. lpddr4가 몇년쨰쓰이고있으니..

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.05.29 18:20 신고

      물론 대역폭이 늘어나면 성능이 올라가겠지요.
      성능이 그렇게 극적으로 오르지도 않을뿐더러 그렇게 올라간다고 전력이 현 상태를 유지하는 것도 아닙니다.
      정도차이만 있을뿐 성능과 같이 올라갑니다.
      대역폭이 풀린다해도 성능, 전성비 모두 한계가 있습니다.

      지금 상태가 메모리 대역폭이 모든 성능의 병목으로 동작하는 상태인건 아닙니다.
      다 현재 대역폭 수준에 맞춰서 (압축) 기술도 도입하고 타겟 성능과 사양을 셋팅하니까요.
      주변 여건 고려하지 않고 고성능으로 만들어놓고 쓸데없이 자원 낭비하게 할 정도로 대충 만들지 않습니다.
      모바일쪽은 더더욱 그렇고요.

  7. addr | edit/del | reply 흡혈귀왕 2018.06.04 23:18 신고

    A76이랑 G76 관련 포스팅 올리실 예정있으신가요?
    이번 둘다 꽤 성능향상이 큰듯하더군요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.06.05 14:27 신고

      한다면 차례가 오긴할텐데 요즘 의욕이 빠져서 언제가 될지 모르겠습니다.

  8. addr | edit/del | reply ㅇㅇㄴㅁㅁ 2018.06.13 17:16 신고

    애플 AP 시리즈들은 스로틀링이 오진다고 하든데 전성비가 안좋은가요?
    스로틀링으로 성능 반토막 난다던데 엑시노스나 스냅드래곤은 그정도까진 아닌데

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.06.13 23:17 신고

      CPU는 판단하기 어렵고 그나마 GPU는 간접비교라도 가능한거 같은데,
      직접적인 전력 자료가 없어서 정확한 값은 알 수 없지만 쓰로틀링 수준이나 이매지네이션 GPU에 대한 루머?찌라시? 내용을 참고하면 썩 그렇게 좋은 편은 아닌듯 합니다.
      쓰로틀링시 성능 하향폭은 스냅이나 애플이나 비슷합니다.

    • addr | edit/del 으음 2018.06.13 23:52 신고

      으음 엑시노스, 스냅드래곤, A11 비교하면 어떤 순서로 좋은가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.06.14 04:09 신고

      으음// 절대 비교가 힘들어서 개인마다 의견차이는 있겠지만 성능 외에 다른 부분까지 종합하면 스냅845, A11, 엑시노스9810 순이 아닐까 싶네요.

    • addr | edit/del 으음 2018.06.14 06:29 신고

      다른 부분은 어떤건가요???

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.06.14 19:04 신고

      면적, 전력, 호환성 정도가 있지요.

  9. addr | edit/del | reply 으음 2018.06.14 22:59 신고

    면적이나 호환성은 사실 완제품에서야 크게 상관없는 얘기라고 쳐도
    전력소모는 스냅드래곤이 그럼 A11이랑 9810보다 적은 거군요 ㅎㅎ
    그나저나 저런 자료같은거는 어디서 얻으시는가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.06.15 00:49 신고

      정확히는 전력대성능비, 면적대성능비로 비교해야되긴 합니다.
      스마트폰에 들어가는 AP 소비전력 최대치는 (제품 크기에 따라 약간씩 다르지만) 거의 같고 그러면 결국 제한된 전력 내에서 얼마나 높은 성능을 보이느냐가 관건이되니까요.

      저런건 따지려면 필요한 자료가 성능, 전력, 면적인데
      성능은 벤치마크 결과가 있고,
      면적은 chipworks 등에서 나오는 자료가 있고요.
      (정말 핵심 내용은 유료로 풀려서 저는 볼 방법이 없습니다만)
      전력은 정확한 자료(GPU만의 전력이라든지)는 없고 스마트폰 전체 소비전력같은 식으로 간접 측정한 자료가 아난드텍 리뷰 등에서 나오고 쓰로틀링 테스트 자료도 판단에 도움이 됩니다.
      전력과 관련된 내용은 (인터넷에 공개된 공짜 자료로는) 간접 비교로 갈 수 밖에 없는 상태입니다.

  10. addr | edit/del | reply CoLLecTor 2018.07.04 23:05 신고

    여담입니다만.... 어느 기회로 SD845, E9810, Kirin 970의 X레이 다이샷을 유심히 봤는데... SD845의 리틀코어인 Kryo385 silver는 A53이나 A55와 꽤나 다르게 생기고 다이도 유의미하게 크더군요. 지금까지는 퀄컴의 Kryo로 불리는 코어들은 820에 들어간 1세대 Kryo를 제외하면 빅코어 AP는 A73,75를 세미커스텀 했고, 리틀코어는 A53,55를 세미 커스텀했다 라는것이 중론인데, Kryo의 리틀코어가 사실 기존 A53,55의 커스텀이 아니라 A73,75의 빅코어급 설계에서 많이 처내어서 만든, 말하자면 태생이 같은 다른 두 코어가 아닐까? 라는 생각이 들었습니다. 820 > 821에서의 리틀코어 클럭 상승율도 그렇고, 845와 710에 탑재된 코어 모두 A75계열의 커스텀일텐데... 구지 클럭 차 뿐만 아니라 표기를 Kryo385/360이렇게 하는것도 그렇구요. 의심이 든달까...

  11. addr | edit/del | reply asdf 2018.08.25 12:14 신고

    스냅드래곤이 정말좋네요.. 스냅845기기를 일부러 다운클럭해서 9810정도의 성능으로맞췄는데

    전력소모측정시 전력소모가 절반은 줄어듭니다. 단순히 전력량만 55%수준으로줄던데

    밝기낮게측정하긴했찌만 화면이나 cpu 램등 전력소모 포함하면 실제론 절반이하로 떨어졌다고 볼수있겠네요

    참고로 저렇게 클럭떨궈도 9810보다 벤치성능이 5%좋다는게 유머..

  12. addr | edit/del | reply asdf 2018.08.25 12:15 신고

    참고로 다운클럭했을떄 성능은 510mhz입니다

    말리가 얼마나구린건지.. 9810이 전력효율이 좋아졌다고 하는분들이 많은데

    같은 성능으로맞추면 스냅이 훨씬적게먹더군요.

  13. addr | edit/del | reply asdf 2018.08.25 12:19 신고

    측정치상으론 710mhz에선 1500mah w로 환산하면 6w조금안되는수준

    다운클럭하면 평균 800mah정도먹더라구요.. 3w정도 먹는거죠