- 많이 늦었지만 엑시노스9810 GFX벤치 결과 분석, Mali-G72 GPU 성능 분석입니다.

커뮤니티들에서 한바탕 소란이 지나갈 때까지 기다린 감도 있습니다.

 

 

- GFX벤치 결과

(링크 : https://gfxbench.com/device.jsp?benchmark=gfx40&os=Android&api=gl&D=Samsung+Galaxy+S9%2B+%28Mali-G72%2C+SM-G965%29&testgroup=overall

https://gfxbench.com/device.jsp?benchmark=gfx40&os=Android&api=gl&D=Samsung+Galaxy+S9+%28Mali-G72%2C+SM-G960%29&testgroup=overall)

사양은 Mali-G72MP18 572MHz

드라이버 r9p0

 

엑시노스8895(G71MP20), SDM845(Adreno640)와 비교하면

카 체이스 : 엑시노스8895 대비 +11%, SDM845 대비 -20%

맨해튼3.1 : 엑시노스8895 대비 +10%, SDM845 대비 -23%

맨해튼3.0 : 엑시노스8895 대비 +20%, SDM845 대비 -7%

티렉스 : 엑시노스8895 대비 +18%, SDM845 대비 -3%

 

엑시노스9810 그래픽 성능이 전작(엑시노스8895) 대비 +20%라고 밝혔는데 맨해튼3.0 기준으로 공식 발언은 지켰습니다.

(링크 : http://www.samsung.com/semiconductor/minisite/exynos/products/mobileprocessor/exynos-9-series-9810/)

 

 

- Mali-G72/엑시노스9810 GPU 성능 분석

Mali-G72에 대한 내용과 엑시노스9810에 대한 내용이 섞여 있습니다.

둘의 내용을 분리해서 다루기가 어렵네요.

 

G72 성능에서 따져볼 항목은 세 가지입니다.

성능, 전력 효율, 면적 효율(성능 밀도)

 

1. 성능

MP수가 많은 제품끼리 동사양 성능을 비교해보면 G71 대비 성능향상치는

카 체이스 +18% / 맨해튼3.1 +16% / 맨해튼3.0 +11% / 티렉스 +3% / ALU2 +3%

 

MP수가 적은 제품끼리 동사양 성능을 비교해보면 G71 대비 성능향상치는

카 체이스 +15% / 맨해튼3.1 +10% / 맨해튼3.0 +16% / 티렉스 +4% / ALU2 +4%

 

앞선 내용과 대동소이합니다.

(Helio P60 탑재 Oppo R15 리뷰 : https://www.sogi.com.tw/articles/oppo_r15_pro/6250766

긱벤치 사이트에서는 OPPO PACM00 이나 MT6771V/C 로 검색하며 나옵니다.)

 

일단 그래픽 성능은 G71 대비 +15% 내외, 연산성능은 동급.

 

2. 전력효율.(전력대성능비)

ARM 발표대로면 G72는 G71 대비 에너지 효율 +25%, 성능 밀도 +20%

(동일 공정 노드, 비슷한 조건)

(링크 : ARM Cortex-A75/A55, Mali-G72 발표.)

 

비슷한 조건에서 G71 대비 에너지 효율 +25% 라고 하는데

시스템 전체 전력 기준이지만 엑시노스8895 대비 전성비가 맨해튼3.1 기준으로 1.95배, 티렉스 기준 1.58배로 엄청나게 올라갔습니다.

(링크 : https://www.anandtech.com/show/12520/the-galaxy-s9-review/6)

(엑시노스8895,9810 공정 차이를 반영하면 맨해튼3.1 기준 1.66배, 1.34배)

스냅드래곤835는 넘어갔고, SDM845에 5% 정도 떨어지는 수준까지 따라왔습니다.

SDM845가 갤럭시S9+고, 엑시노스9810이 갤럭시S9라서 시스템 전력상 SDM845가 불리할 수도 있으니 실제 GPU 전력만으로 계산한 값에서는 차이가 더 벌어질 수도 있습니다만 어쨌든 이 정도면 장족의 발전.

시스템 전력이라서 실제와 전성비 값 자체는 다를 수 있겠으나 최소한 저 값들보다 낮지는 않을겁니다.

GPU외의 소비전력을 제외하면 전성비 차이는 더 커집니다.

 

ARM이 언급한 전력 효율 25%보다 훨씬 큰데 절대 성능 향상을 의도적으로 억제한 영향도 있을듯 합니다.

엑시노스8895(갤럭스S8)의 전력이 맨해튼3.1 7.35W, 티렉스 5.86W

엑시노스9810(갤럭시S9)의 전력이 맨해튼3.1 4.08W, 티렉스 4.34W

갤럭시S8 기준으로 설정했다면 GPU 전력, 성능을 더 끌어올릴 여지가 있었다는겁니다.

ARM 발표에서 G72 탑재 제품이 2017년 제품 대비 성능 +40%라고 하는데, 이걸 엑시노스9810이라고 가정한다면 G72의 전력효율 +25%에 공정 성능 +10%를 반영해서 +37.5%로 계산할 수 있고, 이 때 맨해튼3.0 성능은 64.8 x1.375 = 89.1 fps

현재 엑시노스9810 결과 대비 +15%이고 역산하면 627MHz 일 때의 성능입니다.

커널상 676MHz까지 있었으니 비현실적인 클럭도 아니고, 전력을 폭주시킬만한 클럭 상승도 아닙니다.

(링크 : 갤럭시S9 커널 정보. (엑시노스9810판))

엑시노스8895,9810 공정 성능 차이 10%만 단순 반영해도 엑시노스9810 GPU 클럭은 546 x1.1 = 600MHz이고, MP수가 줄어들거나 GPU 아키텍처의 전력효율 향상치까지 포함하면 그 이상의 클럭설정이 가능했을겁니다.

커널에서 637MHz로 설정했던 흔적이 있었던 것처럼 말이지요.

(링크 : 갤럭시S9 커널 정보. (엑시노스9810판))

(물론 그렇게하면 쓰로틀링 특성이 악화됐을거고 무선사업부에서 이런 점을 부담스러워서 이렇게 설정했을 수도 있습니다.)

결국 최대 성능을 포기한 대신 높은 전력효율을 선택했다고 봐야할듯 합니다.

고성능 구간을 포기하고 고효율 구간을 선택한거지요.

 

3. 성능 밀도.(면적대성능비)

성능 밀도=면적대비성능은 엑시노스8895의 GPU 면적 정보가 없어서 직접적으로 비교하기는 어려울 것 같습니다.

ARM 발표 내용에서 이미 G72 면적이 4% 정도 증가했을 것으로 예상했습니다.

(링크 : ARM Cortex-A75/A55, Mali-G72 발표.)

 

(링크 : http://www.techinsights.com/about-techinsights/overview/blog/samsung-galaxy-s9-teardown/)

다이 이미지로 보면 GPU면적이 24.5mm2 정도로 상당히 큽니다.

(A630이 확인된걸로는 10.1mm2 정도로 2배 이상 작습니다. 그런데 성능은 10~20%정도 높지요.)

10LPP와 10LPE의 공정 면적 차이가 없다고 보고, G72MP18 면적이 24.5mm2

앞서 G71 -> G72의 면적 증가를 +4.2%로 예상했으니 이걸로 G71MP20 면적을 단순 계산해보면 26.1mm2

24.5mm2보다 7%정도 넓습니다.

MP1 면적으로 G72MP19를 계산하면 25.6mm2, MP20이라면 26.7mm2가 나옵니다.

 

면적 증가 비율이 크게 틀리지 않았다는 가정하에 전후사정을 끼워맞춰보면,

엑시노스8895->9810으로 오면서 빅코어 CPU 면적이 2.36배로 늘었습니다.

(4코어 기준8.21mm2 -> 19.4mm2)

MP20에서는 전작보다 GPU 면적이 커지는데 CPU 면적이 늘어난 상황에서 GPU 면적까지 늘어나는건 허용하기 어려웠을 것이고, MP수를 더 줄이면 성능을 위해서 클럭을 올려야해서 전성비, 절대성능 둘 다 못 잡는 결과가 될겁니다.

결국 MP18정도로 타협된듯 합니다.

 

정리해보면 G72는 면적대성능비를 희생해서 전력대성능비 얻었고,

무선 혹은 S.LSI에서는 여기에 추가로 절대성능을 희생해서 전력대성능비를 더 높인듯 합니다.

 

 

- GPU 성능 추세

(플래그십 AP GPU 성능 추세)

전성비를 얻고 절대성능을 포기한 대가는 생각보다 크게 돌아올 가능성이 높아보입니다.

 

SDM845(A630)은 더 높은 방향으로 아드레노 계열의 성능 추세를 이탈했습니다.

그에 반해 엑시노스9810은 낮아지는 방향으로 성능 추세를 이탈했습니다.

기존 추세대로였다면 이번에 A630 정도의 성능이 나왔어야했지요.

기존 추세로 돌아가기위해서는 19년 3월 출시 제품(차기 플래그십 엑시노스, 갤럭시S10 탑재?) 성능이 맨해튼3.0 기준 102 fps 정도 나와야 합니다.

엑시노스9810이 77.6 fps이니 여기서 +30% 이상 올려야 합니다.

 

물론 그 정도 성능향상 전례가 없었던건 아닙니다.

5433부터 8895까지 작게는 30%, 크게는 70% 이상의 성능 향상이 있었습니다.

하지만 그건 planar -> finfet 이라는 공정의 퀀텀점프, MP8->MP12->MP20 으로 이어지는 급격한 다이사이즈 증가, 사양 증가의 힘이 컸습니다.

이미 늘어날만큼 늘어나서 되려 MP수를 줄여야되는 최근 상황, 상대적으로 면적과 성능에서 이득이 적은 8LPP로의 공정 전환 이라는 조건에서 30% 증가가 쉬워보이지는 않습니다.

(EUV 7nm 공정의 조기도입을 얘기하는 경우도 있으나 가능성은 0이라 봐도 무방합니다.)

 

이번처럼 피크 성능보다 전력효율을 우선시하는 방침이 바뀌지 않는다는 가정 하에서 +30% 성능 향상은 온전히 GPU 아키텍처의 개선에 달려있습니다.

10LPP->8LPP에서의 성능 향상이 +5%정도로 예상되는데, 아키텍처나 MP 증가가 나머지 25%를 책임질 수 있어야겠지요.

(링크 : 파운드리 공정 비교. (2018.02.24.))

S-GPU는 당장 어렵다고 생각한다면 ARM 아키텍처 밖에 선택지가 없는데 기존의 말리 아키텍처 변경에 따른 성능 향상치는 다음과 같습니다. (맨해튼3.0 기준)

T760->T880 : +38% / T880->G71 : +26% / G71->G72 : +11%

점점 향상치가 낮아지고 있지요.

이런 추세에서 갑자기 T760->T880 시절로 돌아갈 수 있을까요.

 

게다가 최근의 AP 사양 추세는 성능만을 바라보며 GPU 면적의 무조건적인 확장을 허용하는 분위기가 아닙니다.

빅코어는 싱글성능을 위해 확장되었는데 이는 시작해버린 이상 이제 되돌릴 수 없는 흐름이고, NPU같은 머신러닝을 위한 유닛도 들어가야하는 등 GPU를 위한 면적은 점점 작아지고 있습니다.

즉, MP수가 더 이상 늘어나기는 어려워지고 있습니다.

그렇다면 차기 말리 아키텍처는 MP 감소치까지 커버해야하기때문에 성능 향상은 25%가 아니라 그 이상이 되어야 할겁니다.

그런데 전례를 봐도 최대치가 40%도 안 됩니다.

전례없는 성능 향상을 보여줘야하는데 과연 가능할까요.

 

 

- 정리

1. Mali-G72 성능

Mali-G71 대비

그래픽 성능 +15%, 연산성능 동급.

면적 증가.

전력대성능비 향상. ARM 발표치인 +25%가 대략 맞는 것으로 추정.

 

2. 엑시노스9810 GPU 성능

Mali-G72MP18 572MHz

엑시노스8895(Mali-G71MP20 546MHz) 대비 그래픽 성능 +10 ~ +20%

SDM845(Adreno630) 대비 그래픽 성능 -5 ~ -25%

성능보다는 전력 효율 위주의 셋팅을 한 것으로 보이며, 그 덕에 G72 자체의 전력 효율 개선치보다 더 높은 효과를 얻은 것으로 추정.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 23

댓글을 달아 주세요

  1. addr | edit/del | reply 컬리그 2018.04.15 10:42 신고

    저 혹시 gpu성능이 펌웨어 업데이트로 개선될 가능성도 있는건가요? 갤럭시s3가 펌업으로 gpu클럭수가 올라갔었던것 같은데요....

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.15 15:51 신고

      클럭이 올라갈 가능성은 거의 없을거 같고, 드라이버 업데이트로 효율이나 성능이 좀 올라갈 가능성은 있는데 그런건 실사에서 보이지 벤치마크에서 보이지는 않을듯 합니다.
      벤치마크 정도는 이미 최적화할만큼 해서 출시했을테니까요.

  2. addr | edit/del | reply ㅇㅅㅇ 2018.04.15 16:29 신고

    아난드말로는
    a630 - 10.69mm²
    g71mp20 - >~32mm²
    g72mp18 - 24.53mm²

    엑시노스 M3 클러스터 - 20.23mm²
    이라고 하더라구요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.15 16:51 신고

      아난드텍 리뷰 본문에 면적 얘기가 있었군요.
      9810 관련된건 오차가 있으니 넘어가고,
      G71MP20을 정확한 수치가 아니라 32mm2 이상이라고 대략적으로 표기한거봐서는 정확히 측정한 값인지 의문이긴합니다.
      테크인사이츠 자료 구입했거나 입수해서 다이 이미지로 분석한거면 맞겠지만
      무료로 공개된 자료를 쓴거라면 8895는 탑 메탈 이미지 밖에 없어서 정확히GPU 영역잡기가 어려워서요.

      어쨌든 정말 8895 GPU가 32mm2 이상이었다면 9810에서 CPU 면적 증가와 GPU 면적 감소가 스왑됐다고 볼 수 있겠네요.

  3. addr | edit/del | reply ㅇㅇ 2018.04.15 16:38 신고

    스냅은 말리보다 면적도 작고 성능도 높고 전력도 적게 먹네요?
    이거 애플이랑은 몰라도 안드로이드에서는 OP수준이네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.15 17:00 신고

      A11 GPU 면적이 15.2mm2 내외 정도로 계산되는데 이걸로 면적대성능비 뽑아보면 A630이 25% 정도 높습니다.
      성능밀도만 보면 OP 맞지요.

    • addr | edit/del ㅇㅇ 2018.04.15 17:03 신고

      애플 때려잡는 스냅드래곤 ㄷㄷㄷ

      전성비는 어떤가요?? 전성비도 스냅이 높은가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.15 17:08 신고

      A11 전력 정보가 없어서 비교를 못 하고 있습니다.
      (기업이나 개발차원이 아닌) 소비자 입장에서 파악하는 전성비 정보도 거의 아난드텍 실측 정보에 의존하고 있는게 현실이니까요.
      간혹가다 다른 사이트에서 쓰로틀링 테스트 결과 올라오는게 참고로 쓰이는 상황이고요.

      만약 애플 GPU가 이매지네이션의 영향을 많이 받았다면 생각보다 전성비가 좋지 않을 가능성도 있습니다.
      이매지네이션 GPU 성능 특성이 그렇게 좋은건 아니거든요.

    • addr | edit/del ㅇㅇ 2018.04.15 17:10 신고

      아난드텍 자료랑 쓰로틀링 테스트를 참고하면 어떤 결과가 나오나용....??

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.15 17:11 신고

      제가 찾아본 바로는 A11은 자료가 아예 없습니다.

  4. addr | edit/del | reply 흡혈귀왕 2018.04.15 17:55 신고

    내년까지는 GPU고난의 행군이될 가능성이 높겠군요...
    8nmLPP쯤해서 NPU도 들어갈것으로 예상되서

    GPU코어수 늘리기도 쉽지않을테니깐요....

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.15 18:06 신고

      넉넉잡아 아키텍처 효율이 60%정도 올라야 최종 성능에서 본문에서 말한 추세에 맞출 수 있을거 같은데 쉽지 않아보입니다.
      G51->G52에서 개선되는걸봐야 싹수가 있을지 없을지 짐작이라도 해볼 수 있을듯.

  5. addr | edit/del | reply 컬리그 2018.04.15 22:49 신고

    근데 긱벤치 렌더스크립트 점수가 갤9가 화웨이 메이트10보다 절반 가까이 낮은건 왜그런건가요? 화웨이는 mp12이고 갤9는 mp18인데...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.04.16 04:17 신고

      렌더스크립트 API로 돌렸을 때 초기 최적화 문제로 보입니다.
      OpenCL에서 결과는 사양에 거의 비례해서 나왔는데 렌더스크립트에서는 사양대비 거의 반토박이 났거든요.

      렌더스크립트 기준으로
      갤럭시S8(엑시노스8895)도 현재는 14000점대 점수도 종종 보이는데 최초에는 7~8000대 밖에 안 나왔고,
      같은 G72쓰고 r8p0 드라이버인 기린970도 사양 대비 G71보다 떨어지는 결과가 나오는데,
      (갤럭시S9는 r9p0)
      helio P60(G72) 들어간 Oppo F7 결과보면 사양대비 엑시노스8895보다 1.78배 높은 결과가 나왔습니다.

      드라이버 버전을 알 수 없어서 GFX벤치가 정식으로 올라오는걸 봐야겠지만 G71->G72로 가면서 연산성능 측면에서 눈에 보이는 수치 외에 향상이 있으리라 예상할 수 있는 근거가 될듯 하네요.

      결국 긱벤치 업데이트나 드라이버 업데이트로 해결될걸로 예상합니다.

  6. addr | edit/del | reply ㅇㅇ 2018.04.16 02:16 신고

    단가 면에서는 좀 불리할 듯하네요

  7. addr | edit/del | reply Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2018.04.16 14:15 신고

    ARM의 GPU 아키텍쳐가 인간적으로 지독히 비효율적이란거죠. 물론 이런 저효율(...) 분야의 끝판왕 인텔보다야 사정이 훨씬 낫습니다만 너무 나쁘네요.

  8. addr | edit/del | reply ㅁㄴㅇㅎ 2018.04.16 17:19 신고

    사실 저정도 면적차이면 게이밍에서 파스칼대비 극단적으로 떨어지는 베가나 폴라리스도 다이크기키운뒤 저클럭구성으로하면 파스칼 전성비 후두려잡는걸 생각해보면 말리와 아드레노차이는 파스칼과 베가,폴라리스 이상으로 차이난다고 생각이드네요 쩝 대략 폴라리스나 베가 클럭을 800mhz로 토막내버리면 나름 파스칼이상의 전성비가 나와주거든요.. 그런데말리는 크기가 2.4배나 큰데도 성능이 떨어지면서 전성비가 비슷한수준을보면 이건 엔당과 암당의 차이보다 심각한듯합니다. 거의 인텔그래픽급에 가까운듯

  9. addr | edit/del | reply ㅁㄴㅇㅎ 2018.04.16 17:25 신고

    그래도 라데온은 다이크기 2배가까이 키우면서 그래픽유닛쑤셔넣고 그만큼 클럭내리면 비슷한 성능의 파스칼과 전성비는 비슷하게 나와주는데 요놈은 2.4배나 큰데도 성능은딸리고 전성비는 겨우겨우 비슷한수준이네요..

  10. addr | edit/del | reply ㅁㄴㅇㅎ 2018.04.17 00:14 신고

    그리고 말리가 효율이 극악인것은 클럭만 봐도 알수있다고 봅니다. 오히려 20nm,28nm세대떄 클럭이 더 높고 현재 10nm lpp공정인데도 오히려 2,3세대전 공정보다 클럭이낮지요.. 그래픽유닛수를 늘리고 저클럭으로돌려 전성비를 확보한건데 아드레노나 아이폰같은경우 오히려 28nm세대떄 500mhz정도의 클럭에서 현재는 700mhz~800mhz정도로 클럭이 올랐다는걸 생각하면 말리가 얼마나 효율이나쁜지 알수있죠.. 똑같이 클럭올리면 발열,전력소모가 감당이안되니 어쩔수없는 선택이고 화웨이의 기린ap를보면 알수있는../

  11. addr | edit/del | reply ㅇㄴ 2018.04.21 07:09 신고

    전성비 20%향상 자체는 팩트긴한데 동클럭기준이고
    아마 클럭 낮아져서 전성비 오른거같음요

  12. addr | edit/del | reply 피노키오 2018.05.01 13:23 신고

    뒷북이지만 쭉 CPU리틀코어 A55쪽이 관심있었는데, 아무래도 스냅보단 엑시쪽 A55가 레퍼런스에 가까우니
    최신 64비트 컴파일러로 중무장한 최신 리틀코어 A55가 이제 구형 32비트 1세대 빅코어 A15를 상대로 어디까지 쫒아왔는지,
    동클럭IPC로 거의 맞상대까지 가능해질지가 궁금해지네요. 면적만보면 28나노시절 A15대비 무려 10분의 1가량 줄었다 보이구요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2018.05.01 15:00 신고

      A55 제품으로 보이는 긱벤치 결과는 2가지인데 rtd285x(리얼텍), SC9863A(스프레드트럼) 입니다.

      둘 다 클럭정보가 불확실해서 IPC가 정확히 알 수는 없지만 지금 결과나 ARM 발표치로 범위를 좁혀보면
      긱벤치4 기준으로 동클럭에서 A15 대비 정수 90% 수준, FP +20~45% 정도입니다.
      추측되는 사양상 둘(SC9863, 테그라K1) 다 메모리 대역폭은 비슷할걸로 보이는데 메모리 점수는 80% 수준입니다.
      (crpyo는 7배 이상인데 이건 전용 유닛 영향이 커서 의미를 부여하기는 어려울듯 합니다.)

    • addr | edit/del 피노키오 2018.05.01 19:24 신고

      FP +20~45%가 앞선다는의미라면, 범용적성능은 약간밀려도 엎치락뒷치락까진 가능하다는거군요.
      마치 라이젠 vs 카비레이크 동클럭 싱글코어 비교 비슷하네요. 좋은분석 감사드립니다.