- 갤럭시S8/8+ 탑재 엑시노스8895 GPU 성능분석입니다.

Mali-G71MP20 546MHz 사양입니다.

갤럭시S8 커널에 특별한 내용은 없었고 GPU 클럭 테이블은 아래와 같습니다.

839 764 683 572 546 455 385 338 260MHz



- GFX 벤치 결과

(링크 : https://gfxbench.com/device.jsp?benchmark=gfx40&os=Android&api=gl&D=Samsung+Galaxy+S8%2B+%28Mali-G71%2C+SM-G955x%29&testgroup=overall)

드라이버 버전은 r3p0


하이레벨 테스트 결과를 정리하면 아래와 같습니다.

맨해튼, 티렉스 클럭은 정확하다 장담할 순 없지만 이전 제품과의 성능 격차, 같은 GPU 아키텍처를 쓰는 타사 AP 성능 등을 종합적으로 고려해봤을 때 가장 적당한 값을 선택했습니다.


하이레벨 테스트 결과를 보면 8890 -> 8895에서 카 체이스 +54% / 맨해튼3.1 +40% / 맨해튼 +46% / 티렉스 +35% 증가하였습니다.

(나중에 다룰 기회가 있겠지만 스냅835 A540 710MHz 결과와 비슷합니다.)

삼성 공식 사이트에서 GPU 성능 +50%라고 하는데 정확한 기준은 모르겠지만 실제 결과와 크게 벗어나지 않는 수준으로 보입니다.

(링크 : http://www.samsung.com/sec/smartphones/galaxy-s8/performance/)


아키텍처 측면에서보면 T880 -> G71에서의 성능향상은 평균 +10% 정도로 보입니다.

(MP수 증가로 인한 효율저하가 있을 수 있겠으나 심각한 수준은 아닌 것으로 보입니다.)

미디어텍, 화웨이 제품을 기준으로 했을 때 15~20% 정도로 잡혔던 것에 비하면 낮은 편인데, 엑시노스의 경우 출시 후에도 드라이버 업데이트 등으로 꾸준히 성능 올라간데 반해 다른 업체는 초기 성능에서 정체된 영향인 것으로 생각됩니다.

(엑시노스8890의 경우를 보면 출시 후 현재까지 3~7% 정도 결과가 올라갔습니다.)

다르게 보면 G71 역시 추가로 성능이 올라갈 여지가 있다고 볼 수 있습니다.

맨해튼3.1의 경우 아키텍처에 의한 성능향상이 전혀 보이지 않는데 향후 성능이 올라갈 가능성이 있는거지요.



- Mali-G71 연산성능

GFX벤치 ALU2 결과를 보면 엑시노스8890 : 48 fps / 엑시노스8895 : 110.1 fps로 2.3배 올랐습니다.

동일 사양으로 계산해보면 T880 -> G71 에서 +64%의 향상이 있습니다.

Adreno 사례도 그렇지만 아직까지 ALU2 테스트 구성을 정확히 모르겠네요.


다른 앱으로 GPU GFLOPS라는게 있는데 GPU 연산성능을 잘 테스트하는듯 합니다. (개발자가 ioncannon인듯)

(링크  : http://www.coolapk.com/apk/com.ioncannon.cpuburn.gpugflops)


 

(왼쪽 : 엑시노스8895, 오른쪽 : 엑시노스8890)

이 앱으로 테스트한 결과를 보면 엑시노스8890 : 197.2 GFLOPS / 엑시노스8895 : 338.6 GFLOPS로 +72% 연산성능이 증가했습니다.

동일 사양은 환산해보면 T880 -> G71 에서 +23% 증가했습니다.


일단 벡터에서 스칼라 구조로 바뀌면서 효율이 좋아진건데 구체적인 수치를 뽑아보겠습니다.

T880은 1MP에 3ALU, G71은 1MP에 3 Execution engine이 있습니다.

다 ALU로 표기하기로 하고 ALU당 연산성능을 계산하면 아래와 같습니다.

T880 : 197.2 / 0.650 / 12 = 25.28 FLOPS/MP -> 8.43 FLOPS/ALU

G71 : 338.6 / 0.546 / 20 = 31.00 FLOPS/MP -> 10.34 FLOPS/ALU

 

1ALU당 연산성능이 정수로 떨어진다고 본다면 T880은 9 FLOPS/ALU, G71은 11 FLOPS/ALU가 될겁니다.

미드가르드 아키텍처 1ALU 구성이 FP32 유닛 x4 + Scalar 유닛 x1 으로 알려져있는데, 여기서 9 FLOPS/cycle이 나온다면 정말 정직하게 FP32 유닛이 2op/cycle, Scalar 유닛이 1op/cycle 해서 2x4 + 1x1 = 9 의 결과가 나왔다는게 됩니다.


비프로스트 아키텍처의 1ALU(Execution engine)은 32bit x4 구조로 1FMA + 1ADD/SF 구성이어서 이론적으로 FP32 기준 4 x3 = 12 op/cycle 입니다.

(링크 : ARM Mali-G71 발표. (코드네임 : 비프로스트, Bifrost))

앞서 엑시노스8895 연산성능에서 계산된 값이 10.34 FLOPS/ALU 였으니 이론치보다 낮습니다.

클럭이 546MHz가 아닌 바로 아래의 455MHz였다고 가정하고 다시 계산해보면 이론적으로 327.6 GLFOPS가 나옵니다.

위의 테스트 결과에서 AVG값인 320.5 GFLOPS보다 약간 높아서 실제 대부분 테스트는 455MHz로 돌아갔고,

초반 피크 구간도 최대 클럭에 미처 도달하지 못하고 455MHz로 내려간 것으로 해석할 수 있을듯 합니다.


앱이 잘 알려진게 아니어서 테스트 결과가 정말 없는데 테스트 결과가 추가로 나온다면 최대 393 GFLOPS까지도 기대해볼 수 있겠네요.

 

 

- 쓰로틀링 테스트

GFX벤치 맨해튼 오프스크린을 20회 loop 진행한 결과입니다.

시간으로는 20분 정도라고 하네요.

(링크 : https://www.computerbase.de/2017-04/samsung-galaxy-s8-plus-test/#abschnitt_throttling_noch_im_rahmen)

엑시노스8895는 3회차부터 455MHz로 떨어지고, 10회 이상 유지되다가 16회차부터 338MHz로 떨어집니다.

15분이상 455MHz는 유지하니 괜찮다고 볼지, 최대 값 대비 상대적으로 떨어지는 정도를 중요시할지, 절대 프레임을 중요시할지 등등 판단은 각자 알아서.

 

 

- 정리 : 엑시노스8895 GPU

Mali-G71MP20 최대 546MHz

엑시노스8890 (Mali-T880MP12) 대비 하이레벨 결과 +45~50%

맨해튼3.1 에서 +10% 정도의 추가 성능 향상 가능성


T880 대비 G71 향상치

 GFX벤치 하이레벨 테스트 : +10~15%

 연산성능 : +33% (1ALU당 연산성능 9 FLOPS/cycle -> 12 FLOPS/cycle)

 

 

 

신고
Posted by gamma0burst Trackback 0 : Comment 14

댓글을 달아 주세요

  1. addr | edit/del | reply 흡혈귀왕 2017.05.07 01:39 신고

    왜 갤8 아드레노540이 670MHz으로
    다운한지가 문제겠군요

    710MHz으로 구동되도
    546MHz Mali-G71MP20가

    T렉스나 맨하탄이 조금 더 나았음
    나았지 성능이 더 나아보이게할려고
    스냅버전을 다운했을거같진 않고...

    670MHz 상태에서 GPU GFLOPs 결과대로라면
    546MHz Mali-G71MP20보다 전력을 더 먹어서
    배터리 이슈로 줄인거일려나요...

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.07 12:37 신고

      추측입니다만 수율때문 아닐까요.
      마진이 부족해서 710으로 올리면 전력이 문제가 되고, 괜찮은거만 뽑으면 물량이 부족하고.
      그래서 653 으로 나왔을거 같고.
      샤오미나 다른 업체는 아직까지 출시도 안 되는거 봐서는 710 물량이 제대로 공급되려면 시간 좀 더 필요할거 같고요.

      나름 빨리 출시하는 업체들 중에 710 사양인건 소비전력에서 안 좋을 가능성이 있어 보입니다.
      벤치에서 보이는 피크 성능 올리겠다고 클럭 설정 풀어놨지만 현실적으로 653 정도로 돌아가는데 그치거나 하는 현상이 있을지도 모르겠습니다.

  2. addr | edit/del | reply BlogIcon ㅇㅇ 2017.05.08 01:40 신고

    스로틀링으로 떨어지는 비율이 몇이냐 따지는 것은 최대클럭 설정하기 나름이니까 크게 중요하지 않고(최대 성능이 같다면 중요하겠지만요.)

    결국 스로틀링 측면에서 제일 중요한건
    최대 성능, 최대 성능에서 얼마나 빠른 속도로 떨어지는지, 어디까지 떨어지는지, 유휴 상태시 얼마나 빠르게 온도가 떨어져서 스로틀링이 회복되는지
    이 4가지가 제일 중요하겠지요

    따라서 저렇게 자세한 테스트이지만 모두 판단하기에는 힘들겠습니다(식는 속도도 다 다를 테니까요)

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.08 02:34 신고

      저걸로 모든 결론을 내버리는데는 문제가 있지요.
      가장 크게는 일회성 테스트로 제품 편차가 있을 가능성.

      쓰로틀링시 회복같은건 이미 저 테스트 중에 나옵니다.
      GS7보면 회차마다 오르락내리락하지요.
      아이폰7+도 정도차이가 있지 비슷한 경향이고요.
      연속 부하지만 그 와중에도 클럭 떨어지면 발열 해소되고 있는겁니다.

      데이터가 의미있는지 없는지는 쓰는 사람에 달린겁니다.

    • addr | edit/del ㅇㅇ 2017.05.08 11:22 신고

      새벽이라 횡설수설 한거 같은데
      결국 테스트는 그 경향을 비춰서 보여줄 뿐 실제로 체감이 젤 중요한것 같다는 식으로 쓰려고 했는데 저렇게 됐네요 쩝

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.08 23:43 신고

      결국 체감이다라는거로 가면 결국 마지막엔 벤치마크 무용론으로 가더군요.
      체감이라는게 절대 객관적인 지표가 될 수 없기도 하고요.

      쓰는 입장에서 체감이 중요한건 사실이지만 그렇다고 그걸 객관적인 비교 기준으로 잡기에는 부작용이 너무 커보입니다.

    • addr | edit/del ㅇㅇ 2017.05.09 00:12 신고

      벤치마크 무용론은 벤치마크 자체를 부정하는 것이니 벤치마크와 실제 체감이라는 것을 적당히 타협해 보면 이 스로틀링에서만은
      벤치마크는 어떠한 기준에서의 경향을 보여줄 뿐
      여러 상황과 달라지는 변수에서의 결과는 또 다르게 나올 수 있으니 벤치마크는 참고용으로 봐야 한다.. 라고 할 수도 있을것 같습니다

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.09 00:26 신고

      그 쓰로틀링 정도를 측정하는 툴도 결국 벤치마크앱이니까요.
      벤치마크는 참고일뿐이고 결국 체감이 중요하다는건 말은 맞는데 결국 비현실적이고 원론적인 얘기일뿐이거든요.

      대체 어떤 객관적인 기준으로 제품을 비교할 것인가. 라는 질문에 답을 하지 못 하지요.
      그리고 어떻게든 실체감을 대변하기 위한 방향으로 나아가고 있는 벤치마크앱을 놓고 체감을 반영하지 못 한다는 것도 검증되지 않은 주장이고요.

      체감 중시론의 전반적인 구조적 약점이 그런건데, 벤치마크가 체감을 반영하지 못 한다에 대한 증명이 없습니다.
      써보니 벤치랑 다른거 같다. 라는건 객관적인 증명이라고 할 수 없지요.
      그에 반해 벤치마크앱이 실체감을 어느 정도 반영한다는건 입증될 수 있는 부분이고요.
      러프한 예를 들어보면 8890에서 8895로 GPU 아키텍처가 바뀌면서 효율이 올라가고 연산성능관련 벤치마크 성능이 폭증한 것, 공정 변경과 아키텍처 변화 등으로 소비전력이 어느 정도 감소한 것으로 나오는데
      이는 최적화되지 않은 게임도 어느 정도 원활히 돌아가고, 장시간 플레이해도 온도가 낮았다라는 체감, 현상으로 나타났지요.

      벤치마크가 모든 상황과 경우를 대변하지 못 한다해서 참고용으로 넘어가기에는, 그에 대한 입증과 대안이 너무 부족한게 아닌가 싶습니다.
      말씀하신 쓰로틀링도 이미 벤치마크 테스트의 영역 안에 있는 요소입니다.

  3. addr | edit/del | reply BlogIcon ㅇㅇ 2017.05.08 01:48 신고

    그런데 의문이 있는데

    아키텍처 측면에서 평균 10% 향상이다 이런 말이 있는데요

    같은 클럭, 같은 MP수에서 성능 향상치를 말하신 것인데 그럼 같은 클럭에서 소비전력 또한 달라질 수 있는것 아닌가요?

    같은 맥락에서 동일 사양에서의 성능 향상이란 말도
    어치피 쉐이더코어 구조와 규모가 변하고 전력소모도 달라질 수가 있는 걸텐데

    어차피 소비전력과 성능만이 중요한 것이 아닌가요?
    같은 클럭 같은 MP당 성능이 변하는건 무슨 의미가 있는 것인지 궁금해서 댓글을 남깁니다

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.08 02:42 신고

      제품의 최종 성능 차이 만드는데는 여러 변수가 있습니다.
      사양 자체가 다를수도 있고, 같은 사양이라도 아키텍처 차이로 성능이 다를 수도 있지요.
      전력은 다른 문제고요.
      전력 데이터 자체가 없는데 전력 측면에서 제품을 비교하는건 말도 안 되는 시도 같은데요.

      동일 클럭, 동일 MP수 기준으로 성능 환산해서 비교하는건 아키텍처 간 성능 차이를 보려는 목적입니다.
      최종 성능과 전력만 중요하다는건 개인의 의견일뿐 그 외에 요소에 대한 (따지고 보면 그렇게 깊은 것도 아니지만) 심층적인 분석이 의미없지는 않지요.
      사람에 따라서요.
      다 자기 필요에 따라 데이터 분석하고 가공하는겁니다.

      근원적인 성능 발생 요소에 대한 데이터를 축적해놔야 분석이든 추정이든 시작할 수 있습니다.

  4. addr | edit/del | reply ㅇㅇ 2017.05.08 02:08 신고

    그런데 저 벤치마크 결과 표에서 GPU 클럭은 왜 항목마다 다른가요?
    S7인데 벤치마크 돌리면서 클럭 확인해 보니까 모두 최대 650MHz로 잘 돌아갑니다

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.08 02:43 신고

      똑같이 테스트해보세요.
      본문에도 썼지만 20번 반복했다는건 20~30분 동안 연속으로 부하가 걸렸다는겁니다.

      저기서도 4회차 정도까지는 쓰로틀링 없습니다.
      4~5분 정도해서는 티도 안 난다는겁니다.

    • addr | edit/del ㅇㅇ 2017.05.08 04:02 신고

      아니.. 스로틀링 말고 맨위 사진으로 나온 표 말입니다
      거기 보면 맨해튼이랑 티렉스는 600MHz라고 나와있네요
      설마해서 돌려보니까 맨해튼 티렉스 둘다 650MHz로 잘돌아갑니다

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.05.08 23:40 신고

      그렇다면 티렉스는 사양대비 프레임이 낮게되는데 프레임 절대값이 높아서 병목이 난다고 봐야되겠네요.