- 대량 수정때문에 글 잠시 내렸습니다.

 

- ARM Mali-T720 그래픽 성능에 대한 분석/추정입니다.

이전에 갤럭시S6 커널에서 T720을 사용하는 엑시노스7580에 대한 정보가 나왔기때문에 성능을 추정해보는 과정의 일환입니다.

(링크 : 갤럭시S6 커널 정보. (엑시노스7420, 엑시노스5433 64bit, 엑시노스7580))

 

 

- 기존 제품 벤치마크

GFX벤치에서 T720 벤치마크는 미디어텍의 MT6735, MT6735M의 것만 있습니다.

(제품 출시 후 벤치는 아닌 것 같으니 참고 정도만 합시다.)

 

1. 링크

https://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&D=Himedia+Hi3798CV200&testgroup=info
https://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&did=25753932&D=bq%20Aquaris%20M4.5
https://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&did=25632544&D=Gionee%20M3%20%28Mali-T720%29
https://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&did=25705268&D=ZTE%20B880
https://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&did=25191616&D=Alcatel%20One%20Touch%204033X%20%28Mali-T720%29
https://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&did=25655845&D=ZTE%20Z820

 

2. 제품

Himedia Hi3798CV200 : 셋톱박스로 보이는데 bigfish라는 쿼드코어 SoC가 들어갑니다. 정확한 사양은 불명.
bq Aquaris M4.5 : MT6735
Gionee M3 : MT6735
ZTE B880 : MT6735
Alcatel One Touch 4033X : MT6735M
ZTE Z820 : MT6735M

 

 

- 결과정리/분석 

 

CPU

Manhattan

T-Rex

ALU

Texel fillrate

MT6735

A53Q 1.3GHz

2.9

8.6

11.9

743

MT6735M

A53Q 1.0GHz

 

4.2

6

371

 

티렉스, ALU, 텍셀 결과를 보면 MT6735가 MT6735M의 두 배입니다.

 

 

MT6735는 T720MP2 450MHz

MT6735M은 T720MP1 450MHz 라고 합니다.

 

1. 텍셀필레이트

MP2 450MHz라면 이론상 900 MTex/s 가 나와야하는데 실제 나온건 734 MTex

생각만큼 높지 않습니다.

 

2. ALU

Mali-T760MP8 772MHz에서 103.2 fps 가 나옵니다.

(링크 : https://gfxbench.com/device.jsp?benchmark=gfx30&D=Samsung+Galaxy+S6+Edge+%28SM-G925x%2C+SC-04G%2C+SCV31%29&testgroup=overall)

T760MP1 이 0.0167 fps/MHz

 

위 결과에서는 T720MP2 450MHz가 11.9 fps 입니다.

T720MP1 이 0.0096 fps/MHz

텍셀 필레이트 결과가 보여주는 372MHz 기준으로 계산하면 0.0160 fps/MHz 입니다.

 

T720의 MP당 ALU 수가 T760의 절반인걸 생각하면 ALU 테스트 결과도 동일 사양에서 절반이 나와야하는데 실제 결과는 T760의 79%~96% 수준으로 나왔습니다.

거의 같은거지요.

GFX벤치 특성에 뭔가 이유가 있는듯 합니다.

 

3. 맨해튼

MT6752 T760MP2 700MHz에서 6.2 fps

(링크 : ARM Mali-T760/T628 MP별 Performance scaling)

T720MP2 450MHz 2.9 fps

동일사양에서 프레임을 비교하면 T760이 +37% 높습니다.

 

4. 티렉스

MT6752 T760MP2 700MHz에서 16.0 fps

(링크 : ARM Mali-T760/T628 MP별 Performance scaling)

T720MP2 450MHz 8.6 fps

동일사양에서 프레임을 비교하면 T760이 +20% 높습니다.

 

 

- 엑시노스7580 성능 추정

저번 포스팅에서도 그랬지만 현재 추정의 근거로 잡을 수 있는건 경쟁 제품의 성능 밖에 없습니다.

(링크 : 갤럭시S6 커널 정보. (엑시노스7420, 엑시노스5433 64bit, 엑시노스7580))

그나마 최대 클럭이라도 있으니 범위가 너무 넓어지지는 않겠네요.

 

경쟁 제품이라면 퀄컴 Adreno405, 미디어텍 MT6752 같은 A53 옥타 제품들이겠지요.

기린930도 있습니다만 이건 T628MP4 사양이라서 GPU성능에서 비교대상으로 삼기 힘들어 보입니다.

(엑시노스5260이 T628MP3인데 엑시노스7580의 GPU 사양이 이것보다 좋으리라 보기는 힘들듯.)

 

경쟁 제품 GFX벤치 결과를 보면 이 정도가 타겟이 될 것으로 보입니다.

맨해튼 5~6.5 fps

티렉스 15~16 fps

 

커널상 최대 클럭이 800MHz이고 MP별 성능을 단순 비례로 계산해보면 이렇습니다.

 

Manhattan (fps)

T-Rex (fps)

T720MP1 8000MHz

2.6

7.6

T720MP2 800MHz

5.2

15.3

T720MP3 800MHz

7.7

22.9

사실 MP수에 비례해서 성능이 늘어나지않고 수% 정도 떨어지기때문에 실제 프레임은 이 계산치보다 약간 낮을겁니다.

이런 점도 고려해서 봐야합니다.

(링크 : ARM Mali-T760/T628 MP별 Performance scaling)

 

경재 제품 성능과 예상성능을 비교했을 때, 가장 적합해보이는 사양은 T720MP2 800MHz 입니다.

예측 성능이 타겟성능에 잘 들어맞습니다.

 

 

- 정리

1. MT6735(M)

MT6735 : A53 1.3GHz 옥타. Mali-T720MP2 450MHz

MT6735M) : A53 1.0GHz 옥타. Mali-T720MP1 450MHz

 

2. T760 vs T720

동일사양에서 T720 대비 T760 성능.

맨해튼 : +37%

티렉스 : +20%

 

3. 엑시노스7580 그래픽 사양/성능 추정.

Mali-T720MP2 800MHz

맨해튼 : 5.2 fps

티렉스 : 15.3 fps

 

 

 

Posted by gamma0burst Trackback 0 : Comment 25

댓글을 달아 주세요

  1. addr | edit/del | reply 지나가다 2015.05.06 03:24

    구글링한 결과로는 6735M은 T720MP1 450MHz, 6735P는 T720MP1 600MHz, 6735는 T720MP2 450MHz인듯 하더군요. 발열 이슈가 없어도 720이 저가형을 타깃으로 한 아키텍쳐인데 28nm공정에 미디어텍에서 클럭을 800MHz까지 올리기는 힘들지 않을까 싶습니다. 삼성에서 800까지 올린다면 공정이 더 최신 아닐까요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.06 21:39 신고

      확인해보니 그렇네요.
      이미지 검색을 주로써서 놓쳤나 봅니다.
      감사합니다.

      미디어텍이 클럭을 올리지 않은건 라인업과 원가때문이 아닐까 싶습니다.
      저클럭이 타겟이 되면 고성능보다는 고밀도로 갈 수 있어서 원가측면에서 유리한 점이 있기도 하고요.

      상위 라인업에 이미 28nm 공정으로 T760MP2 700MHz 사양의 MT6752가 있는데 T720MP2 800MHz 정도로 28nm에서 소비전력의 어려움을 얘기하기는 힘들듯 합니다.

  2. addr | edit/del | reply 흡혈귀왕 2015.05.07 02:59

    역시 스냅드래곤615에 맞춰서 MP2정도 겟죠 ㄷㄷㄷ

    뭔가 이거 MP6일때 Mali-T628MP6보다 성능이
    더 좋을거 같은 느낌이 드네요 ㄷㄷㄷ

    지금 알게된게 Mali-T720은 코어당 ALU유닛이 1개였군요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.07 21:00 신고

      저대로면 T720MP6 700MHz는 단순 선형비례로 맨해튼 13.5 fps
      성능 저하 고려하면 12.5~12.8 fps 정도 나올듯 하네요.
      T628이 같은 사양에서 13.6 fps 나왔으니 이거 무시할게 못 되는듯 하네요.
      MP수가 늘어나는대로 성능도 따라간다고 가정해서 그렇긴한데, 실제로도 그렇게 되는지가 관건일듯.

  3. addr | edit/del | reply CoLLecTor 2015.05.07 15:15

    생각해보면, 참 격제지감 이네요.

    처음 T-REX가 나왔을때에 ... 다이안에 겨우겨우 SGX554를 꾸겨넣은 A6x가 17f쯤 나오는것을 보고는.. 벤치가 엄청나구나 했는데.... 이제는 보급형에 들어갈 스펙으로 비슷비슷해져버렸으니...

    5433보니 Mali T760의 다이가 꽤나 크더군요, 720을 쓰는것도 이해는 갑니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.07 21:06 신고

      그러게 말입니다.
      사람들이 늘 아쉬워하지만 그래도 성능은 꾸준히 올라가고 있네요.
      예전 플래그쉽 성능이 지금은 보급형 성능되고......

  4. addr | edit/del | reply 2015.05.08 17:44

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.08 18:57 신고

      스냅의 기존 패턴을 보면 리비전 타이밍이 다가오고 있기는 합니다.
      대게 클럭이 약간 올라가는 식이었지요.
      그런데 현재 810, 808 상태에 문제가 있다는게 골치아프게 하는 부분입니다.
      기존 패턴대로가자면 기존 문제를 해결하고 클럭까지 올려야하지요.
      이게 현실적으로 가능할 것인가가 첫번째 의문.
      그게 어렵다면 현재 문제점들은 해결하고 클럭은 그대로 유지할텐데 이러면 네이밍을 어떻게 할 것인가가 두번째 의문입니다.
      810 이름을 그대로 가져갔다가는 잠수함 패치도 아니고 기존에 공급받은 업체를 어떻게 납득시킬건지?
      만약 이름을 바꾼다면 표면적으로 바뀐게 없는 사양에 대한 비난(?)은 어떻게 감수할 것이며, 기존 제품에 문제가 있다는걸 공식적으로 인정하는게 되는데 이에 대한 변명은 어떻게 할 것인가.

      지금 퀄컴이 언플하는거봐서는 그러거나말거나 막무가내로 돌파할 것 같긴한데 어쨌든 나름 흥미진진합니다.

  5. addr | edit/del | reply 흡혈귀왕 2015.05.08 17:56

    아! 감마님 그러고보니
    재밌는 APP이 나왔더군요

    OpenCL-Z 라는 APP인데
    GPU의 OpenCL 드라이버 프로파일 정보를 표기해줄뿐만 아니라
    퍼포먼스 테스트도 가능하더군요ㄷㄷㄷ


    GPU ALU에 대한
    single-precision float
    single-precision float Vec4
    32bit int scalar
    32bit int vec4
    24bit int scalar
    24bit int vec4

    에 대한 퍼포먼스도 확인 가능하더라구요~
    GFLOPs로 결과값이 나오는만큼
    이거이거 잘하면 각 GPU별로 ALU성능이 실제 어느정도 나오는지
    파악하는데 도움될거같습니다~ㅋ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.08 18:58 신고

      돌려보니까 연산성능이 맞는 것 같긴한데 말리 외에 다른 제품에서 어떻게 나올지 궁금하네요.
      잘 들어맞는다면 유용하게 쓰일 수 있을듯 합니다.

  6. addr | edit/del | reply 흡혈귀왕 2015.05.08 20:34

    필요하시면 아드레노330 결과는 드릴수 있을거같습니다~
    엑시노스5410인 갤4는 퍼포먼스 결과가 안나오네요ㄷㄷㄷㄷ

    • addr | edit/del BlogIcon 2015.05.08 22:16

      역시 영원히 고통받는 구갤(...)
      구갤은 구갤구갤하고...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.08 23:51 신고

      테스트할 때마다 결과 편차가 좀 있네요.
      알려주시면 사실 확인정도는 될 것 같은데 그렇다고 그걸로 대단한 뭔가가 나오지는 않을듯 합니다.ㅎㅎ

  7. addr | edit/del | reply 흡혈귀왕 2015.05.09 02:08

    OpenCL-Z 테스트 결과들입니다~

    현재 제가 테스트할수있었던 디바이스들은 이정도네요~

    =========================================

    LG G Pro
    OpenCL Driver : OpenCL1.1 EMBEDDED
    400MHz Adreno320

    single-precision float = 18.91GFLOPs
    single-precision float Vec4 = 38.27GFLOPs
    32bit int scalar = 5.55GFLOPs
    32bit int vec4 = 10.35GFLOPs
    24bit int scalar = 25.06GFLOPs
    24bit int vec4 = 25.33GFLOPs

    =========================================

    삼성 갤럭시탭 Pro 8.4
    OpenCL Driver : OpenCL1.1 EMBEDDED
    400MHz Adreno330

    single-precision float = 24.43GFLOPs
    single-precision float Vec4 = 45.97GFLOPs
    32bit int scalar = 10.08GFLOPs
    32bit int vec4 = 30.13GFLOPs
    24bit int scalar = 66.53GFLOPs
    24bit int vec4 = 122.21GFLOPs

    =========================================

    삼성 갤럭시탭S 8.4
    OpenCL Driver : OpenCL1.1 Full Profile
    533MHz Mali-T628MP4

    single-precision float = 2.89GFLOPs
    single-precision float Vec4 = 8.65GFLOPs
    32bit int scalar = 5.86GFLOPs
    32bit int vec4 = 10.03GFLOPs
    24bit int scalar = 5.41GFLOPs
    24bit int vec4 = 10.10GFLOPs

    OpenCL Driver : OpenCL1.1 Full Profile
    533MHz Mali-T628MP2

    single-precision float = 1.59GFLOPs
    single-precision float Vec4 = 4.60GFLOPs
    32bit int scalar = 2.61GFLOPs
    32bit int vec4 = 5.56GFLOPs
    24bit int scalar = 2.72GFLOPs
    24bit int vec4 = 5.03GFLOPs

    =========================================

    삼성 갤럭시알파
    OpenCL Driver : OpenCL1.1 Full Profile
    600MHz Mali-T628MP4

    single-precision float = 3.20GFLOPs
    single-precision float Vec4 = 9.71GFLOPs
    32bit int scalar = 5.92GFLOPs
    32bit int vec4 = 12.22GFLOPs
    24bit int scalar = 6.20GFLOPs
    24bit int vec4 = 12.36GFLOPs

    OpenCL Driver : OpenCL1.1 Full Profile
    600MHz Mali-T628MP2

    single-precision float = 1.73GFLOPs
    single-precision float Vec4 = 4.62GFLOPs
    32bit int scalar = 2.61GFLOPs
    32bit int vec4 = 6.07GFLOPs
    24bit int scalar = 3.12GFLOPs
    24bit int vec4 = 6.67GFLOPs

    =========================================

    삼성 갤럭시S6 엣지
    OpenCL Driver : OpenCL1.1 Full Profile
    772MHz Mali-T760MP8

    single-precision float = 11.44GFLOPs
    single-precision float Vec4 = 70.57GFLOPs
    32bit int scalar = 14.98GFLOPs
    32bit int vec4 = 70.78GFLOPs
    24bit int scalar = 15.36GFLOPs
    24bit int vec4 = 70.84GFLOPs

    =========================================


    엑시노스5420과 엑시노스5430은
    롤리팝 먹으면서부터 모든 OpenCL info APP에서
    Mali-T628MP4와 Mali-T628MP2로 표기되더군요(2모듈?!)


    아니나 다를까...역시 Mali시리즈 ALU성능은 영 거시기하군요.....

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.10 01:40 신고

      감사합니다.
      T628 하고 T760 차이가 크네요.
      ALU 구조 파악하는데 도움정도는 될거 같은데 연산성능보는 용도로 괜찮은지는 의문.

  8. addr | edit/del | reply 흡혈귀왕 2015.05.10 15:23

    갤럭시S6 엣지의 GPU클럭 모니터링을 위해
    멀티윈도우로 한쪽은 CPU-Z 한쪽은 크롬 브라우저를 띄어놓고

    크롬 브라우저에 부하가 많이 걸리는 WebGL 데모를 띄어놓고
    클럭을 모니터링해보니

    최초
    266MHz을 시작으로
    350MHz
    450MHz
    544MHz
    600MHz

    그리고 최대 부하시
    700MHz 까지 오르더군요..

    어느정도 커널의 DVFS 테이블과
    비슷하게 스케쥴링이 되는걸까요~?

  9. addr | edit/del | reply 흡혈귀왕 2015.05.11 00:39

    감마님 엑시노스5433의 700MHz Mali-T760MP6의 정확한
    페이퍼 스펙이 어느정도 인가요?

    이론상

    대충

    4.8Gpixel/s
    4.8Gtexel/s
    178GFLOPs
    정도가 맞는건가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.11 00:47 신고

      MP당 1 pix/s, 1 tex/s 입니다.
      MP6 700MHz이니 곱하면 4200 -> 4.2 GPix/s, 4.2 GTex/s
      연산성능은 1ALU당 17 flops/s 입니다.
      T760은 MP당 2ALU 였지요.
      17 x 2alu x MP6 x 0.7GHz = 142.8 GFLOPS

    • addr | edit/del 흡혈귀왕 2015.05.11 00:56

      단순히 ARM발표대로
      MP16일때 326GFLOPs라서

      반띵했을때 대충
      160~170GFLOPs 정도될줄알았는데
      그정도는 안나오는군요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.11 01:02 신고

      5433은 MP6 이니까요.
      반보다 덜 나오는게 당연.

    • addr | edit/del 흡혈귀왕 2015.05.11 01:11

      그렇긴하네요~ㅎㅎ

      근데 생각보다 T760과 T628이
      ALU 성능차가 있나보네요?

      전 사실 단순 아키텍쳐 다이어그램만 봐선
      별 차이없을거 같았는데 막상 OpenCL-Z 돌리니
      클럭과 쉐이더코어를 감안해도 꽤 차이가 나는거 같습니다.

      괜히 2세대 3세대 미드가르드 아키텍쳐 나뉘는게 아닌건가..;

      이번 GDC에서 ARM 프레젠테이션 보니
      구글의 안드로이드 익스텐션팩이나 GL Next Vulkan도
      Mali-T760부터 지원이라 하는거보니 뭔가
      차이가 있긴 있는가보군요....

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.05.11 01:21 신고

      표면적인 사양은 안 바뀌면서 개선될 수 있는 부분이 몇개씩 있어서 구첵적으로 뭐라고 잡기도 힘드네요.
      저 벤치만보고 실제 차이가 저정도일거라고 단정하기도 힘들어보이고요.
      GFX벤치 ALU 결과는 딱히 차이가 없거든요.
      FP16,24,32에 따라 성능차가 다른거라고 볼 수도 있을거 같긴한데...
      뭔가 확실한게 없네요.

  10. addr | edit/del | reply BlogIcon 2015.05.17 12:30

    감마님 a8 g6450vs7420 t760mp8 550mhz 어느게 더 좋나요?