- 하이실리콘 기린950 (HiSilicon Kirin 950) 발표 자료와 GFX벤치 결과로 ARM Mali-T880 성능을 확인해보겠습니다.

(링크 : https://gfxbench.com/device.jsp?benchmark=gfxgen&os=Android&api=gl&D=Huawei+NXT-AL10&testgroup=overall)

기린950의 다른 부분은 따로 다룰 예정입니다.

 

 

- 화웨이 발표 자료

화웨이에서 기린950를 발표하면서 인터넷상에 사진이 여럿 올라왔지만 여기서는 GPU 성능 관련된 것만 보겠습니다.

 

 

 

Mali-T880MP4 900MHz

맨해튼 오프스크린 18 fps

티렉스 오프스크린 약 34 fps

(기린930 GPU 클럭이 680MHz 였군요.)

 

GPU 연산성능은 T628MP4 680MHz 대비 2배로 표기하고 있습니다.

클럭이 +32%이니 동사양에서 연산성능은 1.51배라는건데.

MP당 ALU수가 2개에서 3개로 늘어났으니 일단 숫자상으로 맞습니다.

18GFLOPS라고 하는데 이걸로 계산하면 1ALU당 5 FLOPS/cycle 입니다.

Midgard 아키텍처의 FP32 Vec x4+ FP32 Scalar x1 구조 기준으로 얘기한듯.

 

 

- GFX벤치 결과

기린950 탑재인 화웨이 NXT-AL10 결과입니다.

(링크 : https://gfxbench.com/device.jsp?benchmark=gfxgen&os=Android&api=gl&D=Huawei+NXT-AL10&testgroup=overall)

참고로 같은 이름으로 검색하면 긱벤치 결과도 있습니다.

 

CPU 클럭이 2.2GHz로 나오는데 화웨이 발표가 2.3GHz걸 봐서는

클럭이 2.2x MHz여서 시스템 정보에 2.2GHz로 표기됐거나, 화웨이 발표 사양보다 클럭이 낮게 들어갔을 가능성이 있을듯 합니다.

 

결과를 보면,

맨해튼, 티렉스 결과는 아직입니다.

ALU2 오프스크린 19.4 fps

Texturing 오프스크린 2441 MTex/s

 

 

- 비교/분석

결과를 정리하면 이렇습니다.

 

AP

GPU

MP

CLK FREQ

Manhattan
3.1

Manhattan

T-Rex

ALU

ALU2

Fillrate

Texturing

Manhattan

T-Rex

Exynos5430

T628

6

600

550

7

13.6

31.4

60.1

12.8

3204

2028

Exynos5433

T760

6

700

600

7.9

17.9

38.6

70.4

13.6

3403

2523

Exynos7420

T760

8

772

700

16.3

24.9

58.8

103.1

20.1

5285

4006

MT6755

T860

2

700

700

4.8

7.2

17.2

 

6

 

1012

Kirin950

T880

4

900

900

 

18

34

 

19.4

 

2441

 

1. Texturing

필레이트나 텍스처링 결과를 보면 최대 클럭이 유지되는거 같지는 않습니다.

텍스처링 결과 기준으로 보면,

MT6755 : 1012 / 2 = 506MHz

엑시노스5433 : 2523 / 6 = 420.5MHz

엑시노스7420 : 4006 / 8 = 500.8MHz

기린950 : 2441 / 4 = 610.3MHz

 

엑시노스 결과를 보면 임의로 정해진 클럭이 적용되는거 같기도 합니다.

(420MHz는 GPU 클럭 테이블에 지정된 값 중에 있음.)

다른 제품과 쓰로틀링 경향이 비슷한지도 알 수 없으니 비율로 끼워맞출 수도 없네요.

MT6755 기준으로 계산하면 610 / (506/700) = 844MHz

850MHz 정도로 계산되는데 어차피 900MHz로 발표됐으니 더 따질건 없어보입니다.

 

AP

GPU

MP

CLK
FREQ

클럭당성능 (fps/MHz/MP)

Manhattan
3.1

%

Manhattan

%

T-Rex

%

ALU

ALU2

%

Exynos5430

T628

6

550

0.00194

74%

0.00378

89%

0.00952

89%

0.01821

0.00388

103%

Exynos5433

T760

6

600

0.00188

71%

0.00426

100%

0.01072

100%

0.01956

0.00378

100%

Exynos7420

T760

8

700

0.00264

100%

0.00403

95%

0.01050

98%

0.01841

0.00359

95%

MT6755

T860

2

700

0.00343

130%

0.00514

121%

0.01229

115%

0.00000

0.00429

113%

Kirin950

T880

4

900

 

 

0.00500

117%

0.00944

88%

 

0.00539

143%

 

2. ALU2

T860 대비 클럭당성능 +26% 입니다.

사양상 50% 차이가 나야하는데 그보다 적네요.

1.5배가 나온다고 가정하고 기린950 결과로 ALU2 테스트 클럭을 계산하면 750MHz

설정 클럭일지도 모르겠습니다.

 

3. 맨해튼

T860 대비 클럭당성능 -3% 입니다.

이것만 보면 동급인데 미디어텍 발표나 다른 자료봤을 때 +17%로 보인단 말이지요.

(링크 : ARM Mali-T880 그래픽 성능 추정. (update 2015.08.26))

바로 앞에서 계산한 750MHz를 적용하면 +17%로 계산됩니다.

결과가 올라갈지 저게 원래 성능인지 클럭이 900MHz가 아닌건지.

제품이 정식 출시되면 다시 봐야겠습니다.

 

현재 GFX벤치 사이트에 올라온 결과가 17.4 fps 입니다.

아래에서 언급하겠지만 GPU 클럭 step이 900 800 650 입니다.

이걸 근거로 실제 테스트 중에 800, 650MHz를 왔다갔다 한다고 가정하고 유효 클럭을 중간값인 725MHz로 잡아서 클럭당프레임을 계산해보면 0.006 fps/MHz로 T860 대비 +16.6% 입니다.

17%라는 값과 잘 들어맞지요.

화웨이 설정 혹은 쓰로틀링으로 인해 최대 클럭으로 돌아가지 않는듯 합니다.

 

 

4. 티렉스

T860 대비 클럭당성능 -23% 입니다.

900MHz가 아니라

750MHz로 잡으면 -8%

700MHz로 잡으면 -1%

650MHz로 잡으면 +6%

600MHz로 잡으면 +15%

 

예전 포스팅에서 T760 -> T880 에서 티렉스 +17% 정도로 나온적이 있는데,

(링크 : ARM Mali-T880 그래픽 성능 추정. (update 2015.08.26))

여기에 맞추면 클럭은 680MHz

기린930 GPU 클럭이니 티렉스 클럭이 이 정도일 가능성도?

680MHz 기준으로 보면 T860 -> T880 : +2%

 

현재 GFX벤치 사이트에 올라온 결과가 40.8 fps 입니다.

앞서 맨해튼에서 했던대로 유효클럭 725MHz로 가정하여 계산하면 클럭당프레임은 T860 대비 +14.5% 입니다.

 

 

- 결론/의문

화웨이 발표 사양과 성능을 기준으로 보면 사양대비 제 성능이 안 나오는걸로 보입니다.

맨해튼 기준으로 보면 발표치인 18 fps가 아닌 20 fps 정도만 나와도 기존 T880 정보와 잘 들어맞는단 말이지요.

현 성능으로 보면 맨해튼 750MHz, 티렉스 680MHz 로 봐야 기존 정보들과 클럭당성능이 일치하고 있습니다.

 

화웨이 발표 사양/성능은 사실 거의 절대적인 내용이라고 봐도 될겁니다.

몇% 향상같은 우회적인 표현이 아니라 대놓고 사양과 성능을 공개했으니까요.

그렇다면 클럭설정이 900MHz가 아닐 가능성은 낮게 볼 수 있고, 그 경우를 제외했을 때 성능이 떨어질 가능성을 생각해보면 드라이버나 쓰로틀링 정도 외에는 일반적인 경우가 생각나지 않습니다.

 

 

 

그런데 드라이버 차이에 의한 성능 차이라고 보기에도 T860 (MT6755) r7p0, 기린950은 r8p0 라서 기린950 드라이버가 더 최신입니다.

기존 제품과 구조가 달라 드라이버 버전과 관계없이 최적화가 덜 되었다는 추정은 가능할 수 있겠지만요.

 

그러면 남는건 쓰로틀링인데 이 가능성을 뒷받침하는게 CPU 클럭.

16FF+ 공정임에도 같은 Cortex-A72 쿼드코어가 들어간 스냅드래곤620과 비교했을 때 CPU 클럭상승이 너무 적습니다.

(링크 : 애플 A9, A9X CPU 성능 분석. (Geekbench3))

아키텍처는 다르지만 스냅620과 스냅810, 엑시노스5433의 CPU 클럭차이로 보아 스냅620은 공정성능만큼 클럭이 나와준 것으로 생각됩니다.

그렇다면 문제는 Cortex-A72가 아니라 16FF+ 공정이라는 결론이 나겠지요.

16FF+ 공정때문에(아직 안정화가 안 되었다든지...) CPU에서는 클럭상승이 제한되었고, GPU에서도 비슷한 원인으 쓰로틀링이 발생하여 클럭대비 성능이 낮게 나왔다는 가설을 세워볼 수 있습니다.

 

 

- update 2016.01.07

아난드텍 리뷰 결과를 보면 맨해튼 18.2 fps, 티렉스 41.6 fps 입니다.

FHD 제품이고 온스크린이 19.2 fps, 43.7 fps가 나오는걸봐서는 오프스크린 결과가 좀 낮게 나온듯 합니다.

(가상키패드때문에 온스크린 해상도가 FHD보다 약간 작음.)

온스크린 결과 정도로 나온다면 미디어텍 등의 소스에서 알려진 T880 성능과 어느 정도 들어맞는 수준이 됩니다.

 

클럭 단계는 900 800 650 480 360 266 160 정도로 보입니다.

아난드텍 리뷰를 보면 650MHz까지 전압 697mV로  일정하다가 800MHz에서 709mV로 약간 올라가고, 900MHz에서 776mV로 크게 올라갑니다.

티렉스 기반의 배터리 테스트에서도 초반 7~8분 정도는 44 fps 정도를 유지하다가 이후에는 40 fps 정도를 유지합니다.

계산해보면 초반에 900MHz로 동작하다가 800MHz로 떨어졌다는게 됩니다.

 

새롭게 갱신된 맨해튼, 티렉스 결과에서도 보이듯이 쓰로틀링의 가능성이 보입니다.

이게 TSMC 공정의 문제인지, A57과 같은 ARM 레퍼런스의 문제인지는 지켜봐야할듯 합니다.

 

 

- update 2016.01.07 아난드텍 리뷰 정보 추가

(링크 : http://www.anandtech.com/show/9878/the-huawei-mate-8-review/5)

 

 

 

Posted by gamma0burst Trackback 0 : Comment 22

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon CoLLecTor 2015.11.22 14:31

    잘 읽었습니다. 요즘은 하이실리콘이나 미디어 텍 같은 중화권 업체들만 이렇게 까놓고 공개하니.... ;;
    헬리오 X20이 좀만 빨리나왔음, 교차검증이 가능할텐데 말이죠. 조금 더 안정화가 되서 일정한 걸과만 보여준다면, MP12구성으로 들어간 엑시노스M1의 감마님의 추리(?) 기대힙니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.11.22 18:09 신고

      이렇게 공개하는거 너무 좋습니다.

      화웨이가 공개한 성능이 예상보다 낮아서 MP12 성능 추정치가 조금 틀어져서 어떻게 판단해야할지 모르겠습니다.
      좀 더 봐야할듯......

    • addr | edit/del BlogIcon A TNT 2015.11.22 19:52

      뭐 GPU 클럭이 900mhz보단 낮아도 일단 코어수가 3배니 40fps는 충분히 넘을거라고 봅니다. 다만 GPU 전력소모량이 걱정될 뿐이죠

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.11.23 20:04 신고

      40 fps 넘는걸로 경쟁력이 보장되지 않으니까요.
      스냅820 상태봐서는 안 되도 42 fps 이상 되어야 할듯.

  2. addr | edit/del | reply BlogIcon A TNT 2015.11.22 15:25

    역시 다들 20으로 예상했는데... 18fps가 나왔네요. 저정도면 오차범위 내라고 생각하고 나중에는 올라갈 가능성도 있다고 생각합니다. 말리가 다 그렇죠 뭐...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.11.22 18:17 신고

      10% 넘는 차이를 오차범위라고 보기 좀 그렇다는게 문제지요.
      게다가 대놓고 수치를 공개한거라 빼도박도 못하고 현 시점에서 성능이 저렇게 나온다는 얘기가 되거든요.
      여러가지로 해석하기 복잡해집니다.
      미디어텍이 말한 X20 성능향상을 신뢰한다면 ARM이 업체들에게 배포한 성능 자료를 근거로 했을 것이고, ARM은 어떤 근거가 있으니 그런 자료를 만들었을거란 말이지요.
      그런데 현 시점에서 그만큼의 성능이 안 나온다면, 원인이 ARM에 있거나 화웨이(하이실리콘)에 있을겁니다.
      화웨이 책임이라면 제조 등에 문제가 있어서 쓰로틀링이 심하거나, 아직까지 최적화가 미비하거나 하는 경우일테고,
      ARM 책임이라면 아직까지 T880의 최적화된 드라이버를 준비하지 못 했거나, 다른 업체에는 제공했으나 화웨이는 tier가 낮아 아직 제공받지 못 했을 가능성 정도.

      어쨌든 출시할 때까지 시간이 있으니 그 사이에 성능이 더 올라갈 가능성이 있다는데는 동의합니다.

  3. addr | edit/del | reply 2015.12.03 21:50

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.12.03 23:04 신고

      진짜 써먹기 힘들게 만드는데는 도가 텄네요.
      이러니 커스텀 아키텍처로 다들 돌아서는거 아닌가요.

    • addr | edit/del 2015.12.05 14:49

      비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.12.05 20:24 신고

      지금 결과만보면 그냥 T860쓰는게 나을 지경이니까요.

  4. addr | edit/del | reply 2016.01.07 22:45

    비밀댓글입니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.01.07 23:09 신고

      아직까지 가상키패드쓰는 제품이 있었네요.

      드라이버 문제도 가능성이 있기한데 그렇다고 검증되려면 시간이 많이 걸리겠네요.
      업데이트를 금방 해주는게 아니니..

  5. addr | edit/del | reply 흡혈귀왕 2016.01.07 23:16

    이런 상황에서

    핼리오x20의
    700MHz Mali-T880MP4가 제성능 잘나오면
    그건 그거대로 웃길듯하네요 ㅋㅋㅋㅋ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.01.07 23:21 신고

      드리이버 버전같은데 제 성능 나오면 거의 쓰로틀링 확정으로 가지 않을까 싶네요.
      고클럭에서 문제고 저클럭에서 괜찮다 가 되어버리니.

    • addr | edit/del BlogIcon A TNT 2016.01.08 00:05

      이번 엑시노스 8890은 T880 MP12로 코어수 늘리는 대신 클럭이 7420과 비슷하거나 좀 낮은 수준으로 나올걸로 예상되는데 그것도 다 어느정도 계산된거였을까요?

    • addr | edit/del 흡혈귀왕 2016.01.08 00:40

      아마 삼성의 기존 사례를 생각하면
      Mali-T880의 고질적인 문제가 있었다면

      엑시노스5433의 A57때처럼 마개조로 고쳐서
      성능 올렸을거같네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2016.01.08 12:15 신고

      클럭이 낮은건 저런걸 고려했다기보다는 고성능을 위한 GPU 구성이 多코어 低클럭 일 수 밖에 없어서 그럴겁니다.

    • addr | edit/del 1234 2016.01.08 15:10

      별로....T760도 삼성이 손봤지만
      전성비는 쓰레기였으니....

  6. addr | edit/del | reply 1234 2016.01.08 15:07

    역시나 말레기는 말레기네요.
    T880도 전성비 쓰레기일듯

  7. addr | edit/del | reply ㅇㅇ 2016.02.03 06:13

    대충 760 6개= 880 4개로 보면 되는건가요?