본문 바로가기
스마트폰/mobile GPU

ARM Mali-G71 성능 분석. (하이실리콘 기린960)

by gamma0burst 2016. 12. 4.
반응형


- 기린960 GFX벤치 결과를 통한 Mali-G71 성능분석입니다.

(링크 : https://gfxbench.com/device.jsp?benchmark=gfx40&os=Android&api=gl&D=Huawei+Mate+9+%28MHA-xxx%29&testgroup=overall)



- 테스트 결과

 

 

 

- 분석 : 사양

전작인 기린950 대비 카 체이스 2.51배, 맨해튼3.1 3.1배, 맨해튼 2.97배, 티렉스 2.45배입니다.

화웨이가 발표한 2.5배와 잘 맞아들어갑니다.


사양 얘기를 좀 하면

기린950은 900MHz로 발표됐지만 엑시노스8890과의 성능 차이를 봤을 때 실동작 클럭은 800MHz 정도로 보입니다.

그런데 기린960 클럭은 왜 알려진 900MHz를 그대로 썼냐하면 1도 조건에서 테스트했다는 글이 있고 그 결과가 GFX벤치 사이트에 올라온 것과 같습니다.

(링크 : http://tieba.baidu.com/p/4868376013)

이 정도 조건이면 최대 클럭으로 돌아간 결과가 나왔다고 봐야겠지요.



- 분석 : 동일사양 성능 비교

같은 MP, 클럭 기준으로 성능을 비교해보면...

맨해튼은 그럭저럭 비슷하게 20~30% 올라갔습니다.


카 체이스는 아직 최적화 드라이버가 적용되지 않은게 원인일듯 합니다.

기린950의 경우를 보면 맨해튼3.1에서 엑시노스와 10% 이상 차이가 나는데 드라이버 영향으로 볼 수 밖에 없습니다.

최신 테스트 대응의 최신 드라이버가 적용되지 않은, 기린950 때와 같은 경우라고 봐야겠지요.


티렉스에서 차이가 적은건 절대적인 프레임이 올라간 영향으로 보입니다. (100fps가 넘어갔으니...)

앞으로 60 fps 넘어가는 테스트는 성능 비교 기준으로 삼기 힘들어 보입니다.

(성능 차이를 보기에 정확도나 신뢰도가 떨어지는듯.)


ALU2 결과가 크게 올라갔습니다.

스칼라 방식으로 바뀌면서 테스트 관련 연산성능이 크게 오른 것으로 보입니다.

예전에 한 분석대로라면 GFX벤치의 ALU 테스트는 FP16 Matrix Multiply 성능위주로 테스트하는데

(링크 : Adreno330 vs Mali-T628 GFXBench Manhattan 성능 차이 분석.)

이걸 기준으로놓고 아키텍처별 FP16 Mul 연산성능을 계산해보면,

미드가르드 아키텍처 기준 1ALU(4 x 32bit) 연산성능은 총 17 op/cycle이고, 이 중 Mul 연산은 9 op/cycle

T880MP1 : 3ALU x 9 op/cycle = 27 op/cycle


이것의 1.77배면 27 x 1.77 = 47.8 op/cycle

비프로스트 아키텍처 기준 MP1이 3ALU(3 x 4 x 32bit)이니 역산해보면 1ALU(4 x 32bit)당 ALU2 테스트관련 연산성능은 47.8/3 = 16 op/cycle 입니다.

FP32 유닛 하나로보면 4 op/cycle입니다.

(링크 : ARM Mali-G71 발표. (코드네임 : 비프로스트, Bifrost))

현재까지 나온 정보로는 1ALU가 12 op/cycle 정도로 나오지만 실제 연산성능은 그보다 높을 것으로 예상됩니다.


비프토스트가 1FMA + 1ADD/SF 구성이라고 하니 1FMA에서 MUL 1회, 1ADD/SF에서 SF로 MUL 1회해서 MUL 연산 2회에, FP32 유닛 하나에서 한 사이클에 FP16 2회 연산이 가능한 구조라면 계산상으로는 FP32 유닛 하나에서 FP16 MUL 4 op/cycle이 가능합니다.




반응형

댓글