본문 바로가기
스마트폰/퀄컴 Qualcomm

SDM845 GPU 분석. (Adreno630)

by gamma0burst 2018. 4. 28.
반응형

 

- 퀄컴 SDM845 GPU, Adreno630 벤치마크 결과 분석입니다.

 

- GFX벤치 결과

(링크 : https://gfxbench.com/device.jsp?benchmark=gfx40&os=Android&api=gl&D=Samsung+Galaxy+S9%2B+%28Adreno+630%2C+SM-G965%29&testgroup=overall)

현재 올라와있는건 갤럭시S9 결과 밖에 없습니다.

(QRD 결과가 이전에 있었던거 같은데 말입니다.)

(커널 정보로 보면 SD835=MSM8998 GPU 클럭은 v2, v2.1에서 터보클럭으로 최대 710MHz까지 설정되어 있습니다.)

그래픽 성능 +30%라는 발표치는 맨해튼 결과 기준으로 지켜진거 같습니다.

맨해튼3.1 , 카 체이스는 오히려 그보다 더 올랐네요.

 

참고로 애플 A11이 맨해튼3.1 64.5 fps / 맨해튼 93.6 fps / 티렉스 186.7 fps

(사기적인 면적대성능비 얘기할 때 참고하라고 써놓은겁니다.)

 

 

- 클럭, 공정, 전력

커널상 SDM845 GPU 클럭은 이렇습니다. 이 중에 실제 출시된건 v2나 v2.1 이지요.

710, 675, 596, 520, 414, 342, 257MHz (v2, v2.1)

600, 548, 487, 425, 338, 280, 210MHz (v1)

 

v1이 아마 소문의 10LPE 공정 버전이었겠지요.

실제 제품은 10LPP로 나왔고요.

덕분에 클럭이 올랐습니다만 18%나 올랐습니다.

10LPE -> 10LPP에서의 공정 성능 향상치라면 10% 정도였어야 됩니다.

 

(링크 : https://www.xda-developers.com/qualcomm-snapdragon-845-hands-on-benchmarks-first-impressions/)

(뒤에서 얘기하겠지만) 사양이 증가한 덕인지, 공정 대비 클럭을 더 올린 덕인지 모르겠지만 쓰로틀링 특성이 악화됐습니다.

SD835가 최대 3%정도 떨어지는데, SDM845는 최대 17%정도 떨어집니다.

클럭으로치면 596MHz 정도로 수렴하네요.

 

SD835 -> SDM845 v1 이면 같은 10LPE 공정인데 GPU 클럭은 653MHz -> 600MHz로 -8% 입니다.

사양 증가때문에 클럭이 8% 낮아져야 전력이 비슷해진다고 가정하고, 여기에 10LPP 공정 성능치를 반영하면 660MHz

여러모로 710MHz는 많이 올린 클럭같네요.

이런 점도 있고 이미 v1을 건너뛰고 바로 v2, v2.1이 첫 출시 제품이된걸 봐서는 SD821, SD835처럼 나중에 클럭이 올라간 후속작이 나오기 어려울듯 하네요.

 

아난드텍 자료로는 SD835 대비 전성비가 맨해튼3.1 기준으로 +17%, 티렉스 기준 +9%

(링크 : https://www.anandtech.com/show/12520/the-galaxy-s9-review/6)

10LPE -> 10LPP에서 전력효율이 +15%라고 하니 얼추 맞습니다.

거꾸로 말하면 아키텍처에 의한 전력효율 개선은 거의 없다는게 됩니다.

(링크 : https://news.samsung.com/kr/%ec%82%bc%ec%84%b1%ec%a0%84%ec%9e%90-10%eb%82%98%eb%85%b8-2%ec%84%b8%eb%8c%80-%ed%95%80%ed%8e%ab-%ea%b3%b5%ec%a0%95%ea%b0%9c%eb%b0%9c-%ec%99%84%eb%a3%8c)

 

 

(링크 : http://www.igao7.com/news/201802/N8DOsb5eXzHNTtJF.html)

아래쪽 두 개는 맨해튼 30 fps 고정시 소비전력.

같은 성능에서 전력은 -22%

맨해튼 30 fps라면 SD835라도 최대 성능의 절반 수준인 저클럭이라서 전력효율이 더 좋은 구간일겁니다.

 

 

- 사양

GFX벤치 로우레벨 결과를 보면 A540 대비 ALU2 +30%, 텍스처 결과 +50% 입니다.

클럭은 같으니 일단 텍스처 유닛 사양이 1.5배라고 하고, 연산유닛 사양은 1.3배라고 해야할텐데 다른 내용을 보면 앞뒤가 잘 안 맞습니다.

 

- 텍스처 유닛

먼저 그나마 간단한 텍스처 유닛.

GFX벤치 결과로만 보면 15497 / 710 = 21.8, 24 Tex/s 정도로 봐야할겁니다.

아난드텍도 사양을 그렇게 밝혔습니다. 어디선가 정보를 얻은건지 단순 계산인지 모르겠지만요.

그런데 커널에서 정보를 보면 A630의 TP(Texture Pipeline)는 4x4=16 혹은 배수인 32 로 보입니다.

16 Tex/s 라면 이론치가 710 x16 = 11360 MTex/s인데 이미 벤치마크 결과가 이보다 높게나와서 16 Tex/s로 보기는 어렵고, 저 내용에 맞추면 32 Tex/s 가 됩니다.

이러면 이론치는 22720 MTex/s가 되는데 벤치마크 결과는 이의 68% 수준입니다.

32 Tex/s 쪽을 맞춰놓고 해석하면 텍스처링 테스트시 520MHz로 돌아가든가, 벤치마크가 아직 최대 결과를 뽑아내지 못 한게 됩니다.

A540은 커널상 TP가 3x4=12 혹은 배수인 24 인데 12TMU면 결과가 이론치보다 높고, 24TMU면 너무 저클럭입니다.

A630 이랑 같은 상태인데, 이미 나온지 오래된 A540이 벤치마크 앱 문제로 최대 결과를 아직까지 뽑아내지 못 했다고 보기는 어렵겠지요.

현실적으로 24TMU로 해석하는게 타당한데 그렇다면 커널을 어떻게 해석해야 하느냐는 문제가 남습니다.

 

- 렌더링 유닛

아난드텍에서는 16 ROP라고 하는데 커널 내용으로는 2x4=8 단위로 보입니다.

8 ROP 혹은 16 ROP

이건 아난드텍 내용하고 같네요.

(이 패턴이면 32 TMU라고 해석하는게 맞는 방향일지도...)

 

- 연산 유닛

커널 내용을 보면 A540은 4CCU x2 x4SP = 32, 연산유닛이 32개 단위가 되고, A630도 같은 식으로 32개 단위로 보입니다.

일반적이라면 1SP는 FP32 x4로 구성되었을겁니다.

그렇다면 A540, A630은 32 x4 = 128코어의 배수 구성일겁니다. 128, 256, 512 이런 식.

이걸 먼저 깔아놓고 벤치마크 결과를 보면......

 

ALU2 결과는 A540 -> A630 에서 고작 30% 올라갔습니다.

연산 유닛 수는 최소로 잡아도 2배인데 이걸 1.3배로 깎아먹으려면 A630 테스트시 클럭이 35% 낮아져야되는데 현실성이 없어보입니다.

이거야 말로 테스트 결과가 충분히 높게 안 나온 것으로 보입니다.

여기서 참고할만한게 GPU GFLOPS 결과.

 

갤럭시S9 초기에 테스트 한 결과를 보면 529.4, 613.6 , A540 결과가 335.2 였습니다.

1.83배인데 연산성능에 비례해서 잘 나온 결과라고 가정해서 계산해보면,

A630 529.4 - 520MHz, 613.6 - 596MHz / A540 335.2 - 670MHz

ALU2보다 그래도 앞뒤가 맞아 보입니다.

A630은 A540에서 연산유닛이 2배로 늘어난듯하고, 연산성능 결과로 보아 A540 256ALU, A630 512ALU로 보입니다.

 

 

- 면적대성능비

(링크 : http://www.techinsights.com/about-techinsights/overview/blog/samsung-galaxy-s9-teardown/)

A630 면적은 10.7mm2 내외로 나옵니다.

엑시노스9810의 G72MP18 면적의 절반 미만입니다.

(링크 : 엑시노스9810 GPU(Mali-G72) 성능 분석. (GFX벤치))

 

맨해튼 오프스크린을 기준으로 면적대성능비를 비교해보면

A630 (SDM845) : 83.1 fps / 10.7mm2 = 7.8

G72MP18 (엑시노스9810) : 77.6 fps / 24.5mm2 = 3.2

애플 A11 : 93.8 fps / 15.3mm2 = 6.1

 

엑시노스9810의 2.45배, A11의 1.27배 입니다.

TSMC와 삼성 공정 간의 면적 차이를 고려해도 차이가 큽니다.

 

 

- 정리 : SDM845 Adreno630

10LPP 공정, 최대 710MHz

512ALU - 24TMU - 16ROP (32TMU 가능성도 없진 않음.)

최대 727.0 GFLOPS, 17.0 GTex/s, 11.4 GPix/s

A540 대비 그래픽 성능 +30% 이상, 연산성능 2배.

 

 

 

반응형

댓글