퀄컴에서 스냅드래곤805를 발표했습니다.
간단한 사양을 보면,

CPU : Krait 450 쿼드코어. 최대 2.5GHz
메모리 : LPDDR3 쿼드채널 800MHz (32bit x4 = 128bit, 25.6GB/s)
GPU : Adreno420, Adreno330 대비 40% 성능 향상.
(
http://www.prnewswire.com/news-releases/qualcomm-technologies-announces-next-generation-qualcomm-snapdragon-805-ultra-hd-processor-232643031.html)

CPU는 Krait 400 에서 450 으로 바뀌었지만 메모리 지원 등의 자잘한 변화가 있을뿐 성능 측면에서 변화는 없어 보입니다.
볼만한 부분이 GPU입니다.
일단 지금까지 나온 정보를 보면,
- Adreno330 대비 40% 성능 향상.
- 독립된 테셀레이션 유닛.
- D3D11, OpenCL 1.2, ASTC 등 지원.
- 메모리 컨트롤러와의 연결이 독립. (기존에는 디코더, ISP와 공유.) : 데이터 이동 효율 증가.
- 쉐이더에 의존적인 벤치마크 결과 40% 상승. : 쉐이더 수 증가를 암시.

위 정보를 토대로 Adreno420의 성능을 추정해보겠습니다.
우선 로우레벨 성능 추정.





Adreno GPU 얘기가 나오면 빠질 수 없는 자료입니다.
위 표를 정리하면 다음과 같습니다.
Adreno320 - 400MHz - 3200 Mpix/s
Adreno330 - 450MHz - 3600 Mpix/s
Adreno420 - 500MHz - 4000 Mpix/s
클럭과 픽셀성능의 비율이 세 제품 모두 같습니다.
텍스처 유닛, 픽셀 유닛의 수가 같다는 의미입니다. 각각 4개, 8개.

트라이앵글 성능은 (제 수준에서) 현재까지 정확한 비례관계를 찾지 못 했습니다.
다만 가장 신뢰도가 높은 수치가 Adreno320 400MHz 225Mtri/s 입니다.
이를 토대로 Adreno420의 사양에 맞춰 계산해보면 281.25 Mtri/s 가 나옵니다.
이전 제품의 값을 토대로 계산한 것이기때문에 Adreno420에서 기존 제품과 다른 큰 변화가 있다면 실제 이론 성능은 달라질 수 있습니다.
로우레벨 성능을 정리하면 다음과 같습니다.

- Adreno420 500MHz 이론 성능.
281 MTriangles/s (추정치.)
2.0 GTexels/s
4.0 GPixels/s

이제 하이레벨 성능을 추정해보겠습니다. 쉽게 말해 GL벤치마크 결과가 어느 정도 나올 것인가 하는겁니다.
우선 퀄컴이 밝힌 40% 성능 향상이 어떤 식으로 해석될 수 있는지 보겠습니다.
이리저리 숫자를 끼워맞춰본 결과 제가 선택한 방식은 Frame/MHz 라는 값입니다.
GL벤치마크 2.7 T-Rex 오프스크린 테스트 결과(Frame)를 GPU 클럭(MHz)으로 나눈 값입니다.
높을수록 클럭당 성능이 높습니다.
Adreno320/330의 테스트 결과를 모아보면 다음과 같습니다.

Adreno320 - 400MHz - 14.0 fps -> 0.035 Frame/MHz
Adreno320 - 500MHz - 17.2 fps -> 0.034 Frame/MHz
Adreno330 - 450MHz - 23.3 fps -> 0.052 Frame/MHz
Adreno330 - 550MHz - 27.0 fps -> 0.049 Frame/MHz

예전 정보를 보면, 퀄컴이 스냅드래곤800 Adreno330의 성능을 Adreno320 대비 50% 향상이라고 했습니다.
(
퀄컴 스냅드래곤800 Adreno330 분석.)
Adreno330과 320의 Frame/MHz 를 비교해보면 Adreno330이 최대 50.5% 높습니다.
퀄컴의 발표 내용과 일치하지요.

이런 관계를 이용해 Adreno420의 GL벤치마크 결과를 추정해보겠습니다.
Adreno420이 Adreno330 대비 40% 향상이라고 했으니 대략 0.07 Frame/MHz 정도가 나올겁니다.
여기에 Adreno420의 클럭인 500MHz를 적용하면 35 fps가 나옵니다.

결국 Adreno320/330/420의 클럭당 성능이 다르다는 얘기인데, 앞서 언급했듯이 그래픽 성능과 직결되는 유닛의 수는 모두 같은 것으로 보입니다.
그렇다면 성능 차이를 만드는 변수는 연산유닛(ALU, 쉐이더) 수의 차이로 밖에 설명할 수 없습니다.
Adreno330과 320의 성능차이도 연산유닛 차이에서 기인한 것으로 봤으니까요.
여기서 주목할 부분이 '쉐이더에 의존적인 벤치마크 결과가 40% 향상되었다.'는 내용입니다.
이 말은 즉 연산성능이 40% 향상되었다는건데 클럭이 450MHz -> 500MHz 로 11% 증가했으니 산술적으로 연산유닛 수는 26% 증가해야 합니다.
Adreno330이 128ALU인데 여기서 26%가 증가하면 160ALU입니다.
Adreno계열이 32ALU 단위로 늘어나니 수치적으로 들어맞기는 합니다만 미심쩍은 구석이 있습니다.
Adreno320 -> 330의 경우, ALU가 100% 늘어났음에도 클럭당성능은 50%가 늘어났을뿐입니다.
그런데 ALU가 25% 늘어난 것으로 클럭당성능이 40%나 증가하는 것이 가능하냐가 의문입니다.
Adreno330의 전례를 따른다면 75%~100% 증가한 224ALU, 256ALU가 되어야 합니다.
쉐이더에 의존적인 벤치마크가 뭔지도 불확실한 상황에서 그 정보를 곧이곧대로 믿기도 그런게 사실입니다.
192ALU가 가장 유력해보입니다만,
ALU수가 어떨지는 구체적인 벤치마크 결과가 나와봐야 확실해질듯 합니다.

앞서 Adreno420 클럭을 500MHz로 봤지만 더 높은 클럭이 있을 수도 있습니다.
Adreno320/330 모두 퀄컴에서 밝힌 클럭보다 높은 클럭이 있었습니다. (대부분 삼성 제품만 그랬다는거.)
Adreno320 - 400MHz -> 500MHz
Adreno330 - 450MHz -> 550MHz
이런 패턴이면 Adreno420은 600MHz가 있을수도 있습니다.
이 경우 GL벤치마크 결과는 42 fps가 나오겠지요.



- 정리.

- Adreno420 500MHz (추정치)
192ALU, 4TMU, 8ROP
281 MTriangles/s

2.0 GTexels/s
4.0 GPixels/s
216 GFLOPS
GL벤치마크 2.7 T-Rex 오프스크린 35 fps


- Adreno420 600MHz (추정치)
192ALU, 4TMU, 8ROP
338 MTriangles/s

2.4 GTexels/s
4.8 GPixels/s
259.2 GFLOPS
GL벤치마크 2.7 T-Rex 오프스크린 42 fps



Posted by gamma0burst Trackback 0 : Comment 31

댓글을 달아 주세요

  1. addr | edit/del | reply 흡혈귀왕 2013.12.13 00:40

    오우~! 따끈따근한 정보네용~!

    그리고 오랫만에보는 모바일 GPU비교표라닛~~~
    PowerVR6 G6200 추가시켜주세연~

  2. addr | edit/del | reply windblade 2013.12.13 00:54

    아드레노 420 GPU 성능의 추정치가 저정도라면 GL 벤치마크 결과만 놓고 볼때 대략 인텔 내장그래픽 HD3000 ~ 4000 사이 정도라고 할 수 있을것 같군요. 엄청난 발전이네요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.13 10:45 신고

      엄청난 발전이긴 합니다.
      저 추정이 맞다는 가정이 우선되어야하지만요.

  3. addr | edit/del | reply ㅁㅁ 2013.12.13 00:56

    420보다 430이 330의2.5배성능이라는데 그게 기대...

  4. addr | edit/del | reply 흡혈귀왕 2013.12.13 01:08

    근데 보통 ARM이든 이메지네이션사든 엔비디아든
    GPU 대략적인 부동소수점연산 성능 공개하는데

    왜 퀄콤만 이야기안하는지 궁금하네요...
    픽셀과 지오매트리는 공개하는데...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.13 10:48 신고

      말씀하신 두 업체가 정확한 정보를 공개한다고 보기는 힘듭니다.
      성능 정보를 가장 공개하지 않는 업체가 이매지네이션과 엔비디아거든요.
      그에 비하면 부분적이라도 픽셀, 지오메트리 성능을 공개하는 퀄컴은 양호한 편입니다.
      사실 가장 성능 정보를 많이 공개하는게 ARM이고요.
      말리계열은 뭐 하나부터 열까지 성능 다 공개하지요.

  5. addr | edit/del | reply dptls99 2013.12.13 18:50

    64비트 스냅410에 달린 아드레노306도 궁금하군요 예전에나왔던305와 어느정도차이일지....

  6. addr | edit/del | reply Holo 2013.12.16 22:04

    괴물이네요...허;;; 330보고도 자지러질 뻔했는데 420이 저 정도면;;;

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.17 00:04 신고

      저대로 나온다면 놀라운 성능이긴 하지요.
      하지만 내년 3분기에 저정도 성능이 독보적인지 아닌지가 관건일겁니다.

    • addr | edit/del Holo 2013.12.18 05:43

      하기야...나머지 업체들도 그 동안 노는게 아닐테니 ㅎㅎ...말리 T760 성능도 만만치 않더군요

  7. addr | edit/del | reply 피노키오 2013.12.17 16:17

    전력을 제한하면서 성능을 높혀야 한다면
    420Mhz 에 6코어 (32sp를 1코어로보면) 일수도 있겠군요
    TMU가 저번에 말씀하신 6개 그대로 유지된다면
    1코어당 1TMU 대응으로 좀 더 대칭화되려나 봅니다

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.18 12:35 신고

      보니까 다 4TMU 같더라고요.
      (예전에 쓴건 수정해야겠네요.;;)
      성능향상이 기존 제품 성향을 보면 192SP로 보는게 가장 타당하긴 합니다.

  8. addr | edit/del | reply ㅁㅁ 2013.12.19 12:58

    저기 궁금한건데요

    말리628 MP6가 지금 5420에 달렷는데 여기서 코어2개 추가하고 클럭을 700MHZ에 20나노공정으로 만들고 최적화좀 더하고 아키텍쳐도 코어텍스A57로 바꾸면 GPU성능이 어느정도로 오를까요

    지금 딱 코어2개를 추가하면 33%의 성능향상이 잇을거 같은데(MP6의 성능을 100으로 치고 그걸 6으로 나누면 16.66666666666667가 나오는데 16.66666666666667 X 2가 33%)

    딱 33%가 오를까요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.20 00:14 신고

      T628MP8 700MHz면 GL벤치마크 2.7 T-Rex 오프스크린 기준으로 35~36 fps 정도 나올듯 하네요.
      T628MP6 700MHz가 27 fps 좀 안 되는데,
      말씀하신대로 클럭은 같고 사양은 MP8/MP6 = 4/3 = 1.33
      33% 증가했지요.

  9. addr | edit/del | reply ㅁㅁ 2013.12.19 13:06

    그리고 ap아키텍쳐랑 gpu랑은 어느정도의 관계? 친밀성을 가지고 잇나요
    a6같은경우에는 sgx543mp3가 토사구의543mp4보다 오프스크린성능이 더좋앗던걸로 기억하는데...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.20 00:47 신고

      CPU와 GPU 성능 관계는, 메모리 대역폭의 공유같은 부분만 아니면 거의 상관없습니다.
      GPU 부하가 심한 작업의 경우(거의 게임이죠 뭐.) CPU 사용률은 그렇게 높지 않습니다.
      빅리틀 조건에서 A7로 해결이 되는 수준이 대부분일 정도지요.

      아이폰5 - A6 - SGX543MP3 350MHz
      아이패드3 - A5X - SGX543MP4 250MHz
      이 둘은 GL벤치마크 2.7 기준으로 오프스크린 성능이 같습니다.
      사실 이유는 간단합니다.
      A6이 MP4에서 MP3으로 사양이 줄어들고, 250MHz에서 350MHz로 클럭이 올라서 동급이 된겁니다.
      4 x 250 = 1000, 350 x3 = 1050
      5% 차이인데 이 정도면 오차범위 동급이지요.

  10. addr | edit/del | reply STARKxTONYx 2013.12.19 13:06

    좋은정보 감사드립니다. 감마님께 질문 그리고 싶습니다. 아드레노 430수치를 보니 fps는 8800gt급인데 어쩌서 gflops는 8800의 2배이나 texel수치는 1/4에 불과한 걸까요? 어떤 상관관계가 있는건지, 아니면 의도적으로 수치를 낮춘건지,혹은 저전력의 영향이 있는건지 알고싶습니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.20 01:06 신고

      질문에 여러가지 의문이 있네요.
      - fps는 8800gt급인데
      GL벤치마크 2.7 오프스크린에서 8800GT는 124.7 fps입니다.
      42 fps의 3배지요.

      - gflops는 8800의 2배이나
      8800GT 연산성능은 504 GFLOPS입니다.
      본문에서 제가 추정한 Adreno420 연산성능의 2배입니다.
      이 부분은 8800이 2배라고 쓰시려다가 꼬인걸지도 모르겠네요.

      - texel수치는 1/4에 불과
      8800GT는 텍스처유닛(TMU)가 56개, 동작클럭이 600MHz입니다.
      이론적인 텍셀성능은 33.6 GTexels/s 이지요.
      그에 반해 Adreno420은 4 TMU, 600MHz로 2.4 GTexels/s
      이론치 기준으로 7% 수준이고, Adreno330 결과를 참고해서 추정한 실제 결과를 비교하면 22% 수준에 불과합니다.
      (Adreno330보다 효율이 좋다면 진짜 25%, 1/4 이 될지도 모르겠네요.)

      -
      텍셀수치가 낮은건 관련 유닛 자체가 적기때문입니다.
      왜 이렇게 TMU가 적느냐.
      말씀하신대로 저전력을 위한 것이라고 봐야합니다.
      물론 관련 유닛 수가 막 늘어나서 성능도 막 늘어나면 좋겠지요.
      하지만 소비전력과 메모리대역폭 등에서 제약이 심한 모바일 제품에서 그런건 무리겠지요.
      이론 텍셀성능이 밀린다고해서 실제 테스트 결과마저 그렇지도 않고요.
      Mali-T628MP6이나 SGX544MP3 를 기준 비교해보면 동클럭에서 이론 텍셀성능은 Adreno320/330/420이 33% 떨어집니다.
      하지만 실제 테스트 결과를 보면 클럭당텍셀성능이 SGX544MP3에 비해 26% 떨어지고, Mali-T628MP6에 비해 4% 떨어질뿐입니다.
      효율이 (훨씬) 좋은겁니다.
      결국 이론 성능 비교만으로 GPU 성능을 판단하기는 힘들다는 얘기입니다.

    • addr | edit/del STARKxTONYx 2013.12.20 04:19

      우문현답이라더니 엉망으로 정보를 보고 질문드려도 정확하게 제 의도를 알고 답변해주셨네요. 감사합니다. 8800gt가 아닌 8600gt를 염두에 두고 쓴 글이였습니다. gfx bench 기준 8600gt가 fps:35.2, gflops: 113, texelfillrate: 8.64 이더군요. 그래서 왜 fps는 비슷한데 gflops는 아드레노420이 2배나 더 크고, 텍셀수치는 1/4밖에 안될까 의문이 들었습니다.^^ 8800gt는 질문글 쓰다가 " 이러다 8800gt도 이기는거 아냐?" 라는 생각이 들어서 그만 잘못적어 버렸네요.ㅋㅋ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.20 11:50 신고

      8600GT면 맞네요.ㅎㅎ
      38.4 fps
      2.9 GTex/s (16TMU, 540MHz, 이론 8.64 GTex/s)
      113 GFLOPS

  11. addr | edit/del | reply STARKxTONYx 2013.12.20 17:50

    질문하나 더 드려도 될까요? 현세대 콘솔(ps3,xbox360)컨텐츠들이 너프되지 않고 스마트폰으로 이식되려면 아드레노420보다 더 성능이 뛰어나야 할까요? gflops는 아드레노420후속이면 얼추 능가할것같은데 그외 다른 고려사항들은 어때야 하는지 잘모르겠네요. 1080p 5.7인치 스마트폰 기준으로 720p 해상도의 컨텐츠로 나오는 거라면 내후년쯤이면 이식가능할 스펙이 될런지요? 진삼국무쌍이나 슈로대 ps3 그대로 이식되는 날좀 봤으면 좋겠네요^^

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.21 00:31 신고

      플래그쉽 수준의 스마트폰이라면 이미 성능측면에서는 충족시켰다고 봅니다.
      콘솔보다 떨어지지만 스마트폰 수준에서 뭐 얼마나 대단한 퀄리티를 즐기겠다고 콘솔 이상의 성능을 요구하겠습니까.

      이식 문제는 성능보다는 제작사의 의지가 문제 아닐까 싶습니다.
      이래저래 못할 이유는 많을겁니다.
      보급형의 성능은 여전히 턱없이 낮고, 그렇다고 플래그쉽 상대로 소프트웨어 장사를 할 순 없는 노릇이고, 스마트폰용으로 내버리면 역으로 콘솔판이나 pc판의 판매에 타격이 올 가능성도 있고 등등.
      그래도 최근에 구작들이 안드로이드나 iOS로 이식되려는걸 봐서는 시간이 지나면 이식되는 게임이 많아질 것 같긴합니다.
      (툼레이더1이 나온다지요?)
      물론 안드로이드/iOS 대응판과 콘솔/PC판 동시 발매되는 상황은 어렵지 않나 싶습니다.
      단물 다 빼먹은 구작들을 중심으로 이식이 이루어지지 않을까 싶네요.

  12. addr | edit/del | reply 흡혈귀왕 2013.12.21 15:52

    감마님 삼성 14nmFinFET도
    TSMC처럼 20nm에 3D 트랜지스터 추가한 공정인가요?

    어느분이 그게 맞다고 우기시던데....?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.21 20:44 신고

      정확히는 프론트엔드만 14nm고 나머지는 20nm와 큰 차이가 없다는겁니다.
      단슌히 핀펫만 추가했다고 표현하기에는 오해의 소지가 있지요.
      자세한 내용은 예전에 썼던 글 참고하세요.
      Http://gamma0burst.tistory.com/647

  13. addr | edit/del | reply ㅁㅁ 2013.12.28 01:49

    삼성이 넥서스10에 코어텍스a57 듀얼코어를 달까요?
    5250처럼요

    넥텐이 안드로이드에 신형 아키텍쳐 신형 디스플레이를 항상 탑재하고 나와서...넥텐도 듀얼코어로 나오지 않을까...

    작년에 qhd랑 코어텍스a15듀얼코어 달고 나왓으니 이번에는

    a57이랑 아몰레드 10인치 박고 나오는거 아닐지 ㄷ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.28 10:39 신고

      A57 듀얼할 바에 A15 쿼드쓰는게 나을겁니다.
      굳이 A57 듀얼 제품을 개발할 이유가 없지요.

    • addr | edit/del ㅁㅁ 2013.12.28 14:44

      그럼 애플 a7은 ㄷㄷ...

      솔직히 5250을 넥텐이 탑재한것도 그렇고

      10인치 넥서스는 약간 실험용 제품같은 느낌이 ㄷㄷ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.28 15:21 신고

      개발을 위한 인적, 물적 자원이 그렇게 넉넉한게 아니니까요.
      물론 장기적으로 보면 A57 듀얼코어는 나올겁니다.
      중간 라인업 정도를 담당하겠지요.
      하지만 지금은 아닙니다.
      먼저 하이엔드 라인업이 나와줘야 하니까요. A57 쿼드코어 말입니다.
      그러니 당장 A57 듀얼코어 AP가 나오고 그 탑재 제품이 나올 가능성은 낮아보입니다.