GPU 사이즈는 전체의 22%. 23mm2 정도입니다.
GPU 코어만 따지면 16mm2 정도입니다.
32nm A6의 SGX543MP3의 GPU 코어 면적이 22mm2 정도였습니다.
규모로 보면 A6 대비 95~100% 수준입니다.

GPU의 종류와 클럭을 추정해보겠습니다.
우선 벤치마크 결과부터 보겠습니다.



A6 대비 2배라더니 4배 가까운 성능입니다.


2.5 이집트 HD 오프스크린으로 비교해보면 A6 대비 2배입니다.
아무래도 업계에서 말하는 성능 기준은 2.5 이집트인가 봅니다.
2.5가 2.7보다 현실적인 조건이기도 할테니 2.5를 기준으로 테스트하고 있을 가능성이 있겠습니다.

GPU는 거의 무조건 이매지네이션의 제품일 것이고 구체적인 종류가 의문입니다.
다이 사진을 통해 GPU 코어 구성이 4개라는건 확인할 수 있습니다.

먼저 SGX5 계열일 가능성.
그렇다면 SGX543MP4 혹은 SGX554MP4 일겁니다.
(애초에 다이 이미지를 봐도 SGX5 계열일 가능성은 없다고 봐야하는데 그래도 확인은 해봐야하니까요.)





텍셀 3.3 GTexels/s
지오메트리 68 Mtriangles/s

- SGX554MP4 일 가능성.
3.3 GTexels/s에 효율을 반영하면 이론적인 텍셀성능은 4.0 GTexels/s 이고, SGX554MP4의 텍스처 유닛수로 클럭을 추측하면 480~500MHz입니다.
68 Mtriangles/s에 효율을 반영하면 이론적인 지오메트리성능은 105 Mtriangles/s 이고, SGX554MP4의 사양으로 클럭을 추측하면 160MHz 정도입니다.
클럭차이가 너무 심하지요.
SGX554MP4의 가능성은 없다고 봐야겠습니다.

- SGX543MP4 일 가능성.
3.3 GTexels/s에 효율을 반영하면 이론적인 텍셀성능은 3.9 GTexels/s 이고, SGX543MP4의 텍스처 유닛수로 클럭을 추측하면 480MHz입니다.
68 Mtriangles/s에 효율을 반영하면 이론적인 지오메트리성능은 125 Mtriangles/s 이고, SGX554MP4의 사양으로 클럭을 추측하면 200MHz 정도입니다.
역시나 클럭차이가 너무 심합니다.
SGX543MP4의 가능성은 없다고 봐야겠습니다.

SGX5 계열일 가능성은 없습니다.
그렇다면 PowerVR6 계열이라는건데 다이 이미지에서 GPU 코어가 4개인 것으로 보아 클러스터가 4개인 G6430이나 G6400일듯 합니다.
이 둘의 차이는 프레임 압축 버퍼 로직의 유무입니다.
로직이 있는 G6430은 성능을 중시한 것이고, 없는 G6400은 다이 사이즈를 중시한 것이겠지요.



G6430의 사양을 보면 2개의 텍스처 유닛, 1개의
Tiling Coprocessor, 1개의 Pixel Coprocessor가 있습니다.
텍셀성능은 텍스처 유닛과 관계되어있고, 지오메트리성능은 Tiling Coprocessor와 관계되어 있습니다.

- G6430/G6400일 가능성.
텍스처 유닛은 2개이고 하나당 4 Texels/cycle 입니다.
3.3 GTexels/s에 이를 반영하면 클럭은 420MHz 입니다.
SGX5 계열과 효율이 비슷하다면 클럭은 450~500MHz입니다.

450MHz에 1개의
Tiling Coprocessor를 통해서 이론적인 지오메트리 성능을 계산할 수 있을면 좋을텐데 현재 정보가 부족합니다.
SGX5 계열은 클럭 x 유닛수의 1/12이었고, Mali-T604 등의 미드가르드 아키텍처 계열은 1/7입니다.
그냥 1/1이라고 가정하면 이론성능은 450 Mtriangles/s입니다.
벤치마크에서 나온 68 Mtriangles/s은
450 Mtriangles/s의 15%인데 이는 안드로이드에서의 통합쉐이더 GPU의 일반적인 효율입니다.
그런데 iOS에서 SGX5 계열이 보여준 효율은 55~65%입니다.
숫자를 끼워맞춰본다면 PowerVR6 계열의 이론적인 지오메트리 성능은 클럭 x 유닛수의 1/4 일지도 모르겠습니다.

-
정리해보면 A7의 GPU는 G6430 450MHz 정도로 보입니다.
-


- PowerVR6 계열 스펙 분석.
SGX5 계열은 4-wide 벡터 아키텍처입니다.
PowerVR6은 16-wide scalar SIMD입니다.
FP32 연산단위가 16개라는거지요.
각 유닛은 4 op/cycle (FP32)라고 합니다.
스칼라 방식인덕에 연산유닛의 이용률은 크게 올라갑니다. 엔비디아 GPU처럼 말이지요.

의문은...... 그래서 대체 전체 연산유닛 수가 얼마냐는겁니다.
16개 단위지만 1클러스터에 16개인지 32개인지 그 이상인지 알 수가 없습니다.


(
http://withimagination.imgtec.com/index.php/powervr/the-rise-of-gpu-compute)
이매지네이션의 자료를 보면 G64x0이 최대 600MHz이고 연산성능은 200 GFLOPS라고 나옵니다.

- 1클러스터 = 16유닛
4클러스터는 64개의 FP32 유닛이고 2 op/cycle 기준으로 200GFLOPS가 되기위한 클럭은 1.56GHz입니다.
너무 높지요.
4 op/cycle 기준으로해도 780MHz입니다.
최대 600MHz라는 정보와 맞지가 않습니다.
1클러스터 = 16유닛 은 가능성이 없어 보입니다.

- 1클러스터 = 32유닛
4클러스터는 128개의 FP32 유닛이고 2 op/cycle 기준으로 200GFLOPS가 되기위한 클럭은 780MHz입니다.
4 op/cycle 기준으로하면 390MHz입니다.
4 op/cycle 기준으로하면 최대 600MHz라는 정보에 들어 맞습니다.
이 가정이 맞다면 G6430 450MHz의 연산성능은 230.4 GFLOPS 입니다.
GPU의 그래픽 성능에 비하면 심하게 높네요.

- 1클러스터 = 48유닛
4클러스터는 192개의 FP32 유닛이고 2 op/cycle 기준으로 200GFLOPS가 되기위한 클럭은 520MHz입니다.
이 가정이 맞다면 G6430 450MHz의 연산성능은 172.8 GFLOPS 입니다.

- 정리.
1클러스터(USC)는 32개 혹은 48개의 FP32 유닛으로 이루어졌을 가능성이 있습니다.
이제까지 알려진 정보로 본다면 32개 쪽의 가능성이 더 높습니다.

다만 이 경우 어떻게 4op/cycle을 구현했느냐가 의문입니다.
엔비디아 GPU는 쉐이더클럭이 코어클럭의 2배였기때문에 가능했습니다.
PowerVR6 계열도 그런 스타일인지, 아니면 다른 기준에서 그렇게 표현한건지, 정보를 기다려봐야겠습니다.
-



 

신고
Posted by gamma0burst Trackback 0 : Comment 15

댓글을 달아 주세요

  1. addr | edit/del | reply 흡혈귀왕 2013.10.01 06:52 신고

    230GFLOPs 성능이면....
    마이크로소프트 XBOX360 GPU Xenos가
    220GFLOPs인걸 생각하면 쉐이더 성능대비
    부동소수점연산이 어마어마 하군요..ㅎㄷㄷㄷ
    Xenos는 클럭도 500MHz 정도인데......

    엔비디아도 최근 PS3의 RSX를 300GFLOPs대였다가
    240GFLOPs로 표기하고 있는데 이놈이야 G70기반이니
    패스한다치고...;

    172GFLOPs가 현실적이긴해도 정말 높네요 ㅎㄷㄷㄷ
    왜냐면 비욘드3D 개발자 포럼에서 PS3 RSX의 실질적
    성능은 그닥 안높고 170~180GFLOPs급이라 하니..ㅎㄷㄷ
    암튼 G6430 연산성능은 정말 뛰어나네요....

    반대로 비슷한 클럭에 좀더 좋은 효율을 보여주는
    아드레노330은 더 대단하게 느껴집니다 ㅎㄷㄷㄷ
    아드레노330은 클럭이 450였다가 550였다가 아리까리 하더군요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.10.03 00:02 신고

      아드레노330 클럭은 둘 다 있는 것 같더라고요.

      G6000 계열은 연산유닛 수가 불분명해서 연산성능을 확인하기가 어렵네요.ㅋ
      개인적으로는 170 GFLOPS대도 높아보입니다.

  2. addr | edit/del | reply 궁금합니다 2013.10.01 20:27 신고

    흠 이전에 파워VR 시리즈6에 대해 쓰신 포스팅이 있던데(http://gamma0burst.tistory.com/m/post/view/id/550) 이 포스팅에 따르면 시리즈6의 특징은 GPU 코어를 늘리지 않고 클러스터의 수를 늘려 ALU 숫자를 늘린다고 하셨습니다. (시리즈5 와 달리 GPU 코어를 늘리지 않고 코어 안의 클러스터 수를 늘려서 ALU 숫자를 늘리는 것이 가능합니다. 클러스터(시리즈5 에서 USSE) 외부에 있던 텍스처 유닛이 클러스터 내부로 들어온 것도 그런 맥락입니다.)
    또한 현재 위키피디아 영문판에선 Apple A7칩(이하 A7칩)의 그래픽을 감마님과 같이 SGX G6430으로 인지하고 있고, 그 근거로 4개의 클러스터라는 점을 제시하고 있습니다.
    그렇다면 결국 이번 A7칩의 그래픽은 결국 싱글코어로 생각하면 되는걸까요? 하지만 이번 감마님의 포스팅에 따르면 코어가 4개라고 하셨습니다. (SGX5 계열일 가능성은 없습니다. 그렇다면 PowerVR6 계열이라는건데 다이 이미지에서 GPU 코어가 4개인 것으로 보아 클러스터가 4개인 G6430이나 G6400일듯 합니다. 이 둘의 차이는 프레임 압축 버퍼 로직의 유무입니다. 로직이 있는 G6430은 성능을 중시한 것이고, 없는 G6400은 다이 사이즈를 중시한 것이겠지요.)
    음... 아무튼 계속 읽다보니 혼란이 옵니다. 지인들에게 이번 A7칩의 그래픽을 이전 시리즈6에 대한 포스팅을 바탕으로 싱글코어가 아닌가... 하고 말했는데, 결국 SGX G6430또는 G6400이라면 쿼드코어 그래픽이 되는건가요?

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.10.03 00:13 신고

      코어를 어떻게 정의하느냐에 따라 다르게 말할 수 있습니다.
      보통 데스크탑에서 말하는 GPU의 코어수는 FP32 연산유닛을 지칭합니다.
      그래서 개수가 수백~수천개지요.
      (정확히는 코어라고 하지 않고 쉐이더 프로세서라고 합니다만......)

      그런데 모바일에서는 기준이 좀 제멋대로 입니다.
      흔히 말하는 MP.
      MP4면 4코어고 MP3이면 3코어고......이런 식으로 생각하는 경향이 강한데 정확한 분류는 아닙니다.
      저 표현에서 말하는 MP는 그 자체로 온전히 GPU의 모든 역할을 할 수 있는 연산유닛단위입니다.
      그런 것들이 여러개 뭉쳐있으니 멀티프로세서라고 하는거고요.

      그에 반해 클러스터는 그렇지 않습니다.
      클러스터는 단순히 연산유닛의 집합일뿐이기때문에 그것만으로 GPU의 기능을 해낼 수가 없습니다.
      클러스터 외의 추가적인 유닛이 필요하지요.

      그렇기때문에 굳이 기존의 표현대로 G6000 계열을 표현한다면 MP1 혹은 싱글코어라고 하는게 맞다고 봅니다.

  3. addr | edit/del | reply ㅁㅁ 2013.10.01 21:17 신고

    근데sgx6는 sgx5랑 같은 공정일시 전기를 더먹나요??

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.10.03 00:04 신고

      사양이나 성능이라는 조건도 맞춰야하는데 그런걸 맞추기도 힘들고...... 이래저래 단순 비교는 어려울듯 합니다.

  4. addr | edit/del | reply 스냅600에 adreno330??? 2013.10.03 00:03 신고

    저 adreno330 450mhz 옆에 스냅600이라 되잇는건 오타인가요?? 아니면 스냅600에 아드레노330이 탑제된 새로운 버전이 잇는건가요???

  5. addr | edit/del | reply 나그네 2013.10.05 23:59 신고

    근데 모바일GPU가 PS3랑 이론성능이 비슷해도 콘솔은 비디오램이 있어서 사실상에 성능은 비슷하게 나오기가 어렵다는게 맞는말인가요? PS3가 비디오램이 256mb이더라구요 이게 있는거하고 없는거하고 차이가 크데는데.....그러면 모바일이 어느정도 더 발전해야 PS3와 비슷한 그래픽을 모바일에서 구현할수 있을까요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.10.06 00:17 신고

      현재 모바일 GPU와 플스3의 렌더링 방식에 차이가 있고 그에 따른 필요 메모리대역폭이 다르기때문에 단순 비교하긴 어렵겠지만, 그래도 GPU에 별도로 대역폭이 할당된 것과 좁은 대역폭은 나눠갖는건 차이가 있겠지요.

      사실 콘솔급 그래픽이라는게 뭔지 모르겠습니다.
      콘솔이 실제 출력하는 성능을 모바일 GPU에서도 낸다면 콘솔급 그래픽이 가능하다고 보는게 맞는 것 같은데, 콘솔이 (이론성능이 아닌) 실제 어느정도의 트라이앵글, 텍셀, 픽셀 성능을 내는지 알 수가 없으니 비교하기가 어렵네요.

    • addr | edit/del 흡혈귀왕 2013.10.06 04:33 신고

      엑스박스360의 공식 문서에서 표기된 성능대로라면

      픽셀필레이트 4Gpixel/s
      텍셀필레이트 8Gtexel/s
      트라잉애글레이트 500Mtri/s
      버텍스레이트 500Mvrt/s
      부동소수점연산 220GFLOPs

      입니다.
      아드레노320도 ATC텍스쳐압축 써서
      이것저것 타협보면 비슷~~~~~~~~~한 느낌은 낼수있습니다.
      킬존 머셔너리의 HD버전정돈 가능할듯....

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.10.07 00:29 신고

      이론치면 Adreno330 이상이네요.
      비슷해지려면 좀 더 사양이 올라가야할듯.

  6. addr | edit/del | reply 넥서스5 2013.10.30 23:39 신고

    안드로이드에서는 통합쉐이더 gpu의 효율이 15%정도 보여주고 ios에서는 45~55% 정도라고 하셨는데 그렇게 달라지는 이유는 무엇인가요?
    구형 아이폰 모델로도 게임 등을 더 원활하게 돌릴수 있는것이 안드로이드 기기에 대한 게임의 최적화보다 ios 기기에 대한 최적화가 뛰어나기 때문이라고 알고 있었는데 gpu 성능의 효율도 한몫하나요?

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2013.10.31 22:41 신고

      그 %는 테스트 결과를 근거로 계산된겁니다.
      어떤 이론을 바탕으로 나온 값이 아니기때문에 정확한 이유를 알 수가 없습니다. (제 입장에서 말이지요.)
      안드로이드는 가상머신 기반이기때문에 효율이 떨어지는 것이 아닌가 하고 추측할뿐입니다.
      어쩌면 원래 그런걸 수도 있습니다.
      PC의 그래픽카드를 봐도 픽셀성능의 경우 이론치에 턱없이 부족한 결과를 보이고 메모리 대역폭에 비례하여 성능이 나오는 모습을 볼 수 있습니다.

      로우레벨 벤치에서 효율이 차이가 난다지만 벤치마크 결과 프레임은 안드로이드, iOS가 큰 차이를 보이지 않습니다.
      사양에 맞는 수준의 결과를 보입니다.
      그렇기때문에 로우레벨 테스트 결과의 차이를 실사용에서의 차이로 직결시키는건 무리입니다.
      구형 아이폰으로도 게임이 원활히 돌아가는데 있어서 GPU 성능 효율이 끼치는 영향은 크지 않은 것으로 보입니다.

    • addr | edit/del 넥서스5 2013.11.01 01:15 신고

      감사합니당~~



티스토리 툴바