http://www.arm.com/about/newsroom/arm-announces-complete-suite-of-graphics-processing-technology.php
http://www.arm.com/products/multimedia/mali-mid-range-graphics/mali-t720.php
http://www.arm.com/products/multimedia/mali-high-end-graphics/mali-t760.php
http://pc.watch.impress.co.jp/docs/column/kaigai/20131101_621747.html

ARM Techcon 2013에서 새 GPU인 Mali-T700 을 설명(발표)했습니다.
이번에 발표된 제품은 두 가지입니다.


- Mali-T760
먼저 Mali-T760 입니다.




기존 하이엔드 GPU의 연장선상에 있습니다.
T604보다 에너지 효율이 400% 향상되었다고 하는데 이는 차기 공정(16nm FinFET인듯)을 기준으로 하는 말인듯 합니다.



API는 OpenGL ES 3.0, Full Profile OpneCL 1.1, Direct3D 11.1 지원.





프레임 버퍼 압축기술인 AFBC(ARM Frame Buffer Compression)를 지원합니다.
(이름 참 쉽게 지었네요.)
아래 그래프를 보면 GL벤치마크에서 압축률이 50%을 넘습니다.







GPU 구조는 크게 변경된 편입니다.
병렬도가 높아졌는데 Snoop 유닛이 있어서 코어사이의 일관성을 유지합니다.
작업 스케줄링 부분을 개량해 효율을 높였는데, 파이프라인 스테이지가 줄어들고 클럭의 상한선이 낮아졌다고 합니다.
이런 개량을 통해 다이 크기 효율이 상승했을 것으로 추측됩니다.
전체적으로 클럭은 낮추고 연산유닛은 늘리고 효율은 높인 구조입니다.
(고사양 저클럭 그러니까 애플 AP의 GPU가 생각나네요.)



최대 16코어까지 확장가능합니다.
L2 캐시는 1MB (512KB x2)
600MHz에서
픽셀 필레이트 : 9.6 Gpix/s
트라이앵글 : 1066.6 MTri/s
연산성능 : 326.4 GFLOPS

Mali-T600 계열이었다면 이 사양에서 1371.4 MTri/s 이 나올텐데 이보다는 낮네요.
중간에 추가된 Advanced Tiling Unit 덕인 것 같기도 하지만, 쉐이더 코어를 제외하면 기존 구조의 재탕에 가까운 T720도 비슷한 경향을 보이는 것으로 봐서는 코어 아키텍처 개선의 영향인듯 합니다.
이론치 간의 비교이니 실제 성능이 더 높게 나오는게 중요하겠지요.
이걸로 전보다 나아졌네 나빠졌네 평가하기는 이른듯 합니다.

연산성능으로 보건데 1코어당 ALU는 2개입니다.
T604, T62x와 같은 수준이고, T678의 절반입니다. (T678은 1코어당 4ALU입니다.)
T628MP6, T678MP8, T760MP16 을 동클럭에서 비교해보면 다음과 같습니다.
(1/8?? 1/9??)

 Clock : 600MHz  T628MP6  T678MP8   T760MP16 
 Pixel Fillrate (Mpix/s)  3600  4800   9600
 Triangle Rate (MTri/s)  514.3  685.7  1066.6 (1200?)
 FP Perf (GFLOPS)  122.4  326.4  326.4

T678MP8, T760MP16을 비교해보면 T760의 컨셉을 알 수 있습니다.
T760으로 넘어가면서 그래픽성능은 1.6~2배 가까이 상승한데 반해 연산성능은 그대로 입니다.
현 상황에서 그다지 중요하지않은 연산성능은 (사실상) 줄이고 좀 더 중요한 그래픽 성능을 올리는,
현실적인 성능 구조를 갖는다고 볼 수 있습니다.


- Mali-T720
다음은 Mali-T720 입니다.



기본적인 특징은 T760과 같습니다.
다만 T720은 Mali-400의 연장선상에 있습니다.
중저가형 라인업이라는거지요.





시스템 구성도 저가형 스마트폰을 예로 들고 있습니다.
Cortex-A7/A12, 메모리 싱글채널 등등.





최대 8코어까지 확장가능합니다.
L2 캐시는 256KB (128KB x2)
T62x 대비 다이 크기는 30% 감소.
기존 제품(Mali-400/450 인듯) 성능 50% 향상.
600MHz에서
픽셀 필레이트 : 4.8 Gpix/s
트라이앵글 : 533.2 MTri/s
연산성능 : 81.6 GFLOPS

연산성능으로 보건데 1코어당 ALU는 1개입니다.
T604, T62x의 절반 수준입니다.
저가형이라 부를만큼 심하게 줄여버렸습니다.
T604, T628MP6과 동클럭에서 비교해보면 다음과 같습니다.

 Clock : 600MHz  T604  T628MP6  T720MP8 
 Pixel Fillrate (Mpix/s)  2400  3600  4800
 Triangle Rate (MTri/s)  342.9  514.3  533.2 (600?)
 FP Perf (GFLOPS)  81.6  122.4  81.6

동클럭에서 코어 수가 절반인 T604와 연산성능이 같고, T628MP6과 비교하면 2/3 입니다.
대신 T604에 비해 그래픽 성능은 1.6~2배로 올라갔습니다.
심지어 T628MP6보다도 높지요.
T720도 라인업만 다를뿐 T760과 같은 컨셉인겁니다.
연산성능보다 그래픽 성능을 중시한거지요.


- 요약 정리.
Mai-T700 은 연산성능보다 그래픽성능을 중시하는, 보다 현실적인(실용적인) 구조를 갖춘 것으로 보입니다.



Posted by gamma0burst Trackback 0 : Comment 33

댓글을 달아 주세요

  1. addr | edit/del | reply ㅁㅁ 2013.11.14 23:56

    16나노 핀펫도 잇어요?
    14나노 아니던가요?

  2. addr | edit/del | reply ㅁㅁ 2013.11.15 00:00

    이건 언제쯤 상용화 될까요?

    개인적으로 720은 내년에 상용화가 가능할거 같고(소수겟지만)

    760같은경우에는 내년 연말쯤 삼성이 14나노 적용하면 760을 박은 샘플?을 하나 낼거 같네요

  3. addr | edit/del | reply 흡혈귀왕 2013.11.15 19:02

    허허 의외로 T628과 T678 쉐이더 성능차는 별로 안나네요....ㅎㄷㄷㄷ
    내부 연산유닛이 늘어서 걍 부동소수점연산만
    늘은건가?ㅎㄷㄷㄷ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.11.15 23:47 신고

      그렇다고 봐야겠지요.
      텍스쳐 유닛같은건 코어 수 따라가는데 연산유닛만 차이가 많이나고 코어 수가 비슷하면 그래픽 성능은 비슷하게 갈 수 밖에 없습니다.
      물론 연산유닛의 차이가 그래픽 성능 차이에 끼치는 영향이 아예 없지는 않지만요.

  4. addr | edit/del | reply 흡혈귀왕 2013.11.16 01:47

    그럼 600MHz Mali-T628MP8은
    4.8Gpixel/s 픽셀필레이트
    685Mtri/s 트라이앵글레이트
    162GFLOPs 부동소수점연산

    정도의 성능이 되겠군요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.11.16 09:56 신고

      대략 맞네요.

      600MHz Mali-T628MP8
      4.8 Gpixel/s 픽셀필레이트
      685.7 Mtri/s 트라이앵글레이트
      163.2 GFLOPs 부동소수점연산

  5. addr | edit/del | reply 흡혈귀왕 2013.11.16 16:29

    그럼 한 700MHz Mali-T628MP8 이면
    5.8Gpixel/s
    785Mtri/s
    190GFLOPs

    한 이정도가 될까요?ㅎㄷㄷㄷㄷ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.11.16 20:44 신고

      5.6 Gpixel/s
      800 Mtri/s
      190.4 GFLOPs

    • addr | edit/del 흡혈귀왕 2013.11.16 20:47

      오호 그렇군요
      아참 감마님 엑시노스 홈페이지에
      엑시노스 Widcon이 갱신됬는데
      이놈이 5412인가보네요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.11.16 20:50 신고

      애널리스트 데이에 나온 자료로 보면 5412인듯 합니다.

  6. addr | edit/del | reply 익명 2013.11.17 20:42

    T720 L2 cache 256MB 오타있네요 ㅎㅎ 저 라인업은 2015년정도에 쓰일려나요... 핀펫이 빨리 양산되야되는데

  7. addr | edit/del | reply 흡혈귀왕 2013.11.19 07:57

    감마님 그리고 사진 쓰셔도 됩니당

  8. addr | edit/del | reply ㅁㅁ 2013.11.19 22:26

    저기 감마님

    http://www.planet3dnow.de/cms/5588-arm-forscht-an-arm-kompatibler-gpu/

    이거 뭔지좀 알려주실수 잇나요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.11.20 02:50 신고

      SIMTish라는건데 GPU가 명령을 직접 실행할 수 있게 하는겁니다.
      (아직 연구?개발 중인듯.)
      개발자들이 프로그래밍하기 더 쉬워지는데, GPU를 활용할 때의 최대 성능은 아니지만 개발에 들어간 노력대비결과는 높다고 하네요.

    • addr | edit/del ㅁㅁ 2013.11.20 20:04

      한마디로


      최대의성능이 아닌 적당한 성능이 필요로 한다고 하면


      저기술은 적은 노력과 비용으로 적당한 성능을 뽑아준다는거네요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.11.20 23:39 신고

      시간과 노력을 들이면 최대성능을 뽑을 수 있지만 현실적으로 그런 개발환경이 거의 없기때문이겠지요.
      쉽게 말해 개발편의성이 너무 떨어집니다.
      그런 문제를 해결하기위해서 나온 모델인 것 같고요.
      최대의 노력대비성과를 얻을 수 있게 하기위한 것이라고 생각하면 될듯 합니다.

  9. addr | edit/del | reply 흡혈귀왕 2013.11.20 23:42

    그리고 이와중에 퀄콤이
    스냅드래곤805 APQ8084를 발표했습니다.

    2.5GHz Krait450 쿼드코어
    아드레노420 GPU
    4K 해상도 지원
    최대 대역폭 25GB/s

    CPU는 당근 오버클럭일테고
    GPU는 40% 향상이라네요 전작 아드레노330대비
    이게 그래픽인지 연산인지...아니면 둘다 해당인지 모르겠군요

  10. addr | edit/del | reply dptls99 2013.12.22 21:48

    mali-760을 쓰더라도 첨부터 16코어를 때려박진 않을것같습니다
    갤럭시s6에 MP8~12개정도 들어갈것 같은데 mp8로 써도 678보다 성능면에서 이점이 있을까요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.22 22:02 신고

      당연히 그렇겠지요.
      760MP8을 678하고 비교하면 같은 MP8이라 이론적인 그래픽 성능은 동클럭에서 같습니다.
      그래도 전체적으로 760이 나을겁니다.
      SP수가 절반이니 전력측면에서 낫겠고, 하드웨어/소프트웨어적인 개선도 있을테니 실제 그래픽 성능도 나을듯 합니다.

    • addr | edit/del dptls99 2013.12.22 22:46

      그렇겠군요 그리고 ARM에서 동영상성능을위해 mali-v500라는
      자체 엔진을 만들었다더군요 ap에 박는 형식인듯 한데
      이것이 다이사이즈나 그래픽 성능에 영향을 줄까요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.22 23:05 신고

      그래픽 성능에 영향은 딱히 없을 것 같고요.
      기존에도 이런 류의 ISP는 AP에 포함되어있었으니 그걸 대체하는 방식이라면 다이사이즈에 대한 영향이 특별히 있을 것 같지는 않네요.

    • addr | edit/del dptls99 2013.12.22 23:08

      오호 그렇군요 친절한 답변 감사드립니다.
      내년엔 엑시노스가 s2시절의 영광을 되찾길...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2013.12.22 23:23 신고

      감사합니다.

  11. addr | edit/del | reply BlogIcon 감짱 2014.07.03 23:02

    구글 i/o에서 최소 open gl es 3.1과
    다이렉트 12정도는 되야한다고 발표했는데
    엑시노스 5433이거.. 좀 불안불안하네요.
    추후에 문제없을까요?

    • addr | edit/del BlogIcon 감짱 2014.07.03 23:03

      그리고 탑재된 폰이 나오려면..
      적어도 2014년 겨울쯤은 되야겠죠?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.07.03 23:44 신고

      솔직히 최근 확장된 API까지 지원하는지는 모르겠습니다.
      T760 탑재 폰이라면 넉넉잡아 2015년을 예상해야할듯 합니다.

      이건 사견인데 현 세대 제품에서 최신 API 지원 여부를 따지는건 일반 사용자 입장에서는 별 의미가 없어보입니다.
      현실적으로 해당 API 보급이 바로되는게 아니라서, 널리 쓰일 때쯤에는 현 세대 제품은 이미 한물간 상태지요.

    • addr | edit/del BlogIcon 감짱 2014.07.04 06:45

      2014 11월~12월쯤엔 어떤 ap 탑재폰을 사야 현명하단소리들을지 모르겠네요.. 아님 그냥 2015년까지 기다려야할지 ㅎㅎ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2014.07.04 10:07 신고

      필요할 때 가장 괜찮은걸 사는게 가장 현명한겁니다.
      나중에 더 좋은거 나올까봐 못 사고 미루는건 오히려 좀 아니지요.