http://www.4gamer.net/games/137/G013737/20110725062/

http://www.arm.com/ja/products/multimedia/mali-graphics-hardware/index.php

일본에서 열린 보도관계자를 위한 설명회의 정리입니다.

ARM은 모바일 AP(어플리케이션 프로세서) 시장의 급속한 성장으로 ARM의 IP(Intellectual Property : 지적재산권) 사업은 큰 성공을 거두고 있습니다.
소위 말하는 라이센스 장사지요.

퀄컴, TI, 삼성, 엔비디아 등등 스마트폰, 타블렛용 AP 제조하는 곳은 다 ARM 라이센스 받아서(사서) 생산합니다. (퀄컴은 좀 다르긴합니다. 설계를 변형할 수 있는 개조 라이센스도 있다나?)
이에 해당되지 않는건 x86 기반으로 모바일 시장에 도전하고 있는 인텔뿐인데,
인텔의 행보와 시장상황을 보면 여러모로 힘들어보입니다.


ARM이 Cortex-A 시리즈로 대표되는 모바일 cpu 아키텍처만 만드는건 아닙니다.
Mali 라고 불리는 모바일 gpu도 설계하는데, 성능이야 둘째치고 듣보잡에 가까운 인지도를 갖고 있었지요.

이걸 크게 알린 것이 갤럭시S2
갤럭시S 로 단숨에 안드로이드폰 최강자로 올라서면서 주목받았은 삼성.
삼성의 차기 플래그쉽 스마트폰 스펙은 누구나 관심을 가질 수 밖에 없는데,
알려진 스펙은 뜬금없는 Mali-400MP
제품 발표할 때는 드라이버 최적화도 안 되어있어서 실망스러운 성능을 보여주더니,
판매 때는 다 해결되어서 현재는 최고성능의 gpu으로 평가받고 있습니다.
실제로 각종 벤치마크에서 보여주는 모습도 그렇고요.

삼성이 PowerVR 계열을 왜 사용하지 않은지에는 모르겠지만,
개인적으로 PowerVR 라이센스  (비용)문제, 타사 제품과의 차별화, ARM과의 협력 강화 등등으로 짐작할뿐.
소비자 입장에서는 이유가 뭐든 성능만 잘 뽑아주면 그만이지요.
(참고로 갤럭시S2 해외벤치가 안 나와서 최적화 이전 벤치자료 업데이트를 못 하고 있는게 답답한 본인 -_-;;)


(Mali는 원래 노르웨이의 Falanx Microsystems에서 개발하던 것인데, 2006년 ARM이 인수하면서 ARM의 IP가 됨.)

Mali-400MP는 현존 최고의 성능을 가진 gpu 입니다.
GLbenchmark에서는 소비전력 절감을 위해, 최대클럭의 60%로 동작했다고 합니다.
그만큼 성능이 남아돈다는 얘기.

믿자니 허풍같고, 그렇다고 관계자 말을 안 믿을수도 없고 -_-;;
-추가
아무래도 최대 400MHz까지는 보장하지만, 제품 세팅이 최대 266MHz로 되어있다는 얘기인듯.


하여튼 결론은 Mali-400MP 성능이 제일 좋다는거.

올 여름 말에 4세대 gpu Mali-600 시리즈, Mali-T604 를 출시, 제조사에 엔지니어링 샘플을 보낼 예정.

Mali-400MP와 마찬가지로 최대 4코어.
시기상 Cortex-A15 cpu와 결합될 가능성이 높음.

다이렉트9에 가까운 구조였던 Mali-400MP 와 달리,
Mali-T604 는 통합쉐이더 아키텍처 채용, 다이렉트11에 대응될 것.

또한 gpu컴퓨팅을 염두한 설계로,
IEEE 호환 고정밀 64bit 부동소수점 연산.
Open CL 1.1, DirectCompute, RenderScript 의 3종의 gpu컴퓨팅 언어가 이용가능.
 
연산능력은 최대 68GFLOPS로 이는 HD5450의 60%에 달하는 수준.
하지만 최대연산능력이 곧 성능으로 이어지는건 아니지요.

통합쉐이더의 가장 큰 문제는 메모리 대역폭 요구치가 높아진다는 것인데,
이를 '고급 타일 기반의 지연 렌더링과 중간 픽셀 상태 로컬 버퍼링' 로 해결했다는군요.

화면을 작은 영역 (= 타일)으로 나누고, 영역별로 폴리곤의 전후 관계를 계산하고 렌더링하는 방법

메모리 대역폭을 늘리다보면 소비전력이 증가할 수 밖에 없는데,
(메모리 클럭상승도 문제고, 컨트롤러의 비대화도 문제)
저런 기술들을 통해 소비전력 절감효과도 노리겠다는 것.

통합쉐이더나 gpu컴퓨팅을 도입하는건, 아무래도 ARM 호환 윈도우8 을 대비하기 위한 것으로 보입니다.



2016년까지는 동일 아키텍처 기반으로 갈 거라고 합니다.
세대로는 3세대 정도.
소프트웨어, 드라이버 호환성이 그대로 유지된다는 말이지요.

gpu부는 10mm^2 내외의 크기가 가장 경제성이 높을 것이라고 하네요.
이는 삼성의 Exynos에서도 보이는 부분으로, 45nm 공정인 Exynos4210 에서 gpu부(Mali-400MP, 4코어)의 면적은 9.8mm^2 정도로 추정됩니다.

블록다이어그램으로 보아선 32nm 공정이라면, 4코어라도 10mm^2 내외의 면적은 무난하게 달성할듯.




ARM이 gpu를 개발하고 그 비용을 고객이 되는 기업이 라이센스비용으로 부담하는 시대를 목표로하는 ARM.
CUDA를 통해 gpu 컴퓨팅에 집중하는 엔비디아를 의식하지 않을 수 없었던듯.

앞서 메모리 대역폭이 많이 필요하지 않은 설계라고 말했지요.
gpu컴퓨팅의 주목적은 큰 데이터 세트의 병렬처리인데, 이걸 위해서는 큰 메모리 대역폭의 확보가 필수.
앞선 발언과 모순되는 부분이지요.



Posted by gamma0burst Trackback 0 : Comment 0

댓글을 달아 주세요