추가 - 중간의 gpu 스펙, 성능 부분은 오류가 있으므로 다음의 수정 포스팅을 참고하세요.
(아난드텍 리뷰를 통한 갤럭시S2, Mali-400MP4 의 성능.)



갤럭시S2 탑재 Exynos 4210(코드네임 오리온)의 성능.
삼성 오리온 듀얼코어 ARM Cortex-A9 칩 정보.
이전 포스팅에 대한 정정 및 보강 포스팅.



다이사이즈 : 118mm^2

cpu :
Cortex-A9 MP2
듀얼코어 1.2GHz (코어당 2.5 DMIPS/MHz)

삼성 45nm 공정.
L1 캐시 32KB 명령어 + 32KB 데이터, L2 캐시 1MB.

LPDDR2/3 지원 싱글채널 메모리 컨트롤러.

gpu : Mali-400 MP4 (쿼드코어)


(엑시노스 출시 전의 나왔던 로드맵과 오리온 정보.)

실제 개발과 제품이 로드맵대로 되는건 아니기때문에 이제와서는 소용없는 자료이지만,

Orion : 267Mtri/s, 1.6Gpix/s
이건 엑시노스의 성능을 추정할 수 있는 단서가 된다.

Taurus1 는 슬라이드상에서도 싱글코어로 묘사되어있는데, 성능치로 봐서는 허밍버드인듯하다.
이미 그렇다고 단정적으로 말하는 사람이 있는데,
아직까지 확정적인 정보를 못 봐서 확신할 수가 없다.

(갤럭시S2 발표 후 공식 홈페이지 중에서)

엑시노스4210가 탑재된 갤럭시S2가 발표된 후 공식 홈페이지에 나온 내용이다.
스펙이 3.2Gpix/s 로 나와있다.

여기까지 내용을 종합하면,
엑시노스의 gpu성능은 267Mtri/s, 3.2Gpix/s 가 된다.
이걸 가설로해서 Mali-400 코어와 대조해서 성능을 추정해볼 수 있다.


ARM의 공식 홈페이지의 자료를 정리하면,

- Mali-400 MP (1코어 기준)
버텍스쉐이더 1개, 픽셀쉐이더 1~4개.
버텍스 쉐이더 1개 성능 : 30M tri/s(@275MHz)
픽셀 쉐이더 1개 성능 : 275M pix/s(@275MHz)

65nm LP 공정 240MHz

본래 버텍스 쉐이더와 지오메트리 쉐이더는 다른데, 다이어그램을 보면 버텍스 쉐이더가 지오메트리 쉐이더 내에 포함된 것으로 표현되는 경우도 있고, 표기가 제각각이다.
분명 공식자료인데 말이다.
여기서는 버텍스 쉐이더로 표기를 통일하였다.

45nm LP 공정인 엑시노스이므로, 240MHz 이상의 클럭은 무난할 것이란 추측.


테그라오버클럭 얼티밋으로 확인한 결과,
cpu : 1.2GHz, 1.275V
gpu : 266MHz, 1.000V

ARM에서 갤럭시S2는 소비전력을 위해 최대클럭의 60%로 동작한다고 했는데,
이를 통해 유추해보면,
400MHz로 동작이 가능한데, 266MHz로 다운클럭을 했다는 결론이 가능하다.
(ARM의 차세대 gpu 및 향후 gpu전략)

성능 부분은 다 틀린게 되어서, 다음의 수정 포스팅을 참고.
(아난드텍 리뷰를 통한 갤럭시S2, Mali-400MP4 의 성능.)


아까 세웠던 초기가설에 끼워맞춰보자.
267Mtri/s, 3.2Gpix/s

1) 최대 스펙 가정.
버텍스 쉐이더 4개, 픽셀 쉐이더 16개. (쿼드코어니까.)

클럭 400MHz
= 175
M tri/s, 6.4Gpix/s
픽셀 성능이 두배.


클럭 266MHz
= 116
M tri/s, 4.25Gpix/s
여전히 오버스펙이다.

코어당 픽셀쉐이더는 4개가 아닌 것 같다.
또한, 최대스펙으로 가정했는데도 버텍스 성능은 턱없이 부족하다.
4개의 버텍스 쉐이더로 267M tri/s 라는 성능을 뽑으려면, 612MHz는 되어야한다.
불가능한건 아니겠지만, 모바일 기기에서는 비현실적인 클럭이다.
아무래도 267M tri/s 라는 스펙은 아닌듯.
개인적으로는 버텍스 쉐이더의 클럭당 성능이 픽셀 쉐이더와 동일하다고 생각하고 작성된 자료가 아닌가 추정해본다.

삼성의 발표스펙이 최대 보증 스펙이라고 가정한다면,
400MHz에서 3.2G pix/s를 맞춰야하고, 그에 맞는건 코어당 픽셀쉐이더 2개이다.

2) 버텍스 쉐이더 4개, 픽셀 쉐이더 8개 (코어당 버텍스1, 픽셀2)
클럭 400MHz
= 175
M tri/s, 3.2Gpix/s

클럭 266MHz
= 116
M tri/s, 2.128Gpix/s


정리하면,

- Mali-400MP4
4코어.
코어당 버텍스 쉐이더1, 픽셀 쉐이더2 (총 버텍스 쉐이더 4개, 픽셀 쉐이더 8개)
클럭 266MHz

116M tri/s, 2.128Gpix/s


gpu는 본래 400MHz가 가능한 덕분인지, 오버클럭이 잘 된다고 한다.
기본전압에서도 무난하게 400MHz는 가능하다는 소리도 있고.

cpu는 원래 1.0GHz로 계획되었던걸, 1.2GHz로 올려서 출시한 탓인지,
오버클럭 폭이 작은 수준.

레퍼런스 클럭을 유지하면서도 저전압 셋팅(cpu, gpu 모두 -0.2~ -0.1V정도는 가능)이 가능해서,
소비전력 절감 효과가 제법 큰듯.


p.s 빨리 해외벤치가 나와야 저 수치가 맞는지 확인이 될텐데......

- 추가
http://www.glbenchmark.com/phonedetails.jsp?D=Samsung+GT-i9100+Galaxy+S2&testgroup=overall&benchmark=glpro20&var=top


GLbenchmark 공식사이트 데이터베이스는 변인통제가 잘 안 되어있을 가능성이 있어서 안 쓰려고했는데,
지금 상태로는 이게 최선이네요.
그나마 팀테스트 결과니까 믿을만하다고 봐줄만하네요.

나오지요.
버텍스 유닛 4
텍스쳐 유닛 8
(통합쉐이더 이전 아키텍처에는 보통 픽셀쉐이더와 텍스쳐유닛이 1:1 비율.
일부 ATi 하이엔드 제품이 2:1 이나 3:1 비율이 있기는 했지만, 일부의 경우.)


아래로는 출시가 아닌 발표당시에 아난드텍에서 했던 벤치마크입니다.
위 결과와 비교해보지요.

16.2프레임에서 56.3프레임으로.
4배 가까운 차이지요.
(코어를 하나만 썼다든지해서) 벤치당시 최적화가 덜 되었음을 보여줍니다.


51.2프레임에서 59.1프레임으로.
테그라2보다 낫지요.

벤치결과가 60프레임 언저리인걸로 보아 개인적인 추정으로는 갤럭시S2에 수직동기화가 걸려있는 것 같은데,
어디까지나 추측일뿐이지요.
(MSM8660이 Vsync 해제시에 90프레임이 넘어가는걸 봐서는 맞는듯)

http://www.glbenchmark.com/phonedetails.jsp?benchmark=glpro20&D=Hardkernel+ODROID-A&testgroup=overall
여기서 ODROID-A 벤치결과를 보지요.

개발자용 제품으로 갤럭시S2와 동일한 Exynos4210 탑재 제품입니다.
cpu클럭이 1GHz
http://www.hardkernel.com/renewal_2011/products/prdt_info.php?g_code=G129705660781

해상도가 1366 x 768 입니다.
갤럭시S2 해상도는 800 x 480 이고요.

벤치마크 결과가 37.4/44.9 이지요.
해상도와 프레임이 단순 비례관계는 아니지만 참고는 됩니다.
해상도를 보정해보면,
800 x 480 에서 106/122 정도가 나옵니다.

Exynos4210, Mali-400MP 의 성능이 현재 최고 수준이라는게 과장된건 아니란 얘기지요.



Posted by gamma0burst Trackback 0 : Comment 6

댓글을 달아 주세요

  1. addr | edit/del | reply Favicon of https://ok-dj.com BlogIcon CANTATA 2011.08.03 20:47 신고

    갤럭시S2를 사용하고있는데...
    이해가 잘 안가네요... ㅎ 어찌되었든 잘 사용하고있죠 ㅎ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2011.08.04 00:10 신고

      그냥 좋다는겁니다.
      저처럼 쓰지도 않으면서 하드웨어 스펙에 집착하는 사람들이 있거든요.ㅋㅋㅋ

      그렇다고 스펙 낮다고 까고 이러는건 아니고.ㅎ

  2. addr | edit/del | reply RuBisCO 2011.08.05 10:13

    아, 잠시 지적하자면, 저 Mali-400의 쿼드코어라고 하는 것이, 온전한 코어가 4개인것을 말하는게 아니고 1개의 코어에 1개의 지오메트리 프로세서에 4개의 프래그먼트 프로세서를 가진 하나의 코어에서 프래그먼트 프로세서 개수를 가지고 쿼드코어라고 하는 것으로 보입니다. 벤치마크 결과 역시 이쪽이 맞습니다. 추측하신 스펙만 해도 이미 실제 벤치마크 결과를 한참 웃돌고 있죠.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2011.08.05 13:33 신고

      저의 다른 포스팅보면 아시겠지만, 초기에 그럴거라고 추정했는데, 그렇지가 않습니다.

      일단 그런식의 표현이라면 테그라2는 8코어제품이지요.
      누구도 그런식으로 마케팅을 하지는 않지요.

      그리고 그런 식의 사실상의 1코어라면,
      성능이 58M tri/s, 1Gpix/s 정도인데,
      그런 성능에서 보드나라에서 했던 리뷰에 나오는 벤치결과가 나올수가 없습니다.

      아난드텍 벤치는 뭔가 최적화등의 문제가 있었다고 생각할 수 밖에 없고요.

      http://www.glbenchmark.com/phonedetails.jsp?benchmark=glpro20&D=Samsung+GT-i9100+Galaxy+S2&testgroup=overall
      (이 링크는 될수있으면 안 쓰려고했는데......)

      보면, 아난드텍 리뷰 당시와 비교해서 프레임이 엄청나게 올랐습니다.
      자세한 얘기는 본 포스팅에 추가로 붙이지요.
      참고하시길.

  3. addr | edit/del | reply ~~~ 2011.08.18 14:17

    전부터 잘보고있습니다 엑시노스 말리400에 대한 설명은 이 블로그가 거의 완벽한거같은데요

    그런데 몇가지 궁금점이요

    1.발표자료에는 성능이 267Mtri/s, 3.2Gpix/s 라고 하셨는데

    계산끝에 나온 클럭 400에서의 175M tri/s와는 버텍스 차이가 꽤 심한데요, 단순히 발표실수인건가요?

    2.그리고 arm홈페이지의 30M tri/s, 275Mpix/s to 1.1Gpix/s @ 275MHz에서의 275Mpix/s to 1.1Gpix/s @ 275MHz는

    275MHz에서 1.1Gpix/s를 뽑을수 있다는(최대성능) 의미 아닌가요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2011.08.18 17:45 신고

      1.
      제가 발표자료에 근거한 수치라고 하긴했지만,
      3.2Gpix/s 를 제외하고는 굉장히 오래된 자료입니다.
      저 로드맵을 제가 처음으로 본게 1년점쯤이고,
      내용을 봐도 빨라야 10년 4월에 나온 자료입니다.
      엑시노스는 커녕 허밍버드도 나오기 전이지요.
      (정확히는 갤럭시S 출시 전)

      그래서 사실 크게 신빙성이 있는건 아닙니다.
      삼성의 제품출시가 철저하게 로드맵대로 이루어지고 있는 것도 아니고요.
      제가 계산할때는 그냥 참고만 했다고 생각하시면 됩니다.

      단순한 발표실수인지 여부는 저도 관계자가 아닌지라 잘 모릅니다. -ㅅ-ㅋ
      그래서 어떤게 진짜인지 알 수가 없지요.
      착오가 있어서 자료가 잘못 작성된걸수도 있고,
      삼성에서 자체적으로 커스텀을 해서 ARM이 공개한 성능보다 더 높은 성능을 내게했을 수도 있고.
      (버텍스 쉐이더가 추가되었을수도 있고.)

      다만, 제가 실수가능성을 제기한건,
      버텍스쉐이더의 클럭당 성능이 픽셀쉐이더와 같다고 가정하면 267MHz에서 267Mtri/s 의 성능이 나오기때문입니다.
      267MHz(보통 266MHz 셋팅하면 1MHz정도는 왔다갔다합니다.)는 엑시노스 gpu 클럭과 일치하고요.

      물론 성능에 대한건 추정일뿐이기때문에 검증을 위해서는 제대로 된 벤치마크 자료가 필요합니다.

      2.
      ARM의 자료는 1코어 기준입니다.
      275Mpix/s ~ 1.1Gpix/s 로 표시된건 1코어 안에서 픽셀쉐이더 구성을 1~4개로 할 수 있기때문이고요.

      엑시노스에는 쿼드코어(4코어)가 탑재되어 있고요.
      단순계산으로 동일 셋팅에서 4배 성능인거지요.