본문 바로가기
성능비교 그래프/부동소수점 연산 (VFP)

ARM 부동소수점 연산 성능 비교 v13.2

by gamma0burst 2013. 1. 31.
반응형




1. 그 동안 스냅드래곤 S4 쿼드 결과가 지나치게 높다고 여겨졌습니다.
그런데 이게 젤리빈에서 뭔가 바뀌어서 그런걸지도 모르겠습니다.

제 포스트 봐온 분들은 아시겠지만 제가 쓰는게 테이크 LTE 입니다.
스냅드래곤S4 듀얼 탑재지요.
최근에 젤리빈이 올라갔는데, 린팩 결과가 상승했습니다.
싱글스레드가 100 정도였는데 150 정도로 올라갔고, 덩달아 멀티스레드도 200 정도에서 300 정도로 상승했습니다.

1.5GHz 싱글스레드 150 MFLOPS 는 스냅드래곤S4 쿼드 1.5GHz 싱글스레드 결과에 크게 근접하는 결과입니다.
그리고 쿼드코어이기때문에 멀티스레드에서 정확히 4배 성능이 나온다면 산술적으로 600 MFLOPS 인데,
이는 스냅드래곤S4 쿼드 1.5GHz 멀티스레드 결과 중 상위 결과들과 일치합니다.

다만 젤리빈이면 무조건 그렇게 된다고 보기는 어렵습니다.
스냅드래곤S4 쿼드에 젤리빈인 넥서스4의 린팩 결과는 비슷한 다른 제품의 1/3에 불과하기때문입니다.

종합하면 젤리빈이면서 최적화가 잘 이루어진다면 부동소수점 연산 성능 향상이 가능하다는 결론이 가능합니다.
이것이 스냅드래곤S4 에만 국한된 내용인지, 다른 AP에도 적용가능한 얘기인지 지켜봐야겠습니다.





2. Cortex-A7 제품 결과 추가.
Allwinner A31, MT6589 추가됐습니다. (Allwinner A31은 클럭이 제각각이라 일부 그래프에만 추가.)
둘 다 Cortex-A7 쿼드코어입니다.
Allwinner A31 - SGX544MP2 탑재.
MT6589 - SGX544MP2 탑재.

VFP 성능은 평범합니다.
Cortex-A8 보다 높고 Cortex-A9 보다 낮습니다.
VFPv4-D16 (16 배정밀도 레지스터)이라서 그런걸지도 모르겠습니다.
Cortex-A15, Krait 의 VFPv4 (32 배정밀도 레지스터)에 비해 레지스터가 절반입니다.






3. 싱글스레드, 멀티스레드 결과를 합쳐서 표시.
그래프 수도 줄이고 보기 편하게하기위해서 입니다.
아톰은 싱글결과와 멀티결과가 큰 차이가 없어서 그래프 상에서 잘 구분이 안 됩니다.








4. 멀티코어 효율 그래프는 제목 교체, 코어 개수 기준으로 그래프 분할.
4코어, 2코어로 분할했고, x축 최대값은 각각의 최대 효율값으로 했습니다.
4코어는 최대값이 4 이고, 2코어는 최대값이 2 이지요.

5. MT6589 의 멀티코어 효율은 썩 좋다고 보기는 어렵습니다.
Cortex-A7 쿼드코어가 나온지 얼마되지 않았기때문에 아직까지 최적화의 여지가 있다고 봅니다.
Allwinner A31 탑재 제품들도 아직까지 동영상 재생이나 소비전력, 배터리 시간 등에서 불안정한 모습을 보여주고 있다고 합니다.
사양을 고려했을 때, 문제가 있다고 여겨지는 수준이기때문에 최적화의 문제로 보는 것이지요.





6. 린팩을 제대로 안 돌리고 올리는 사이트가 간혹 있습니다.
위의 스샷이 한 예입니다.
위가 싱글스레드이고 아래가 멀티스레드인데, 싱글스레드처럼 정밀도(Precision) 값이 나와야합니다.
Inconsistent Result (부적합한 결과)라고 나오면 제대로 안 돌아간겁니다.



v13.2
1. Allwinner A31 추가.
2. MediaTek MT6589 추가.
3. Marvell Armada 600 추가.
4. 싱글스레드, 멀티스레드 통합.
5. 각 그래프 코어개수를 기준으로 분리.
6. 그래프 개선.



반응형

댓글