사전 정보는 이전 포스트 참고.
(GPU 아키텍처별 효율 분석. (1) 기초 배경 설명.)

분석은 일단 나타난 지표를 고려해서
점수/(SP x GHz) (1SP가 1GHz 로 동작할 때 점수) 의 최대값을 정해서 각 아키텍처, GPU 별로 비교할겁니다.

최대값을 어떻게 찾느냐.
예시로 한 번 해보겠습니다.




(길어서 2개로 분할했습니다.)

AMD의 Cape verde 코어 제품의 결과를 모아놓은 것입니다.
HD7770 의 결과 4개를 보겠습니다.

일단 메모리 대역폭을 제외한 3항목을 보면, 아래쪽 3개의 수치들은 오차범위에서 비슷한 값을 보이고 있습니다.
SP, 텍스처, 픽셀 성능에 비례해서 점수가 잘 나온다는 의미입니다.
오버클럭을 해도 클럭에 비례해서 점수가 나왔다는거지요.

하지만 메모리 대역폭 항목(맨 오른쪽)을 보면, 10% 이상의 차이를 보이고 있습니다.
이는 메모리 클럭의 상승이 점수 상승, 즉 성능 향상으로 이어지지 않았다는 얘기이고,
메모리 단에서 병목이 일어나지 않았다는 해석이 가능합니다.

표에 있는 스펙상 메모리 최하클럭인 4500MHz 로도 코어클럭 최대 1200MHz 로 동작하는 Cape verde 코어의 연산량을 병목없이 감당할 수 있다는 거지요.

그럼 위쪽의 나머지 2개를 보겠습니다.
첫 번째, HD7750 부터 보겠습니다.
앞서 128bit, 4500MHz 면 메모리 대역폭은 충분하다는 해석이 나왔기때문에 메모리 대역폭 부분은 보지 않아도 무리가 없습니다.
SP 성능, 텍스처 성능 지수를 보면 아래의 다른 스펙에 비해 높게 나왔습니다만, 픽셀 성능 지수는 낮게 나왔습니다.
이는 픽셀 성능에 여유가 있다, ROP 유닛단에서 병목이 일어나지 않았다고 해석할 수 있습니다.

SP 성능, 텍스처 성능 지수가 높게 나오는 것은 코어에서 일부 기능을 막아놓은 제품에서 흔히 나타나는 부분으로, 기타 부분에 비해 SP나 텍스처 성능이 부족했기때문이라 볼 수 있습니다.
그렇기때문에 코어 기능을 일부 막아놓은 경우는 코어의 진짜 효율을 반영하지 못 한다고 판단해서,
효율을 평가하는데 있어서 가능하면 배제하려고 합니다.


그렇다면 남은건 두 번째 HD7770 결과입니다.
보면 SP, 텍스처, 픽셀 성능 지수에서 모두 최대값을 보여주고 있습니다.
메모리 성능 지수에서는 최대치에 가까운 수준인데, 역시나 병목에 도달하지는 않은듯.

종합하면, Cape verde 의 효율을 나타내는 지표는 다음과 같이 결정됩니다.
SP 성능 지표 - 5.0046875 = 5.00
텍스처 성능 지표 - 80.075
픽셀 성능 지표 - 200.1875

메모리 성능은 GPU 외적인 부분이기때문에 병목 여부를 판단하는 기준일뿐, GPU 성능을 평가하는 지표로 보진 않겠습니다.
3Dmark11 자체가 SP 성능의 비중이 높기때문에 저 셋 중 GPU의 효율을 반영하는 지표는 SP 성능 지표로 합니다.
기준을 3Dmark11 퍼포먼스로 할 것인가, 익스트림으로 할 것인가에 대해서는 이견이 있을 수 있겠지만,
자료를 봤을 때는 어느 쪽을 선택해도 큰 차이가 없없습니다.

여담입니다만, 이런 식의 분석으로 드라이버의 성능향상, 텍스처 유닛, ROP 유닛 효율 개선 등을 파악할 수도 있습니다.
실제 같은 제품임에도 위 표의 하단 3개의 성능 지표와 두 번째의 성능 지표는 확연한 차이를 보입니다.
이는 최신 드라이버를 쓰면서 효율이 향상되었기때문으로 볼 수 있습니다.
(실제 두 집단의 드라이버 버전이 다릅니다. 위쪽이 더 최신.)

중요한 부분이라 설명이 길어졌는데,
위와 같은 방식으로 HD5000 계열의 메인스트림 이상 코어에 대한 성능 지표를 정리하면 다음과 같습니다.

 

(좌 : VLIW5, 우 : VLIW4)


(GCN)






VLIW5 : Redwood, Juniper, Cypress, Barts 코어.
VLIW4 : Cayman 코어.
GCN : Cape verde, Pitcairn, Tahiti 코어.

Cypress 보다 Redwood, Juniper 의 효율이 높은건, Redwood, Juniper 가 Cypress 의 스펙다운 코어이기때문이라서인듯.
보통 스펙이 낮을수록 수치상으로는 좋게 나옵니다.

-
Evergreen 에서 VLIW5 아키텍처의 효율을 보여주는 것은 Cypress 이고, 약 3.22 입니다.

-
Northern island 에서 VLIW5 아키텍처의 효율을 보여주는 것은 Barts 이고, 약 4.17 입니다.
내부적으로 변화가 있었다지만 Cypress와 근본적으로 동일한 아키텍처 기반인데 30% 정도 향상되었습니다.

Cypress와 비교해보면, 다른 값을 보면 모두 다 비슷하거나 낮은데 반해 텍스처 수치만 25~30% 정도 높습니다.
텍스처 유닛 성능이 개선되었다는 의미로 볼 수 있고, SP 수치가 30% 정도 높은 것과 관련이 있을 것으로 생각됩니다.

-
Northern island 에서 VLIW4 아키텍처의 효율을 보여주는 것은 Cayman 이고, 약 4.12 입니다.
(익스트림 기준의 수치까지 고려하면,) Cypress 대비 30% 정도의 향상이 있습니다.

VLIW5 에서는 극단적인 경우 전체 SP의 20% 밖에 사용하지 못 하고, VLIW4 에서는 최하가 25% 입니다.
SP 효율을 봤을 때, 단순 계산상으로 최대 25% 의 향상이 있습니다.
이런 아키텍처의 변화가 영향을 끼쳤을 것으로 보입니다.

그 외 수치들은 Cypress 와 큰 차이가 없는데, 픽셀 수치만이 15~23% 정도 높습니다.
ROP 유닛의 효율이 개선되었다고 볼 수 있습니다.

-
Southern island 의 GCN 아키텍처의 효율은 볼 부분이 많습니다.

Cape verde, Pitcairn, Tahiti 가 모두 GCN 기반 코어인데,
Cape verde, Pitcairn 의 SP 수치는 각각 5.00, 4.95 이고 Tahiti 에서 일부분을 막은 HD7950 에서도 크게 떨어지지 않은 4.92 라는 수치를 보입니다.

어쨌든 GCN 아키텍처를 대표할 수 있는건 완전한 상태의 Tahiti 코어이고, 4.63 이란 값을 보입니다.
Cayman 대비 12% 정도 향상되었습니다.

그 외의 주목할 부분은 픽셀 수치가 극단적으로 상승했다는 것.
Cayman 대비 50% 정도 높습니다.
ROP 유닛의 효율이 개선되었다고 볼 수 있습니다.

-
주목할만한 사실은 SP 수치에서 최대 효율을 보이는 것이 완전한 상태의 코어를 사용한 최상위 제품이 아니라, 일부를 막아놓은 코어를 사용한 바로 아래 제품이라는 겁니다.


코어마다 다르지만, 해당 코어를 사용한 최상위 제품과 바로 아래 제품 간에는 4~16% 의 SP 수치 차이가 있습니다. 동클럭에서 SP당 성능이 더 높다는 얘기입니다.

이유는 여러가지로 해석할 수 있습니다.
SP수 감소에 따른 SP 연산량의 감소, 그로 인한 텍스처 유닛, ROP 유닛, 메모리 대역폭 병목의 감소 등등
최상위 바로 아래 제품은 SP수와 자동적으로 따라오는 텍스처 유닛만이 감소할뿐, ROP 유닛수, 메모리 버스는 그대로 유지되는 경향이 있기때문에 병목이 감소할만한 조건이기는 합니다.

어쨌든 소비자 입장에서 중요한건, 동일한 코어를 사용한다하더라도 전력대성능비, 스펙대성능비가 가장 좋은건 최상위 제품이 아닌, 바로 아래 제품이라는 것.
(최상위보다 바로 아래 제품이 전력대성능비가 좋다는건 제조사 발표 TDP나 경험적으로 이미 알려진 사실이지만, 이런 식으로 확인되기도 하네요.)


-
AMD에서 주장하는, GPU 각 유닛에 대한 성능 개선이라는걸 어느 정도 확인할 수 있었다고 봅니다.
다음 편은 엔비디아 편입니다. 



Posted by gamma0burst Trackback 0 : Comment 0

댓글을 달아 주세요