본문 바로가기
그래픽카드 VGA

GPU 아키텍처별 효율 분석. (1) 기초 배경 설명.

by gamma0burst 2012. 8. 26.
반응형

이전에 엔비디아와 AMD의 GPU와 그 연산 성능에 대해 간략히 다뤘습니다.
(
AMD GPU 부동소수점연산(FLOPS) 계산.)
(Nvidia GPU 부동소수점연산(FLOPS) 계산.)
(계산한 것은 이론적인 피크치일뿐이고, 게이밍으로 대표되는 일반적인 사용자 환경과는 동떨어진 부분이지만요.)

GPU 제조사들은 새로운 GPU를 발표할 때마다, 더 높은 효율의 새로운 아키텍처, 유닛을 홍보합니다.
이번 포스팅에서는, 이런 아키텍처의 차이가 실제 환경에서 어떻게 나타나는지 분석해보고자 합니다.
(어떤 결과가 나올지는 모르겠지만...)


- 1 -
분석을 위해서는 절대적인 평가 지표가 필요합니다.
이 지표에는 그래픽 카드의 성능을 드러내는 요소가 반영되어야하고요.

여기에 가장 적합한 벤치마크 프로그램이 3Dmark 11 입니다.
이유는 다음과 같습니다.

1. 그래픽 점수를 따로 표시해줍니다. 그래픽 카드만의 표준화된 성능 수치를 얻을 수 있다는겁니다.
2. 그래픽 카드 성능을 이끌어내는데, CPU 성능의 영향을 거의 받지 않습니다.
이는 3Dmark vantage 와 비교해서 가장 크게 달라진 점으로, 시스템, 특히 CPU의 성능부족으로 그래픽 카드의 점수가 낮게 나오던 문제가 (완벽히는 아니겠지만, 어느정도는) 해결되었습니다.
그래픽 카드의 성능을 평가하는데 변수가 더 줄어든 것이지요.
물론 밴티지가 아닌 11을 사용했을 때의 단점도 있습니다.
구형 그래픽 카드의 벤치 자료가 부족하거나 아예 없는 관계로 구형 제품에 대한 분석이 어렵습니다.
3. 쉐이더 프로세서(스트림 프로세서, SP) 성능의 비중이 큽니다.
일반적인 게임에 비해 SP성능 비중이 높은데, 저는 이 때문에 SP를 늘림으로써 성능을 확장해가는 GPU의 효율을 판단하는데 더욱 적합한 프로그램이라고 보고 있습니다.


- 2 -
그래픽 카드의 연산, 출력 과정을 간단히 나타내보면 다음과 같습니다.

그래픽 메모리에서 데이터를 GPU로 보냄 - 쉐이더 연산 - 텍스쳐 연산 - 픽셀 렌더링 - GPU에서 데이터를 그래픽메모리로 보냄.

보면 알 수 있듯이, 그래픽 카드의 성능에 개입하는 요소는 크게 4가지입니다.
메모리 대역폭, 쉐이더 프로세서(SP) 연산성능, 텍스처 성능, 픽셀 성능.

여기에 개입되는 요소를 대표할 수 있는 수치는 간단히 계산할 수 있습니다.

메모리 대역폭 - 그래픽메모리버스 x 그래픽메모리클럭
쉐이더 프로세서 연산성능 - SP수 x SP 클럭
텍스처 성능 - 텍스처 유닛(TMU)수 x 코어 클럭
픽셀 성능 - 픽셀 렌더링 유닛(ROP)수 x 코어 클럭

위 계산에 필요한 값은 그래픽 카드의 스펙에 고스란히 드러나있습니다.


- 3 -
위에 나온 요소들 -3Dmark11 점수, 그래픽카드의 성능 지표- 을 어떻게 연관시켜 GPU 성능을 분석하는 지표로 삼을 것인가에 대해, 저는 간단히 해결해봤습니다.
각 성능 지표로 3Dmark11 점수를 나눠버리는거지요.

그 결과가 다음의 표입니다.


- 4 -



(클릭하면 커집니다.)
자세히보면 다음과 같습니다.



각 그래픽카드의 스펙, 그에 따른 각 항목의 성능.
3Dmark11 그래픽 점수 (퍼포먼스, 익스트림)
각 그래픽 카드의 벤치마크 결과는 플웨즈의 자료를 참고했습니다.



이 부분은 3Dmark11 그래픽 점수를 각 성능 지표로 나눈 값들.
(왼쪽부터)
SP 성능
텍스처 성능
픽셀 성능
메모리 대역

단위는 각각 다음과 같습니다.
점수/(SP x GHz) (1SP가 1GHz 로 동작할 때 점수)
점수/(GT/s)
점수/(GP/s)
점수/(Gb/s)

단위에서 알 수 있듯이 수치가 높을수록 좋은겁니다.
수치 간의 단순 비교는 무의미하고, 텍스처, 픽셀, 메모리에서의 병목 등을 고려해서 판단해야합니다.


- 5 -
서론은 이 정도로 하고 본격적인 분석은 다음 편부터 시작하겠습니다.
AMD, 엔비디아, AMD와 엔비디아의 비교.
이렇게 3편 (이것까지하면 총 4편)으로 구성될듯 합니다.



반응형

댓글