이전에 엔비디아와 AMD의 GPU와 그 연산 성능에 대해 간략히 다뤘습니다.
(
AMD GPU 부동소수점연산(FLOPS) 계산.)
(Nvidia GPU 부동소수점연산(FLOPS) 계산.)
(계산한 것은 이론적인 피크치일뿐이고, 게이밍으로 대표되는 일반적인 사용자 환경과는 동떨어진 부분이지만요.)

GPU 제조사들은 새로운 GPU를 발표할 때마다, 더 높은 효율의 새로운 아키텍처, 유닛을 홍보합니다.
이번 포스팅에서는, 이런 아키텍처의 차이가 실제 환경에서 어떻게 나타나는지 분석해보고자 합니다.
(어떤 결과가 나올지는 모르겠지만...)


- 1 -
분석을 위해서는 절대적인 평가 지표가 필요합니다.
이 지표에는 그래픽 카드의 성능을 드러내는 요소가 반영되어야하고요.

여기에 가장 적합한 벤치마크 프로그램이 3Dmark 11 입니다.
이유는 다음과 같습니다.

1. 그래픽 점수를 따로 표시해줍니다. 그래픽 카드만의 표준화된 성능 수치를 얻을 수 있다는겁니다.
2. 그래픽 카드 성능을 이끌어내는데, CPU 성능의 영향을 거의 받지 않습니다.
이는 3Dmark vantage 와 비교해서 가장 크게 달라진 점으로, 시스템, 특히 CPU의 성능부족으로 그래픽 카드의 점수가 낮게 나오던 문제가 (완벽히는 아니겠지만, 어느정도는) 해결되었습니다.
그래픽 카드의 성능을 평가하는데 변수가 더 줄어든 것이지요.
물론 밴티지가 아닌 11을 사용했을 때의 단점도 있습니다.
구형 그래픽 카드의 벤치 자료가 부족하거나 아예 없는 관계로 구형 제품에 대한 분석이 어렵습니다.
3. 쉐이더 프로세서(스트림 프로세서, SP) 성능의 비중이 큽니다.
일반적인 게임에 비해 SP성능 비중이 높은데, 저는 이 때문에 SP를 늘림으로써 성능을 확장해가는 GPU의 효율을 판단하는데 더욱 적합한 프로그램이라고 보고 있습니다.


- 2 -
그래픽 카드의 연산, 출력 과정을 간단히 나타내보면 다음과 같습니다.

그래픽 메모리에서 데이터를 GPU로 보냄 - 쉐이더 연산 - 텍스쳐 연산 - 픽셀 렌더링 - GPU에서 데이터를 그래픽메모리로 보냄.

보면 알 수 있듯이, 그래픽 카드의 성능에 개입하는 요소는 크게 4가지입니다.
메모리 대역폭, 쉐이더 프로세서(SP) 연산성능, 텍스처 성능, 픽셀 성능.

여기에 개입되는 요소를 대표할 수 있는 수치는 간단히 계산할 수 있습니다.

메모리 대역폭 - 그래픽메모리버스 x 그래픽메모리클럭
쉐이더 프로세서 연산성능 - SP수 x SP 클럭
텍스처 성능 - 텍스처 유닛(TMU)수 x 코어 클럭
픽셀 성능 - 픽셀 렌더링 유닛(ROP)수 x 코어 클럭

위 계산에 필요한 값은 그래픽 카드의 스펙에 고스란히 드러나있습니다.


- 3 -
위에 나온 요소들 -3Dmark11 점수, 그래픽카드의 성능 지표- 을 어떻게 연관시켜 GPU 성능을 분석하는 지표로 삼을 것인가에 대해, 저는 간단히 해결해봤습니다.
각 성능 지표로 3Dmark11 점수를 나눠버리는거지요.

그 결과가 다음의 표입니다.


- 4 -



(클릭하면 커집니다.)
자세히보면 다음과 같습니다.



각 그래픽카드의 스펙, 그에 따른 각 항목의 성능.
3Dmark11 그래픽 점수 (퍼포먼스, 익스트림)
각 그래픽 카드의 벤치마크 결과는 플웨즈의 자료를 참고했습니다.



이 부분은 3Dmark11 그래픽 점수를 각 성능 지표로 나눈 값들.
(왼쪽부터)
SP 성능
텍스처 성능
픽셀 성능
메모리 대역

단위는 각각 다음과 같습니다.
점수/(SP x GHz) (1SP가 1GHz 로 동작할 때 점수)
점수/(GT/s)
점수/(GP/s)
점수/(Gb/s)

단위에서 알 수 있듯이 수치가 높을수록 좋은겁니다.
수치 간의 단순 비교는 무의미하고, 텍스처, 픽셀, 메모리에서의 병목 등을 고려해서 판단해야합니다.


- 5 -
서론은 이 정도로 하고 본격적인 분석은 다음 편부터 시작하겠습니다.
AMD, 엔비디아, AMD와 엔비디아의 비교.
이렇게 3편 (이것까지하면 총 4편)으로 구성될듯 합니다.



TAG , ,
Posted by gamma0burst Trackback 0 : Comment 6

댓글을 달아 주세요

  1. addr | edit/del | reply 흡혈귀왕 2012.08.27 01:09

    좋은글 잘보았습니다~
    기회되시면 AMD와 엔비디아의 보급부터 플래그쉽까지
    GPU FLOPS 수치 비교해주실수 있으실지~
    구글링하면 값이 너무 제멋대로더군용

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2012.08.27 02:50 신고

      감사합니다.

      플롭스 수치 계산은 아키텍처만 알면 단순 반복 작업이라 제가 일일히 다 하기는 좀 그렇고요.;;
      위키피디아에서 AMD, 엔비디아 GPU 스펙표 검색해보시면 깔끔하게 정리된게 나옵니다.
      (한글위키말고 영문위키)
      정보가 약간 불친절한데(부스트 클럭은 표시도 안 해놓고 부스트 클럭 기준으로 계산한걸 써놓는다든지...)플롭스 수치 자체는 거의 다 맞습니다.

  2. addr | edit/del | reply Favicon of https://planetary.tistory.com BlogIcon 우다리 2012.09.05 17:58 신고

    제가 엑셀 표계산을 두세번인가밖에 안해봐서 정확히 모르겠지만 결과칸의 셀정렬도 따로 정할 수 있을 것 같은데요
    나눈 후의 수치들이 보아하니 자릿수가 바뀌지 않고 비슷하게 모여있는데, 그 부분만 앞정렬로 보이도록 하면 추세가 눈에 더 잘 들어올 것 같아요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2012.09.05 20:15 신고

      스펙, 클럭 기준으로 정렬해놔서 그런겁니다.
      스펙 높다고 무조건 성능이 높고, 효율 좋은건 아니니까요.
      (그 놈의 드라이버...)

      뭔가 일정한 추세가 보였으면 그래프를 그렸겠지만, 그런건 안 보이고요.

    • addr | edit/del Favicon of https://planetary.tistory.com BlogIcon 우다리 2012.09.06 08:47 신고


      벤치점수를 물량으로 나눈 결과값이니 말하자면 연산유닛 한 칸당의 능력으로 이해할 수 있는걸로 제가 이해했는데요
      숫자가 비슷비슷하길래 앞정렬로 보기좋게 만들면 뭐가 보일걸로 얼핏 생각해봤습니다
      스샷을 다시 찬찬히 보니 비슷비슷만 할 뿐 상하급 끼리나 앞뒤 세대간의 일정한 방향성은 없네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2012.09.06 21:20 신고

      해놓고보니 뭐에 쓰나 싶기도 합니다.
      활용 가치가 딱히 안 보이는듯.