본문 바로가기
그래픽카드 VGA

GPU 아키텍처별 효율 분석. (3) Nvidia

by gamma0burst 2012. 8. 27.
반응형


엔비디아의 GPU에는 초월함수를 처리하는 SFU 유닛이 따로 존재하고, AMD와 다르게 이를 스펙상 SP숫자에 포함시키지 않습니다.

엔비디아 코어끼리의 비교에서는 SFU 숫자를 반영하지 않아도 결과는 달라지지 않습니다만,
AMD GPU 와의 비교에서는 반영해야할 것으로 생각됩니다.

그래서 SP + SFU 를 전체 SP 수로 보고 분석할 겁니다.

(SFU 반영 전)

(SFU 반영 후)

-
페르미 이전 코어들은 DirextX 11 을 지원하지 않아서, 3Dmark11 결과 자체가 있을 수 없습니다.

-
페르미 GF110 의 SP 수치는 7.13 이 나옵니다.

-
GF1145.99 를 보입니다.
GF110 대비 -6% 입니다.

텍스처 수치가 -25% 인데, 이와 연관이 있을 것으로 생각됩니다.
GF114 코어가 애초에 전력대성능비(이하 전성비) 향상을 염두해두고 나온 것이기때문에 SP 효율이 낮아졌다고 퇴화했다고 보기는 어렵습니다.

-
GF116 6.40 입니다.
GF114 의 파생형 스펙다운 코어이기때문에 GF114 보다는 높은 수치를 보입니다만, GF110 보다 여전히 낮습니다.
GF110 대비 -11%
GF114 대비 +7%

픽셀 수치, 메모리 수치가 GF114 에 비해 낮은데, 이는 효율이 낮아졌다기보다는 총 SP 성능이 낮아진데 반해 ROP 성능, 메모리 대역폭이 남아돌았다고 해석하는 것이 맞아보입니다.

-
케플러 GK1045.56 입니다.
GF110 대비 -12%
GF114 대비 -7%

픽셀 수치는 80% (다른 자료까지 포함하면 최대 100%) 향상되었습니다.
ROP 유닛 효율이 개선된듯.

어찌됐건 SP 효율은 낮아졌는데, 이는 엔비디아의 설계 사상과 주변 환경의 영향으로 보입니다.
TSMC의 28nm 공정 수율이 시원치않은 상태에 무조건적으로 큰 다이를 선택할 수 없었다는건 알만한 사람은 다 아는 얘기인데, 그런 상황에서 게이밍용과 연산용 GPU를 따로 준비할 수는 없었을겁니다.
이런 상황에서 하나의 GPU로 게이밍 성능과 연산 능력을 모두 취하기위한 고육책이, 1 SM의 규모를 극단적으로(이전 대비 3배) 늘리는 방식이 아니었나싶습니다.
1 SM 의 규모를 늘리면 게이밍 성능을 잡으면서 동시에 연산 성능도 어느 정도 확보할 수 있습니다.
(물론 최적의 효율은 아니지만, 절대적인 성능에서 밀리지만 않으면 되니...)
하지만 이렇게되면 컨트롤 로직에서 아무리 스케줄링을 잘 한다해도 필연적으로 SP당 효율이 낮아질 수 밖에 없습니다.


그래도 ROP 유닛 규모를 그대로 유지하고, 메모리 버스는 감소시키고, 코어클럭과 쉐이더 클럭을 동기화 시킴으로써 클럭을 낮추는 효과를 얻어서, 소비전력은 크게 낮아졌습니다.
절대 성능과 전성비를 얻은 것으로, AMD에 밀리던 전성비마저 역전. (절대 성능은 원래부터 앞섰고...)

하지만 작은 다이로 얻은게 있으면 잃은 것도 있는 법.
어찌어찌 단정밀도 성능은 지켜냈지만, 작은 다이를 위해 DP unit 을 대폭 삭감한 덕에 배정밀도 성능은 크게 떨어져서, GF110 의 20%에도 미치지 못 합니다. (142GFLOPS)
클럭대비 GF114 와 비슷한 수준으로 게이밍용 설계의 한계를 보여주지요.
Tahiti 코어가 배정밀도 성능 1TFLOPS 를 찍은 것과 대조적인 모습.
(저전력, 높은 연산성능, 높은 게이밍성능. 이걸 모두 잡는건 한낱 꿈에 불과합니다.
그러니까 AMD 제품이든 엔비디아 제품이든 말도 안 되는걸로 트집잡아서 까지 맙시다.)


결국 GK104 의 효율이 이전 하이엔드인 GF110 보다 낮은 것은, 게이밍 성능 중심 설계의 필연적 결과입니다.
하지만 이것이 단점이 되지 않는 것은 절대 성능과 전성비에서 뛰어난 모습을 보여주기때문.

-
이는 GF110 - GF114 - GK104 의 효율 변화와도 들어맞습니다.



1 SM 당

GF110 - GF114 - GK104
32 SP - 48 SP - 192 SP (SFU 미포함)
40 SP - 56 SP - 224 SP (SFU 포함)
7.13 - 5.99 - 5.56 (SP 효율)

다르게보면 SP 이외의 부분의 개선으로, 1SM의 대규모화로 인한 효율 저하를 감소시켰다는 해석도 가능할듯.

-
AMD와 다르게 엔비디아에서는 최상위 제품과 바로 아래 제품 간의 효율 차이가 적습니다.


동일 코어라도 일부를 막은, 최상위 바로 아래 제품의 효율이 0.8%~3.6% 정도 높은데,
이는 오차범위로 무시해도 될 정도로 낮은 수준입니다.


-
다음 편은 AMD, 엔비디아 GPU의 효율 비교.



반응형

댓글