본문 바로가기
그래픽카드 VGA/엔비디아 NVIDIA

Nvidia TU102/TU104 분석. (2018.08.22. update)

by gamma0burst 2018. 8. 21.
반응형

- TU104 면적

(링크 : http://www.expreview.com/63572.html)

게인워드 비레퍼 RTX 2080 분해.

P61A10이란, P로 시작하는 마킹에서 TSMC 생산인걸 알 수 있음.

(링크 : 삼성의 GPU 생산에 대하여. (GP107 외))

이미 TSMC 12nm 공정으로 알려지기도 했음.

 

옆의 마이크론 GDDR6는 스펙시트상 14mm x 12mm인데 이걸로 TU104 면적을 구해보면 571mm2

(스펙시트 : https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=2ahUKEwjlrb657f3cAhVZUt4KHVKvD0EQFjABegQIHRAC&url=https%3A%2F%2Fwww.micron.com%2F~%2Fmedia%2Fdocuments%2Fproducts%2Ftechnical-note%2Fdram%2Ftned03_gddr6.pdf&usg=AOvVaw2obUWzPaH7koeSxXd_CfbC)

 

RTX 2000 계열 제품 발표와 별개로 Turing 아키텍처를 소개했을 때 내용을 보면 최대 칩은 754mm2로 TU104보다 큼.

면적 측면에서 공정적 이득이 거의 없는 상태에서 제품이 나왔다는 점,

TU104가 같은 104 라인업인 GP104(314mm2)보다 크고 GP102(471mm2)보다 크다는 점으로 보아 765mm2 칩은 TU102일 가능성이 높음.

TU100을 만들만한 공정적 여유가 없을 것임.

 

 

- TU102 면적

(링크 : https://wccftech.com/nvidia-geforce-rtx-2080-ti-massive-gpu-die-pictured/)

마이크론 GDDR6 면적과 비교해서 TU102 면적을 계산해보면 760mm2

실제 값 754mm2와 거의 같아서 앞서했던 TU104 면적 계산 값의 신뢰도가 올라감.

P60Y029로 마킹되어있어 TSMC 생산.

한 가지 걸리는 점은 엔비디아가 공개한 다이 이미지와 가로 세로 비율이 다르다는 점.

 

 

- TU102 풀칩

RTX 2080 제품 사양을 보면

RTX 2080 Ti : TU102 - 4352SP - 352bit

RTX 2080 : TU104 - 2944SP - 256bit

RTX 2070 : TU104 - 2304SP - 256bit

 

당연한 추론이지만 2080 Ti는 TU102 풀칩이 아닐 것임.

이건 2080 TU104도 마찬가지. 다만 메모리 버스 최대치일 것으로 예상됨.

 

실제 발표 중 나왔던 2080 Ti 보드를 보면 메모리가 12개 박혀있는데 이건 TU102 풀칩이 32bit x12 = 364bit의 메모리 버스를 갖다는걸 의미함.

 

이런 관점에서 754mm2 칩의 다이 이미지를 보면, 정확한 다이 이미지가 아닌 가공된 이미지이지만 주요 포인트는 그래도 살아있어서 간단한건 추측이 가능한데......

 

일단 이런 식으로 주변부가 메모리 인터페이스로 보임.

큰 이미지로 자세히보면 반복적인 패턴이 보임.

남은 주변부는 NVLink 정도로 추측됨.

GP100에서 GPU-GPU가 160GB/s 였던데 반해 Turing에서는 100GB/s로 오히려 줄어서 기존에 4개 모듈이 있던 부분이 2.5개 수준으로 줄었음.

마친 왼쪽 상단에 흰색 점이 8개, 아래쪽에 2개있는데 이 부분이 2.5개분의 NVLink라고 추측해볼 수도 있을듯.

 

이런 정황상 754mm2 칩이 TU102일거라보고 SM쪽으로 눈을 돌리면 좌우로 큰 블록이 3개씩있고 블록 하나는 24개 단위로 구성되어 있음.

전체로 보면 72개 단위인데 보통 SP 기본단위는 64개 구성임.

RTX 2080 Ti가 4352SP인데 이걸 64개로 나누면 68이고 72가 아니기 때문에 컷팅칩.

TU102 풀칩은 64 x72 = 4608SP 일 것으로 추측됨.

컷팅된 SP 수가 256개라서 1SM은 최대 256SP 구성일 수도 있겠으나 가능성은 낮아보임.

128SP 정도가 최대치로 보이고 그렇다면 RTX 2080 Ti는 2SM을 막고 나온게 됨.

 

이미지와 전작들 구성을 참고해서 추측해보면 6GPC = 6 x 6SM = 6 x 6 x 128SP = 4608SP

GV100이 1GPC=7SM, GP102가 1GPC=5SM이라서 TU102는 딱 중간에 해당됨.

Turing을 Volta의 다운그레이드판이라고 보는 의견에 설득력을 부여하는 부분일듯.

 

 

- TU104 풀칩

TU104로 돌아가서 754mm2가 4068SP라면 산술적으로 571mm2는 3490SP

128SP 단위로 나눠보면 27

GP102와 GP104의 전례를 보면 GP104는 GP102와 기본적으로 같은 구조에서 GPC 수만 줄인 구성을 갖추고 있음. (6GPC → 4GPC)

TU104도 같은 식으로 간다면 풀칩은 4GPC = 4 x 6SM = 4 x 6 x 128SP = 3072SP가 됨.

RTX 2080가 2944SP로 1SM=128SP 기준으로보면 3072SP에서 1SM이 빠진 구성임.

면적에서 나온 3490SP를 만드려면 5GPC = 3840SP가 풀칩이어야 하는데 이러면 768SP, 20%나 잘라낸다는 얘기임.

이게 합리적인가.

GP104, GTX1070 사례를 보면 20SM 중 5SM을 쳐내고 제품을 내놓았는데, 이건 1GPC 규모를 통으로 비활성화했다는 구조적 합리성이 있음.

768SP = 6SM = 1GPC 이기때문에 같은 식으로 합리적이라 볼 수도 있으나, 이런 식으로 1GPC를 통으로 비활성화한게 바로 2070 일 가능성이 높음.

2070은 2304SP로 1SM=128SP 기준으로 18SM인데 이건 3GPC임.

TU104 풀칩은 4GPC = 24SM이고 여기서 1SM이 막힌게 2080, 1GPC를 통으로 막은게 2070인게 되는 것.

(실제 1GPC를 막는게 아니라 6SM을 막는 것.

1GPC가 통으로 막힐 수도 있고 4GPC에서 각각 1,1,1,1 , 2,2,0,0, 1,2,1,0 등으로 막는 경우도 가능함.)

 

 

- 추정 정리

TU104 면적 571mm2 / TU102 면적 754mm2

TU102 풀칩은 6GPC = 6 x6SM = 6 x6 x128SP = 4608SP, 364bit

TU104 풀칩은 4GPC = 4 x24SM = 4 x6 x128SP = 3072SP, 256bit

 

RTX 2080 Ti : TU102 - 4352SP - 352bit / 풀칩에서 2SM, 32bit 막음.

RTX 2080 : TU104 - 2944SP - 256bit / 풀칩에서 1SM 막음.

RTX 2070 : TU104 - 2304SP - 256bit / 풀칩에서 6SM 막음.

 

 

 

반응형

댓글