- 엔비디아 암페어 사양관련 주절주절

긱벤치 나온걸로 숫자를 맞춰봤는데 딱 들어맞는게 별로 없어서 가정이 많음.

(시간쓴게 아까워서 대충 올림......)

 

 

- 긱벤치 컴퓨트 결과

SM 숫자가 기존 제품하고 차원이 달라서 암페어로 추정됨.

118 SM, 램 24GB, 1.11GHz

(https://browser.geekbench.com/v5/compute/207559)

108 SM, 램 48GB, 1.01GHz

(https://browser.geekbench.com/v5/compute/287799)

 

SFFT가 FP 연산성능하고 관련있어서 FP32, FP64 연산 성능하고 맞춰봤는데 페르미~튜링 이론성능하고 테스트 결과가 잘 비례하지 않음.

FP64 성능은 FP32 성능의 몇분의 1로 정해져서 이 숫자를 잘 조정하면 테스트 결과와 어느 정도 맞아들어가는데 이 숫자가 알려진 스펙하고 안 맞아서

FP64 연산하고 상관이 없거나, FP 연산 중 일부만 활용하든가, 긱벤치 SFFT 테스트에 활용되는게 연산 유닛 외에 더 있거나(SFU 등) 할듯 한데 이러면 숫자 맞추기가 쉽지 않을듯.

그 외 항목들은 GPixel/s로 나와서 픽셀 성능하고 맞춰봤으나 페르미~튜링을 모두 커버하는 항목은 없고

그나마 일부분씩 맞는게 Feature Matching, Depth of Field, CUDA

이 항목들이 맞는건 암페어 ROP 규모에 대한 추정이 포함된거라 뒤에서 다시 언급하겠음.

 

 

- 쿠다 코어

118SM이면 대충 계산해도 7552코어인데 볼타가 5120코어였던걸 보면 이걸 게이밍용에 넣으리라 보기 힘듦.

1SM = 32코어면 볼타, 튜링보다 코어 수가 줄어드니 가능성은 없고 1SM = 64코어로 보는게 무난.

파스칼 사례를 보면 1SM에 GP100이 64코어, GP102이 128코어 라서 게이밍용 코어에 코어 수를 늘리는 방식인듯 한데 대신 SM 수를 줄여서 총 코어 수는 같게 만들었음.

이번에 테스트된 제품은 118 SM으로 나와서 1SM = 128코어일 가능성은 없을듯.

 

118, 108SM이면 컷칩이고 풀칩은 최소 120SM 이상임.

풀칩 사양을 추정하려면 GPC수와 1GPC당 SM수가 문제인데 GPC수는 레스터 유닛 수를 결정하는 요소가 됨.

GPC수를 10, 8 ,7, 6 으로 예상해 볼 수 있는데 셋 다 그럴만한 이유라면 붙일 수 있음.

 

1. 6GPC라면

맥스웰에서 파스칼로 넘어갈 때 공정이 크게 바뀌었는데도(40->28nm) GPC 수는 그대로 유지됐음.

이제와서 굳이 레스터 유닛을 강화할 이유가?

6GPC가 되면 1GPC = 20SM이고 풀칩은 120SM이 됨. (7680코어)

1GPC당 SM 수를 보면 파스칼(16nm)->볼타(12nm)에서 10->14개로 40% 증가.

공정이 바뀌면서 똑같이 40% 증가한다면 14x1.4=19.6=20개가 돼서 1GPC=20SM이 터무니없는 숫자는 아님.

 

2. 7GPC라면

맥스웰 이후 튜링까지 컷팅 칩 중 최상위 제품은 풀칩에서 256코어가 빠진 구성이었음.

4SM 컷이었고 1SM = 128코어였던 맥스웰은 2SM 컷이었음.

118SM을 최상위 컷칩으로 보고 위의 전례를 그대로 적용한다면 컷된 부분은 4SM(1SM=64코어) 혹은 8SM(1SM=32코어)임.

컷된 부분이 4SM이라면 풀칩은 122SM이고 8SM이라면 126SM.

122SM은 2x61 이상으로 분할이 불가능해서 코어 구성으로 보기 어렵고, 126SM은 7x18 가 되는데 7GPC, 1GPC = 18SM 로 구성할 수 있음. (1SM = 64코어면 126SM = 8064코어)

그리고 108SM 제품은 1GPC를 컷한 칩으로 볼 수 있음.

 

이번 테스트 제품은 8nm나 7nm로 예상되는데 이전 제품이 12nm, 즉 14,16nm의 파생공정 제품인걸 고려하면 소위 풀노드급의 공정 변화임.

(7nm라면 말할 것도 없고 8nm라도 10nm 파생공정이기때문에 풀노드로 봐야함. 요즘에는 풀노드, 하프노드 구분이 크게 의미가 없지만 공정변경의 수준을 굳이 분류하자면 그렇다는 것.)

페르미(40nm)->케플러(28nm)->맥스웰(28nm)에서 GPC가 4개->5개->6개로 늘었는데 폴노드로 최초 공정 변경시 GPC를 1개만 늘리는 정도의 (소극적인) 아키텍처 변경이 있다고 해석할 수도 있을듯.

 

1GPC = 18SM 이 돼서 증가세가 좀 급격해 보이긴한데 아예 말이 안 되는건 아니라서 큰 문제는 아니고

오히려 1SM = 32코어가 되면서 118SM = 3776코어가 되고 GV100, TU102보다 코어 수가 줄어드는게 문제임.

(그런데 컷칩 기준으로 숫자가 너무 잘 들어맞음. 개인적으로는 7GPC에 마음이 감.)

 

3. 8GPC라면

1GPC당 SM 수를 보면 GP100 10SM, GV100 14SM, TU102 12SM.

여기서 갑자기 20개로 늘리는건 너무 급격한 증가로 보이고 16SM 정도가 적당함.

1GPC = 16SM 이라면 8GPC로 총 128SM이 될 것임. (8192코어)

앞서 얘기한 공정, GPC 변경으로 보면 페르미->케플러에서 25% 증가, 페르미->맥스웰에서 50% 증가.

6개 기준으로보면 7.5개, 9개가 돼서 8개로 증가하는 것도 충분히 가능.

 

4. 10GPC라면

10GPC가 되면 1GPC = 12SM이고 풀칩은 120SM이 됨. (7680코어)

108SM 제품은 1GPC 컷칩이 되는 것.

 

 

- ROP, 램 : 6 HBM 가능성?

4칩에 용량이 24GB, 48GB면 1칩당 6GB, 12GB

HBM에서 아직까지 12Gb 칩 얘기는 없고 8Gb, 16Gb 얘기만 있음.

6GB는 8Gb 6stack, 16Gb 3stack / 12GB는 8Gb 12stack, 16Gb 6stack 구성이 산술적으로 가능한데 6 stack은 나온 경우가 없어서 HBM 1개 용량은 4GB 배수로 나오는게 일반적임.

6 stack을 인정하면 HBM 4개라는걸로 결론이 날 수 있고, 6 stack이 없다면 경우의 수가 생김.

HBM 4개라면 48GB는 8Gb 12stack x4, 24GB는 8Gb 8stack x4에서 메모리 인터페이스 하나를 컷한 구성.

(108SM이 24GB였으면 이 쪽 해석이 그럴듯한데 컷한 부분이 적었을 118SM이 24GB라서 모순된다고 볼 수도 있음.)

HBM 6개라면 칩 하나당 8GB, 4GB로 나오고 8GB는 8Gb 8stack 이나 16Gb 4stack, 4GB는 거기서 stack을 줄이거나 다이당 용량을 줄이거나.

 

일반적으로 보면 그냥 4 HBM인데 그럼 6 HBM이 가능하긴한가.

삼성 HBM 소개 사이트보면 플래시볼트 사이즈가 10mm x 11mm라 나오는데 인터포저 사이즈 최대치는 51mm x 33mm 정도로 알려져 있음.

(지금은 더 키웠을 수도 있겠지만...)

기존 8Gb 다이 기반 HBM 사이즈가 83mm2 정도여서 110mm2는 16Gb 다이 기반일걸로 추측됨.

인터포저의 짧은 쪽을 따라 HBM이 배치된다고 가정하면 GPU 코어의 한 쪽 길이는 33mm로 잡히고 면적을 루머대로 850mm2로 잡으면 다른 쪽은 25.7mm2

인터페이스 배치상 HBM은 GPU 좌우로 세로로 길게 배치될 수 밖에 없을텐데 HBM 6개를 배치하려면 11mm x3 이라서 HBM 사이에 틈도 없이 인터포저에 우겨넣을 수 있어야되는데 이건 좀 어려울듯?

인터포저의 긴 쪽을 따라 HBM이 배치된다면 GPU의 짧은 쪽 길이는 21~22mm가 될텐데 이러면 긴 쪽은 39mm 내외.

숫자상으로는 가능하지만 GPU 코어의 가로세로 비가 극단적으로 커지는데 (정사각형에서 멀어지는거) 그럴수록 웨이퍼 내에서 낭비되는 공간이 늘어서 웨이퍼당 칩 수가 줄어들고, 안 그래도 면적때문에 수율이 낮은 빅다이의 수율을 더 까먹는 원인이 될듯.

 

 6 HBM이든 4 HBM이든 기존 인프라를 바탕으로는 만들는게 불가능은 아니지만 쉽지 않고, 추가 인프라에 드는 리소스를 생각하면 4 HBM 가능성이 높음.

 

여기서 긱벤치 결과도 참고할만한데

긱벤치 컴퓨트 벤치가 ROP 성능을 제대로 대변하고, 암페어 ROP성능 특성이 튜링하고 유사하다면 클럭으로 보아 이번 테스트 제품은 96ROP로 추측됨.

96ROP면 GDDR6 384비트나 3 HBM으로 환산됨. (3 HBM은 실제 HBM 1개가 없는게 아니라 메모리 인터페이스 1개를 컷한 것.)

만약 파스칼과 ROP 성능 특성이 유사하다면 192ROP로 계산됨.

파스칼의 긱벤치 결과를 보면 사양 대비 결과에서 GP102(GDDR5)가 GP100(HBM)의 절반 수준임.

즉, 이번 테스트 제품이 HBM 사양이면 192ROP이고, GDDR6 사양이면 384ROP가 되는 것인데

384ROP는 말이 안 되는 숫자여서 가능성이 없고 192ROP 가능성은 생각해볼 수 있는데 6 HBM으로 환산됨.

픽셀 성능으로 보면 6 HBM 사양인 것.

 

 

- 공정 : TSMC 7nm 가능성 높음.

SM 규모나 HBM 사용 사양으로보면 최대급 인터포저를 사용하는 제품인데 그럴 경우 TSMC 생산일 가능성이 높음.

850mm2 대 인터포저를 쓰는 베가20조차 TSMC로 넘어간 상황에서 그의 2배나 되는 제품이 다른 생산, 패키지 업체로 넘어갔으리라 보기는 어려움.

TSMC 7nm 공정일 가능성이 높은 것.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 5

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon dd 2020.04.27 10:38

    CNDA 기반 GPU의 스펙이 CU 120개(SP 7680개)라는 소문이 있던데
    nvidia가 이에 대응하려면 GPC가 몇 개든 GA100의 풀칩 스펙이 SM 128개여야
    연산 성능 스펙에 대응할 수 있을 것 같다는 생각입니다. 실제품은 컷칩으로 내놓겠지만..
    GV100처럼 블록 다이어그램에는 안 보일지라도 차세대 콘솔 흐름에 따라 ROP 개수도 2배 늘려야겠죠
    그러면 GPC에 하나씩 탑재된 래스터 엔진도 ROP 개수에 맞게 성능이 올라가야 되겠고요
    문제는 GA100이 800mm2급 이내에 RT 코어까지 모두 담을 수 있을까인데
    RT 코어가 차지하는 면적이 크다고 들어서 암페어 세대에도 GA100의 RT 코어는 배제되지 않을까요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2020.04.27 21:31 신고

      GA100? 하고 나머지 코어하고 공정도 다를 것 같고 GV100 사례도 있으니 RT코어가 빠질 가능성도 있어 보이긴 하네요.
      레스터라이저같은 다른 요소는 면적, 공정보다 목표 성능이나 설계 사상 영향이 더 큰거 같아서 예측하기 어려워보이고,
      ROP는 어차피 메모리 인터페이스 따라갈텐데 GDDR6가 384비트 넘어가기 힘들거 같고, 개인적으로 거기에 1.5배, 2배씩 늘리기는 힘들거 같습니다.

      뭐 다 그냥 느낌적인 느낌같은 근거가 빈약한 추측입니다만..

  2. addr | edit/del | reply BlogIcon dd 2020.04.28 06:59

    지포스에서는 2세대 맥스웰(GM200) 이래로 최대 ROP 96개에 머물고 있고
    테슬라, 쿼드로는 HBM2 도입된 파스칼(GP100) 이래로 최대 ROP 128개에 머물고 있어서
    몇 년 지난 지금은 ROP 스펙을 2배 키워야 하지 않을까 하는 생각이라서요
    다만, 말씀하신 GA100의 메모리버스가 2048 or 4096비트가 아닌 3072 or 6144비트라면
    ROP 192개가 딱 맞겠고, 그러면 지포스랑 똑같이 맞출 수도 있겠네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2020.04.28 21:17 신고

      개인적으로 GA100에 그래픽 성능은 딱히 기대가 없습니다.
      추정 사이즈로 봐서는 그래픽용으로 나올기 힘들거 같고 나온다고해도 못 넘볼 가격으로 나올거 같아서 그냥 GA102에서 스펙이 한단계 올라가길 바랄 수 밖에요.

  3. addr | edit/del | reply BlogIcon dd 2020.04.29 00:08

    GA100?에 관심이 갔던건 아키텍처 정보뿐만 아니라
    그래픽과 관련성이 먼 테슬라에만 쓸줄 알았던게 쿼드로에도 사용된 전례가 있어서요 (쿼드로 GP100, 쿼드로 GV100)
    어쩌면 RT 코어뿐만 아니라 ROP까지 희생해야 할지도 모르겠네요...
    그동안 GP100, GV100의 ROP이 멤컨 구조상 128개로 GP102, TU102보다 32개 더 많은 구조였는데
    이번 GA100?은 GA102?랑 똑같은 ROP 개수로(192개) 너프 먹지 않을까 싶은 생각이었습니다
    근데 ROP 192개마저도 원샷 포토마스크를 초과하는 사이즈라면 128개로 유지할 수밖에 없겠네요
    그렇게 된다면 멤컨도 3072 or 6144비트도 아닌 4096비트로 유지되겠죠