- AMD는 CES2018에서 2세대 라이젠을 비롯한 차기 제품을 발표했는데 이 중 베가 모바일 사양을 현재까지 나온 정보로 추정해보겠습니다.

베가 모바일은 GPU 내장 APU와 별개로 노트북같은 모바일 제품용 외장 그래픽 제품을 말하는겁니다.

 

 

- 발표 내용

발표 이미지와 내용 중 참고할만한건 크게 두 가지 입니다.

높이(패키지 높이겠지요.) 1.7mm

라데온 베가 모바일 패키지 이미지

인텔 코어H 시리즈 패키지 이미지(카비레이크-G, 인텔 CPU + RX 베가 M GPU + HBM)

 

 

- HBM 사양

모바일용 베가라는 점에서 카비레이크-G가 참고가 됩니다.

둘 다 용도가 같고 슬라이드 이미지에서 볼 수 있듯이 HBM2 1칩 구성을 하고 있습니다.

(메모리 인터페이스 1024bit)

문제는 스택(stack), 용량인데 카비레이크-G는 4GB = 4스택 사양입니다.

(현재 양산되고 있는 HBM2은 8Gbit=1GB 1칩으로 스택해서 구성됩니다.)

베가 모바일에게는 1,2,4,8스택의 선택지가 있는데, 1칩이라도 대역폭을 최대로 활용하기 위해서는 최소 2스택이 필요합니다.

2스택도 4,8스택과 칩의 내부 구성이 달라서 범용성을 생각한다면 2스택의 가능성도 낮아 보입니다.

(간단히 말하면 2스택을 위해서는 8Gbit 1칩이 내부적으로 4x 2Gbit의 구성이어야하지만, 4,8스택은 2x 4Gbit의 구성이면 됩니다.)

 

 

8스택 사양이었던 베가10의 패키지를 보면 높이가 3.42mm로 베가 모바일 발표치의 딱 2배입니다.

단면 이미지를 보면 8스택 메모리와 GPU의 높이가 거의 같아서 높이를 맞추기위한 버퍼가 없습니다.

8스택으로는 베가 모바일의 패키지 높이 1.7mm를 달성할 수 없는겁니다.

결국 남는 선택지인 4스택 = 4GB 사양일 것으로 예상됩니다.

 

 

- NCU 사양

슬라이드 이미지와 현재까지 나온 정보들로 NCU 사양을 추정해보겠습니다.

 

먼저 슬라이드 이미지를 보면 베가 모바일, 카비레이크-G 이미지를 비교해보면 이미지상 HBM의 크기가 같습니다.

어느 정도 스케일에 맞춰 그렸다고 봐도 되고 이미지 상의 GPU 다이 사이즈를 근거로 쓸 수 있어 보입니다.

CPU 면적을 통해 GPU을 계산하는 방법, HBM 면적을 통해 CPU,GPU 면적을 계산하는 방법이 있습니다.

 

1. CPU 면적을 통해 GPU을 계산.

슬라이드 이미지에 있는 CPU 이미지는 스카이레이크-S의 다이 이미지입니다.

스카이레이크-S 면적은 122mm2로 알려져 있습니다.

이를 근거로 이미지상 면적 비례관계로 계산해보면 HBM 77mm2, RX 베가M 159mm2, 베가 모바일 201mm2가 나옵니다.

 

 

여기서 문제가 생기는데 현재 양산 중인 삼성, 하이닉스 HBM2 면적이 각각 92mm2, 96mm2 라는겁니다.

단순히 픽셀 측정 오차로 보기에는 차이가 너무 큽니다.

HBM2를 양산하는 업체가 둘뿐인 상황에서 인터넷 상에 공개되지 않은 다른 면적의 HBM2 제품이 있다고 생각하기는 어렵습니다.

10nm급 DRAM을 양산하고 있는 와중에 삼성의 HBM2 신제품(아쿠아볼트)이 여전히 20nm라는 점을 봐도 면적이 줄어든 신제품이 나왔을 가능성은 없다고 봐도 무방합니다.

결국 CPU 면적을 기준으로 한 계산이 잘못 됐다는 결론을 낼 수 밖에 없습니다.

 

2. CPU 이미지의 문제.

여기서 짚고 넘어가야하는 부분이 있는카비레이크-G CPU 이미지가 이상한데, 슬라이드 상의 CPU 다이 이미지는 스카이레이크-S의 것입니다.

 

이미지를 잘 보면 실제 배열 이미지를 좌우 반전 시키놓기까지 했습니다.

이건 나름 CPU, GPU의 연결을 고려한 이미지 변경으로 보입니다.

원래 배열대로 배치하면 CPU가 오른쪽, 내장 그래픽이 왼쪽으로 가는데 칩 구성은 CPU, GPU가 PCI-E 3.0 x8 레인으로 연결되었기 때문입니다.

맞는 방향으로 배치하면 내장 GPU와 외장 GPU가 연결된 것 같은 이미지가 되겠지요.

이미지의 좌우 반전은 그렇다 하더라도 카비레이크-S도 아닌 스카이레이크-S 이미지를 넣었다는건 이상합니다.

 

 

이게 AMD가 멋대로 한 짓이냐 하면 그렇지도 않습니다.

인텔의 발표 슬라이드에 있는 이미지를 그대로 쓴겁니다.

그럼 다이 이미지가 포함된 이미지가 정확한가, 다이 이미지가 없는 이미지가 정확한가 확인할 필요가 있습니다.

 

 

(왼쪽 : AMD 슬라이드 다이 포함 이미지 - 인텔 슬라이드 이미지 비교.

 오른쪽 : 인텔 슬라이드 다이 포함 이미지 - 인텔 슬라이드 이미지 비교.)

왼쪽부터 보면, 두 이미지를 겹쳐보면 면적이나 가로세로 비율에서 HBM은 거의 일치하지만 CPU는 완전히 차이가 납니다.

(두 이미지의 가로세로 비율이 약간 달라서 그런건데 RX 베가 M은 같은 크기로 생각할만한 수준.)

2개 CPU 이미지 중 어느 쪽이 맞냐가 관건인데 실제 공개된 샘플로 보아서는 다이 이미지가 있는 쪽이 틀린듯 합니다.

 

 

(CPU 오른쪽 영역의 간격을 비교했을 때 다이 이미지가 있는 이미지의 간격이 실물보다 좁습니다.)

 

오른쪽 이미지에서는 CPU 면적은 같지만 GPU 면적에서 차이가 납니다.

이 이미지에서 CPU가 이미지처럼 스카이레이크-S과 같은 면적이라고 놓고 계산하면 HBM 85mm2, RX 베가M 205mm2 가 나옵니다.

여전히 HBM 면적에서 차이가 나지요.

카비레이크-G의 패키지 사이즈가 58.5 x 31mm 라는 내용도 있는데 이걸 근거로 한 계산결과도 대동소이합니다.

 

 

CPU 다이 이미지가 스카이레이크-S라는걸 근거로 스카이레이크-S의 면적 값을 활용했던건데 그게 틀렸으니 역으로 HBM 면적을 근거로 CPU, GPU 다이를 계산하는 방법만 남았습니다.

 

 

3. HBM2 면적을 통해 CPU,GPU 면적을 계산.

HBM2 면적을 96mm2로 잡고 이미지상 면적 비례관계로 계산해보면 CPU 135~138mm2, RX 베가M 228~232mm2, 베가 모바일 251mm2 정도가 나옵니다.

 

4. 베가 모바일 NCU 수.

RX 베가M은 최대 24NCU(1536SP, 64ROP)이고, 위에서 계산한 면적대로면 베가 모바일은 RX 베가M보다 10% 정도 크기때문에 단순 계산해보면 베가 모바일은 26NCU라는 계산이 나옵니다.

하지만 실제 GPU 구성은 (대략적으로 보면) 코어와 논코어 부로 나뉘어져 있기때문에 전체 면적으로 코어 사양을 반영한다고 볼 수 없습니다.

순수 코어 면적만으로 비교할 수 있는거고, 실제로는 26NCU 이상의 사양을 갖게 되는겁니다.

RX 베가M에서 논코어 면적을 계산하려면 코어 면적을 알아야하는데 이 때 참고할 수 있는게 레이븐 릿지입니다. (CPU 젠 코어 + 베가 GPU 구성의 APU)

 

위 이미지와 면적을 통해 11NCU의 면적을 계산하면 45.4mm2 정도가 나오고 1NCU 면적은 약 4.13mm2가 됩니다.

 

이를 통해 코어H RX 베가M의 코어(24NCU) 면적을 계산해보면 약 99mm2가 나오고 나머지 논코어 면적은 129mm2가 나옵니다.

RX 베가M과 베가 모바일의 면적 차이가 크지 않기때문에 논코어 사양도 유사= 논코어 면적도 유사하다고 보고 계산하면,

베가 모바일의 코어 면적은 118~121mm2로 1NCU 면적으로 나눠보면 28.6~29.3 NCU가 나옵니다.

NCU 구성은 2의 배수로 올라가기때문에 28NCU라고 추정할 수 있습니다.

(라고 하기에는 레이븐 릿지가 홀수 구성이네요. 30개에 가까운 NCU를 레이븐 릿지처럼 한 줄로 배열하기는 어려울테니 짝수 구성이라고 볼 수 있을거 같긴 합니다만...)

 

여기까지 계산 과정을 보면 RX 베가M, 베가 모바일, 레이븐 릿지 면적을 말 그대로 단순 비교했는데 이건 이 셋의 공정이 같거나, 공정이 다소 다르더라도 면적 특성이 거의 같다는 가정이 있기에 가능한겁니다.

레이븐 릿지는 14LPP 공정, RX 베가M과 베가 모바일은 14LPP 혹은 14LPU로 추정되는데 14LPP와 14LPU 간의 면적 차이는 거의 없는 것으로 추정되기때문입니다.

(앞서 부정하기는 했지만) HBM 면적을 기준으로 했기때문 실제 HBM 면적이 가정값과 다를 경우 결과는 다 엎어집니다.

 

 

- 왜 28NCU인가?

일견 64NCU 사양인 베가10의 절반인 32NCU 사양이 그럴듯해 보입니다.

하지만 이전 아키텍처였던 폴라리스 라인업을 보면 그렇지 않다는걸 알 수 있습니다.

폴라리스10 기반으로 36CU,32CU 제품이 나왔고 폴라리스11은 32CU의 절반인 16CU로 나왔습니다.

 

물론 이건 36CU의 절반인 18CU가 4배수가 아니라는 문제때문이었겠지만, 베가에서도 플래그쉽의 절반 사양이 아닌 플래그쉽 바로 아래 제품의 절반 사양으로 나올 가능성을 생각해볼 수 있을듯 합니다.

(베가10 기반 라인업은 64NCU, 56NCU가 있음.)

이런 흐름에서 보면 베가 모바일은 베가10의 하위 사양, 소위 말해 베가11에 해당할 가능성이 높아 보이고요.

 

카비레이크-G에서 보였던 백엔드 강화가 베가 모바일에도 반영되면서 연산성능 강화에 크게 비중을 두지 않았기 때문이라는 가설도 가능합니다.

RX 베가M의 발표 사양을 보면 ROP(렌더링 성능)가 강화되었습니다.

예전같았으면 32ROP에 그쳤을 사양이 64ROP가 됐는데, 이를 통해 상당한 (게이밍) 성능 향상과 더불어 전성비 개선이 있을 것으로 예상됩니다.

(링크 : http://drmola.com/pc_column/262905)

그동안 연산 성능에 집착에 가까운 모습을 보이면서 백엔드 성능 향상에 비중을 두지 않았던 것에 비하면 확 달라진 방향성인데, 베가 모바일에서도 같은 모습이 나타날 가능성이 있겠지요.

모바일용 제품에서 상대적으로 중요한건 연산성능보다는 전성비와 게이밍 성능이라는 점이 고려됐을 수도 있겠고요.

 

코어H의 TDP가 100W인데 CPU TDP를 포함했다지만 RX 베가M과 HBM의 최대 소비전력이 상당하다는 의미입니다.

베가 모바일이 데스크탑용 제품이라면 모를까 모바일이라는 이름을 달고 나오니 이상 TDP를 올리는데 한계가 있을 것이고 이를 지키기위해 사양 증가를 억제했을 가능성도 있어보입니다.

 

 

카비레이크-G가 전작들과 다른 구성이 될 가능성?

핵심 내용이 아니라서 그냥 넘어갔지만 카비레이크-G CPU는 카비레이크-S, 스카이레이크-S와 다른 구성일 가능성이 있어보입니다.

다이의 가로세로 비율이 달라지고 면적은 10% 정도 증가했습니다.

베가와의 연결을 위해 PCI-E 레인을 빼기위해 레이아웃에 조정이 있었을 가능성, 이를 위해 사양이 강화됐을 가능성,

단순히 기존에 잘 알려지지 않았던 레이아웃일 가능성 정도가 있을듯 합니다.

(같은 쿼드코어, GT2 GPU 사양이라도 논코어 구성에 따라 면적이나 레이아웃이 달라집니다.)

 

 

- 정리 : 라데온 베가 모바일 사양 추정

최대 28NCU (1792SP : 112TMU : 64ROP?)

 → 2018.03.04. 최대 32NCU? (2048SP : 1128TMU : 64ROP?)

HBM2 4GB (1chip, 4stack, 1024bit)

 

 

- 2018.03.04. 업데이트 : 플웨즈 리뷰의 사진으로 추가 분석.

(링크 : http://playwares.com/pcreview/56285625#)

패키지 사이즈 기준으로 계산하면 HBM 91.7mm2, CPU 127.2mm2, GPU 213.4mm2 입니다.

HBM 면적은 92mm2로 보이며 이는 하이닉스 사양와 일치합니다.

HBM 면적을 92mm2로 잡고 역산한 값과 맞춰보면 CPU 127mm2 중반 내외, RX 베가M 214mm2 내외로 보입니다.

 

본문 맨 위에 있는 베가 모바일, 카비레이크-G 슬라이드 이미지를 다시 보면 베가 모바일의 HBM과 카비레이크-G의 HBM 사이즈가 다릅니다.

베가 모바일쪽이 5.8% 정도 큰데 이건 삼성, 하이닉스의 HBM 사이즈 차이보다는 큰 값이지만(96/92 = 1.043) 오차를 생각하면 어느정도 맞아들어간다고 볼 수 있을듯 합니다.

그렇다면 슬라이드 이미지와 카이레이크-G 실물로 봤을 때 베가 모바일에는 삼성 HBM, 카이레이크-G에는 하이닉스 HBM이 들어갔다고 중간 결론을 낼 수 있을듯 합니다.

 

24NCU인 RX 베가M 면적인 214mm2 이고 베가 모바일, 카비레이크-G에 들어간 HBM 제조사가 다르다고 가정하고 베가 모바일 면적을 계산해보면 248.4mm2(베가모바일 HBM 면적 96mm2 기준), 혹은 251.9mm2(카비레이크-G HBM 면적 92mm2 기준)이 나옵니다.

이 값으로 앞서 했던 계산으로 NCU 개수를 역산해보면 각각 32.4개, 33.3개가 나옵니다.

베가 모바일 사양은 최대 32NCU로 잡을 수 있게됩니다.

 

앞서 28NCU로 추정했던 것과 다른 결론인데 베가 모바일, 카비레이크-G에 들어간 HBM 제조사가 다를 것이라는 가정이 맞는지, AMD가 공개했던 슬라이드 상의 베가 모바일 이미지가 정확한지가 관건일듯 합니다.

실제 슬라이드 이미지상 카비레이크-G 이미지는 정확한 부분이 거의 없는거나 마찬가지여서(HBM 면적조차도......) 베가 모바일 이미지의 신뢰도에도 의문이 생기고, 이를 근거로 추정한 베가 모바일 사양에 대한 신뢰도도 전적으로 슬라이드 이미지의 정확도에 달려있습니다.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 39

댓글을 달아 주세요

  1. addr | edit/del | reply 흡혈귀왕 2018.01.15 14:00 신고

    ROP만 멀쩡하면 꽤 강력한 놈이 되지않을까 생각됩니다.
    공정도 개선되서 클럭이나 전성비 부분도 기존 14nmLPP보다 나을거라 생각되구용

    그나저나 11nmLPP는 14nmLPP대비 성능 15% 전력 30% 개선이라고했는데
    14nmLPU도 전력이 11nmLPP까정은 아니겠지만 어느정도 개선됬을지 궁금하군요.

    같은 노드에서 개선은 늘 10~15% 정도 전력 개선이었으니 14nmLPP -> 14nmLPU도
    성능은 15%에 전력 10~15% 개선일 가능성이 높겠죵?

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.15 14:46 신고

      14LPP -> 14LPU 성능 +15%라고 하네요.
      면적은 아무래도 더 줄일 여지가 없어보이고 (줄였으면 숫자를 바꿨겠지요.)
      전력은 14LPP -> 11LPP가 -30%라고 하니 그 사이 정도겠네요.
      (최대 -20% 정도일듯.)

  2. addr | edit/del | reply kiu 2018.01.17 05:43 신고

    데탑용 그래픽카드
    아키텍처 이름 : Vega
    GPU 칩셋 이름 : Vega 10
    그래픽카드 모델 이름 : RX VEGA 64, 56

    모바일용 레이븐릿지의 내장그래픽
    아키텍처 이름 : ?
    GPU 칩셋 이름 : ?
    모델 이름 : VEGA 10, 8, 6, 3

    데탑용 레이븐릿지의 내장그래픽
    아키텍처 이름 : ?
    GPU 칩셋 이름 : ?
    모델 이름 : VEGA 11, 8

    카비레이크-G 외장그래픽
    아키텍처 이름 : Vega M
    GPU 칩셋 이름 : ?
    모델 이름 : RX VEGA M GH Graphics, GL Graphics

    모바일용 레이븐릿지의 외장그래픽
    아키텍처 이름 : ?
    GPU 칩셋 이름 : ?
    모델 이름 : (최대 28NCU가 맞다면 최상위가 RX VEGA 28 네이밍일지도..)



    Vega GPU에 대해서 정리해봤는데요 이렇게 이해하면 될까요?
    모르는 부분이 많아서 그 부분들의 명칭이 뭔지 알고 싶습니다

    어서 모바일용 레이븐릿지 외장그래픽도 나왔으면 좋겠네요
    32NCU(2048SP, 128TMU) 32ROP짜리 데탑용 그래픽카드를 내놓기엔 너무 늦었으니..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.17 09:59 신고

      다른 내용은 대부분 맞는거 같고 아키텍처는 다 베가입니다.
      같은 아키텍처의 파생형 제품들인거지요.
      내장그래픽, 카비레이크-G는 모델이름, GPU 이름을 굳이 따로 놓을 필요는 없을거 같고요.

      맨 마지막이 베가 모바일 말씀하신거 같은데 레이븐릿지의 외장그래픽이 아니고 그냥 모바일용 외장그래픽입니다.

  3. addr | edit/del | reply kiu 2018.01.17 12:52 신고

    아키텍처가 모두 Vega인 것까진 쉽게 이해할 수 있었는데요
    그렇다고 GPU 칩셋 이름이 모두 같은 Vega 10이라고 생각하지 않았기 때문에
    뭔가 다른 코드네임일 것 같다는 생각이었습니다
    RX VEGA 64, 56과 레이븐릿지 내장그래픽 VEGA 11, 10, 8, 6, 3의 차이가 (체급이 낮아서인지 RX가 안 보이더군요)
    풀칩 체급뿐만 아니라 미디어 가속기(VP9 디코딩 지원 여부)였으니까요

    '그냥 모바일용 외장그래픽'이라고 말씀하셨으니
    굳이 '모바일용 레이븐릿지 외장그래픽'으로 한정하면서 생각할 필요가 없겠네요
    카비레이크-G의 외장그래픽이 좀 특이한 케이스라고 봐야 할지..
    그래서 추정하셨을 때도 카비레이크-G의 외장그래픽의 다이를 주목하셨던 것이군요
    저는 그저 막연하게 그걸 Vega 11 칩셋이라는 가칭을 생각하면서
    Vega 10 칩셋의 반토막이자 메인스트림 체급인 32NCU로 예상이 아닌 예상을...

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.17 23:12 신고

      어디까지나 추측이니까요.
      실제 나오는건 32NCU일지도 모르지요.
      32NCU, 28NCU 두 가지 사양으로 나온다는 찌라시도 있으니까요.

  4. addr | edit/del | reply kiu 2018.01.18 17:04 신고

    닥터몰라 출처에 나온 글을 보니까
    레이븐릿지 내장그래픽에 탑재된 VEGA 시리즈가
    ROP 8개가 아닌 16개라던데 사실인가요???

    그 내장그래픽 모델명도 VEGA앞에 RX가 붙여진거 봐서는
    VEGA 세대부터 체급이 어떻든 일반/게이밍용 라데온 뒤에
    전부 RX를 붙이는 식으로 바뀐건지 모르겠네요..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.19 00:08 신고

      찾아봤는데 사양에 대한 얘기는 공식적으로 없는거 같네요.
      브리스톨 릿지가 8CU(512SP), 8ROP라서 그보다 많을거라 추측한게 아닌가 싶습니다.

      카비레이크-G의 베가가 24NCU, 64ROP이니 이걸 기준으로 하면 11NCU 사양에서 16ROP 정도는 충분히 들어갈만 해보이고,
      반대로 베가10 기준(64NCU, 64ROP)이라면 16ROP가 많아 보이기는 하는데 연산성능보다 전성비를 선택했다면 못 들어갈 것도 없어보이긴 하네요.

  5. addr | edit/del | reply BlogIcon kiu 2018.01.20 02:23 신고

    뜬금없이 게시글과는 무관한 내용입니다만
    테슬라 V100의 ROP이 진짜로 128개가 맞나요??
    타이탄 V가 메모리버스 3072bit에 ROP 96개이니
    메모리버스가 4096bit인 테슬라 V100의 ROP은 128개라는 것으로
    단순 계산에 도출된 값인건지 모르겠어요..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.20 03:03 신고

      블럭 다이어그램을 보면 테슬라의 GV100에는 ROP, 레스터 엔진, 폴리모프 엔진이 표현되어 있지않은데 이걸로 봐서는 ROP가 없는 것으로 보입니다.
      그래픽 관련 요소는 배제하고 FP64, 텐서 코어 등 순수 연산 성능에만 집중한 구조인겁니다.
      (GP100도 그랬습니다.)

      그런데 타이탄V에서는 96ROP라고 나온거 봐서는 이름은 같지만 그래픽 기능은 추가하고 이런저런 사양을 쳐낸 제품이 아닌가 추측됩니다.
      메모리버스, L2 캐시가 3/4토막인데
      의외로 텐서 코어 개수는 그대로이고, NVLink도 동작만 안 될뿐 일단 커넥터가 있기는 합니다. (이건 테슬라 V100 PCB를 그대로 썼기때문이라는 추측도 있습니다.)
      메모리 버스가 3/4으로 줄어드는건 테슬라 P100에서 NVLink -> PCIe config2 버전으로 바뀔 때 나타난 사양 축소이기도 합니다.

      종합해보면 그래픽 관련 유닛 추가,
      메모리 인터페이스 1/4 비활성화,
      NVLink 삭제 혹은 비활성화 정도로
      이 정도면 재설계라고 봐야하지 않을까 싶은데 그럼에도 그래픽 성능에 별 도움이 안 되는 텐서코어는 그대로 뒀단 말이지요.

      타이탄V와 테슬라의 TDP는 각각 250W, 300W 인데 테슬라 P100, V100 사례를 봤을 때, TDP 차이가 나려면 코어 클럭을 낮추거나 메모리 버스를 함께 낮춥니다.
      재설계를 통해서 코어 중에서 그래픽 성능과 관계없는 유닛들을 빼버려서 규모를 줄이고 클럭 상승 마진을 더 확보하는 방법도 있고요.
      그런데 타이탄V에서는 게임 성능과 하등 관계가 없는 텐서 코어를 그대로 유지하면서 메모리 성능을 깎아서 TDP를 줄이는 방식으로 갔네요.
      핵심이 되는 SM 구조는 그대로 유지하고 그 외 부분만 손을 댄 것으로 보입니다.

      컨셉은 GP100 - GP102 같은 관계와 비슷하지만 SM 구조까지 차이가 있는 GP100 - GP102에 비하면 이름을 달리 할 정도로 큰 차이는 아닌듯 합니다.

  6. addr | edit/del | reply kiu 2018.01.20 06:33 신고

    그럼 GP100을 사용한 테슬라 P100의 ROP 96개는 스펙 표기 오류라고 볼 수 있나요?
    저도 처음엔 GPGPU에 특화된 테슬라 제품군들은
    디스플레이 출력 단자가 없으니 ROP도 당연히 없을거라고 생각이었는데
    테슬라 P100에도 ROP이 있긴 있다는 얘기를 주워들어서
    그것땜에 테슬라 V100의 ROP 존재 여부까지 생각했던 것 같네요

    타이탄 V만으로는 볼타의 게이밍 성능을 가늠하기엔 이른 것 같아요
    GP102처럼 게이밍에 집중된 GV102같은 칩셋이 나와봐야 가늠할 수 있지 않을까요?
    GPC 내부의 SM 개수와 SM 내부의 코어 구조를 조정하면서
    (실제로 GP100이랑 GP102가 같은 체급이지만 SM 개수가 서로 달랐으니..)
    배정밀도, 반정밀도, 텐서코어 모두 너프된 모습으로 말이죠..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.21 15:11 신고

      GP100에 ROP가 있다는 표기는 틀린거 같네요.

      게이밍용 제품은 볼타가 아닌 암페어라는 코드네임으로 나올거라는 루머도 있어서 나와봐야 알 수 있을거 같네요.

  7. addr | edit/del | reply kiu 2018.01.21 17:58 신고

    위키백과에서는 테슬라 제품군에 ROP이 표기되어 있지 않았지만
    공신력이 있는 TechPowerUp에서는 테슬라 제품군에 ROP이 표기되어 있는거 보면
    TechPowerUp 측에서 DB를 도대체 어떻게 관리하는지 모를 정도입니다
    실시간으로 편집(수정)하는 로그가 나온건 좋은데
    테슬라 제품에 ROP 항목이 왜 있는지 이해가 안 된다랄까요..

    암페어가 볼타의 컨슈머용 아키텍처 이름일지, 볼타 자체의 후속 아키텍처 이름일지에 대해서는
    GTC 2018이 다가와봐야 알 수 있을 것 같아요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.21 20:42 신고

      위키는 인터넷 정보의 취합이라 신뢰도가 높지 않고, techpowerup도 제조사에서 스펙 정보를 직접 받을 수 있는게 아니라면 신뢰도는 딱히 다르지 않습니다.

      좀 더 찾아보니 테슬라 K20과 케플러 계열 지포스가 둘 다 GK110 계열인데 테슬라의 코어 마킹이 지포스하고 아예 다르더군요.
      GK110 백서에서 코어 다이어그램에서는 ROP 등 그래픽 관련 유닛이 표시되어 있지 않은데, 지포스 발표 때 나왔던 다이어그램에서는 다 나와있고요.

      GK110 경우 봐서는 이름이 같은 경우에는 기본적으로 모든 기능이 다 포함되어있는 설계이고, 기능이나 유닛을 막거나 제한해서 제품별로 다른 코어마킹으로 투입하는게 아닌가 싶기도 합니다.
      제조과정에서 일부만 문제가 있는 (일종의) 불량 칩의 재활용일 수도 있을거 같고요.

      이런 가설?이라면 GV100 코어에는 ROP가 포함되어 있지만 타이탄에만 기능이 활성화된 채로 들어갔다고 볼 수 있겠네요.
      이렇게되면 풀칩은 (ROP 수가 메모리 인터페이스에 비례하는 전례에 따라) 128ROP가 될거고요.
      GP100은 그래픽 제품에 들어간 적이 없으니 정말 ROP 등이 없을 가능성이 여전히 있고요.

    • addr | edit/del Lia 2018.02.06 17:14 신고

      GP100도 그래픽 제품에 들어간적이 없지는 않은걸로 알고 있습니다. 쿼드로 GP100이라는 제품이 있고, ROP은 이 제품에서조차 NVIDIA에서는 스펙 표기를 하고 있지 않더라고요. 저는 GV100도 그렇고 GP100도 그렇고 공통적으로 테슬라에서 비활성화한 것이고 다이 자체에는 ROP이 있지 않을까 싶긴 하네요..

  8. addr | edit/del | reply BlogIcon kiu 2018.01.22 04:07 신고

    그동안 지포스 그래픽카드에서 ROP과 메모리버스의 비가 변경될 때
    GDDR 계열의 메모리 규격만 채택되어서 그런건지 항상 2배수 격차였는데
    GV100의 풀칩이 ROP 128개가 맞다면
    HBM2 때문에 2배수 규칙을 깨버리는 셈이겠네요
    GDDR6였다면 2배수 규칙에 따라 192개이거나 96개로 유지되었을 것 같은데 말이죠

    타이탄V가 3072bit에 ROP 96개인데 컨슈머용 볼타 80 라인의 스펙이
    타이탄V를 하극상 하지 않는 한 256bit에 ROP 64개로 제한할 것 같은 기분이네요
    그렇다고 GTX 280 이후로 10년만에 512bit를 다시 채택하진 않을 것 같고...
    아, NVIDIA답게 통수 시나리오를 준비하고 있다면
    컨슈머용 볼타 80 라인의 ROP이 타이탄V보다 많아도 이상할게 없을지도 모르겠군요
    '타이탄V는 맛보기였고 타이탄V2가 진짜 플래그쉽이다'같은 뉘앙스를 풍기면서요

    p.s. 원래 베가 GPU에 대해서 물어본거였는데
    잠깐 GV100에 대해 여쭤보다가 댓글이 이렇게 길어졌네요
    남들이 알고싶지 않는 부분에만 쓸데없이 궁금해하는 제가
    게시글의 댓글 꼬리만 주렁주렁 하게 만들어준 꼴이니..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.22 21:03 신고

      개인적으로도 말씀하신대로 96ROP가 상한선이 될거 같고 거기에 맞추자면 GDDR6 384bit 사양일거 같습니다.
      HBM은 안 쓰겠지요.

      완전 딴 소리도 아니고 결국 비슷한 계열 얘기라서 상관없습니다.

  9. addr | edit/del | reply kiu 2018.01.22 22:50 신고

    공식 발표 내용은 아직 안 나왔지만
    gamma0burst님 말씀을 들으니 가려운 부분을 시원하게 긁어주는 기분입니다
    말씀대로라면 2세대 맥스웰부터 적용된 ROP과 메모리버스의 비가
    파스칼을 거쳐 볼타까지 그대로 이어지는 셈이겠네요

    어쩌면 ROP 설계에 약한 AMD한테는 그나마 다행일지도 모르겠군요
    다만, 베가 아키텍처의 성능이 HBM2를 동원해도 파스칼 수준이라
    파스칼보다 더 발전된 볼타까지 상대하려면 7nm 공정을 기본 전제로 깔아야 함은 물론이고
    6144SP, 384TMU, 96ROP, 3072bit HBM2 2400MHz(대역폭 약 900GB/s), 12GB처럼
    볼타보다 더 많은 스펙으로 무장해야 버틸 수 있지 않을까요?
    물론 언제나 그랬듯이 R9 290 시리즈처럼 밀리는 전성비를 가성비로 극복해야겠지만..
    절대 성능, 전성비에서 질게 뻔하니까 아예 데탑용 그래픽카드 시장에 내놓지도 않는 전략을 내세워도
    NVIDIA가 볼타 모바일을 내놓는 순간 베가 모바일도 위태로워질 수 있는건 마찬가지일 것 같아서요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.23 22:06 신고

      전성비를 가성비로 극복하는 방법은 결국 안 먹힌다는걸 전례들이 입증했습니다.
      공정에서 큰 차별화가 있을 수 없는 상황에서 더 높은 사양은 더 큰 다이, 더 낮은 수율, 더 높은 전력을 의미하고,
      아무리 데스크탑용이라고 해도 한정된 플랫폼(현재 그래픽카드 사이즈라든지)에서의 전력, TDP는 한계가 있습니다.
      엔비디아든 AMD든 사양을 늘린다해도 그 한계를 넘어설 수는 없습니다.
      그렇다면 결국 단입 칩에 투입할 수 있는 자원, 사양은 둘 사이에 거의 차이가 없고 TDP나 소비전력도 최대치는 거의 차이가 없습니다.
      그 상황에서 전성비가 밀린다는건 절대 성능에서 밀린다는 얘기지요.

      아키텍처 효율 향상없이는 앞 설 수가 없습니다.

  10. addr | edit/del | reply BlogIcon kiu 2018.01.23 23:44 신고

    문제는 Navi 아키텍처가 볼타랑 비슷한 시기에 투입할 여력이 없다는 점인데...
    AMD한테 남은 카드라면 과거 페르미 아키텍처 시절에
    일명 페르미 2.0이라고도 불렀던 GF104 칩셋처럼
    Vega 아키텍처도 Vega 2.0 아키텍처라고 할만큼 크게 변경된 Vega 칩셋을 내놓아서
    아키텍처 자체의 성능 효율을 높이는 쪽이겠지만
    근데 효율을 높일 방법이 SP:TMU:ROP의 비를 변경하는거 말고는 없을까요?

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.25 19:17 신고

      성능 개선 방법이라는게 다양하고 표면적으로 보이는 스펙 외에 내부적인 효율차이도 있어서 스펙만 갖고 판단하기는 어렵습니다.
      소비자 입장에서는 사양 대비 성능같은걸로 그런 요소들을 간접적으로 비교하는 것뿐이지요.

      엔비디아처럼 기본적으로 같은 아키텍처로 내부 구성을 달리해서 연산용, 게이밍용 칩을 따로 만드는게 각각의 효율 측면에서 좋겠지만 AMD가 이 방법을 취하지 않는걸 봐서는 개발 여력에서 차이가 있는거 같습니다.

  11. addr | edit/del | reply kiu 2018.01.30 22:14 신고

    요즘들어 라이젠5 2400G랑 라이젠3 2200G 관련 소식이 점점 많아지더군요 제가 보기엔

    $169로 나온 2400G는 비슷한 가격대인 코어 i3와 경쟁할 것으로 보이는 APU로써
    현 공정의 아키텍처에서 뽑을 수 있는 APU의 풀칩이
    어느 정도의 스펙인지를 보여주는 상징적인 모델인 것 같고

    $99로 나온 2200G는 비슷한 가격대인 펜티엄 골드 제품군을 저격할 수 있는 APU인 것 같아요

    근데 $40~60 가격대를 꽉 잡고 있는 셀러론이 있어서
    사무용이라는 명목으로 셀러론까지 때려잡으려면
    $39라는 파격적인 가격 포지션의 라이젠3 2100G같은
    최하위 APU를 내놓아하지 않을까요?
    2코어 4스레드 3.3(~3.6)GHz에 라데온 베가 6 1100MHz 스펙 정도면 적당한 가격일지...

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.01.31 17:24 신고

      젠코어의 최소 구성 4코어이기때문에 2코어는 면적측면에서 아무 이득이 없습니다.
      (4코어 다이에서 2코어만 죽이고 써야됩니다.)
      원가가 감소할 여지가 거의 없다는거지요.

      2코어 구성의 다이를 새로 설계할 가능성도 있겠지만, 라이젠부터 에픽까지 같은 다이로 개수만 바꿔서 출시한 AMD가 저가형을 위해 새운 코어를 설계할 가능성은 낮아보이네요.

    • addr | edit/del A TNT 2018.01.31 19:40 신고

      이미 레이븐 릿지의 다이사이즈는 서밋 릿지보다 큰 상태입니다. 14nm LPP공정에 250mm^2에 달하는 다이사이즈를 가진 물건을 99불에 파는것도 박리다매를 노린걸로 보이는데 저걸 39불에 판다는건 현실성이 부족합니다.

      차라리 28nm 기반의 브리스톨 릿지를 재고처리 차원에서 가격 인하를 한다는 시나리오가 더 적당한거 같습니다. 따지고 보면 A12 9800도 엑스카베이터 2모듈/4스레드에 2200G에 필적하는 F.S GS 2400점을 내주는 GPU가 들어가 있으면서도 염가의 28nm 공정에서 생산되기 때문에 원가측면에서 말씀하신 2코어 레이븐 릿지보다 훨씬 적당할겁니다.

    • addr | edit/del A TNT 2018.01.31 19:41 신고

      감마 // 사실 바실리스크라고 2코어 APU를 설계했던 정황은 있긴 합니다만 사내에서 수익성이 안된다고 판단했는지는 몰라도 팽당했던거 같습니다.

  12. addr | edit/del | reply BlogIcon kiu 2018.02.01 04:45 신고

    A TNT, 감마 // 브랜드 파워만 있었다면
    불량칩(2코어 4스레드)을 셀러론보다 비싼 가격대인
    $59로 내놓을 저력이 있었을지도 모른다는 생각에
    저도 모르게 터무니없는 $39라고 튀어나왔네요...;;
    예전에 페넘 X3 톨리만, 애슬론 X2 쿠마, 페넘II X2 칼리스토, 페넘II X3 헤카, 페넘II X4 조스마 사례도 있어서
    레이븐릿지에도 그런게 나오지 않을까 했는데 지금이 예전과 똑같은게 아니니
    그럴 필요가 없을만큼 불량률이 높지 않은가보군요 단가 문제도 그렇고...

    • addr | edit/del A TNT 2018.02.01 18:30 신고

      지금은 수율보다는 캐파가 아쉬운 상황이라서... 수율 자체는 매우 좋은거 같습니다.

  13. addr | edit/del | reply kiu 2018.02.01 19:35 신고

    A TNT // 모바일용 레이븐릿지에서 라이젠3 2200U가 2코어 4스레드이던데
    레이븐릿지 APU도 수율 자체가 좋았다는 뜻이라면 굳이 2코어 4스레드를 제조할 필요가 있었을까요?
    Capability라고 부르는 웨이퍼 처리 능력 때문에 부득이 모바일에서라도 2코어 4스레드를 투입시킨거라면...

    2코어 4스레드가 수지타산에 안 맞는 형태라면
    혹시라도 불량으로 나올 2코어 4스레드를 과감하게 버리고
    라이젠을 통해 '최하위 CPU도 기본 4코어인 시대'가 되기를 바라고 있었는데
    2200U가 2코어 4스레드로 나와서 기본 4코어라는 타이틀을 달성하지 못 한게 아쉽더군요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.02.02 18:50 신고

      보다보니 2200U가 있었네요.
      2700U~2300U까지 4코어인거봐서는 레이븐 릿지 풀칩에서 사양만 막은거 같은데 2200U만 2코어네요.
      2700U 2500U가 17년 4분기고 2300U 2200U가 18년 1분기이니 시기상 재설계칩은 아닌거 같고 끝까지 사양 쳐낸거 같네요.
      그 때쯤되면 그 정도로 싸게 팔아도 손해는 안 볼 정도로 공급가 계약이 됐을지도 모르겠습니다.
      파운드리 입장에서는 판가 하락에도 손해는 안 볼 정도로 수율이 성숙했으리라 예측했을거 같고요.
      아니면 진짜 불량칩 재활용일지도.
      풀칩에서 사양 쳐낸거라해도 모바일향이라서 사양 대비 가격이 아주 낮지는 않을지도 모르겠네요.

  14. addr | edit/del | reply kiu 2018.02.06 20:08 신고

    Lia // (비회원 댓글이라 여기에 작성합니다.)
    techpowerup 사이트에서 쿼드로 GP100의 메모리가
    4096bit HBM2인데 ROP이 96개라고 표기되어 있다는건
    나머지 ROP 32개가 비활성화된 상태라는 뜻인가요??

  15. addr | edit/del | reply kiu 2018.02.20 17:12 신고

    댓글 남길 마땅한 게시글이 없어서
    데탑용 GPU 게시글 중에 가장 최근에 작성된 이 글에 작성합니다

    GV100 컷칩의 TITAN V의 성능 리뷰를 보니까
    스펙에 비해 성능이 잘 안 나온 편이더군요
    일반적인 게이밍용 GPU가 아니라서 그런 것 같은데
    디스플레이 출력 단자가 있는 GP100 컷칩의 쿼드로 GP100과 비교해봐야
    볼타 아키텍처의 성능 효율을 가늠해볼 수 있지 않을까요?
    다른 이름의 새 아키텍처가 볼타의 게이밍용 버전이라면
    쿼드로 GP100의 벤치 자료가 더욱 절실해지는데 말이죠..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.02.20 20:14 신고

      정확한건 볼타 아키텍처로 다른 rop, tmu 구성이 나와봐야겠지만 타이탄V 결과로 보면 코어, tmu 대비 rop가 낮아서 게이밍 성능 향상이 크지 않은거 같네요.

      3dmark도 그렇고 다른 게임 벤치마크 결과보니까 해상도가 올라갈수록 볼타에서 성능 향상이 커지는데,
      해상도가 낮을 때는 연산, 텍스처성능이 남아돌고 렌더링이 병목으로 작용하다가 해상도가 올라갈수록 남아돌던 연산, 텍스처 성능이 쓰이는게 아닌지.

  16. addr | edit/del | reply BlogIcon kiu 2018.02.20 20:38 신고

    아, 동등한 조건에서 비교하고 싶어서 쿼드로 GP100을 거론했던 것입니다
    쿼드로 GP100이 GP100 칩셋 기반 모델 중
    디스플레이 출력 단자가 탑재된 유일한 모델이라서요
    GV100의 SM 구조도 GP102보단 GP100에 더 가까운 모습이기도 하구요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.02.20 20:41 신고

      배정밀도는 게이밍에서 의미가 거의 없다고 봐도 무방해서 GP100하고 비교해서 게이밍 효율을 파악하는건 의미가 없을겁니다.
      32bit(단정밀도) 기준으로 코어 수가 같은 GP102와 비교로도 충분하지요.

  17. addr | edit/del | reply BlogIcon kiu 2018.02.20 20:50 신고

    만약 쿼드로 GP100의 성능이
    GP102 컷칩인 TITAN X와 큰 차이가 없다면
    최상급 파스칼에서 체급을 40% 더 늘린 격인 볼타 아키텍처 자체가
    일반 게이밍에 부적합한 구조임을 반증하는 셈이겠군요

    GP100->GP102의 변경처럼
    새 아키텍처가 볼타의 일반 게이밍 버전에 그친다면
    (SM 84개->42개 구조로 변경, 배정밀도 성능 1/32로 축소, 단정밀도 성능 1/64로 축소)
    GPU 클럭 +15% 이상, GDDR6 16GHz 이상으로 끌어올리지 않는 한
    맥스웰->파스칼급 성능 향상을 기대하기 어렵겠네요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.02.20 21:01 신고

      볼타 아키텍처가 게이밍에 부적절한게 아니라 GV100이 게이밍에 최적화되지 않은거지요.
      원래 그럴 목적으로 그렇게 설계해서 만들었으니까요.

      GV100 자체가 역사상 말도 안 되게 큰 칩입니다. (815mm2)
      근본부터 게이밍용으로 합리적인 가격에 팔아먹을 수가 없는 칩이고 그러니 타이탄V 가격이 그렇지요.
      타이탄V는 그냥 최고 성능이라는 상징성을 위해 내놓은거지, GV100의 게이밍 성능에 뭔가 효율성이나 합리성이 있기때문에 나온게 아닙니다.

      암페어니 튜링이니 얘기가 계속 나오는데 전례로 봤을 때 최대 600mm2 선에 그치는 게이밍용 아키텍처가 나오든가, 볼타 아키텍처 기반의 재설계칩이 게이밍용으로 나올겁니다.

  18. addr | edit/del | reply kiu 2018.02.20 21:45 신고

    GP102의 칩셋 크기가 471평방mm이던데
    여기서 +40%(1.4배)로 계산하면 659.4평방mm로
    텐서코어 영역을 전부 잘라내고 DPU 개수를 줄여도 일반 게이밍용 중에 역대급 크기였던
    GM200의 601평방mm보다 더 큰 면적이라 생산성이랑 전성비가 괜찮을련지..

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2018.02.20 21:53 신고

      왜 40%인지 모르겠지만 공정 바뀌는 것도 생각해야되고 아키텍처가 바뀌니 코어, sm, tpc당 면적 변화도 있을거고요.
      사양만 갖고 면적 예측하기는 힘듭니다.

  19. addr | edit/del | reply kiu 2018.02.20 22:00 신고

    GV100의 풀칩이 SM 84개, GP100의 풀칩이 SM 60개라서
    +40%로 가정해본 것입니다
    GP102 풀칩이 SM 30개이니 볼타의 게이밍 버전이라면 SM 42개가 되겠죠