- 디지털 파운드리에서 유튜브로 엑스박스 스콜피오(코드네임)의 상세 스펙을 공개한 후로 ROP 사양에 대한 얘기가 나와서 다른 곳에 간단히 글을 썼는데 여기도 남겨봅니다.


GPU 관련 공개 사양은 아래와 같습니다.

폴라리스 기반 40CU

코어 클럭 1172MHz

메모리 인터페이스 384bit


그리고 이런 내용도 있습니다.

1174Mhz clock speed  X1.4

4 Geomatry engine      X2.7

40 CU (gcn 1.1? )       X4.6

192 TMU ?               X4.6

32 ROP ?                X2.7


이걸로 숫자를 끼워맞춰 보지요.

일단 비교 대상은 엑스박스 원S(GPU 클럭 914MHz)가 아닌 엑스박스 원(GPU 클럭 853MHz) 일겁니다.

영상에서 비교 대상은 엑박 원이었고 실제 값들도 그 쪽에 잘 맞습니다.

 

 

- 연산성능

코어클럭은 1172MHz로 보고 폴라리스 기반 40CU면 2560코어입니다.

1172MHz, 2560코어의 연산성능은 2560 x2 x1172 = 6001 GFLOPS = 6TFLOPS

엑박 원은 768코어, 853MHz여서 768 x2 x853 = 1.31 TFLOPS

4.58배로 대략 4.6배 맞습니다.

 

 

- TMU

본래 GPU 구성상 TMU는 CU에 종속적인 형태이기때문에 CU수에 비례해서 160TMU일겁니다.

스콜피오의 텍스처 성능은 160 x1172MHz = 187.5 MTex/s

엑박 원은 48TMU, 853MHz로 48 x853 = 40.9 MTex/s

4.58배로 대략 4.6배 맞습니다.

 

 

- ROP

엑박 원이 16ROP, 853MHz이니 렌더링 성능은 16 x853 = 13.65 GPix/s

여기서 2.7배면 13.65 x2.7 = 36.85 GPix/s 이고 이걸 1172MHz로 나눠서 역산하면

36.85 GPix/s / 1172MHz = 31.4 = 32 ROP가 나옵니다.

32 ROP 일겁니다.


일반적으로 GPU에서 ROP는 메모리 컨트롤러 종속적인 형태를 보입니다.

메모리 인터페이스 대역(몇 비트 이러는거)에 비례관계.

폴라리스10은 256비트였고 32ROP였지요.

GDDR5칩 하나가 32비트이고 메모리 컨트롤러 하나랑 1:1 매칭이라고 생각하면 됩니다.

256비트는 32비트 멤컨 8개가 있다는거고요.

멤컨마다 렌더링 유닛이 하나씩 있고 렌더링 유닛 하나당 아웃풋이 4 /cycle 해서 총 32ROP라고 표기해준다고 보는게 이해가 쉽습니다.

스콜피오의 인터페이스가 384비트이니 일반적인 그래픽카드였다면 48ROP였을겁니다.


여튼 일반적인 그래픽카드에서는 ROP가 메모리 인터페이스에 비례관계인데 엑박이나 플스4 같은 APU로 가면 얘기가 달라집니다.

메모리 대역폭을 그래픽 유닛이 단독으로 쓰는게 아니라 CPU 등 다른 부분과 공유해야됩니다.

메모리 인터페이스가 독립적 위치로 바뀌니 GPU의 일부일 수 밖에 없는 ROP는 완전히 GPU에 종속되는 형태가 됩니다.

메모리 인터페이스에 비례할 필요가 없어지는거지요.


그럼 왜 48ROP가 아닌 32ROP인가가 남는데 폴라리스 기반이라는게 힌트가 될겁니다.

스콜피오는 40CU로 폴라리스10 풀칩 36CU보다 많지만 근본은 폴라리스10에서 크게 바뀔 수 없습니다.

(폴라리스10 사양은 36CU, 2304코어, 144TMU, 32ROP)


CU수를 따라가는 TMU는 CU가 증가하면서 자연스럽게 따라 증가하겠지만 CU수를 따라가지 않던 ROP는 기존 폴라리스10 풀칩 수준을 그대로 유지하는 형태가 되었다고 봐야할겁니다.

 

 

- 정리해보면 스콜피오 GPU 사양은 이럴거 같습니다.

클럭 1172MHz

40CU, 2560코어 - 연산성능 6 TFLOPS

160TMU - 텍스처 성능 187.5 MTex/s

32ROP - 렌더링 성능 36.9 GPix/s

 

 

 

신고
Posted by gamma0burst Trackback 0 : Comment 11

댓글을 달아 주세요

  1. addr | edit/del | reply 흡혈귀왕 2017.04.08 01:37 신고

    콘솔포스팅이라니~!!!
    오늘도 좋은 포스팅 감사합니다~
    딱 이해되는 정리네요~

  2. addr | edit/del | reply ㅇ_ㅇ 2017.04.10 11:24 신고

    ps4프로에 들어가는 apu는 다이사이즈가 14nm 232mm2인데 이게 엑원s에들어가는칩보다 더작더군요 (엑원s 16FF 240mm2)

    스콜피오의경우 363mm2 16FF라는데 이정도 칩크기차이면 단순히 플포프로gpu랑 4cu만 차이나지는않을듯한데.....

    rop같은것도 32보다는 훨씬많지않을까요?

    flops로 치면 40cu/1174면 6T지만
    rop나 대역폭생각하면 거의1070근접하지않을까싶기도 하네요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.04.10 16:38 신고

      플스4 프로 APU 면적 정보가 나온게 있나요?
      36CU인 폴라리스10 면적이 232mm2 입니다.
      36CU에 CPU있고, 기타 기능까지 다 포함하고 있는 플스4 프로 APU가 고작 232mm2일리가 없습니다.

    • addr | edit/del 흡혈귀왕 2017.04.10 20:54 신고

      완전 잘못알고
      계시네요

      플스4 프로는 14nm아니고
      16nm TSMC 입니다.

      그리고 14nm인 RX480이 232mm2인데
      그보다 작을리없지요 ㅡㅡ;;

      16nm인 스콜피오 GPU만
      360mm2 입니다;;;

  3. addr | edit/del | reply ㅇ_ㅇ 2017.04.13 16:44 신고

    아 apu 이야기가 아니고 gpu다이 이야기입니다..;; 말을 잘못했네요

    여튼 스콜피오 gpu다이가 360mm2라는데 고작 8cu(스콜피오개발킷이 44cu라고 하던) 차이로 같은아키텍쳐가 크기가차이가 이렇게나나요?

    프로도 폴라리스기반 스콜피오도 아직까지 나온정보로보면 폴라리스기반이라곤 하는데 다이크기가 넘차이나는거아닌지

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.04.13 18:24 신고

      스콜피오 다이 360mm2는 GPU 부분 얘기가 아니라 전체 얘기일겁니다.
      단순 폴라리스10 하고 비교해도 36 -> 44CU인데 20% 넘게 증가했지요.
      232 x1.22 = 283mm2
      거기에 CPU, 기타 기능 다 포함이고, 메모리 인터페이스도 1.5배나 증가했습니다.
      363mm2가 충분히 나올만 합니다.

      이전 엑박원S 다이가 작았던건 사양이 너무 부실했던거고요.
      (사실 사양대비 작다고 보기도 힘듭니다. eSRAM 면적 비중이 상당히 높지요.)
      베가 기반 이런건 희망사항일뿐 현실성이 없습니다.
      잘 해야 폴라리스 기반에 베가에'도' 들어가는 일부 기능들이 추가되는 정도일거고요.

  4. addr | edit/del | reply ㅇ_ㅇ 2017.04.14 04:00 신고

    폴라리스10 풀칩이 2304 36cu인데 단순히 sp카운트만 늘리고 384bit 메모리인터페이스가 가능한가요?
    메모리인터페이스를 384에 326GB/s로 늘리면서 rop를 그대로 32를 유지할수가있는건지(물리적으로요)
    궁금하네요 이게

    사실 저스펙에 rop만 48개정도만되도 같은폴라리스지만 480/580하고는 성능차이가 엄청날텐데 말이죠...

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2017.04.14 08:24 신고

      그에 대한 얘기가 본문에 있는 내용입니다.
      왜 CU, TMU, 메모리 인터페이스만 늘고 ROP가 그대로일 수 있는지요.
      (글은 읽으신건지...)

    • addr | edit/del ㅇ_ㅇ 2017.04.14 23:37 신고

      그렇군요 ㅠㅠ

  5. addr | edit/del | reply 흡혈귀왕 2017.04.14 15:02 신고

    별개의 이야기지만 엑시노스8895 최종 GFX벤치마크 퍼포먼스는

    카체이서 = 26fps
    맨하탄3.1 = 43fps
    맨하탄 = 64fps
    T렉스 = 123fps

    이렇게 나오더군요.
    처음으로 동시 출격하는 스냅드래곤 GPU를 GFX벤치마크에서 이겼네요.ㅠㅠ