- GTC2014에서 공개된 테그라 로드맵입니다.

맥스웰 GPU를 사용한 차기 테그라가 나왔고, 코드네임은 에리스타(Erista)입니다.

(에리스타가 울버린의 딸이고 울버린의 아버지가 로건 Logan이니 하는 설정이 있는걸보니 마블 코믹스 캐릭터 이름을 아주 포기한건 아닌듯.)

(비록 태블릿 한정이었지만) 엄청난 그래픽 성능을 보여준 테그라K1과 케플러 아키텍처(이하 케플러)로 인해 맥스웰 아키텍처(이하 맥스웰)에 대한 기대가 적지 않습니다.

 

케플러와 맥스웰의 성능 차이, 아키텍처 차이에 따른 코어 구성 추정 등을 통해 에리스타의 GPU 사양과 그래픽 성능을 추정해보겠습니다.

 

 

- 케플러와 맥스웰의 성능 차이

엔비디아가 맥스웰을 공개하면서 밝힌 바에 따르면 케플러 대비 코어당 성능은 +35~40% 입니다.

 

 

(왼쪽 : 코어당 성능 +35%, 오른쪽 : 코어당 성능 +40%)

그리고 이는 실제 벤치마크를 통해서 입증된 내용이기도 합니다.

(링크 : http://udteam.tistory.com/668)

 

여기서 확인할 수 있는건 크게 두 가지입니다.

1. 동일 사양에서 맥스웰은 케플러보다 35~40% 효율이 높다.

-> 실제 성능 향상치와의 관계는 불명. (사양에 따라 제각각)

2. 실제 성능에 영향을 끼치는 요소는 코어, TMU, ROP, 메모리, 클럭 등 다양하지만 코어수(와 클럭)을 성능을 대표하는 지수로 사용하는데 지장이 없다. 실제 엔비디아가 코어당성능이라는 지표를 사용한다.

-> 따라서 여기서는 코어 수와 클럭을 근거로 성능을 추정하겠습니다.

 

 

- GK104-GK20A 관계와 GM204 코어 구조를 근거로 한 에리스타 GPU 사양 추정

테그라K1에 들어간 GPU, GK20A는 192코어-8TMU-4ROP의 구조를 갖고 있습니다.

이런 구성은 어디에서 온걸까요.

 

GK104에서 왔다고 보는게 타당할겁니다.

실제 더 고사양의 GK110이 있습니다만, GK110은 연산성능에 치중하여 게이밍 효율은 떨어지는 구조였습니다.

전력에 민감한 AP에는 GK104의 구성이 더 적합합니다.

 

GK104는 1536코어-128TMU-32ROP 였습니다.

8SMX 구성이고, (단순 비례로 보면) 1SMX = 192코어-16TMU-8ROP입니다.

GK20A는 1SMX의 구성에 가까운겁니다.

이를 근거로 패턴화를 해보면, AP의 GPU 사양은 1SM의 구성을 기본적으로 따르고 TMU, ROP 수는 절반으로 줄어든다고 볼 수 있습니다.

 

다른 시각으로는 위의 GK208 사양의 절반이라고 볼 수도 있습니다만, 이것도 역시 GK104의 변칙적인 다운그레이드이기때문에 이를 기준으로 잡기는 힘들다고 생각됩니다.

(애초의 위에서 가정한 패턴이란 것도 절대적인건 아니지만요.)

 

위에서 가정한 패턴을 맥스웰에 적용해보겠습니다.

 

 

맥스웰 기반 GPU인 GM204

케플러로 치면 GK104 같은 위치입니다.

GM204 사양은 2048코어-128TMU-64ROP 입니다.

총 16SMM으로 (단순 계산으로) 1SMM = 128코어-8TMU-4ROP 입니다.

 

추측을 해보자면, 128코어로는 나오지 않을듯 합니다.

아무리 효율이 40% 올라도 코어수가 30% 이상 줄어들어서는 큰 성능 향상을 보기 힘듭니다.

게다가 이번에도 엔비디아는 연산성능을 얘기할텐데 코어 수가 줄어들면 연산성능은 전세대 제품을 넘어서는게 불가능합니다.

그렇기때문에 2SMM 구성으로 추측됩니다.

이는 GK20A가 GK104의 1/8 사양이었다는 점과도 일치합니다.

앞서 가정한 패턴대로면 256코어-8TMU-4ROP의 구성.

 

클럭은 예상하기 힘든데 끼워 맞춰보면 이렇습니다.

GTX980(GM204)를 GTX680(GK104)와 비교해보면,

코어 수 33% 증가, 클14% 증가임에도 TDP는 15% 감소했습니다. (같은 28nm인데?!)

사양이 증가해도 클럭을 올릴 수 있다는겁니다.

에리스타에서도 같은 비율로 클럭이 상승한다면 클럭은 1100MHz 정도 됩니다.

클럭 상승은 소비전력 문제로 힘들수도 있으니 추가적인 성능 상승 옵션으로 남겨두면 될듯.

 

 

- 성능 추정

정리해보면 에리스타 GPU 추정 사양은 256코어-8TMU-4ROP 입니다.

코어 수는 +33%, 아키텍처 변화에 따른 향상이 +35% 입니다.

이를 모두 종합하면 (동클럭에서) 테그라K1 대비 성능은 1.8배입니다.

 

950 기준으로 맨해튼 오프스크린 60 fps, 티렉스 오프스크린 123 fps 정도 되겠네요.

 

 

- 문제점 : GFX벤치에서 3DMark 같은 성능향상이 나타날 것인가.

케플러 -> 맥스웰 에서의 향상은 35~40%로 봤지만 이게 GFX벤치에서 나타날지가 문제입니다.

코어와 클럭에 따른 GFX벤치 결과를 보면 케플러 기반이나 맥스웰 기반이나 별 차이가 없습니다.

GFX벤치에서 데스크탑 그래픽 카드 결과를 대게 오버클럭 상태에서 측정된게 많아서 레퍼런스 클럭에서의 비교가 어렵다는게 문제이고, 이 때문에 제대로 된 결과값을 통한 계산인지 확실하지 않아서,

정말 케플러-맥스웰 사이의 GFX벤치 성능 차이가 없는가에 대해서는 확실하지 않습니다.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 14

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon 바다관문 2014.12.02 08:38 신고

    테그라K1 대비 1.8배 ㄷㄷ;;; 단순 성능만 놓고 보면 대단하네요;;;

  2. addr | edit/del | reply 흡혈귀왕 2014.12.02 11:55 신고

    나름 여러 찌라시를 종합했을때 해당제품은
    20nm일 가능성이 높은지라 기대중에 있습니다...
    어차피 폰에 못달거 타블렛이나 셋톱박스등에 달려서 극강의 성능을 내주길 바라고있음ㅎ

    4K해상도에서 대충
    맨하탄 = 16fps
    T렉스 = 35fps

    정도 나와주길 기대하고 있습니다..ㅎㅎ

    근데 곧 GFX벤치마크4.0이 나올텐데
    4.0버전부터 OpenGL ES3.1 + AEP를 완벽대응한다고 하더군요...

    또 얼마나 좌절 벤치를 보여줄지 기대중입니다ㅎㅎㅎㅎ
    OpenGL ES3.1이랑 APE 완벽 대응하는 GPU가 별로 없어서
    내년 초에 나와도 당분간은 그들만의 리그 벤치가 될가능성도 있겠네요

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2014.12.03 00:02 신고

      그렇게 구형 GPU는 튕겨나가는거지요.
      맨해튼 나오면서 ES3.0 미지원 GPU가 완전 언급도 안되기 시작했던 것처럼요.

  3. addr | edit/del | reply 피노키오 2014.12.03 18:02 신고

    A8X의 선례도 있으니, 아키택쳐의 통일성 유지차원에서
    순수한 2SSM (16TMU-8ROP)으로도 나올거 같습니다.
    요즘 모바일은 연산유닛 이상으로 고해상도를 받쳐줄 픽셀능력도 중시하는것 같아요

    성능효율향상의 주 요인은 눈에띄는건 역시나 테셀레이터 비율과
    라데온 타히티(512:1), 통가 (256:1), 지포스 케플러(192:1), 맥스웰(128:1)
    그리고 먼치킨급 대역폭관리인듯 싶습니다.

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2014.12.04 03:06 신고

      아키텍처 통일성을 생각했다면 케플러부터 그랬겠지요.
      A8X하고 테그라K1 비교해보면, 16TMU-8TMU로 차이가 있는데 GFX벤치 결과는 큰 차이가 없지요.
      사양 차이가 성능 차이로 이어지지 않는다는걸 보여줍니다.
      케플러->맥스웰 에서의 성능증가도 표면적인 사양증가보다는 내부적인 효율 개선의 결과이기때문에 굳이 TMU-ROP 사양을 늘리지 않아도 경쟁에 문제가 없을겁니다.
      물론 말씀하신대로 2SMM 풀사양으로 나올 가능성도 배제할 수는 없고요.

      테셀레이션 유닛이 늘어나긴했는데 현 상황을 봤을 때 모바일에서 그렇게 비중있게 생각하지는 않을듯.

  4. addr | edit/del | reply jang 2014.12.07 14:54 신고

    멕스웰이 워낙 고클럭을 잘받쳐주다보니 케플러인 넥9에 커스텀커널에서 0.9ghz에서도 발열문제가 크게 없는걸로 보면 다음세대에서는 28nm라도 1ghz기본클럭 가능하다고 봅니다.

    그리고 제가잘 몰라서 그러는대 tmu/rop의 갯수가 쉐이더 유닛?에 비례해서 많다면 말도안되는 성능향상이 이루어지는것인가요?

    예시로 r9 290x는 2816unfied에 64rop/176tmu이고 gtx980은 2048unified에 64rop/128tmu인대 290x가 성능에서 확실히 밀리듯이요...

    • addr | edit/del Favicon of http://gamma0burst.tistory.com BlogIcon gamma0burst 2014.12.07 16:36 신고

      넥9 테그라K1은 원 950MHz까지 보장하는 물건인데다가 태블릿이라 발열이 없다고 느껴질 수 밖에요.
      클럭 특성은 케플러나 맥스웰이나 큰 차이가 없어보입니다.
      클럭 대비 소비전력에서 차이가 크다는게 차이겠고요.

      쉐이더 유닛, TMU, ROP 구성비율과 그에 따른 성능향상은 간단히 말하기는 힘듭니다.
      단순하게 그래픽 연산 순서를 보면 동작하는 유닛이 쉐이더 -> TMU -> ROP 이기때문에 이론적으로는 유닛이 무지하게 많으면 당연히 성능은 올라갑니다.
      하지만 그렇게 마구잡이로 사양을 올릴 수 있다면 성능걱정할 필요도 없겠지요.
      얘기가 좀 샜는데, 다른 아키텍처 간의 비교는 코어, tmu, rop 숫자로 단순 비교할 수 없습니다.
      똑같이 코어라고 불러도 자세히보면 구성이 다르고, tmu, rop의 성능, 효율도 차이가 있습니다.

  5. addr | edit/del | reply BlogIcon 성당기사단장 2014.12.10 20:34 신고

    찌라시로는 GFX 티렉스에서 100프레임정도 나오더군요.

  6. addr | edit/del | reply BlogIcon R 2015.01.05 17:43 신고

    오늘 Tegra X1이라는 이름으로 공개됬습니다.

    레퍼런스 보드로
    Manhattan 63fps
    T-Rex 124fps 나오내요.

  7. addr | edit/del | reply 지나가며 2015.01.06 18:35 신고

    256코어-16TMU-16ROP 랍니다.