- 체리트레일 사양 분석/추정이라고 했지만 사실 인텔 내장 그래픽 유닛 전반에 대한 학습을 정리한겁니다.

틀린 부분이 있을 수도 있으니 참고바랍니다.

(뭐 깊게 들어갔다고 학습인지 모르겠지만요.)

 

 

- 체리트레일 사양

성능에 관한 인텔 공개 자료는 많은데 최근 것만 올리겠습니다.

최근 인텔이 아톰 라인업을 X3/X5/X7 로 정리하면서 표면적으로는 체리트레일이라는 코드네임이 안 보입니다.

코드네임으로는 그대로 남아있을듯 하지만요.

체리트레일은 X5/X7 라인업에 해당하고 X3 라인업은 CPU만 아톰코어이고 통신 모뎀, GPU 등은 외부 IP를 활용합니다.

 

 

14nm 공정

CPU : Airmont 기반 최대 쿼드코어 2.4GHz - 사실상 실버몬트와 같은 코어로 공정만 14nm로 변경됐다고 보면 됩니다.

GPU : Gen8 12EU/16EU, 최대 600MHz - 기존 베이트레일이 4EU 최대 900MHz 선.

메모리 : LPDDR3-1600 - LPDDR3-1066에서 클럭만 올라갔습니다.

그 외 부분은 표를 참고.

 

 

GFX벤치 티렉스 오프스크린 기준 베이트레일(Z3795) 대비 최대 2배.

 

 

 

- 인텔 그래픽

체리트레일 GPU세대가 Gen8 이라고 하지요.

최근 세대를 간단히 보면,

 

1. Gen7

아이비브릿지에 들어간 것.

구성은 크게 두 가지.

6EU/1TMU, 16EU/2TMU

1TMU는 4Tex/cycle

 

2. Gen7.5

해즈웰에 들어간 것.

구성 : 10EU/1TMU, 20EU/2TMU, 40EU/4TMU

10EU당 1TMU

베이트레일에 들어간 세대로 베이트레일에는 4EU/1TMU로 추정.

1TMU는 4Tex/cycle

 

1EU당 32bit x4 SIMD FPU가 두개 들어감. (총 32bit 유닛이 8개)

연산성능은 이 FPU를 따라감.

HD4400 (20EU, 1.1GHz)을 예로 들면,

(Mul + Add) x 8SIMD x 20EU x 1.1GHz = 352.0 GFLOPS

 

3. Gen8

브로드웰에 들어간 것.

구성 : 12EU/2TMU, 24EU/3TMU, 48EU/6TMU

8EU당 1TMU

1TMU는 4Tex/cycle

체리트레일에 들어갈 것으로 알려진 사양은 16EU, 600MHz

연산성능과 관련된 부분은 Gen7.5와 동일.

 

 

- GFX벤치 테스트 결과

1. 베이트레일 성능.

4EU

1TMU, 4Tex/cycle

778MHz

맨해튼 오프스크린 : 10.9 fps

티렉스 오프스크린 : 21.1 fps

ALU : 42.4 fps

텍셀 필레이트 : 3097 MTex/s

(링크 : http://gfxbench.com/device.jsp?benchmark=gfx30&os=Android&api=gl&D=Acer%20A1-840%20FHD)

(레노버 요가 태블릿이 최고 결과는 더 높은데 결과 수를 봤을 때 신뢰성이 떨어집니다.)

 

Z3745 결과로 클럭과 사양이 Z3795와 같음.

(Z3795 링크 : http://ark.intel.com/products/80267/Intel-Atom-Processor-Z3795-2M-Cache-up-to-2_39-GHz?q=Intel%C2%AE%20Atom%E2%84%A2%20Processor%20Z3795%20%282M%20Cache,%20up%20to%202.39%20GHz%29)

(Z3745 링크 : http://ark.intel.com/products/80270/Intel-Atom-Processor-Z3745-2M-Cache-up-to-1_86-GHz?q=Intel%C2%AE%20Atom%E2%84%A2%20Processor%20Z3745%20%282M%20Cache,%20up%20to%201.86%20GHz%29)

 

2. 체리트레일 추정 결과.

윈도우 시스템 결과라서 구체적인 시스템 정보가 나오지 않음.

결과는 두 가지입니다.

 

16EU (x7-8700)

2TMU, 8Tex/cycle

맨해튼 오프스크린 : 20.1 fps

티렉스 오프스크린 : 35.3 fps

ALU : 117.0 fps

텍셀 필레이트 : 4371 MTex/s

(링크 : http://gfxbench.com/device.jsp?benchmark=gfx30&os=Windows&api=dx&D=Intel%28R%29%20CherryView%20HD%20Graphics)

 

12EU (x5-8500/8300)

2TMU, 8Tex/cycle

맨해튼 오프스크린 : 20.0 fps

티렉스 오프스크린 : 35.9 fps

ALU : 99.1 fps

텍셀 필레이트 : 4064 MTex/s

(링크 : http://gfxbench.com/device.jsp?benchmark=gfx30&os=Windows&api=dx&D=Intel%28R%29%20HD%20Graphics%20manual-gen8_2014-13144)

이게 왜 12EU 결과인지는 뒤의 분석에서 설명하겠습니다.

 

 

- 결과 분석

1. 16EU

텍셀 필레이트 결과에서 나오는 클럭은 4371/8 = 546MHz 입니다.

클럭은 최소 500MHz는 넘으니 문제는 12EU/16EU 어느 쪽이냐는 것.

 

ALU 결과를 보면 117.0/42.4 = 2.76, 베이트레일의 2.76배 입니다.

ALU 결과는 연산성능에 비례하니

12EU라고 가정하면 클럭은 716MHz

16EU라고 가정하면 클럭은 537MHz

인텔의 발표 사양으로 봤을 때, 16EU쪽인듯 합니다.

 

맨해튼, 티렉스 결과가 제대로 나온 것인지는 뒤에서 따져보겠습니다.

 

2. 12EU

텍셀필레이트 결과에서 나오는 클럭은 4064/8 = 508MHz 입니다.

인텔이 공개한 사양에 500MHz/600MHz 사양이 둘 다 있기때문에 어느 쪽인지 확신할 수 없는 상태.

 

ALU 결과는 99.1 fps로 99.1/42.4 = 2.34배 입니다.

ALU 결과는 연산성능에 비례하니

12EU라고 가정하면 클럭은 606MHz

16EU라고 가정하면 클럭은 454MHz

 

12EU로 가정했을 때, 클럭에 인텔발표 사양과 잘 들어맞는 값이 나왔습니다.

16EU로 추정되는 제품과의 ALU 결과로 보아 이건 12EU 사양인 제품인 것으로 보입니다.

 

3. 맨해튼, 티렉스

ALU결과로 나온 사양과 맨해튼, 티렉스 결과를 정리하면 이렇습니다.

 

16EU

맨해튼 오프스크린 : 20.1 fps

티렉스 오프스크린 : 35.3 fps

 

12EU

맨해튼 오프스크린 : 20.0 fps

티렉스 오프스크린 : 35.9 fps

 

뭔가 이상하지요.

EU 숫자가 차이가 나는데 성능이 비슷합니다.

ALU를 통해 나온 결과로 봤을 때는 12EU 결과가 600MHz에서 나올 수 있는 최적값이라고 볼 수 있습니다.

(현재로는 말이지요.)

그렇다면 16EU는 아직 저기서 성능이 더 올라갈 가능성이 있습니다.

 

GPU 세대도 다르고, 백엔드사양도 다르지만 베이트레일 결과를 기준으로 클럭당성능을 비교해보면,

(기본적으로 비슷한 구조이니...)

 

베이트레일 4EU

맨해튼 : 10.9/0.778 = 14.01 fps/GHz

티렉스 : 21.1/0.778 = 27.12 fps/GHz

 

체리트레일 12EU

맨해튼 : 20.0/0.6 = 33.33 fps/GHz

티렉스 : 35.9/0.6 = 59.83 fps/GHz

 

베이트레일 대비 각각 2.38배, 2.21배로 올랐습니다.

EU 사양이 3배에 저런 성능 향상이고, 성능이 EU사양에 선형적으로 비례한다고 가정하면,

EU사양이 4배(=16EU)에서 각각 3.17배, 2.95배로 계산됩니다.

 

그러면 16EU 600MHz에서의 성능을 계산하면,

 

 

클럭당성능

맨해튼 : 14.01 x 3.17 = 44.41 fps/GHz

티렉스 : 27.12 x 2.95 = 80.00 fps/GHz

 

600MHz에서의 성능은

맨해튼 : 44.41 fps/GHz x 0.6GHz = 26.6 fps

티렉스 : 80.00 fps/GHz x 0.6GHz = 48.0 fps

 

 

- 정리

최종적으로는 이 정도가 나올듯 한데, 역시 나와봐야 알 수 있는 일이겠지요.

 

Atom x7-8700

인텔 Gen8 16EU

2TMU, 8Tex/cycle

600MHz

맨해튼 오프스크린 : 26.6 fps (추정)

티렉스 오프스크린 : 48.0 fps (추정)

Mali-T760MP8 700MHz 수준 (엑시노스7420) (추정)

연산성능 : 153.6 GFLOPS

텍셀필레이트 : 4.8 GTex/s

 

Atom x5-8500

인텔 Gen8 12EU

2TMU, 8Tex/cycle

600MHz

맨해튼 오프스크린 : 20 fps (추정)

티렉스 오프스크린 : 36 fps (추정)

Adreno420, 애플 A8 수준. (추정)

연산성능 : 115.2 GFLOPS

텍셀필레이트 : 4.8 GTex/s

 

 

- 2015.03.13 12EU 사양 추정 추가. 내용 수정.

 

 

 

Posted by gamma0burst Trackback 0 : Comment 18

댓글을 달아 주세요

  1. addr | edit/del | reply BlogIcon 2015.03.08 15:21

    감마님 뜬금없지만 이정도 성능이면 롤 돌릴 수 있나요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.08 15:29 신고

      옵션포기하면 충분히 가능합니다.
      베이트레일로도 옵션포기하고 롤했다는 사례가 있더군요.

    • addr | edit/del BlogIcon 바람샘이 2015.06.06 02:06

      제가 베이트레일로 롤 돌려봣습니다 ㅋㅋㅋ

  2. addr | edit/del | reply BlogIcon 지나가던폰덕 2015.03.08 19:12

    Adreno 420에 PowerVR GX6450하고 동급이라.... 그런데 여기서 전력 드시는건 예외일테고.... 모바일 기기에서 아톰의 봄날은 오려나요...ㅠㅠ

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.09 15:21 신고

      좋은 상황이 하나도 없지요.
      공정원가는 비싸고,
      성능이 우세한 것도 아니고,
      통신 솔루션이 강한 것도 아니고,
      공정격차는 오히려 줄어들고 있고.

  3. addr | edit/del | reply BlogIcon 2015.03.08 20:28

    히힣 체리트레일은 똥이야 똥!
    차라리 저공정을 암드한테 줘버리지 싶네요

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.09 15:19 신고

      사실 암드라고 모바일에서 잘 될거란 보장은 없지요.
      GPU만 갖고 되는게 아닌지라......

  4. addr | edit/del | reply 지나가던일덕 2015.03.08 23:59

    메모리 대역폭 향상 및 듀얼 메모리로 인한 내장그래픽의 성능 향상은 어떻게 되나요?

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.09 05:50 신고

      대역폭부분은 확인해봐야겠습니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.09 15:17 신고

      메모리 대역폭은 17.1GB/s -> 25.6GB/s 입니다.
      레이턴시 감소같은 효과가 있을듯 합니다만 이로 인해 큰 수준의 그래픽 성능 향상이 있을 것 같지는 않습니다.
      메모리 대역폭의 영향은 수% 수준이지 않을까 추측.

  5. addr | edit/del | reply 성당기사단장 2015.03.09 23:10

    x5는 12eu라...더 떨어지더라구요. x3은 말리 400 450 720을 쓰니까 이미 뭐...
    인텔 그래픽스가 전력소모면에서 어느정도 한계가 있긴 있나보더군요. 하위 칩셋은 굳이 말리계열을 쓰는거 보면...eu를 낮춰도...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.10 16:33 신고

      EU가 기본적으로는 CPU와 비슷한 구조에 일종의 에뮬레이팅으로 그래픽 연산을 하는게 아닌가 싶은 구조를 갖고 있더군요.
      FPU가 따로 있는 것도 그렇고요.
      실제로 어떤지는 모르겠습니다만 만약 그렇다면 효율이 떨어질 수 밖에 없는 구조인듯.

    • addr | edit/del Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2015.03.12 04:27 신고

      라라비와 같은 그런 변태적인 구조는 아닙니다. 일단 이전세대인 아이비브릿지의 6세대의 구조입니다만 대충 이러합니다.
      http://www.realworldtech.com/ivy-bridge-gpu/
      파워VR쳐럼 SIMD로 처리하는 것으로 라라비 같은 초별종은 아닙니다.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.12 15:50 신고

      정독해보니 그렇네요.
      그러면 FPU는 왜 따로 넣은건지......

  6. addr | edit/del | reply Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2015.03.12 04:42 신고

    다른거보다 인텔이 덩치를 키우는데 너무 짜게 구는 탓에 ALU 머릿수가 부족한데다 TMU가 너무 후들려서 늘 동세대와 비교하게 되면 조금씩 부족한게 잉헬 IGP죠. 극히 제한적인 제품들에만 들어가는 GT3도 테그라 K1보다도 적은 160개, 타사의 모바일 AP와 상대해야하는 하즈웰 Y라인업의 GT2는 80개 ㅡ.,ㅡ 베이트레일은 더 처참해서 40개... 거기에 필레이트는 바닥을 기죠. 타사 AP의 GPU들과 비교해서 너무 작은 다이면적만이 할당되어있다보니 답이 없어요.

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.12 16:19 신고

      베이트레일이 GPU가 4EU, 32ALU 22nm 사양에서 20mm2 정도.
      Core M HD5300이 24EU, 192ALU 14nm 사양에서 40mm2 정도.
      체리트레일 사양인 16EU, 14nm에서면 27mm2 정도 나오겠네요.
      이 정도면 상당히 큰 면적을 할당한겁니다.
      다이면적 탓을 할 수 없는 수준.

      이 정도 면적을 갖고 있으면서 성능이 저렇다는건 백엔드 성능이 부족하거나, 프론트 엔드 효율에 낮거나 등등 태클걸 부분은 많을겁니다.
      아키텍처의 근본적인 효율 문제가 원인일 수 밖에 없습니다.

      이유가 뭐든 면적당성능이 심하게 떨어지는거고, 그건 전성비도 떨어진다는 얘기가 될겁니다.

      길게썼는데 간단히 말하면, 사양이라는 덩치를 키우고 싶어서 물리적인 덩치의 한계로 그럴 수 없는 비효율적인 아키텍처.
      그래픽 성능만 보고 얘기해서 그렇지 동영상 지원이나 API지원까지 포함하면 괜찮게 평가받을 수도 있을듯 합니다만.

    • addr | edit/del Favicon of https://rubp.tistory.com BlogIcon RuBisCO 2015.03.13 01:45 신고

      ALU 수 자체가 적어서 인텔이 짜게 구는줄 알았더니 GPU가 차지하는 면적 자체는 애플과 크게 차이가 안나는군요. 테그라 K1에 비해서는 다소 적은 면적을 차지하고 있는거긴 하지만 여하간 지독히 비효율적이어서 그렇다는 결론인데 역시 그래픽 감속기군요...

    • addr | edit/del Favicon of https://gamma0burst.tistory.com BlogIcon gamma0burst 2015.03.13 10:04 신고

      인텔 14nm에서 25~30mm2면 굉장히 큰거라서요.
      (타사 공정 다이사이즈 디스하는 그 잘난) 인텔 공정에서 저정도면 타사의 14/16mm에서는 작게잡아도 35mm2 내외로 환산됩니다.
      (인텔 soc 공정에서면 차이가 줄어들지도 모르지만요.)
      AP에서 저정도 GPU 면적에 저정도 성능나오면 진짜 이건 좀 아닌거.