||<table align=center><table bordercolor=#000000><table width=100%><bgcolor=white> GPU 마이크로아키텍처 ||
}}}}}}}}} ||
{{{#!wiki style="margin: 0 -10px -5px;min-height:26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px" | <rowcolor=#fff,#000> 설계 기반 | CUDA 연산 능력 | 칩셋명 | 등장 시기 | 인코더 | 디코더 | 사용 제품 | 공정 노드 |
<colcolor=black,white> Tesla | <colcolor=black,white> 1.0 | <colcolor=black,white> G80 | <colcolor=black,white> | <colcolor=black,white> | <colcolor=black,white> | <colcolor=black,white> | <colcolor=black,white> | |
Fermi | 2.0 | GF100 | 2010년 | TSMC 40 nm | ||||
GF110 | 2010년 | TSMC 40 nm | ||||||
2.1 | GF104 | 2010년 | TSMC 40 nm | |||||
Kepler | 3.0 | GK104 | 2012년 3월 | GeForce 600 GeForce 700 GeForce GTX TITAN | TSMC 28 nm | |||
GK106 | 2012년 9월 | TSMC 28 nm | ||||||
GK107 | 2012년 6월 | TSMC 28 nm | ||||||
3.5 | GK110 | 2012년 11월 | TSMC 28 nm | |||||
Maxwell | 5.0 | GM107 | 2014년 2월 | GeForce GTX 750/750 Ti | TSMC 28 nm | |||
GM108 | 2014년 3월 | GeForce 800M | TSMC 28 nm | |||||
5.2 | GM200 | 2015년 3월 | GeForce GTX TITAN X GeForce GTX 980 Ti | TSMC 28 nm | ||||
GM204 | 2014년 9월 | GeForce 900 | TSMC 28 nm | |||||
GM206 | 2015년 1월 | TSMC 28 nm | ||||||
Pascal | 6.1 | GP102 | TSMC 16 nm | |||||
GP104 | 2016년 5월 | GeForce 10 | TSMC 16 nm | |||||
GP106 | 2016년 7월 | TSMC 16 nm | ||||||
GP107 | 2016년 10월 | Samsung 14 nm | ||||||
GP108 | 2017년 5월 | Samsung 14 nm | ||||||
Turing | 7.5 | TU102 | GeForce 20 | TSMC 12 nm | ||||
Ampere | 8.6 | GA102 | GeForce 30 | Samsung 8 nm | ||||
Ada Lovelace | 8.9 | AD102 | GeForce 40 | TSMC 4 nm | ||||
서버/HPC용 (배정밀도 연산 성능 특화) | ||||||||
Kepler | 3.7 | GK210 | 2014년 11월 | Tesla K80 | TSMC 28 nm | |||
Pascal | 6.0 | GP100 | 2016년 4월 | Tesla P100 Quadro GP100 | TSMC 16 nm | |||
Volta | 7.0 | GV100 | 2017년 5월 | TSMC 12 nm | ||||
Ampere | 8.0 | GA100 | TSMC 7 nm | |||||
Hopper | 9.0 | GH100 | TSMC 4 nm | |||||
저전력 |
1. 개요
2012년 3월 22일에 출시된 NVIDIA GeForce 600 시리즈의 마이크로아키텍처.2. 공개된 정보
2.1. 주요 변경점
- TSMC 40 nm → TSMC 28 nm (공정 미세화)
- 코어(SMX) 레벨 (Fermi 대비)
- SM(Streaming Multiprocessor) → SMX로 명칭 변경
- Compute Capability: 2.x → 3.0 / 3.5(GK110) / 3.7(GK210)
- 프론트 엔드
- 백 엔드
- 하드웨어 스케줄러 삭제
- 단정밀도 처리량이 사이클당 32 → 192로 증가
- 로드/스토어 처리량이 사이클당 16 → 32로 증가
- 텍스처 유닛의 수가 4 → 16으로 증가
- 메모리 서브시스템
- Atomic 메모리 작업의 처리량 개선
- 공유 메모리/L1 캐시
- 48 KB 크기의 읽기 전용 데이터 캐시 추가
- 기타
- 파이프라인 깊이 축소로 전성비 개선
- 프로세서 레벨
- Hyper-Q 도입 (GK110/GK210 한정)
- Dynamic Parallelism (GK110/GK210 한정)
- 기존 Scoreboard 기반 비순차적 실행 방식의 RISC 아키텍처에서 VLIW 방식 아키텍처로 전환
- 하드웨어 스케줄링 구현에 투입되는 자원을 절약하는 효과
- 명령어 스케줄링은 컴파일러에 의해 정적으로 수행된다.
- 사이클당 1/9 (~0.111) → 1로 증가 (9배)
- 용량은 총 64 KB로 유지
- 공유 메모리/L1 캐시 간의 분할 옵션 추가
(16KB/48KB, 32KB/32KB, 48KB/16KB)
- host가 GPU에서 동시에 수행할 수 있는 작업의 수가 1 → 32로 증가
- 이에 따라 GPU 활용률이 극적으로 향상되었다.
- 기존에는 CPU에서만 GPU에 작업을 생성할 수 있었던 데 비해 GPU에서 자체적으로 작업을 생성할 수 있게 됨에 따라 오버헤드가 감소하였다.
기존 페르미 마이크로아키텍처의 비효율적인 부분을 개선하여 전성비를 크게 향상시켰다.