NVIDIA 데이터 센터 GPU

{{{#!wiki style="margin: -10px -10px;"						<tablealign=center><tablewidth=100%><tablebordercolor=#76b900><tablebgcolor=#76b900>	NVIDIA GPU 목록	}}}
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px" {{{#!wiki style="word-break:keep-all; font-size:0.9em"						<colcolor=white><colbgcolor=#004831> ''' NV '''	NV1
''' ~~NV2~~ '''	~~NV2~~
''' NV3 '''	RIVA 128
''' TwiN Texel ^(Fahrenheit) '''	RIVA TNT
''' TwiN Texel ^(Fahrenheit) '''	RIVA TNT2
''' QuadPipe ^(Celcius) '''	GeForce 256	-	Quadro	-	-
''' QuadPipe ^(Celcius) '''	GeForce 2	-	Quadro 2	-	-
''' nFiniteFX I, II ^(Kelvin) '''	GeForce 3	-	Quadro DCC	-	-
''' nFiniteFX I, II ^(Kelvin) '''	GeForce 4	-	Quadro 4	Quadro 4 NVS	-
''' CineFX 1.0, 2.0 ^(Rankine) '''	GeForce FX	-	Quadro FX	Quadro NVS	-
''' CineFX 3.0, 4.0 ^(Curie) '''	GeForce 6	-	Quadro FX	Quadro NVS	-
''' CineFX 3.0, 4.0 ^(Curie) '''	GeForce 7	-	QUADRO FX	-	-
''' Unified (Shader) ^(Tesla) '''	GeForce 8	-		QUADRO NVS	TESLA 800
	GeForce 9	-		-	-
	GeForce 200	-		QUADRO NVS	TESLA 1000
	GeForce 100	-	-	-	-
	GeForce 300	-	-	-	-
''' Fermi '''	GeForce 400	-	QUADRO	-	TESLA 2000
''' Fermi '''	GeForce 500	-	QUADRO	NVS	TESLA 2000
''' Kepler '''	GeForce 600	-	QUADRO K		TESLA K
	GeForce 700	GTX TITAN
	GeForce 800	GTX TITAN BLACK/Z
''' Maxwell '''	GeForce 700	-	-		-
	GeForce 800	-	-	-	-
	GeForce 900	GTX TITAN X	QUADRO M	-	TESLA M
''' Pascal '''	GeForce 10	TITAN X/Xp	QUADRO P	-	TESLA P
''' Volta '''	-	TITAN V	QUADRO GV100	-	TESLA V
''' Turing '''	GeForce 20	TITAN RTX	QUADRO RTX	-	TESLA T
''' Turing '''	GeForce 16	-	-	-	-
''' Ampere '''	GeForce 30	-	RTX A	-	A
''' Hopper '''	-	-	-	-	H
''' Ada Lovelace '''	GeForce 40	-	RTX	-	L
''' Blackwell '''	GeForce 50	-	-	-	B
GeForce · GeForce Laptop · NVIDIA RTX · 데이터 센터 GPU						}}}}}}}}}}}}

1. 개요2. 제품군

2.1. G80(Tesla) 마이크로아키텍처2.2. Fermi 마이크로아키텍처2.3. Kepler 마이크로아키텍처2.4. Maxwell 마이크로아키텍처2.5. Pascal 마이크로아키텍처2.6. Volta 마이크로아키텍처2.7. Turing 마이크로아키텍처2.8. Ampere 마이크로아키텍처2.9. Hopper 마이크로아키텍처2.10. Ada Lovelace 마이크로아키텍처2.11. Blackwell 마이크로아키텍처2.12. Rubin 마이크로아키텍처

3. 관련 문서

[clearfix]

1. 개요

2020년 5월까지 사용되던 상표는 Tesla

2007년 5월 내놓은 상표로, GPU가 게임용 연산에만 사용되는 것이 아닌 범용 연산(GPGPU)용으로 확대되면서 고성능 연산 작업을 목적으로 하는 곳을 공략하기 위한 제품군이다. 알맹이는 지포스와 같지만 대체로 디스플레이 출력 단자가 없는데다 연산에 주로 사용되기 때문에 GPU 내부에 있는 텍스처 유닛과 ROP 쓸 일이 없다. 게임 그래픽과는 거리가 먼 분야에 사용되기 때문. 물론 페르미 아키텍처 기반의 일부 제품 한정으로 DVI 단자 1개가 탑재되기도 했지만 케플러 아키텍처부터는 디스플레이 단자가 다시 빠지면서 지금까지 이어져오고 있다. 명색이 전문가를 넘어선 데이터 센터를 주로 공략하는 시장인만큼 가격도 매우 비싼 편인데 훨씬 저렴한 지포스 GPU로 연산 작업을 하면 되지 않겠냐고 반문할 수도 있지만, 쿼드로와 마찬가지로 전용 드라이버가 따로 있고 단일 GPU인 제품은 주로 하위 라인에나 해당되는 제품이지 최상위로 올라가면 GPU가 2개는 물론이고 4개를 한 기판에 탑재된 쿼드 GPU 타입 제품도 있다. GPU를 복수로 붙이면서 전력 소모량, 발열, 부피를 감안해서라도 당대 최고의 고성능 연산을 구현하는 것을 추구하는 방향이기 때문이다. 탑재 대상 컴퓨터들이 최소 워크스테이션에서 최대로는 슈퍼 컴퓨터와 데이터 센터급이며 소비 전력이 엄청 나기 때문에 모바일 제품군이 없다.

2020년 5월에 브랜드가 폐지되었는데. 모 자동차 회사와의 혼동 때문이라는 게 공식적인 설명이다. 엔비디아 역시 자율주행 자동차 사업에 진출해 있고 여기에 사용되는 연산용 GPGPU의 명칭이 가장 큰 경쟁사의 명칭과 겹친다는 게 좀 아니라고 생각했는듯. 이후 출시된 RTX A100부터는 데이터 센터 GPU라는 명칭으로 불리고 있다.

특이하게 최근 나오는 데이터센터 GPU 제품군에는 쿨러가 없이 방열판과 제품 덮개만 딱 있는데, 이는 절대로 칩의 온도가 낮아서 그런게 아니다. 데이터센터 gpu는 열이 심한 vram을 덕지덕지 붙이고 나오기 때문에 일반 게이밍용 gpu보다 온도가 높으면 높았지 절대 낮지 않다. 이렇게 발열량이 높은 gpu를 수백, 수천개씩 닭장처럼 꽂아놓고, GPU 외에도 발열량이 엄청난 부품들을 수백, 수천개 단위로 쑤셔넣은 것이 데이터센터이므로, 최적화된 쿨링 솔루션을 갖추는 것이야말로 데이터센터의 가장 중요한 요소 중 하나다. 이런 상황에서 개별 GPU에 어줍잖은 공랭식 쿨러를 장착할 경우 데이터센터 자체의 쿨링 솔루션에 방해가 되어 없느니만 못할 수 있기 때문에 이를 포함하지 않는 것이다.

2. 제품군

2.1. G80(Tesla) 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<|2> TDP
^(W) ||<|2> 출고
가격
^($) ||

<rowcolor=white> 칩셋명 _(공정) ^(면적)	CUDA:TMU:ROP ^{(TPC, SM)}	클럭 ^(MHz)	버스 ^(bit)	규격	클럭 ^(전송률) _(MHz) ^(Mbps)	용량 ^(MB)
<colbgcolor=black><colcolor=#76b900> S870	G80 _(90㎚) ^(484㎟)	128:32:24 x4 (8 x4, 16 x4)	600 ^(코어) 1350 ^(셰이더)	384 x4	GDDR3	800 (1600)	1536 x4	800	11999
D870		128:32:24 x2 (8 x2, 16 x2)		384 x2			1536 x2	520	7499
C870		128:32:24 (8, 16)		384			1536	171	1499
S1075	G200B _(55㎚) ^(470㎟)	240:80:32 x4 (10 x4, 30 x4)	610 ^(코어) 1296 ^(셰이더)	512 x4			4096 x4	800	?
S1070		240:80:32 x4 (10 x4, 30 x4)		512 x4			4096 x4	800	7999
C1060		240:80:32 (10, 30)		512			4096	188	?
M1060							2048		1699
T10							4096		?
{{{#!folding 【이론적인 성능 계산식 펼치기 · 접기】

2.2. Fermi 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-4> GPU ||<-4> 그래픽 메모리 ||<|2> TDP
^(W) ||<|2> 출고
가격
^($) ||

<rowcolor=white> 칩셋명 _(공정) ^(면적)	CUDA:TMU:ROP ^{(GPC, SM)}	클럭 ^(MHz)	L2 캐시 ^(KB)	버스 ^(bit)	규격	클럭 ^(전송률) _(MHz) ^(Mbps)	용량 ^(GB)
<colbgcolor=black><colcolor=#76b900> S2050	GF100 _(40㎚) ^(529㎟)	448:56:48 x4 (4 x4, 14 x4)	574 ^(코어) 1147 ^(셰이더)	768 x4	384 x4	GDDR5	773 (3092)	3 x4	900	11999
M2050		448:56:48 (4, 14)	575 ^(코어) 1150 ^(셰이더)	768	384			3	225	2699
M2070			574 ^(코어) 1150 ^(셰이더)				783 (3132)	6	225	3099
M2070-Q										5489
C2050			575 ^(코어) 1150 ^(셰이더)				750 (3000)	3	238	?
C2070								6		?
X2090	GF110 _(40㎚) ^(520㎟)	512:64:48 (4, 16)	650 ^(코어) 1300 ^(셰이더)				925 (3700)		225	?
X2070										?
M2090									250	?
C2090										?
M2075		448:56:48 (4, 14)	574 ^(코어) 1147 ^(셰이더)				783 (3132)		225	2399
C2075			575 ^(코어) 1150 ^(셰이더)				750 (3000)		247	?
{{{#!folding 【이론적인 성능 계산식 펼치기 · 접기】

2.3. Kepler 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<-2> 최대 연산 성능 ||<|2> TDP ||

<rowcolor=white> 칩셋명	CUDA 코어	클럭	버스	규격	클럭	용량	단정밀도 (FP32) (GFLOPS)	배정밀도 (FP64) (GFLOPS)
<colbgcolor=black><colcolor=#76b900>K10	2×GK104	2×1536	745MHz	2×256bit	GDDR5	2500MHz (5000MT/s)	2×4GB	4577	190.7	225W
K20	GK110	2496	706MHz	320bit		2600MHz (5200MT/s)	5GB	3524	1175	225W
K20X	GK110	2688	732MHz	384bit		2600MHz (5200MT/s)	6GB	3935	1312	235W
K40	GK110B	2880	745MHz (기본) 875MHz (부스트)	384bit		2500MHz (5000MT/s)	12GB	5040	1680	235W
K80	2×GK210	2×2496	560MHz (기본) 875MHz (부스트)	2×384bit		2750MHz (5500MT/s)	2×12GB	8736	2912	300W

2.4. Maxwell 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<|2> 단정밀도(FP32)
최대 연산 성능
(GFLOPS) ||<|2> TDP ||

<rowcolor=white> 칩셋명	CUDA 코어	클럭	버스	규격	클럭	용량
<colbgcolor=black><colcolor=#76b900>M4	GM206	1024	872MHz (기본) 1072MHz (부스트)	128bit	GDDR5	2750MHz (5500MT/s)	4GB	2195	50~75W
M6	GM204	1536	722MHz (기본) 1051MHz (부스트)	256bit		2300MHz (4600MT/s)	8GB	3229	75~100W
M10	4×GM107	4×512	1033MHz	4×128bit		2099MHz (5188MT/s)	4×8GB	5289	225W
M40	GM200	3072	948MHz (기본) 1114MHz (부스트)	384bit		3000MHz (6000MT/s)	12GB	6844	250W
M60	2×GM204	2×2048	899MHz (기본) 1178MHz (부스트)	2×256bit		2500MHz (5000MT/s)	2×8GB	9650	225~300W

2.5. Pascal 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<-4> 최대 연산 성능 ||<|2> TDP ||

<rowcolor=white> 칩셋명

CUDA 코어

클럭

버스

규격

클럭

용량

바이트
정수형
(INT8)
(TOPS)

반정밀도
(FP16)
(GFLOPS)

단정밀도
(FP32)
(GFLOPS)

배정밀도
(FP64)
(GFLOPS)

<colbgcolor=black><colcolor=#76b900>P4

GP104

2560

810MHz
(기본)
1063MHz
(부스트)

256bit

GDDR5

1500MHz
(6000MT/s)

8GB

42.5

5443

170.1

50~75W

P40

GP102

3840

1303MHz
(기본)
1531MHz
(부스트)

384bit

1800MHz
(7200MT/s)

24GB

91.9

11758

367.4

250W

P100
(PCIe)

GP100

3584

1126MHz
(기본)
1303MHz
(부스트)

3072bit

HBM2

703MHz
(1406MT/s)

12GB

18680

9340

4670

250W

4096bit

16GB

P100
(NVLink)

1380MHz
(기본)
1480MHz
(부스트)

21218

10609

5340

300W

P100은 GP100 컷칩이면서 HBM2 규격을 채택한 모델로 FP64 연산이 5.3 TFLOPS다. P40과 P4는 각각 GP102 풀칩과 GP104 풀칩을 기반으로 개발된 모델이다.

2.6. Volta 마이크로아키텍처

일부 잘못된 내용이 있을 수 있으니 주의할 것.

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<-2> 최대 연산 성능 ||<|2> TDP ||

<rowcolor=white> 칩셋명	CUDA 코어	클럭	버스	규격	클럭	용량	단정밀도 (FP32) (TFLOPS)	배정밀도 (FP64) (TFLOPS)
<colbgcolor=black><colcolor=#76b900>V100 (PCIe)	GV100	5120	1245MHz (기본) 1380MHz (부스트)	4096bit	HBM2	877MHz (1754MT/s)	16GB	14	7	250W
V100 (NVlink)			?MHz (기본) 1533MHz (부스트)			877MHz (1754MT/s)	32GB	15.7	7.8	300W
V100S (PCIe)			?MHz (기본) 1600MHz (부스트)			1107MHz (2214MT/s)	32GB	16.4	8.2	300W

2.7. Turing 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<-4> 최대 연산 성능 ||<|2> TDP ||

<rowcolor=white> 칩셋명

CUDA 코어

클럭

버스

규격

클럭

용량

4비트
정수형
(INT4)
(TOPS)

바이트
정수형
(INT8)
(TOPS)

반정밀도
(FP16)
(TFLOPS)

단정밀도
(FP32)
(TFLOPS)

TU104

2560

585 MHz
(기본)
1590 MHz
(부스트)

256 bit

GDDR6

1250 MHz
(10000 MT/s)

16GB

260

130

8.1

70 W

2.8. Ampere 마이크로아키텍처

||<|2><tablealign=center><tablebordercolor=#76b900><rowbgcolor=#76b900><rowcolor=white> 모델명 ||<-3> GPU ||<-4> 그래픽 메모리 ||<-4> 최대 연산 성능 ||<|2> TDP ||

<rowcolor=white> 칩셋명

CUDA 코어

클럭

버스

규격

클럭

용량

4비트
정수형
(INT4)
(TOPS)

바이트
정수형
(INT8)
(TOPS)

반정밀도
(FP16)
(TFLOPS)

단정밀도
(FP32)
(TFLOPS)

<colbgcolor=black><colcolor=#76b900>A2

GA107

1280

1440 MHz
(기본)
1770 MHz
(부스트)

128 bit

GDDR6

1563 MHz

16GB

4.5

40~60W

A10

GA102

9216

885 MHz
(기본)
1695 MHz
(부스트)

384 bit

GDDR6

1563 MHz

24GB

500

250

125

31.2

150W

A16

GA107 x4

5120

1312 MHz
(기본)
1755 MHz
(부스트)

512 bit

GDDR6

1563 MHz

64GB

287.2

143.6

71.6

250W

A30

GA100

3584

930 MHz
(기본)
1440 MHz
(부스트)

3072 bit

HBM2e

1215 MHz

24GB

661

330

165

10.3

165W

A40

GA102

10752

1305 MHz
(기본)
1740 MHz
(부스트)

384 bit

GDDR6

1812 MHz

48GB

598.7

299.3

149.7

37.4

300W

A100

GA100

6912

1065 MHz
(기본)
1410 MHz
(부스트)

5120 bit

HBM2e

1512 MHz

80GB

1248

624

312

19.5

300W

미국의 수출 규제로 인해 중국 시작용 A100은 A800이란 모델명으로 출시됐으며 NVLink 연결속도가 기존의 600GB/s에서 400GB/s로 제한되어 있다.

2.9. Hopper 마이크로아키텍처

<rowcolor=white> 모델명	GPU			그래픽 메모리				최대 연산 성능			TDP
<rowcolor=white> 모델명	<rowcolor=white> 칩셋명	CUDA 코어	클럭	버스	규격	클럭	용량	바이트 정수형 (INT8) (TOPS)	반정밀도 (FP16) (TFLOPS)	단정밀도 (FP32) (TFLOPS)	TDP
<colbgcolor=black><colcolor=#76b900>H100	GH100	16896	1665 MHz (기본) 1837 MHz (부스트)	5120 bit	HBM3	1313 MHz	96GB	3341	1671	60	350~400W
H200	GH100	18176	1365 MHz (기본) 1785 MHz (부스트)	5120 bit	HBM3e	1313 MHz	141GB	3341	1671	60	600W

2.10. Ada Lovelace 마이크로아키텍처

<rowcolor=white> 모델명

GPU

그래픽 메모리

최대 연산 성능

TDP

<rowcolor=white> 칩셋명

CUDA 코어

클럭

버스

규격

클럭

용량

4비트
정수형
(INT4)
(TOPS)

바이트
정수형
(INT8)
(TOPS)

반정밀도
(FP16)
(TFLOPS)

단정밀도
(FP32)
(TFLOPS)

<colbgcolor=black><colcolor=#76b900>L4

AD104

7424

795 MHz
(기본)
2040 MHz
(부스트)

192 bit

GDDR6

1563 MHz

24GB

970

485

242

30.3

72W

L40

AD102

18176

735 MHz
(기본)
2490 MHz
(부스트)

384 bit

GDDR6

2250 MHz

48GB

742

362

181

90.5

300W

2.11. Blackwell 마이크로아키텍처

<rowcolor=white> 모델명	GPU			그래픽 메모리				최대 연산 성능			TDP
<rowcolor=white> 모델명	<rowcolor=white> 칩셋명	CUDA 코어	클럭	버스	규격	클럭	용량	바이트 정수형 (INT8) (TOPS)	반정밀도 (FP16) (TFLOPS)	단정밀도 (FP32) (TFLOPS)	TDP
<colbgcolor=black><colcolor=#76b900>B200	GB100 x2	33792	1665 MHz (기본) 1837 MHz (부스트)	8192 bit	HBM3e	2000 MHz	192GB	496.6	248.3	62.1	1000W

2024년 3월 18일 자체 개발자 행사인 GTC 2024에서 공개.#

2.12. Rubin 마이크로아키텍처

2024년 6월 2일 대만에서 공개했다.

발표에 따르면, 루빈 GPU에는 6세대 제품인 HBM4이 8개가, 루빈 울트라 GPU에는 HBM4가 12개 탑재될 예정이다. 양산 시기는 2026년경.#

NVIDIA 데이터 센터 GPU

1. 개요

2. 제품군

2.1. G80(Tesla) 마이크로아키텍처

2.2. Fermi 마이크로아키텍처

2.3. Kepler 마이크로아키텍처

2.4. Maxwell 마이크로아키텍처

2.5. Pascal 마이크로아키텍처

2.6. Volta 마이크로아키텍처

2.7. Turing 마이크로아키텍처

2.8. Ampere 마이크로아키텍처

2.9. Hopper 마이크로아키텍처

2.10. Ada Lovelace 마이크로아키텍처

2.11. Blackwell 마이크로아키텍처

2.12. Rubin 마이크로아키텍처

3. 관련 문서

분류