나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-08-25 03:15:05

인텔 넷버스트 마이크로아키텍처

넷버스트 아키텍처에서 넘어옴

인텔® 펜티엄® 시리즈
Intel® Pentium® Series
<colbgcolor=white,#191919>{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding P5 라인 [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
<rowcolor=white> 마이크로아키텍처 이름 제품명 코드네임 등장 시기
P5 펜티엄 P5 1993년 3월
P54C 1994년 3월
P54CQS 1995년 3월
데스크톱: P54CS
랩톱: P54LM
1995년 6월
펜티엄 MMX 데스크톱: P55C
랩톱: P55LM
1997년 1월
랩톱: 틸라무크 1997년 9월
P6 펜티엄 프로 P6 1995년 11월
펜티엄 II 데스크톱: 클라매스 1997년 5월
데스크톱: 데슈츠
랩톱: 통가
1998년 1월
랩톱: 딕슨 1999년 1월
펜티엄 III 카트마이 1999년 2월
코퍼마인 1999년 10월
투알라틴 2001년 6월
인핸스드 P6 펜티엄 M 베니아스 2003년 3월
도선 2004년 5월
넷버스트 펜티엄 4 윌라멧 2000년 11월
노스우드 2002년 1월
프레스캇 2004년 2월
시더밀 2006년 1월
펜티엄 D
펜티엄 XE
스미스필드 2005년 5월
프레슬러 2006년 1월
인핸스드 P6 펜티엄 듀얼코어
→ 펜티엄
랩톱: 요나 2007년 1월
코어 데스크톱: 콘로
랩톱: 메롬
2007년 6월
데스크톱: 울프데일
랩톱: 펜린
데스크톱: 2008년 8월
랩톱: 2009년 1월
네할렘 (출시되지 않음)
펜티엄 데스크톱: 클락데일
랩톱: 애런데일
2010년 1분기
샌디 브릿지 샌디 브릿지 2011년 2분기
데스크톱: 펜티엄 G
랩톱: 펜티엄 M, U
아이비 브릿지 2012년 3분기
하스웰 데스크톱: 펜티엄 G
랩톱: 펜티엄 M, U
하스웰 데스크톱: 2012년 3분기
랩톱: 2013년 3분기
데스크톱: 펜티엄 G 하스웰 리프레시 데스크톱: 2014년 2분기
서버: 펜티엄 D
랩톱: 펜티엄 U
브로드웰 서버: 2015년 4분기
랩톱: 2015년 1분기
스카이레이크 데스크톱: 펜티엄 G
랩톱: 펜티엄 U
스카이레이크 2015년 3분기
카비레이크 2017년 1분기
데스크톱: 펜티엄 골드 G
랩톱: 펜티엄 골드 U
커피레이크 2018년 2분기
커피레이크 리프레시 2019년 2분기
코멧레이크 2020년 2분기
코브 데스크톱: 펜티엄 골드 G
랩톱: 펜티엄 골드G
}}}}}}}}}
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding 아톰 라인 [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
<rowcolor=white> 마이크로아키텍처 이름 제품명 코드네임 등장 시기
실버몬트 데스크톱: 펜티엄 J
랩톱: 펜티엄 N
베이 트레일 2013년 3분기
에어몬트 브라스웰 2016년 1분기
골드몬트 아폴로 레이크 2016년 3분기
골드몬트 플러스 데스크톱: 펜티엄 실버 J
랩톱: 펜티엄 실버 N
제미니 레이크 2017년 4분기
제미니 레이크 리프레시 2019년 4분기 }}}}}}}}}
관련 CPU 제온
Xeon
코어
Core
셀러론
Celeron
아톰
Atom


Intel Netburst Microarchitecture

1. 개요2. 상세
2.1. 배경2.2. 특징
3. 사용 모델4. 여담

1. 개요

2000년 Intel Developer Forum 2000 봄 시즌에 처음 소개된 후, 가을 시즌에 발표된 인텔마이크로아키텍처. 0.18 μm부터 0.13 μm, 90 nm, 65 nm까지 4가지 공정이나 사용되었으며, 2000년 11월부터 출시된 펜티엄 4 시리즈, 2005년 5월부터 출시된 펜티엄 D 시리즈, 2001년 5월부터 출시된 제온 DP, MP 시리즈, 7000, 5000 시리즈 일부에 사용되었다.

2. 상세

파일:Pentium_4-Figure_4.png

2.1. 배경

등장한지 [age(2000-11-20)]년이 지난 지금 시점에서는 믿기 어려울 수도 있지만, 명작으로 기억되고 있는 P6 마이크로아키텍처의 한계를 극복하기 위해 설계되었다. 1990년대 중반에는 파이프라인을 더 잘게 쪼개 클럭 주파수를 높임으로써 성능을 향상시킬 수 있으리라는 생각이 널리 퍼져 있었고 인텔도 그 중 하나였다. 고클럭에 따른 마케팅 효과는 덤. 출시 시점의 기존 P6는 등장한지 이미 5년이 지난 낡은 마이크로아키텍처였는데, 0.18 μm 공정으로 1 GHz 클럭을 돌파한 후 더 이상 클럭을 올리기 어려운 한계에 도달한 상태였다.[6] IPC가 더 우수하면서 1 GHz 클럭까지 먼저 돌파한 경쟁사의 K7 마이크로아키텍처를 상대하기엔 벅찬 상태였던 것.

2.2. 특징


전체적으로 클럭을 올리기 쉬운 구조로 되어 있기 때문에, 일반 제품군에서는 3.8 GHz, 익스트림 제품군에서는 3.93 GHz까지 나왔다. 그러나 이를 위하여 디코더의 수가 감소하고 파이프라인 단계의 깊이에 비례해 각종 레이턴시가 증가하여 IPC가 내려간데다 클럭을 올려도 소비전력 및 이에 따른 발열을 감당할 수 없었기 때문에, 경쟁사의 K7, K8 마이크로아키텍처 기반 프로세서들의 점유율이 높아지는 결과를 내게 된다.

인텔은 장점을 극대화하고자 CPU 이용 효율을 높이기 위해 하이퍼스레딩을 도입하고, 클럭을 더 높이기 위해 공정을 더 미세화하고, 파이프라인 스테이지 개수를 더 늘리며, 더 많은 전력을 인가할 수 있도록 CPU 소켓을 PGA 423 → PGA 478 → LGA 775 타입으로 여러 번 변경했으며, 어느 정도 클럭당 성능 향상을 위해 L1 데이터 캐시 메모리 용량을 8 KB → 16 KB로 증설하고, L2 캐시 메모리 용량까지 256 KB → 512 KB → 1 MB → 2 MB로 여러 차례 더 증설하는 등 무려 6년 동안이나 시도했다. 그러나, 캐시 메모리 레이턴시는 더 느려져서 클럭당 성능 향상 효과가 기대 이하였고, 동작 전압을 줄여 회로의 동작 속도를 높이는 Dennard Scaling에 한계가 찾아오면서 4 GHz의 벽이 나타나는 바람에 그간 고집을 꺾고 넷버스트를 기반으로 하는 다음 아키텍처들을 취소할 수밖에 없었다. 서버 및 데스크탑 제품군에서는 이렇게까지 장기간 삽질했지만, 모바일 제품군에서는 도저히 써먹을 수 없었기 때문에 일찌감치 포기해서 P6 마이크로아키텍처를 개량해 사용했고, 이 덕에 코어 마이크로아키텍처로 갈아탈 수 있게 됐다.

3. 사용 모델

인텔 넷버스트 마이크로아키텍처
공정/세대
코드명
파이프라인
스테이지
공정 브랜드
윌라멧
(Willamette)
20 0.18µm
(180nm)
셀러론
펜티엄4
노스우드
(NorthWood)
0.13µm
(130nm)
셀러론
펜티엄4
펜티엄4 HT[7]
갤러틴
(Gallatin)
펜티엄4 HT EE[8]
제온
프레스캇
(Prescott)
3190nm셀러론D
펜티엄4
펜티엄4 HT
펜티엄4 HT EE
스미스필드
(SmithField)
펜티엄D
펜티엄XE
시더밀
(Cedar mill)
65nm 셀러론D
펜티엄4
프레슬러
(Presler)
펜티엄D
펜티엄XE

자세한 내용은 인텔 넷버스트 마이크로아키텍처/사용 모델 문서 참조.

4. 여담

인텔은 2003년까지 분기당 170 MHz씩 클럭 주파수를 높여 2005년 4.5 GHz 이상을 달성할 수 있으리라 예상하였으나 2003년 이는 분기당 150 MHz로 수정되어 2005년 4 GHz 달성으로 목표가 변경되었고 2004년 분기당 130 MHz로 수정되었다.
[1] 훗날 샌디 브릿지에 도입된 마이크로옵 캐시는 1.5K µops 크기로 약 6 KB의 명령어 캐시와 비슷한 hit rate를 보이는데, 이를 넷버스트의 trace cache와 비교해 보면 효율이 상당히 좋지 못한 것이 드러난다. 12K µops 크기의 마이크로옵 캐시만으로 기존 16 KB 명령어 캐시의 2배 가량의 면적을 차지하는 데다가 복잡한 trace 생성 회로가 추가로 존재하여 넷버스트 코어의 면적을 늘리는 데 일조하였다.[2] staggered add라 불리는 방식으로, carry chain을 절반으로 쪼개 back to back 레이턴시를 절반으로 줄일 수 있었다. "The processor does ALU operations with an effective latency of one-half of a clock cycle. It does this operation in a sequence of three fast clock cycles (the fast clock runs at 2x the main clock rate) as shown in Figure 7. In the first fast clock cycle, the low order 16-bits are computed and are immediately available to feed the low 16-bits of a dependent operation the very next fast clock cycle. The high-order 16 bits are processed in the next fast cycle, using the carry out just generated by the low 16-bit operation. This upper 16-bit result will be available to the next dependent operation exactly when needed. This is called a staggered add. The ALU flags are processed in the third fast cycle. This staggered add means that only a 16-bit adder and its input muxes need to be completed in a fast clock cycle. The low order 16 bits are needed at one time in order to begin the access of the L1 data cache when used as an address input" (Intel Technology Journal Q1, 2001)[3] 인텔의 용어로는 dispatch[4] 넷버스트에서는 데이터 캐시 접근 시 TLB 접근을 뒤쪽으로 빼 버리고 virtual address와 virtual tag를 빠르게 비교한 다음 데이터를 forwarding하는 방식을 사용하였는데, 이때 speculation을 비활성화하는 경우 TLB 및 physical tag 비교까지 총 4 사이클 소요 후 스케줄러에서 의존 관계에 있는 명령어를 dispatch하여 dispatch에 2 사이클, 레지스터 읽기에 2 사이클이 소요되기 때문에 약 10 사이클의 load-to-use 레이턴시가 발생하게 된다.[5] 넷버스트에서 스케줄러는 cache hit을 가정하고 load 명령어의 2 사이클 뒤에 의존 관계가 있는 명령어를 dispatch 후 명령어 실행 도중 실패가 발생하면 실행 조건이 만족될 때까지 명령어를 계속 재실행(replay)하는데 이에 따라 여러 사이클동안 실행 자원의 낭비가 발생한다. 많은 작업에서는 여러 이유로 큰 영향이 없으나, 일부 작업에서는 speculation의 비활성화로 20% 이상의 성능 향상이 나타났다고 한다.[6] 물론, 훗날인 2001년에 0.13 μm 공정으로 미세화된 투알라틴 코어의 펜티엄 III 시리즈가 나오면서, P6 마이크로아키텍처로 1 GHz 넘는 고클럭 달성이 가능해지긴 했다.[7] Hyper Threading[8] Extreme Edition