나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-11-21 15:21:09

인공지능 칩

NPU에서 넘어옴


[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]
[ 펼치기 · 접기 ]
||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술 기계어 · 어셈블리어 · C/C++ · C# · Java · Python · BIOS · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구

기타
논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영 체제 · 데이터베이스 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크 · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템 · Git · GitHub)

1. 개요2. 상세3. 구조4. 분류
4.1. 사용 목적4.2. 사용 환경
5. 관련 기업 및 대표 제품
5.1. 해외5.2. 한국
6. 관련 문서

1. 개요

AI 가속기(AI accelerator) / NPU(Neural Processing Unit, 신경망 처리장치) / AI칩(AI Chip)

기계학습 모델을 구축하여 인공지능 소프트웨어 구현을 하기 위해 특화 설계된 통합 칩이다.

2. 상세

AI칩은 통합 칩을 의미하며, 인공신경망 연산을 위해 맞춤으로 설계된 NPU를 포괄하는 개념이다. 하지만 뉴로모픽 칩하고는 다른데, 둘 다 AI를 굴리기 위한 장치지만, 뉴로모픽 칩은 메모리를 GPU처럼 만들어 실제 신경망 구조를 하드웨어로 모방하는 칩인 반면, AI칩은 GPU 같은 병렬연산 장치를 AI 소프트웨어의 작동 효율만을 목적으로 설계된 칩이라는 점이 다르다. 즉 AI 가속 장치이자 효율 장치인 것. 특히 AI가속기란 개념은 AI칩을 포함한 아키텍처를 통칭하는 더 큰 단위이다. 즉 NPU(연산 유닛) ⊂ AI칩(통합 칩) ⊂ AI가속기(아키텍처)이다.

2010년대 중반까지는 전용 SDK[1]를 활용한 GPGPU가 곧 인공신경망 구축을 위한 유일한 해답이라고 봐도 무방했다. 다만 어디까지나 GPGPU는 태생부터가 고인력인 CPU를 대체하며 병렬로 부동소수점 연산을 하여 픽셀 단위 그래픽 작업에 특화를 위해 설계되었고, 이쪽 인공지능 분야에서는 단순 용도 변경한 것에 불과하기 때문에 여러 문제를 갖고 있었다.

우선 연산 성능은 강력한 반면, 호환성이 제공되고 양산이 가능한 제조사가 엔비디아 한 곳 뿐이기에 수요 대비 공급이 제한적이라 가격이 높았다. 또한 기존의 범용 GPU는 VRAM을 그래픽카드에 두고 CPU 데이터를 복제한 뒤 연산을 처리하고, 결과값을 다시 CPU에 복사하는 방식의 복잡하고 비효율적인 방식을 취하고 있어서 특정 기업의 특정 요구에 맞춰서 설계되지 못하는 동시에 자원 낭비가 심하여 높은 전력소비와 레이턴시가 고질적인 문제였다. (환경단체측에서는 인공지능 수요의 전력소모량 증가로 인해 탄소발자국이 늘어났다는 주장도 하고 있다.) 대규모 슈퍼컴퓨터데이터센터는 일반인 기준으로 상상하기 힘들 정도로 대량의 전력을 필요로 하고 냉각을 위해 막대한 금액을 사용한다. 또한 자율주행 자동차, 생성형 인공지능 등 초 단위로 빠른 반응이 사용자에게 중요하게 작용하는 분야에 쓰이기에 낮은 전력소비와 레이턴시는 필수적인 요소로 불린다.

이 때문에 행렬곱셈, 비선형함수 계산 등의 AI 연산 외에 기타 업무는 최소한으로만 남겨서 이를 전용으로 수행할 칩의 필요성이 대두되었고 ASIC 방식 위주로 AI연산 워크로드에 맞춰 만들어진 단일 칩을 AI칩이라고 부르게 된다. 사용자들은 머신러닝 프레임워크를 통해 워크로드를 실행할 수 있고, 이에 따라 상용화된 일부 칩들은 소비전력 대비 AI 연산능력이 기존 칩들에 비해 매우 우월한 수준을 갖추는 경지에 이르게 되었다.[2] 따라서 2010년대 후반부터는, 슈퍼컴퓨터데이터센터는 물론이고 스마트폰, 태블릿 등 개별 전자 기기의 경우 기존 프로세서에 간단한 AI연산 용도로 NPU부분이 추가되는 추세이다.[3]

3. 구조

4. 분류

사용 목적에 따라 학습용과 추론용으로 나뉘며, 사용 환경에 따라 데이터센터와 엣지 컴퓨팅, 개별 노드 분야로 나누어 볼 수 있다.

4.1. 사용 목적

4.2. 사용 환경

5. 관련 기업 및 대표 제품

2022년을 기준으로 해당 분야에서는 95% 가까이 GPUFPGA 등 범용칩이 시장을 점유하고 있으며 특히 엔비디아가 80% 내외의 점유율로 1위 사업자 자리를 공고히 지키고 있다. 현재 제대로 외부 고객에게 양산되고 있는 칩은 엔비디아의 제품이 유일하고, 이로 인해서 수요 대비 공급 부족 현상이 심화되자 고객사들은 점차 ASIC 방식을 통해 칩 자립화에 도전하고 있는 상황이다.[13] 이로 인해 커스텀 칩의 점유율이 점점 상승하면서 일부 시장조사 업체에서는 2027년까지 GPU 점유율이 70%까지 하락할 것이라고 관측하기도 한다.[14]
파일:37A0616B-30B6-40CF-ACAC-4ABBB6793D64.jpg
2024년 인공지능 분야 ASIC 예측 점유율

2023년 9월 모건 스탠리 리포트에 따르면 GPGPU를 제외한 ASIC 방식의 커스텀 칩셋 시장 규모는 2024년 62억 달러까지 성장할 것으로 전망했다. 구글은 이미 딥러닝 연산 분야 한정으로는 칩 자립화에 성공하여 엔비디아의 A100/H100을 대체하고 있으며 테슬라, 아마존닷컴, 마이크로소프트 등 나머지 주요 업체들은 2023년에 칩셋을 출시했거나 2024년 내로 상용화 할 예정이다. 샘 올트먼도 인공지능 칩 시장 도전 의사를 밝혔다.

다만 적어도 2024년 연말까지는 엔비디아가 압도적인 강세를 띌 것이 확실시되는 상황이다. 엔비디아의 최대 고객 중 하나인 Microsoft는 연말까지 기존 60만 개의 GPU에서 180만 개까지 늘릴 계획을 밝혔으며, 테슬라테슬라 오토파일럿 용도로 H100 치환 기준 GPU를 2023년 15,000대 수준에서 2024년 연말까지 85,000대 수준으로 늘릴 계획을 밝혔다. 두 업체 모두 자체 ASIC 생산에 돌입한 상황이지만, 현재로서는 일부 대체에 그칠 뿐더러 외부 자본 지출 비중을 급격하게 늘려나가고 있다.

5.1. 해외

5.2. 한국

6. 관련 문서


[1] 엔비디아CUDA를 비롯해서 OpenCL, ROCm 등.[2] 대표적인 예시로 구글TPUv4는 1W당 1.62TOPS라는 기술의 혁신 그 자체를 보여주고 있다. 또한 테슬라 FSD칩에 탑재된 NPU도 144W의 낮은 소비전력으로 72TOPS 수준의 연산 능력을 보여준다. 엔비디아 대비 연산 성능 자체는 밀리지만, 소비전력 대비 연산능력은 이미 추월한 것이다. 이들은 장기적으로 대량 양산하고 가격을 낮춰, 규모의 경제 효과로 완전한 칩 자립화를 꿈꾸고 있는 상황이다.[3] 정리하자면 태생부터 범용적이었던 GPU의 비효율성을 줄이고 딥러닝 용도로 최적화시킨 게 NPU.[4] CUDA, OpenCL 등.[5] PyTorch, Tensorflow, Tinygrad, HuggingFace 등.[6] 주로 트랜스포머 방식 사용.[7] ChatGPT, CodeWhisperer, GitHub Copilot 등.[8] 다만, 많이 넣는 것 외에 전처리 과정에서 유리하도록 질이 높은 데이터를 수집하거나 압축성이 좋은 모델을 만드는 것도 강력한 딥러닝 구축에 있어서 중요한 요소이다.[9] 대표적으로 구글TPU, 테슬라D1 등 GPU 주요 고객사들이 자체 ASIC 설계에 집중하머 장기적으로 대량 양산하여 GPU를 대체할 계획을 짜고 있다.[10] 애플의 뉴럴엔진, 테슬라FSD칩 등이 대표적 사례.[11] GPU 서버의 경우 AI추론이 아니어도 그래픽,영상 가속이나 대규모 연산 등에 사용이 가능하며 이외에 암호화폐 채굴 등에도 쓸 수 있어 일부 암호화폐 채굴 업체는 채굴 붐이 다 지자 가지고 있던 GPU자원을 활용해 AI학습 워크로드를 돌리는 사업으로 전환하기도 했다.[12] 기존 데이터센터 대비 입지의 자유성이 늘어났으며, 공간 효율성이 훨씬 뛰어나 토지 및 건축물 관련 비용은 줄어들었다. 반면 전력과 냉각 등 유지비가 천문학적으로 늘어났다는 특징이 존재한다.[13] 엔비디아는 설립 30년이 훌쩍 넘은 기업이었으나, 이러한 칩 부족 현상으로 인해 2023년 2분기부터 전년 대비 매출이 3배 가까이 늘어났다. 영업이익률도 3배 가까이 뛰었을 정도로 가격결정력이 넘사벽인 상황이었다.[14] 당연히 GPU 시장 자체가 줄어든다고 관측하는 것은 아니다. 인공지능 연산 분야에서 ASIC 기반 커스텀 칩 시장이 빠른 속도로 커질 것이라는 전망. 엔비디아는 TSMC, 삼성 파운드리에게 대량 발주를 던져주는 주요 고객이기 때문에 Apple Silicon 정도를 제외하면, 최신 공정에 가장 먼저 접근할 수 있는 위치에 있다. 즉, 같은 세대의 공정이라면 커스텀 업체가 엔비디아보다 먼저 최신 공정을 양산하면서 성능을 따라잡기는 아직까지 힘들다는 뜻이다.[15] 2019년 20억 달러에 인텔이 인수했다.[16] 세콰이어캐피탈에서 27억 달러라는 막대한 돈을 투자한 기업이다.[17] SK텔레콤의 자회사.