나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2026-04-24 09:32:10

NVIDIA Nemotron


<colcolor=#FFFFFF> 엔비디아 네모트론
NVIDIA Nemotron
파일:Nvidia_Nemotron.jpg
개발 NVIDIA
종류 LLM
주요 모델 Nemotron-3 8B
Nemotron-4 15B, 340B
Llama-3.1-Nemotron-70B-Instruct 등
파라미터 8B, 15B, 70B, 340B 등
라이선스 NVIDIA Open Model License 등
(오픈 가중치 모델로 무료 상업적 이용 가능)
링크 엔비디아 허깅페이스
NVIDIA NIM
1. 개요2. 역사3. 모델
3.1. Nemotron-43.2. Mistral-Nemo3.3. Llama-Nemotron3.4. Nemotron 33.5. 특수 모델
4. 기술 특징5. 라이선스6. 여담

1. 개요

NVIDIA가 오픈소스[1]로 배포하는 대형 언어 모델 계열. 2024년 Nemotron-4 15B로 시작해 Nemotron-4 340B, Llama-Nemotron, Nemotron 3 시리즈까지 여러 세대가 이어지고 있다.

자사 학습 프레임워크 Megatron-LM과 NeMo로 학습되고, 주로 NVIDIA NIM이라는 추론 마이크로서비스 형태로 배포된다. 같은 활성 파라미터대의 경쟁 모델 대비 처리량을 전면에 내세우는 설계가 많다는 점도 특징이다.

2. 역사

2024년 2월 arXiv에 Nemotron-4 15B 논문이 공개되면서 이 이름이 처음 대중에 알려졌다. 8조 토큰으로 학습된 이 모델은 같은 크기대에서 다국어 성능이 앞선다는 점을 내세웠다.#

같은 해 6월에 등장한 Nemotron-4 340B는 공개 시점 기준 가장 큰 공개 가중치 모델 중 하나였고, 다른 모델 학습에 쓸 합성 데이터 생성을 정면으로 내세운 점이 화제가 되었다. 실제로 이 모델의 정렬 학습에 쓰인 데이터 가운데 98%가 스스로 만들어 낸 합성 데이터였다.# 7월에는 Mistral AI와 공동으로 Mistral-Nemo 12B를 내놓으면서 Apache 2.0 라이선스로 풀린 오픈 모델에도 이름을 올렸다.#

2025년 1월에는 Meta의 Llama 3.1과 3.3을 기반으로 NVIDIA가 추가 학습을 얹은 Llama-Nemotron Nano, Super, Ultra 세 가지 크기가 발표되었다. 이 라인업은 시스템 프롬프트로 추론 모드를 켜고 끄는 "detailed thinking on/off" 토글을 도입해, 하나의 가중치로 빠른 응답과 깊이 있는 사고를 모두 지원하도록 설계되었다.#

2025년 12월 15일에는 구조를 바꿔, Mamba-2 계열 레이어와 Transformer 레이어를 섞은 하이브리드 MoE 아키텍처를 채택한 새 세대 Nemotron 3가 공개되었다. 이듬해 3월 11일 중형 모델 Nemotron 3 Super가 공개되었고, 최상위 모델인 Nemotron 3 Ultra가 2026년 상반기 안에 공개될 예정이다.#

3. 모델

3.1. Nemotron-4

3.2. Mistral-Nemo

3.3. Llama-Nemotron

Llama 3.1과 3.3을 베이스로 NVIDIA가 강화학습 기반의 추론 학습을 추가로 얹은 파생 라인업이다. Nano(8B), Super(49B), Ultra(253B) 세 가지 크기로 공개되었고 전부 128K 컨텍스트를 지원한다. Ultra는 공개 가중치 추론 모델 중 DeepSeek-R1을 벤치마크에서 앞지르면서도 H100 8장 한 대에 올라간다는 점이 두드러졌다.#

3.4. Nemotron 3

기존 Transformer 전 층에 의존하던 구조에서 벗어나, Mamba-2 계열과 Transformer를 섞은 하이브리드 MoE 아키텍처로 재설계된 세대다. 컨텍스트 길이가 1M 토큰까지 늘어났고, 토큰 임베딩을 저차원 공간에서 라우팅하는 LatentMoE, 여러 토큰을 한꺼번에 예측하는 Multi-Token Prediction, NVFP4 포맷 기반 사전학습 등 NVIDIA 독자 기법이 대거 적용되었다.

3.5. 특수 모델

4. 기술 특징

NVIDIA는 자사 하드웨어와 소프트웨어 스택에 맞춰 Nemotron을 설계해 왔다. 학습에는 자체 프레임워크인 Megatron-LM과 NeMo가 쓰이고, 배포는 NIM과 TensorRT-LLM이 담당한다. Nemotron 3 세대부터는 Mamba-2와 Transformer를 섞은 하이브리드 구조로 긴 컨텍스트에서도 어텐션의 이차 비용을 피하고, Multi-Token Prediction과 LatentMoE로 추론 속도를 더 끌어올렸다.

2026년 공개된 Nemotron 3 Super는 NVIDIA가 새로 정의한 4비트 부동소수점 형식 NVFP4로 사전학습을 수행한 첫 사례로 꼽힌다. 다만 이 포맷은 Blackwell 세대 GPU에서 기본적으로 지원되기 때문에, 같은 모델을 다른 제조사의 가속기로 옮겨 돌리기가 어렵다는 지적도 뒤따른다.

5. 라이선스

대부분의 Nemotron 모델은 NVIDIA Open Model License로 배포된다. 가중치가 공개되어 있고 상업적 이용도 허용되지만, 해당 라이선스하에서 NVIDIA와 경쟁하는 AI 소프트웨어, 프레임워크, 하드웨어 도구를 개발하는 용도로는 쓸 수 없다는 제한이 걸려 있다.# NVIDIA 측은 자사 모델을 "진정한 오픈 소스"라고 표현하지만, OSI의 오픈 소스 정의에는 부합하지 않는다는 지적이 꾸준히 제기된다.

예외적으로 Mistral AI와 공동 개발한 Mistral-Nemo 12B는 Apache 2.0으로 풀렸고, Llama-Nemotron 시리즈는 기반이 된 Llama의 라이선스 조건을 그대로 따른다.

6. 여담


[1] 후술하겠지만 Mistral-Nemo 12B를 제외하면 엄밀한 의미의 오픈소스는 아니다