{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5 | 제품군 | |
<bgcolor=#000> 서비스 | ChatGPT, OpenAI(인공지능) | |
모델 | GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini), GPT-5(개발 중) o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini) | |
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT | ||
관련 인물 | ||
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이 | ||
관련 기업 | ||
마이크로소프트 |
위스퍼 Whisper | |
출시일 | 2022년 9월 |
제작사 | OpenAI |
라이선스 | MIT 라이선스 |
링크 | | | |
[clearfix]
1. 개요
OpenAI에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델이다.2022년 9월에 오픈 소스로 공개했으며, 2022년 12월에는 기존 large 모델에서 더욱 개선된 large-v2 모델을, 2023년 11월에는 large-v3 모델을 발표 했으며
2024년 9월에 large-v3의 응답 속도를 최적한 버전인 large-v3-turbo 모델이 출시 되었다.
Whisper는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했다. ChatGPT 앱의 음성 인식 기능이 Whisper 모델을 기반으로 만들어진 것이다.
2. 상세
모델의 크기에 따라 여러 모델이 존재하며, 영어만 처리할 수 있는 모델과 여러 언어를 처리할 수 있는 다국어 모델로 구분된다.<rowcolor=#000,#fff> 크기 | 매개변수 | 영어 전용 모델 | 다국어 모델 |
tiny | 39 M | ✓ | ✓ |
base | 74 M | ✓ | ✓ |
small | 244 M | ✓ | ✓ |
medium | 769 M | ✓ | ✓ |
large | 1550 M | ✓ | |
turbo | 809 M | ✓ |
오픈 소스로 공개되었기 때문에 Whisper를 스트리밍 웹사이트에서 바로 사용할 수 있으며 또한 Python으로 설치하여 사용할 수 있다.[1]
별도로 OpenAI에서 제공하는 API를 통해, large-v2 모델을 분당 $0.006[2]에 사용할 수도 있다.
한국어는 단어 오류율(WER)[3] 통계를 기준으로 3위에 해당한다.#