1. 개요2. 주요 기능3. 가이드4. 시그니처 시리즈
4.1. Unicode Odyssey: From Zero to Unicode Expert4.2. Writing Systems: A Cultural Journey Through Scripts4.3. Developer's Handbook: Solving Real-World Unicode Bugs4.4. The Encoding Wars: A History of Character Encoding4.5. Unicode on the Modern Web
5. 용어사전6. 유즈케이스별 랜딩 페이지7. 개발자 API8. 문자 아키텍처9. 특징10. 관련 문서11. 외부 링크1. 개요
UnicodeFYI(https://unicodefyi.com)는 개발자, 디자이너, 언어학자를 위한 유니코드 문자 레퍼런스 웹 서비스이다. 유니코드 표준에 수록된 154,998개 문자, 118개 블록, 52개 스크립트를 탐색할 수 있으며, 인코딩 테이블, 문자 속성 조회, 복사/붙여넣기, 개발자 도구 등을 제공한다. 한국어를 포함한 15개 언어를 지원한다.| 서비스명 | UnicodeFYI |
| URL | https://unicodefyi.com |
| 한국어 | unicodefyi.com/ko/ |
| 유형 | 유니코드 문자 레퍼런스 / 개발자 도구 |
| 언어 | 15개 언어 (한국어 포함) |
| 운영 | 2024년~ |
| API | REST API 제공 (문서) |
| 문자 수 | 154,998개 (15,100개 DB 큐레이션 + ~140,000개 실시간 계산) |
| 블록 | 118개 |
| 스크립트 | 52개 |
| 컬렉션 | 88개 |
| 가이드 | 150편 (10개 시리즈) |
| 시그니처 시리즈 | 5개 시리즈, 44개 챕터 |
| 용어사전 | 123개 용어 (11개 카테고리) |
2. 주요 기능
2.1. 문자 탐색
UnicodeFYI는 유니코드 문자를 다양한 축으로 탐색할 수 있다. 각 문자 상세 페이지에서는 이름, 코드포인트, 블록, 스크립트, 일반 카테고리, UTF-8/UTF-16/UTF-32 인코딩 테이블, HTML 엔터티, CSS/JavaScript 이스케이프 시퀀스 등 상세한 속성 정보를 제공한다.| 탐색 방식 | URL 패턴 | 예시 | 수량 |
| 코드포인트 | /char/U+{hex}/ | U+2713 ✓ Check Mark | 154,998개 |
| 블록 | /block/{slug}/ | Dingbats | 118개 |
| 스크립트 | /script/{slug}/ | Latin | 52개 |
| 컬렉션 | /collection/{slug}/ | Arrows | 88개 |
| 슈퍼블록 | /browse/{slug}/ | All Emoji | 20개 |
| 비교 | /compare/{slug}/ | Em Dash vs En Dash | 45개 |
| 유즈케이스 | /unicode-for/{slug}/ | Unicode for Web Developers | 12개 |
| 검색 | /search/?q={query} | "arrow" 검색 | 통합 검색 |
2.2. 인터랙티브 도구
4가지 브라우저 기반 실시간 유니코드 도구를 제공한다. 별도의 설치 없이 웹 브라우저에서 바로 사용할 수 있다.| 도구 | URL | 설명 | 관련 문서 |
| 유니코드 변환기 | unicodefyi.com/tool/unicode-converter/ | 문자 ↔ 코드포인트, HTML 엔터티, CSS/JS 이스케이프, Python/Java 리터럴, UTF-8/16/32 바이트 시퀀스 간 실시간 변환. | 유니코드, UTF-8 |
| 텍스트 분석기 | unicodefyi.com/tool/text-analyzer/ | 입력 텍스트의 각 문자에 대해 유니코드 이름, 코드포인트, 카테고리, 블록, 스크립트를 표시. 보이지 않는 문자(ZWJ, BOM 등)와 결합 문자(Combining Mark)를 감지. | 문자 인코딩 |
| 인코딩 시각화기 | unicodefyi.com/tool/encoding-visualizer/ | 문자가 UTF-8, UTF-16, UTF-32로 어떻게 인코딩되는지 바이트 단위로 시각화. 헤더 비트, 페이로드 비트, 서로게이트 페어(Surrogate Pair) 표시. | UTF-8, UTF-16, 문자 인코딩 |
| 유니코드 텍스트 생성기 | unicodefyi.com/tool/fancy-text/ | 일반 텍스트를 유니코드 스타일 문자로 변환. 볼드, 이탤릭, 프랙투어(Fraktur), 아웃라인, 원문자, 스몰캡(Small Caps) 등 지원. | 타이포그래피 |
2.3. 유니코드 블록
118개의 유니코드 블록을 카탈로그로 제공하며, 각 블록 상세 페이지에서 소속 문자를 그리드 및 테이블 형태로 탐색할 수 있다.| 분류 | 대표 블록 | 범위 | 관련 문서 |
| 라틴 문자 | Basic Latin, Latin-1 Supplement, Latin Extended-A | U+0000–U+024F | 라틴 문자, ASCII |
| 키릴 문자 | Cyrillic, Cyrillic Supplement | U+0400–U+052F | 키릴 문자 |
| 그리스 문자 | Greek and Coptic | U+0370–U+03FF | 그리스 문자 |
| 한글 | Hangul Jamo, Hangul Syllables | U+1100–U+11FF, U+AC00–U+D7AF | 한글, 한글 낱자 |
| CJK | CJK Unified Ideographs | U+4E00–U+9FFF | 한자, CJK |
| 아랍 문자 | Arabic | U+0600–U+06FF | 아랍 문자 |
| 기호·딩뱃 | Dingbats, Miscellaneous Symbols | U+2700–U+27BF | 딩뱃 |
| 수학 기호 | Mathematical Operators | U+2200–U+22FF | 수학 기호 |
| 화살표 | Arrows, Supplemental Arrows | U+2190–U+21FF | 화살표 |
| 이모지 | Emoticons | U+1F600–U+1F64F | 이모지, 이모티콘 |
2.4. 스크립트(문자 체계)
52개의 스크립트를 지원하며, 각 스크립트 페이지에서 해당 문자 체계에 속한 모든 문자를 탐색할 수 있다.| 분류 | 스크립트 | 관련 문서 |
| 유럽 | Latin, Greek, Cyrillic, Armenian, Georgian, Runic, Ogham, Gothic | 라틴 문자, 그리스 문자, 키릴 문자, 룬 문자 |
| 동아시아 | Han, Hangul, Hiragana, Katakana, Bopomofo | 한자, 한글, 히라가나, 가타카나 |
| 남아시아 | Devanagari, Bengali, Tamil, Telugu, Kannada, Malayalam, Sinhala, Tibetan | 데바나가리, 벵골 문자, 타밀 문자 |
| 동남아시아 | Thai, Khmer, Lao, Myanmar, Javanese, Balinese | 타이 문자, 크메르 문자 |
| 중동 | Arabic, Hebrew, Syriac, Thaana | 아랍 문자, 히브리 문자 |
| 아프리카 | Ethiopic, Tifinagh, N'Ko, Vai | 그으즈 문자, 티피나그 문자 |
| 특수 | Emoji, Math, Music, Braille, Currency | 이모지, 점자 |
2.5. 컬렉션
88개의 큐레이션 컬렉션으로 자주 사용되는 유니코드 문자를 주제별로 분류한다.| 분류 | 대표 컬렉션 | 관련 문서 |
| 기호 | Arrows, Check Marks, Stars, Hearts, Currency Symbols | 화살표, 체크 마크, 통화 기호 |
| 수학·과학 | Math Operators, Fractions, Superscripts & Subscripts, Scientific Symbols | 수학 기호, 분수 |
| 도형·장식 | Geometric Shapes, Box Drawing, Block Elements, Dingbats, Ornamental | 기하학적 도형, 딩뱃 |
| 문자 체계 | Greek Alphabet, Cyrillic Alphabet, Arabic Letters, Hiragana, Hangul Jamo | 그리스 문자, 히라가나, 한글 낱자 |
| 프로그래밍 | Programming Symbols, HTML Entities, CSS Symbols, Keyboard Symbols | HTML, CSS |
| 특수 문자 | Invisible Characters, Control Characters, Whitespace, Combining Marks | 제어 문자, 공백 문자 |
| 게임·놀이 | Playing Cards, Chess, Dice & Dominos, Mahjong Tiles | 플레잉 카드, 체스, 마작 |
| 일상 | Weather, Transport, Warning Signs, Recycling, Zodiac | 날씨 기호, 재활용 기호 |
2.6. 혼동 문자 비교(Confusables)
겉보기에 유사하지만 코드포인트가 다른 45쌍의 혼동 문자를 분석한다. 각 비교 페이지에서는 두 문자의 코드포인트, 인코딩, 속성 차이를 나란히 보여준다.| 유형 | 대표 비교 | 관련 문서 |
| 구두점 | Em Dash vs En Dash, Ellipsis vs Three Dots, Curly Quotes vs Straight Quotes | 대시, 줄임표 |
| 수학·연산자 | Multiplication Sign × vs X, Minus − vs Hyphen -, Division ÷ vs Slash / | 곱셈 기호, 빼기 기호 |
| 동형이의자 | Latin A vs Cyrillic А, Latin O vs Cyrillic О, Zero 0 vs Letter O | 동형이의자, 호모글리프 |
| 과학 기호 | Micro μ vs Mu μ, Ohm Ω vs Omega Ω, Ångström Å vs A-Ring Å | 그리스 문자 |
| 공백·보이지 않는 문자 | Space vs NBSP, Quad Spaces | 공백 문자, 비파괴 공백 |
| 유니코드 정규화 | Composed vs Decomposed, NFKC vs NFC, Fullwidth vs ASCII | 유니코드 정규화 |
3. 가이드
150편의 심층 가이드를 10개 시리즈로 분류하여 제공한다. 각 가이드는 마크다운(.md) 엔드포인트로도 접근할 수 있어 LLM 등 프로그래매틱 활용이 가능하다.4. 시그니처 시리즈
5개의 시그니처 시리즈는 유니코드의 특정 주제를 깊이 있게 다루는 장편 콘텐츠이다. 총 44개 챕터로 구성되며, ~270,000단어 분량이다.4.1. Unicode Odyssey: From Zero to Unicode Expert
유니코드의 기초부터 고급 주제까지 단계별로 학습하는 10개 챕터 시리즈.4.2. Writing Systems: A Cultural Journey Through Scripts
세계 주요 문자 체계의 역사와 문화를 12개 챕터로 탐구하는 시리즈.4.3. Developer's Handbook: Solving Real-World Unicode Bugs
개발자가 실무에서 겪는 유니코드 버그를 해결하는 8개 챕터.4.4. The Encoding Wars: A History of Character Encoding
ASCII에서 유니코드까지 문자 인코딩의 역사를 7개 챕터로 서술.4.5. Unicode on the Modern Web
웹 개발에서의 유니코드 활용을 7개 챕터로 다루는 시리즈.5. 용어사전
123개의 유니코드 관련 용어를 11개 카테고리로 분류하여 제공한다. 15개 언어로 번역된다.| 카테고리 | 용어 수 | 대표 용어 | 관련 문서 |
| 인코딩(Encoding) | 15개 | ASCII, UTF-8, UTF-16, BOM, Code Page | ASCII, UTF-8, 바이트 순서 표식 |
| 유니코드 표준 | 21개 | Unicode, Code Point, Plane, Private Use Area, Variation Selector | 유니코드, 코드 포인트, 사용자 정의 영역 |
| 속성(Properties) | 16개 | Block, Script, General Category, Bidi Category | 유니코드 블록, 양방향 텍스트 |
| 타이포그래피 | 15개 | Glyph, Font, Ligature, Diacritical Mark, Kerning | 글리프, 글꼴, 합자, 커닝 |
| 웹·HTML | 13개 | HTML Entity, CSS Content, URL Encoding, Character Reference | HTML, URL 인코딩 |
| 알고리즘 | 12개 | Normalization, NFC, NFD, Collation, Bidi Algorithm | 유니코드 정규화, 콜레이션 |
| 프로그래밍 | 10개 | Surrogate Pair, Escape Sequence, Regular Expression | 서로게이트 쌍, 정규 표현식 |
| 보안 | 8개 | Homoglyph, Confusable, IDN Homograph Attack, Bidi Override | 호모글리프, 피싱 |
| 입력 방법 | 8개 | IME, Dead Key, Compose Key, Character Map | 입력기, 문자표 |
| 이모지 | 4개 | Emoji, Emoji Modifier (Skin Tone), ZWJ Sequence, Regional Indicator | 이모지, 제로 폭 접합자 |
| 기타 | 1개 | Control Character | 제어 문자 |
6. 유즈케이스별 랜딩 페이지
12개의 사용자 페르소나별 랜딩 페이지를 제공하여, 각 직군/관심사에 맞는 컬렉션과 도구를 안내한다.| 페르소나 | URL | 관련 문서 |
| 웹 개발자 | /unicode-for/web-developers/ | HTML, JavaScript, CSS |
| 디자이너 | /unicode-for/designers/ | 타이포그래피, 그래픽 디자인 |
| 작가 & 편집자 | /unicode-for/writers/ | 타이포그래피, 구두점 |
| 수학·과학자 | /unicode-for/mathematicians/ | 수학 기호, 물리학 |
| 소셜 미디어 | /unicode-for/social-media/ | 이모지, SNS |
| 터미널·CLI 사용자 | /unicode-for/terminal-users/ | 터미널, 명령 줄 인터페이스 |
| 데이터 입력·폼 | /unicode-for/data-entry/ | 데이터 입력, HTML 폼 |
| 언어학자 | /unicode-for/linguists/ | 언어학, IPA, 음성학 |
| 접근성 | /unicode-for/accessibility/ | 웹 접근성, 점자, 스크린 리더 |
| 보안 연구자 | /unicode-for/security/ | 정보 보안, 피싱 |
| 게임 개발자 | /unicode-for/game-developers/ | 게임 개발, 로컬라이제이션 |
| 교육 | /unicode-for/education/ | 교육, 컴퓨터 과학 |
7. 개발자 API
JSON 기반 REST API를 제공하며, OpenAPI 3.1 스키마를 제공한다.| 엔드포인트 | URL 예시 | 설명 |
/api/search/?q=query | https://unicodefyi.com/api/search/?q=arrow | 통합 검색 (문자, 용어, 가이드, 컬렉션, 시리즈 챕터) |
/char/U+{hex}.md | https://unicodefyi.com/char/U+2713.md | 문자 상세 마크다운 (LLM 친화) |
/glossary/{slug}.md | https://unicodefyi.com/glossary/utf-8.md | 용어사전 항목 마크다운 |
/guide/{slug}.md | https://unicodefyi.com/guide/what-is-unicode.md | 가이드 마크다운 |
/series/{series}/{chapter}.md | https://unicodefyi.com/series/encoding-wars/ascii-128-characters.md | 시리즈 챕터 마크다운 |
/api/openapi.json | https://unicodefyi.com/api/openapi.json | OpenAPI 3.1 스키마 |
/llms.txt | https://unicodefyi.com/llms.txt | AI 크롤러용 사이트 요약 |
/llms-full.txt | https://unicodefyi.com/llms-full.txt | AI 크롤러용 전체 콘텐츠 인덱스 |
8. 문자 아키텍처
UnicodeFYI는 15,100개의 큐레이션 문자를 데이터베이스에 저장하고, 나머지 ~140,000개 문자를 CharacterEngine이라는 순수 Python 기반 엔진으로 1밀리초 미만의 속도로 실시간 계산한다. 이를 하이브리드 DB + On-the-fly 아키텍처라 한다.- DB 저장 문자(~15,100개): 인기도 점수(popularity_score), 피처드 여부(is_featured), 사이트맵 포함 여부(is_in_sitemap) 등 메타데이터가 추가로 관리된다.
- 실시간 계산 문자(~140,000개): Python 표준 라이브러리
unicodedata모듈과fontTools라이브러리를 사용하여 코드포인트만으로 이름, 카테고리, 블록, 스크립트, 인코딩 테이블 등을 즉시 계산한다. - 모든 문자 페이지에서 UTF-8, UTF-16, UTF-32 인코딩 바이트 시퀀스, HTML 엔터티, CSS/JavaScript 이스케이프 시퀀스를 한눈에 확인할 수 있다.
9. 특징
- 유니코드 15.1 표준 기반으로 154,998개 문자의 상세 속성을 제공한다.
- 한국어를 포함한 15개 언어를 지원하며, URL 앞에 언어 코드를 붙여 접근한다. (예:
unicodefyi.com/ko/,unicodefyi.com/ja/) - 모든 콘텐츠 페이지에 마크다운(.md) 엔드포인트가 있어 LLM 및 프로그래매틱 활용이 가능하다. (예:
/glossary/utf-8.md,/guide/what-is-unicode.md) - 150편의 가이드와 123개의 용어사전이 상호 연결되어 체계적인 학습 경로를 제공한다.
- 45개의 혼동 문자 비교(Confusables) 페이지로 호모글리프 보안 위협을 교육한다.
- 각 상세 페이지에 Schema.org 마크업(BreadcrumbList, Article, DefinedTerm, WebSite+SearchAction)이 적용되어 구글 검색 결과에 리치 스니펫으로 표시된다.
- RSS 및 Atom 피드를 제공하여 가이드 업데이트를 구독할 수 있다. (RSS, Atom)
/llms.txt와/llms-full.txt엔드포인트로 AI 크롤러에 사이트 구조를 안내한다.
10. 관련 문서
10.1. 유니코드 & 문자 인코딩
- 유니코드 - 전 세계 문자를 하나의 코드 체계로 통합한 국제 표준. → UnicodeFYI: What is Unicode?
- UTF-8 - 가변 길이 유니코드 인코딩. 웹의 98% 이상이 사용. → UnicodeFYI: UTF-8
- UTF-16 - 2바이트 또는 4바이트 인코딩. JavaScript, Java, 윈도우의 내부 표현. → UnicodeFYI: UTF-16
- ASCII - 128자 영문 문자 인코딩의 원조. → UnicodeFYI: ASCII
- 문자 인코딩 - 문자를 바이트로 변환하는 체계의 총칭. → UnicodeFYI: Code Page Explosion
- 문자 깨짐 - 인코딩 불일치로 발생하는 깨진 문자(Mojibake). → UnicodeFYI: Fix Mojibake
- 유니코드 정규화 - NFC, NFD, NFKC, NFKD 정규화 형식. → UnicodeFYI: Normalization
10.2. 문자 체계
- 라틴 문자 - 세계에서 가장 널리 사용되는 알파벳. → UnicodeFYI: Latin Alphabet
- 한글 - 세종대왕이 창제한 과학적 문자 체계. → UnicodeFYI: Korean Hangul
- 한자 - 중국에서 기원한 표의문자. CJK 통합 한자로 유니코드에 수록. → UnicodeFYI: Chinese Characters
- 아랍 문자 - 오른쪽에서 왼쪽으로 쓰는(RTL) 문자. → UnicodeFYI: Arabic Script
- 키릴 문자 - 러시아, 동유럽에서 사용하는 문자. → UnicodeFYI: Cyrillic
- 데바나가리 - 힌디어, 산스크리트어의 문자. → UnicodeFYI: Devanagari
- 그리스 문자 - 수학·과학에서도 광범위하게 사용. → UnicodeFYI: Greek Alphabet
- 히브리 문자 - 히브리어의 문자. RTL 표기. → UnicodeFYI: Hebrew
- 그으즈 문자 - 에티오피아·에리트레아의 문자. → UnicodeFYI: Ge'ez
- 점자 - 시각장애인을 위한 촉각 문자 체계. → UnicodeFYI: Braille
10.3. 이모지
- 이모지 - 유니코드에 수록된 그림 문자. → UnicodeFYI: Emoji
- 제로 폭 접합자 - 이모지 시퀀스를 연결하는 보이지 않는 문자(ZWJ). → UnicodeFYI: ZWJ Sequence
10.4. 프로그래밍
- Python - 유니코드 문자열을 기본 지원하는 프로그래밍 언어. → UnicodeFYI: Unicode in Python
- JavaScript - 내부적으로 UTF-16을 사용하여 서로게이트 쌍 문제 발생. → UnicodeFYI: JavaScript Strings
- Java - char 타입이 16비트로 BMP 밖 문자 처리 시 주의 필요. → UnicodeFYI: Unicode in Java
- HTML - 문자 참조(✓), 엔터티(✓)로 유니코드 문자 표현. → UnicodeFYI: HTML and Unicode
- CSS -
content: "\2713"형식으로 유니코드 문자 삽입. → UnicodeFYI: CSS and Unicode - 정규 표현식 -
\\u{2713},\\p{Script=Hangul} 등 유니코드 속성 매칭. → UnicodeFYI: Search That Works
10.5. 보안
- 호모글리프 - 시각적으로 유사한 다른 문자를 이용한 공격. → UnicodeFYI: Homoglyph
- IDN - 국제화된 도메인 이름의 호모그래프 공격. → UnicodeFYI: IDN Homograph Detection
- 피싱 - 호모글리프를 이용한 도메인 위장 공격. → UnicodeFYI: Security: The Dark Side of Unicode
10.6. 표준 기관
- 유니코드 컨소시엄 - 유니코드 표준을 관리하는 비영리 기관. → UnicodeFYI: The Unicode Vision
- ISO 10646 - 유니코드와 동기화되는 ISO 국제 표준. → UnicodeFYI: Unicode
- W3C - 웹 표준에서 유니코드 사용을 권고하는 기관. → UnicodeFYI: HTML and Unicode
11. 외부 링크
- UnicodeFYI 공식 사이트 (한국어)
- UnicodeFYI 공식 사이트 (영어)
- 개발자 센터 & API 문서
- 가이드 (150편, 10개 시리즈)
- 시그니처 시리즈 (5개 시리즈, 44개 챕터)
- 용어사전 (123개 용어)
- 유니코드 변환기
- 텍스트 분석기
- 인코딩 시각화기
- 유니코드 텍스트 생성기
- 전체 컬렉션 목록 (88개)
- 혼동 문자 비교 (45쌍)
- 문자 검색
- RSS 피드
- Atom 피드
- llms.txt (AI 크롤러용 요약)
- 사이트맵