나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2024-11-19 18:21:18

占쏙옙

竊잞폕에서 넘어옴
파일:竊잞폕.jpg
파일:占쏙옙.jpg
파일:Ssokyep.png
파일:SsokyepJava.png

1. 개요2. 변형3. 예시4. 임의로 만드는 법5. 나올 수 있는 문자6. 해외에서
6.1. 출입국 심사 문제
7. 관련 문서

1. 개요

텍스트의 인코딩과 디코딩이 잘못됐을 때 생기는 문자열. 한자인 (점령할/점칠 점)의 음을 따서 '점쏙옙'이라고도 부른다.
<colbgcolor=#dddddd,#212121> UTF-8
바이트 EF BF BD EF BF BD
EUC-KR

UTF-8로 저장하는 과정 중 뭔가 꼬여서 온전하게 저장되지 못한 문서를 EUC-KR로 불러오면 이렇게 된다. 문서를 UTF-8로 저장할 때, UTF-8에서 유효하지 않은 byte sequence는 모두 �(U+FFFD, REPLACEMENT CHARACTER)로 대체되는데, 이 는 UTF-8에서 EF BF BD라는 세 바이트로 저장된다. UTF-8에서 �가 두 번 붙은 ��는 EF BF BD / EF BF BD가 되는데, 이것을 EUC-KR로 해석하면 EF BF / BD EF / BF BD로 나눠지고 셋은 각각 '占', '쏙', '옙'에 대응된다. 이와 같이 UTF-8 문서 저장 과정에서 뭔가 잘못된 경우, 저장된 문서를 다시 열어보면 문서의 모든 내용이 占쏙옙으로만 채워져 있다. 불러올 대상이 이미 �로 깨져있어야만 일어나는 오류이기 때문에, 占쏙옙이 이미 일어난 상태에서는 뭔 짓을 해도 원래 나왔어야 할 문서는 못 본다.

어쨌든 데이터 저장 과정상의 오류이므로 웹에서 이 문제가 실제로 일어난다면 서버 측의 오류일 수도 있고, 클라이언트 측의 오류일수도 있다. 서버 상에서 한글 처리 오류가 발생해 입력받은 문서가 전부 �로 저장되거나, 업로드 시점에서 이미 데이터가 �로 깨져서 올라간 상태에서 사이트 기본 인코딩이 EUC-KR로 지정되어 있으면 이 문제가 일어나며, 반대로 서버와 서버 상의 데이터에는 문제가 없는데 클라이언트 상에서의 오류로 인해 서버에서 불러오는 한글이 전부 �로 깨져서 캐싱돼도 이 문제가 일어난다. 당연히 일부러 �로 깨진 페이지를 불러와서 인코딩을 EUC-KR로 강제 지정하면 맘껏 감상할 수 있다.

2. 변형

3. 예시

4. 임의로 만드는 법

5. 나올 수 있는 문자

여기에 서술된 문자들은 EUC-KR 기준으로, 앞의 占과 뒤의 옙 사이에 이 문자가 걸렸다면 십중팔구 占쏙옙이라 봐도 된다.
코드 0 1 2 3 4 5 6 7 8 9 A B C D E F
BDA0
BDB0
BDC0
BDD0
BDE0
BDF0
코드 0EF 1EF 2EF 3EF 4EF 5EF 6EF 7EF 8EF 9EF AEF BEF CEF DEF EEF FEF
A000 ? ο ? э ? ? ?
B000
C000
D000
E000
F000

6. 해외에서

6.1. 출입국 심사 문제

최근[7] 한국 컨텐츠(노래, 영화, 드라마 등)의 국제적 위상이 올라가자, 한국인과 외모가 비슷한 국가에서 온 사람들이 각국의 출입국에서 본인은 한국인이라고 주장하며 위장을 하는 사례가 있다.

이에 각국 출입국에선 이런 사람들을 무작위로 선정하여 출입을 승인하기 이전에 한국인임을 입증하기 위해 한국의 역사와 관용어 등의 내용이 포함된 질문지를 만들어 풀게 하고 있는데, 당연히 하나라도 틀리면 입국이 거부된다. 당연히 역사와 관용어의 경우 한국인들도 모르는 사람은 모를 수밖에 없는데, 이 때문에 한국인들 역시 이 시험에서 걸러져 몇백만원의 항공값을 그대로 날리고 꼼짝없이 강제 귀국당하는 경우가 적지 않다고 한다.

개중에는 제작된 문항이 전달되는 과정에서 인코딩 오류가 발생해서 질문지가 위 문서에서 언급된 문자로 바뀌어서 인쇄되는 경우가 종종 있다고 한다. 대표적으로 유럽연합솅겐 협정 범위 내 국가에서 상당히 빈번하며 미국 샌프란시스코 국제공항에서도 보고된 바 있다. 문제는 입국 심사관이 한글을 모르는 사람인 경우 문제지의 한글이 오류로 잘못 기재되었음을 알 수 없기 때문에 공항 측에서 별도의 통역사가 제공되어 도움을 받을 수 있는 상황이 아닌 이상 아무리 문제지에 출제 오류가 있음을 호소해도 이를 심사관에게 입증하기가 불가능에 가깝다는 것에 있다. 시험으로 치자면 출제오류가 발생하여 억울하게 오답 처리되었음에도 응시자가 출제오류를 입증할 수단이 존재하지 않는 경우라 할 수 있다. 이 문제는 여전히 현재진행형이다.

7. 관련 문서



[1] 전각 물음표 두 개(??)를 UTF-8로 저장한 뒤 CP949로 열면 이렇게 된다. UTF-8: EF BC 9F (?) / EF BC 9F (?)→CP949: EF BC (竊) / 9F EF (잞) / BC 9F (폕). 여담으로 竊는 '훔칠 절'자이다("절도" 등).[2] 외국 사이트에 적힌 한국어에서 자주 발생하며, 占쏙옙이나 竊잞폕과는 다르게 어감이 뭔가 그럴싸하기 때문인지 외국의 어느 게임 회사가 게임명을 한국어로 번역하려다 인코딩 오류로 저게 뜬 걸 그대로 제목으로 붙여버린 웃지 못할 사례도 있다. 저들이 원했던 번역명은 '에어포스 X'. 또 다른 용습계품들.용지지지지 용지지지지[3] 123rf라는 사이트에서 거의 모든 텍스트가 용습계품일 정도로 용습계품이 매우 많이 있다.[답] 문제에서 占쏙옙을 모두 제거하면 내용이 나온다./ 정답은 占쏙옙 이다. 정확히 말하자면 �문자를 복사해 Text로 제출하면 된다.[힌트] 이 문제는 예제를 채점하지 않습니다. 데이터는 한개입니다. 입력을 받을 필요는 없다.[6] 실패하는 경우도 있는데, 파일을 1px X 1px로 저장하고 메모장으로 실행하면 BM: 6 (      � 이 나타나며 실패한다.[7] 리버전 분석 결과 2022년 9월부터 발생되는 문제로 추정.