비정형 데이터

1. 개요2. 특징3. 예시4. 정형 데이터와의 비교5. 관련 기술

1. 개요

비정형 데이터(Unstructured Data)는 일정한 구조나 형식 없이 저장된 데이터를 의미한다. 일반적인 행과 열 구조의 관계형 데이터베이스(RDBMS)에 저장하기 어려운 형태로, 자연어 텍스트, 이미지, 음성, 영상 등 다양한 형태를 포함한다. 현대 사회에서 생성되는 데이터의 약 70~80%가 비정형 데이터로 분류된다고 알려져 있다.

2. 특징

비정형 데이터는 고정된 스키마가 존재하지 않으며, 데이터 간의 구조가 불규칙하다. 전통적인 SQL 기반의 분석 도구로는 처리하기 어렵고, 저장 또한 복잡하다. 텍스트 마이닝, 자연어 처리, 이미지 분석 등 고급 분석 기술이 요구되며, 사람의 해석이 필요한 경우가 많다. 다양한 형태와 복잡성을 가지는 만큼, 활용 가능성도 광범위하다.

3. 예시

비정형 데이터에는 이메일, 블로그 글, 워드 문서, PDF, 채팅 기록 등의 텍스트 데이터가 포함된다. 이미지 파일, 스캔 문서, 사진 등의 시각 정보, 통화 녹음, 음성 메시지 같은 오디오 데이터, 유튜브 영상, CCTV 녹화 같은 영상 데이터도 모두 비정형 데이터에 해당한다. 서버 로그, 웹 접속 기록, 소셜 미디어 게시글, 댓글, 해시태그, 좋아요 및 공유 등의 행위 기록도 포함된다.

4. 정형 데이터와의 비교

정형 데이터는 고정된 테이블 구조와 명확한 필드를 가지며, 관계형 데이터베이스에 적합한 형태다. 반면 비정형 데이터는 구조가 없거나 유동적이며, 파일 시스템이나 NoSQL 같은 비관계형 저장 방식이 주로 사용된다. 분석 도구 역시 SQL, BI 툴 등과 달리 비정형 데이터는 NLP, 컴퓨터 비전, 딥러닝 기반 기술이 필요하다. 예시로는 정형 데이터는 고객 명단, 거래 내역 등이 있고, 비정형 데이터는 이메일, 영상, 이미지 등이 있다.

5. 관련 기술

비정형 데이터를 처리하기 위해서는 자연어 처리(NLP), 텍스트 마이닝, 컴퓨터 비전(CV), 음성 인식, 이미지 분석, OCR(광학 문자 인식), 데이터 레이크 등의 기술이 활용된다. 이러한 기술들은 머신러닝 및 딥러닝 프레임워크와 결합되어 고차원적인 분석을 가능하게 한다.