나무모에 미러 (일반/어두운 화면)
최근 수정 시각 : 2025-03-20 16:39:36

생물정보학

전산생물학에서 넘어옴
1. 개요2. 명칭3. 발생 배경4. 연관/세부 학과5. 체계, 연관학문
5.1. 수리생물학, 바이오통계학5.2. 컴퓨터과학5.3. 화학5.4. 생물학
6. 역사

1. 개요

생물정보학(生物情報學), 또는 바이오인포매틱스(bioinformatics)는 생물학 데이터를 컴퓨터로 분석하는 학문 분야로, 생물학컴퓨터과학이 융합된 학문입니다. 생물정보학은 생물학적 문제를 해결하기 위해 응용수학, 통계학, 인공지능, 화학, 생화학 등을 활용합니다.

2. 명칭

여러 명칭이 혼용되고 있다. 생물정보공학, 시스템생물학(systems biology), 전산/계산/컴퓨팅생물학(computational biology), 수리생물학, 생물통계학이 존재한다.

이들은 다른 분야로 여겨지기도 하지만 명확하게 합의된 구분은 없기 때문에 학술적으로든 실무적으로든 혼용된다. 그래도 구분을 해보자면, 시스템 생물학은 생물물리학의 연장선상에서 생물 계(system)의 동역학을 파악하는 분야다. 그리고 전산생물학은 전산학(Computer Science)의 연장선상에서 생물체를 다루기 위한 기초적인 알고리즘과 모델을 만드는 분야다. 반면 생물정보학은 이러한 동역학과 기초적인 알고리즘을 이용하여 각각의 생명과학 문제를 컴퓨팅을 이용해 해결하는 분야다.

3. 발생 배경

1950년대 영국 케임브리지의 수학자이자 컴퓨터과학자 앨런 튜링 (Alan Mathison Turing) 박사가 자연발생적인 생물학적 패턴에 관한 논문이 생물정보학의 최초의 논문으로 인식된다. 그 뒤, 영국 케임브리지의 MRC 센터의 막스 퍼루츠와 존 켄드류박사가 헤모글로빈의 3차원 단백질 구조를 밝혀 내면서, 그 때까지 손으로 계산기를 이용하던 것에서, 컴퓨터를 가지고 모델을 만들기 시작한 것이 구조생물정보학(structural bioinformatics)의 시작이다. 그 뒤 같은 MRC 센터의 퍼루츠의 연구원이된 프란시스 크릭(Francis Crick)이 시드니 브래너 (Sydney Brenner)와 같이 코돈(codon)이란 말을 만들면서, 생물학의 핵심인 DNA 나선구조와 정보 복사라는 개념을 더 확고히 하게 되었다. 그 때, 같은 MRC 센터의 생어 박사가 최초의 인슐린 단백질 서열을 해독해 내면서, MRC 센터 내에 서열연구의 중요성과 기반이 만들어졌다. 그 뒤 생어 박사가 두 번째 노벨상을 타게되는 DNA 서열을 쉽게 읽는 2 가지의 방법을 고안하면서, 많은 양의 DNA 정보가 쏟아지게 되었다. 이때, MRC 센터는 이미, 최초의 3차원 단백질을 컴퓨터로 그리기 시작했으며, 최초의 DNA 게놈 구조비교, 최초의 DNA서열 정렬법, 최초의 DNA 정렬 패키지 등을 만들게 되었다. 몇몇의 물리학자 및 수학자 출신들이 직접 컴퓨터 프로그래밍을 통해 무료로 알고리즘을 배포하기 시작하면서, 생물정보학의 완성된 모습들이 미국에 영향을 주기 시작한다. 특히, 1960년와 1970년대에는 미국에서 수많은 포스트닥터와 연구자들이 케임브리지의 MRC 센터에서 생물리학, 생화학, 생물정보학을 전수하여 갔다. 1970년대, 최초의 단백질 아틀라스 발간, 유전자 정보 은행, 니들만 원쉬 알고리즘 등의 미국 연구자들의 기여가 증가하고, 인터넷이 급격히 보급되는 1995년에, 생물정보학은 지금의 연구자들이 이해하는 형태로 되었다. 그 전까지는 생물정보학에 대한 정의나, 역사에 대한 지식이 일부 200명 남짓하는 소수 전문가들에게만 알려졌었다. 인터넷을 통한 자유로운 정보교환은, 따라서 생정보학의 가장 중요한 철학적 배경을 가지고 있으며, 그 뿌리는 모든 정보를 무료로 배포한 케임브리지의 MRC 센터의 문화에서 기인한다. 그에 반해, 미국은 실리콘밸리와 하버드 및 예일에서의 동부 지역을 주축으로 한 조금 더 경쟁적이고 폐쇄적인 정보교환이 진행되다, 미국 NCBI가 본격적으로 운행되면서, 막대한 양의 생물학 정보들이 전 세계적으로 보급되는 계기를 90년대에 만들게 되었다. 지금은 1970년대 영국 케임브리지 생어의 DNA 서열 분석 방법의 발달에 따라 현재 수많은 종의 전장 게놈 서열이 밝혀져 있으며, 이런 정보가 생물정보학의 핵심 컨텐츠이다. 특히 게놈은 생물정보학의 탄생부터 가장 핵심되는 분야로서, 게놈학과 생물정보학은 밀접하다. 결론적으로 생물체로부터 얻어진 대량의 데이터로부터 유용한 지식을 얻어내기 위한 이론물리/전산/통계/수학적인 도구를 이용하여 생명현상을 연구하는 분야를 생정보학(bioinformatics) 혹은 생명정보학, 생물정보학으로 쓰이고 있으며, 전산생물학(computational biology)이라는 용어 또한 흔히 같은 뜻으로 쓰이고 있다. 그러나, 전산 생물학은 생물학에서 컴퓨터를 쓴다는 생물학에 포함된 정의로 이해할 수 있다. 최근 생명현상을 보는 시각이 확대되면서, 기존의 Bio+Logie의 뜻과 같으나, 단순한 부속의 합이 아니란 취지의, 시스템 전체에 대한 분석 및 수리적인 모델링(mathematical modeling)을 강조하는 용어인 시스템 생물학(systems biology)도 생정보학과 상당부분 겹치는 용어이다.

2010년을 기점으로 게놈해독기술이 급격하게 발전하면서, 게놈뿐만 아니라, 발현체(전사체, 단백질, 대사체, 외유전체)의 해독과 분석이 용이하게 되면서, 이런 체(ome)의 총칭인 오믹스(체학)의 다양성이 늘어났다. 이 다양한 체학의 데이터를 다중오믹스 혹은 다중체정보라고 부른다. 다중오믹스(multiomics)는 현재 생명정보학의 빅데이터의 핵심이다. 특히, 게놈위주의 체학에서, 다중오믹스간의 유기적 관계성을 인공지능(AI)로 해석을 하는 시도들이 늘어나서, 암뿐만 아니라, 심장병까지도 다중오믹스적으로 그 원인유전자 분석을 하게 되었다. 심장병은 암과 같이 유전질환으로 인식이 안되는 만성 성인병임에도 불구하고, 다중오믹스의 분석파워의 증가에 따라, 유전자와 발현체정보의 활용에 힘입어, 조기 진단 및 치료에까지 생정보학의 영역이 확대되고 있고, 이것은 생정보학과 의료정보학의 중복성을 잘 보여준다.


4. 연관/세부 학과

5. 체계, 연관학문

5.1. 수리생물학, 바이오통계학

5.2. 컴퓨터과학

5.3. 화학

5.4. 생물학

6. 역사

변변찮은 실험 도구를 이용하여 실험을 하던 생물학의 초기 단계에선 기껏해야 엑셀 등의 프로그램으로 분석이 가능한 데이터들이 느린 속도로 만들어지고 있었다. 1990년대부터 기기 등의 발달이 생물학에 서서히 영향을 주기 시작, 1990년대 후반부터 서서히 대용량의 생물학 데이터들이 만들어지기 시작한다. 세계적으로 가장 잘 알려진 예는 인간 유전체 프로젝트(Human Genome Project, HGP)로, 사람의 모든 염색체의 서열을 알아 낸 것이었다. 이 때, 한 번에 한 개의 염색체를 전부 서열분석(sequencing)을 할 수 없기 때문에, 잘려진 DNA 조각들을 개별적으로 서열을 알아 낸 후, 양 끝의 겹치는 서열을 이용하여 조합하는 식으로 전체 염색체의 서열을 알아 내는 식으로 분석하였다. 염색체의 길이가 매우 크기 때문에 이 작업에 컴퓨터가 필수 불가결하였다.

이 즈음 (2000년대 초반) 세포 안에 발현되어 있는 모든(이론적으로) 메신저 RNA(mRNA)의 양을 한 번에 측정해 내는 기술인 마이크로어레이가 개발되어 널리 사용되기 시작하였다. 대략 1만개에서 2만개 정도 되는 유전자에 대하여 그들의 모든 양을 한 번의 실험으로 측정할 수 있게 된 것이다. 즉, 변수의 개수가 1~2만개 정도 되는 여러 문제들이 탄생한 것이다.

그 이후, promoter methylation, SNP, RNA-seq. 등에 의한 대량 데이터는 계속적으로 생산되고 있다. 특히 세포 내에 존재하는 여러 종류의 RNA의 서열을 직접 분석해서 정량하는 기술인 RNA-seq에 의해 엄청난 양의 데이터들이 생산되고 있다. 한 사람의 모든 염색체의 서열 역시 하루 이틀이면 되는 시점에 이르렀다. 이러한 양의 데이터를 분석하는 것이 생물정보학의 주요 임무이다. 실제로 현재 구글/아마존/IBM/KT 등이 이러한 생물학 데이터의 저장/분석에 사활을 걸고 있는 실정이다. 현재 아마존에서는 1000 genome project를 통해 나오는 데이터를 얹어 놓은 기계를 공개했다.