개요
- 유전체 어셈블리
- Complete genome 의 완성
- Complete genome 살펴보기
- Complege genome 과 기존 참조유전체와의 비교
유전체 어셈블리
유전체 어셈블리 (유전체, 어셈블리, Genome assembly)라고 불리는 것은 흔히들 A, T, G, C 네 가지 문자로 쓰여있는 유전체 지도 책이라고 비유하는 유전체의 시퀀스를 해독한 염기서열 데이터이다. 여기에 '참조'라는 수사를 붙인 참조유전체(Reference genome, Reference assembly)는 특정 종이나 품종을 대표할 수 있는 어셈블리를 의미한다.
유전체 어셈블리를 명명백백하게 구하는 일은 생물학계에서 오랜 숙제였다. 식물의 꽃 색, 완두콩의 주름짐 여부 등의 형질을 결정하는 유전되는 인자가 있다는 것이 밝혀지고, 그것은 염기 분자 쌍이 길게 이어 붙어 이중나선을 이루는 DNA 상에 염기서열의 형태로 존재하면서 단백질을 암호화한다는 것이 차례로 밝혀졌다. 그리고 그 유전물질은 생물체를 이루는 모든 세포에 동일하게 존재하는데, 개별 세포는 위치한 조직이나 기관에 따라 각자 다른 기능을 하도록 분화되어있다. 유전체 염기서열을 밝히는 일은 유전차가 암호화하는 단백질의 역할을 이해하는 것의 첫 단추이면서, 복잡한 조절 과정을 포함하면서 생물체를 그 생물체로 정의하게 하는 어떤 생명의 신비를 밝히는 일로 중요하지 않을 수 없었다.
Complete genome 의 완성
인간의 유전체는 32억 개의 염기서열로 이루어져 있는 것으로 밝혀져 있다. 염기의 종류는 4개, 4의 32억 승의 경우의 수가 가능한 유전체를 밝히는 일은 썩 도전적이어서, 그 전체 염기서열을 밝히는 것을 목적으로 하는 인간 유전체 프로젝트가 1990년 10월 1일에 시작되어 2003년 4월 14일에 종료되어 만들어진 첫 인간 참조 유전체 버전에서 Genome Reference Consortium 이 이어받아 만든 2019년의 GRCh38.p13 (버전 이름 + patch 13, 찾아보니 2022년 2월 경에 14번째 패치가 새로 나왔다.)에 이르는 과정에도 완결되지 못했다. 가장 최신으로 사용되고 있던 GRCh38.p13 버전의 어셈블리는 여전히 gap이라고 불리는 공백 시퀀스를 포함하고, 특정 서열로 만들어진 시퀀스의 존재는 확인했지만 해당 시퀀스의 유전체 상의 위치를 찾지 못한 Unplaced scaffolds를 포함하고 있었다.
이런 와중에, 염기서열을 밝히는(시퀀싱) 기술이 다양화되고 그 정확도가 발달하였고, 생성한 시퀀스 데이터를 이어 붙이는 방법론 또한 지속적으로 개발되었고, 인간 참조유전체 수립 미션을 이어받은 Telomere-to-Telomere (T2T) Consortium에서 처음으로 완성된 인간 유전체를 완성했다(여기서는 참조 유전체라고 표현하지 않았다.!) (Reference). 기존에 존재하던 참조유전체에서 Gap이었던 지역을 염기서열로 다 밝히고, 기존엔 밝혀지지 않았던 염기서열을 추가로 밝혔다. 이 과정에서 새로운 유전자의 발견도 있었고, 반복 서열이 많이 존재해 밝히기 어려웠던 (Gap이었던) 지역을 밝히면서 어떤 반복 서열이 존재하는지도 확인하였다 (이에 대한 간략한 뉴스와 단상),
Complete genome 살펴보기
연구자라면 이 멋진 발견이 궁금하지 않을 수가 없더랬다. 논문을 자세히 뜯어보기 전에 데이터를 먼저 구석구석 뜯어보았다. 정보공개 강풍이 휘몰아치는 분야 아니랄까 봐. github, genbank ftp, ncbi assembly 다 연결되어 있긴 하다지만 시퀀스와 간단한 요약이 제공되고 있다.
Genbank에서 제공하는 meta data (summary)는 다음과 같다. 이 연구에서 시퀀싱을 위해 라이프러리 조작하는 방식을 complete hydatidiform mole을 개발하고 사용해서 CHM이라는 이름이 이 데이터 도처에 붙었다. 시퀀싱에 사용한 샘플은 여성의 것을 이용해서 논문에는 Y chromosome을 제외하고 gap-free라고 언급되어 있는데, 다시 업데이트된 데이터 상에서는 다른 남섬 샘플로부터 Y chromosome 어셈블리를 추가로 수행해서 Complege Genome을 만든 것으로 보인다.
보통 위에 갖다 붙인 것처럼 chromosome 별로 assembly 시퀀스가 있고 (우측의 숫자는 염기서열의 길이), 해당 chromosome으로부터 얻어진 시퀀스이지만 위치를 찾지 못한 unlocalized sequence 정보, 저 시퀀스 중에서 염기서열 (A, T, G, C)가 밝혀지지 않은 Gap base의 수 가 같이 요약되는데, 이 어셈블리는 유전체 정보 전체를 밝힌 어셈블리라 무지 클린 하고, 32억 개 염기서열로 보통 알려져 있는데, 31억 1727만 5501개의 염기로 여성의 유전체와 특정 남성 샘플의 Y chromosome 이 밝혀진 것을 확인할 수 있다.! 상동염색체 22쌍, 성염색체 한 쌍 해서 2n=23을 이루는 chromosome 1~22, chromosome X, Y 가 모두 밝혀진 모습이다.
제공하는 데이터를 다운로드하면 "GCA_009914755.4_T2T-CHM13 v2.0_genomic.fna" 이름의 파일이 받아지고, 열어보면 다음과 같은데, .fna, .fasta, .fa 가 모두 같은 FASTA 포맷으로 유전체 어셈블리를 포함하는 염기서열 정보를 담고 있는 파일 포맷이다. 꺽쇠로 시작하는 시퀀스의 이름을 붙이는 한 줄 아래로 해당 시퀀스에 해당하는 실제 시퀀스가 ATGC, atgc 등의 문자열로 표현된다. 본 어셈블리에는 포함되지 않았지만 gap 시퀀스는 "-"으로 표기된다. 염기서열 알파벳의 대소문자는 masking 여부를 표현한다. 데이터 분석 시 masking 된 염기를 제외하고 분석하는 경우에 활용된다. (기회가 되면 다른 글을 통해 설명하는 걸로..)
Complege genome 과 기존 참조유전체와의 비교
데이터가 처음 밝혀지고 뭘 해보면 재미있을까 하고 고민을 좀 해봤는데, 기존에 사용하던 hg38 (GRCh38.p13) 유전체에 비해 얼마나 많은 것들을 메꿨는지, 그리고 구조 측면에서 기존 어셈블리에서 false 인 지역은 없는지 등이 궁금해서 hg38과 CHM13 유전체를 유전체 시퀀스의 유사도를 기반으로 정렬(alignment, local alignment)하고 그 결과를 토대로 순서와 방향이 동일한 지역을 이어 붙여 신 터니를 만들어 보았다. 정렬 결과를 신 터니로 만드는 과정에서 약간의 차이는 resolution(150k)에 의해 무시될 수 있어 많은 기존 버전의 많은 지역이 새 어셈블리에도 유사하게 포함되었다는 것이 확인되었다. 그러나 최신의 어셈블리에서는 여남은 염색체 부분이 gap 이 아닌 시퀀스로 채워졌다는 점이 다를 테고, 또한 순서와 방향 측면에서 꽤 큰 단위로 염색체의 일부 지역의 위치가 변한 것 또한 확인할 수 있었다.
mySyntenyPortal
bioinfo.konkuk.ac.kr
마치며
새로운 데이터가 재미있고 자세히 들여다 보겠다 한 것 치고 별로 한 게 없는거 같은데 ..!!!(양심 있나) 논문에서 뭘 봤는지 살펴보는 리뷰와, 이 어셈블리 내에 반복서열이 얼마나 있는지 찾은 것과... 어떤 염기서열이 어셈블리를 방해했는지 찾아보는 과정을 해보면 재밌지 않을까 싶다.
한 샘플 (Y 염색체는 다른 샘플로부터 왔지만)로부터 만든 어셈블리라 인간 종의 참조유전체라고 볼 순 없겠으나 한 샘플 유전체 어셈블리를 완성했다는것이 gap 없이 모든 염기서열을 밝혔다는 점에서 한 걸음 크게 나아간 것 같다. 후성유전학에서 다루어지는 염기서열 외 요인에 의한 조절을 밝히는 일들이 남았겠지만, 생물체가 그 생물체로 발생하고 존재할 수 있게하는 raw data를 구하는 작업이 완료된 것 만으로도 의미가 있다. 유전자도 새로 발견되었지만 gap 으로 표기되었던 영역이 메꿔진 것이 유전자를 암호화하지 않는 지역의 역할을 연구하는데에도 조금 더 도움이 되지 않을까 싶다.
'Data Analysis' 카테고리의 다른 글
뱅크샐러드 유전자 검사 결과 뜯어보기 (0) | 2022.08.21 |
---|