인간 유전체 염기서열의 완성... 에 관한 단상
뱅크샐러드니 내 조상 찾기니 개인 유전체 분석이 한창 대중화되고 있는 것으로 안다. 그런 데에서 분석하는 것은 내 유전체 상에 존재는 변이 데이터 들인데, 그런 분석과 서비스가 "개인 맞춤형" 이라는 키워드를 앞세워 가능한 것은 인간종이 공유하는 유전체 시퀀스 외에 개개인이 가지는 변이가 제각각이기 때문이다.
개개인이 유전체상에 변이를 가진다는 것을 밝히기 위해서는 어떤 기준이 필요하다. 이처럼 생물종 유전체의 기준으로 쓰이는 유전체 정보를 참조 유전체 어셈블리라고 부른다. DNA 염기서열을 밝히는 기법이 개발된 이후로, 인간 종의 전체 유전체 염기서열을 밝히자! 는 목표 하에 1990년 10월 Human genome project가 시작되었고, 2001년, 첫 인간 종 참조유전체 어셈블리를 만들었으며, 공식적으로는 2003년 4월 14일 종결되었다. 첫 참조유전체 어셈블리가 완성되었지만 모든 염기서열이 밝혀진 것은 아니었으며, 내부에 "N" 으로 표현되는 밝혀지지 않은 시퀀스도 있었고, 적절한 위치를 찾지 못해 unplaced 된 염기서열도 존재했다. 이러한 참조유전체 어셈블리는 HGP 종결 이후에도 지속적으로 업데이트 되어 왔으나, 2021년까지만 해도 완결되진 않은 상태였다.
사유는 유전체 상의 반복서열 등이 존재하고 그 부분을 정확하게 판독해내기 어려웠기 때문인데, 시간의 흐름과 함께 다양한 차세대 (next-generation), 3세대 시퀀싱 기법, 그리고 새로 만들어진 시퀀싱 데이터를 처리하는 발달된 알고리즘, 분석기법 등이 지속적으로 발달해왔다. 최근 발표된 논문에서는 이러한 다양한 시퀀싱 기법과 분석기법을 도입, 분자 수준에서 homogenity 를 높이는 과정을 추가하여 인간 유전체의 T2T(Telomere to Telomere, 염색체 말단 부위를 텔로미어라고 하는데, T2T라 함은 염색체 전체의 시퀀스를 밝혔음을 의미함) 어셈블리를 완성했다는 소식을 전했다.
가장 눈에 띄는 특징은 기존엔 미처 밝혀지지 않아 N 으로 채워져있던 gap sequence 를 염기서열 시퀀스로 채웠다는 부분, 그리고 적당한 위치를 찾지 못해 unplaced sequence 로 분류되었던 assembly 들을 제 자리를 찾게 해서 chromosome 23개의 염기서열을 밝혔다는 것 ..
여전히 특정 분자를 사용해서 범용성 등에 문제를 제기할 수 있겠으나, 기존 참조유전체 어셈블리에 존재하던 gap 이 어떤 시퀀스였길래 제대로 시퀀싱이 되지 않았는지, assembly 가 되지 않았는지, 혹은 그 지역이 생물체 내에서 어떤 기능을 하는지 등을 추가로 연구할 여지가 생겼다고 볼 수 있을 것 같다. 또한 인간 유전체 진화, 인간 종의 분화 과정과 인접한 영장류 종과의 관계 등을 연구해 볼 수도 있을 테고
--
생각보다 왜이렇게 조용하지..? 나만 신기하고 재미있나 하는 생각을 잠깐 했고.
어떤 종의 참조유전체를 만드는 것이 가지는 본질적인 문제로 종 내의 모든 개체를 포괄할 수 있는 정보이냐.. 는 물음이 있을 수 있을 것 같다. 어떤 샘플로부터 얻은 데이터냐에 따라 그 다양성과 편차가 어마무시하게 차이가 날 수 있는 부분이라고도 생각하고. HGP 초기 어셈블리에 대해서도 유럽 인종의 샘플 데이터가 주로 활용되어서 문제가 되기도 했다.
특정 인종에 특이적으로 만들어져있으면, 실제로 특정 인종 집단 내에서는 변이가 아닌데 대규모로 특정 변이를 공유하고 있는 것처럼 보일 수 있을 것 같고...
그런데 한편으로 <<기준으로 쓸 수 있으려면 어느 정도의 범용성을 갖춰야 할텐데>>라고 하는 부분이.... 인종간 편차가 일정 수준 이상으로 많이 나는 시점이라면 그게 가능한가? 하는 생각도 든다. 이런 관점에서 pangenome 형태의 표현법, 분석... 등도 제시가 되고 있다. (정 linage 만을 포함하지 않고 여러 집단의 variation 을 포함하는 참조유전체... 표현 방식.... 추후에 또 자세히 알아보기로... )
이정도 뉴스를 페이퍼 리뷰라고 쓰는 것에 양심의 가책이 조금 생기지만 ...
조금 더 논문을 자세히 뜯어보고 v2를 써보기로.....
그리고 새 어셈블리가 궁금해서 hg38(기존 어셈블리) 랑 시퀀스 비교도 해보고, repeat masking 도 새로 해보고 하고있는데 ... 일은 하기 싫고 이건 재밌는 것 같다. ㅎ
Reference