차세대 시퀀싱 기술의 발달로~ 라는 서문을 많은 논문들이 사용해왔는데, 시퀀싱 기술의 발달은 비단 존재하는 DNA 분자의 염기서열을 밝히는 데에 그치지 않고, DNA 분자의 상태를 시퀀스 데이터 형태로 얻어낼 수 있게 했다. 그런 연구의 결실들이 다양한 종류의 프렙/call 과정을 변형시켜 만든 epigenetic feature 에 대한 시퀀싱 기법들이다. 생체 내의 특정한 상태를 데이터 형태로 얻고자 하는 연구 덕분에 염기서열을 밝히자 -> 발현량을 밝히자 -> 발현 기작을 밝히자 -> 발현 기작에 관여하는 특정한 염기서열, 단백질을 밝히자 하는 식으로 데이터를 활용한 연구의 영역이 점차 확장되고 있다.
오늘은 그러한 epigenetic feature 중에서도 DNA분자의 methylation 상태를 얻어낼 수 있는 Methylation sequencing data 가 어떻게 얻어지는지 간략히 서술하고, raw 시퀀싱 데이터로부터 어떤 일반적인 분석을 통해 데이터를 얻을 수 있는지 써보려고 한다.!
1. DNA methylation
DNA는 DNA 그 자체로만 보면 흔히들 아는 이중나선 형태로 되어있는데, 진핵생물 세포 핵내에 존재하는 DNA 분자 상에는 특정한 염기 (C, cytosine)에 간헐적으로 메틸기가 붙어있기도 한다. 아래 그림에서 희게 빛나는 원으로 표현된 부분이 DNA 분자 상에 C 염기에 붙은 메틸기를 의미한다.
DNA 분자는 다양한 단백질과의 상호작용을 통해 유전자 발현을 조절하는데, DNA 분자 상의 이러한 methylation이 유전자 발현에 관여하는 다양한 조절작용에 참여한다. 따라서 유전자 발현에 관여하는 위치에 종종 C 염기가 높은 밀도로 위치하는 경향성이 있기도 한데, 이런 지역을 CpG island 라고 특별히 달리 취급하기도 한다.
DNA methylation 패턴이 유전자 발현 조절에 중요한 역할을 하는 만큼, 이 패턴의 변화는 단백질 상호작용에 다양한 형태로 영향을 미친다. 정상적으로 결합해야 하는 전사인자의 결합을 방해할 수도 있고, 정상인 상태에서는 존재하지 않았던 상호작용을 야기할 수도 있다.
그런데 어디까지나 이 패턴은 epigenetic(*후성유전학) element 에 의해서 형성되는 것이므로 같은 종이더라도 개체에 따라, 샘플에 따라, 조직-기관에 따라 상이할 수도 있으며, 또 큰 틀에서 종 간 보존되어 있는 패턴을 보이기도 한다.
위와같은 특성을 기반으로 유전자 기능 연구, 질병의 원인 연구, 햑물 효능 연구 등 다양한 연구가 이루어지고 있다.
2. Methylome sequencing
이러한 DNA상의 methylation pattern은 bisulfite sequencing based method 를 통해 시퀀싱 데이터의 형태로 얻어질 수 있다. 대표적으로 WGBS, RRBS 등의 시퀀싱 방법이 있는데, 두 방법 모두 공통적으로 bisulfite 처리를 했을 때 염기가 변형되는 패턴을 활용한다. DNA methylation 은 C 염기에만 발생하는데 methylC와 methylation 되지 않은 C 에 각각 sodium bisulfite 처리 시 (아래 그림에서 좌측 두 가지 경우) 그냥 C 의 경우 U 염기로의 변형이 이루어지고, methylC의 경우 아무런 변화 없이 methylC 상태로 존재하게 된다. 이런 DNA에 대해 시퀀싱을 수행하는 경우 그 다음 그림과 같은 Read가 얻어져서 같은 위치에서 추출한 Read 상에서 A,T,G,C 네 가지 염기가 모두 관찰될 수 있는 상황이 된다. 이렇게 만들어진 methylome sequencing read에 몇 가지 분석을 추가하여 DNA를 추출한 샘플의 methylation pattern을 얻을 수 있다.
3. Methylome sequencing data analysis
(1) QC
모든 종류의 시퀀싱 데이터가 그렇듯 메틸롬 시퀀싱 데이터에 대해서도 QC를 수행한다. FastQC를 통해 raw data의 퀄리티를 선 확인하고, QC 프로그램을 통한 filtering, trimming등을 수행하고 난 뒤에 FastQC를 다시 수행해 줌으로서 사용할 만한 데이터가 되었는지 다시 확인하는 과정을 거친다.
Filtering, trimming 등에는 Trimmomatic, TrimGalore! 를 흔하게 쓰고, FastQC의 quality 평가 항목 중에 per base sequence content 가 있는데, methylome sequencing 특성상 warning 수준의 경고는 넘어갈 법 하나, 다양한 문헌들을 참고해 분석에 적합한 데이터인지 면밀한 사전 검토가 필요하다.
(2) Mapping
모든 시퀀싱 데이터가 그렇듯(어셈블리를 목적으로 하는 것이 아닌 이상), genome assembly에 mapping을 한 뒤에 비로소 그 진가가(?) 드러난다. 위의 방식을 통해서 methylome 패턴을 파악할 수 있도록 sequencing read를 생성했으니, 해당 read가 실제로 몇 번 염색체의 어느 위치에서 얻어진 것인지를 찾는 과정이다. 경험을 바탕으로 쓰는 글이긴 하니... 이게 답이다 ! 라고 할 수 없지만 많은 경우 methylome sequencing read를 reference에 mapping 하는 경우 Bismark 라는 프로그램을 (gold standard 인 것 처럼)사용하는 것 같다.
mapping 결과로는 bam(Sam format의 binary 버전) format 의 파일이 생성되는데, 이 bam file 내에 read 의 assembly 상의 위치와, 이후 분석단계에서 methylC 위치를 찾기 용이하게 하는 mapping 된 시퀀스 패턴 정보가 함께 담겨있다.
(3) Process bam
Mapping 프로그램의 결과물을 바로..! 쓰는 경우도 있겠지만 많은 경우 뒷 분석이 요구하는 대로 데이터 처리 과정이 수반되어야 하기 마련인데, Methylome sequencing data를 처리하는 경우 (2) Mapping 과정 이후 Samtools sort, makrdup 기능을 통한 이후 단계의 전처리를 수행해야 한다.
(4) Methyl C calling
앞서 만든 Methylome read mapping 데이터로 Methyl C calling 하는 작업을 끝으로 Genome 상에 어느 위치에 Methyl C 가 붙어있는지, 얼마나 많이 붙어있는지, 즉 해당 샘플의 Methylome pattern을 파악할 수 있게 된다. 이 단계에서는 Bismark, MethylKit 두 가지 프로그램이 비슷한 정도로 활발히 사용되는 것 같고, 나는 MethylKit을 사용했던 기억이 있다.
여기까지 앞서서는 분석 이라는 용어를 사용하긴 했지만, 진정한 분석을 위한 재료, 즉 sample마다의 어떤 chromosome 상에 어느 위치에 methyl C 가 어느 정도의 비율로 (전체 얻어진 read 중에서) 존재하는지에 대한 데이터 를 얻을 수 있다.
이 이후에는 분석의 목적과 방향에 따라 생성된 데이터를 자유롭게 활용하면 되는데, 많은 경우 발현량과 연결지어서 특정 유전자의 발현 패턴과 methylome을 함께 분석하는 데에 활용하기도 하고, methylome 데이터만을 활용해서 생성할 수 있는 데이터를 추가로 생성한 뒤에 분석하기도 한다. methylome만을 사용해서 생성할 수 있는 데이터는 다음과 같다.
(5) UMR, LMR identification
앞서 methylome pattern이 유전자의 발현 조절에 영향을 미칠 수 있다고 했는데, Methyl C 가 존재하는 경우 다른 단백질의 결합을 억제하는 경향이 존재해 프로모터 등과 같은 위치 상의 C 염기는 낮은 수준으로 methylation 되어 있어야 인접한 위치의 유전자 발현이 가능하게 할 수 있다. 따라서 methylation pattern이 유독 낮은 지역 (Un-Methylated Region, Low-Methylated Region)을 별도로 정의하고 유전자 발현 조절에 영향을 미칠 수 있는 후보지역으로 활용하기도 한다. 이러한 UMR, LMR을 찾아 주는 프로그램들이 여럿 개발 된 것으로 알고 있는데, MethylseekR 이라는 프로그램이 가장 많이 활용되는 것으로 보인다. 이 프로그램은 앞서 얻은 methylated C 위치 데이터로부터 UMR, LMR 각각의 기준에 따른 지역을 정의하고 찾아 해당 지역이 어디인지, methylation level은 얼마나 되는지 등의 데이터를 반환해준다.
(6) DMC, DMR identification
앞서 methylation pattern의 변화 또한 유전자 발현에 큰 영향을 미칠 수 있다는 언급을 하였는데, 이런 변화를 확인할 수 있는 비교군이 있는 경우 DMC 혹은 DMR을 찾아볼 수 있다. DMC, DMR은 각각 Differentially methylated C, Differentially methylated region으로 비교군에 대해 다른 수준의 methylation level을 보이는 단일 염기 위치, 혹은 특정 범위 (지역)을 의미한다. MethylKit 을 활용해서 DMC를 얻을 수 있고, BSmooth 는 DMR을 생성할 수 있다.
4. 결론
- DNA 분자의 Cytosine 염기에 메틸기가 붙어 발현 조절이 가능하다.
- Methyl Cytosine, Cytosine 의 bisulfite 처리에 따라 상이한 반응 양상을 바탕으로 이를 시퀀싱 데이터에 녹여낼 수 있다.
- Methylome sequencing 데이터 처리 워크플로우를 간략히 알아보았다. (QC - mapping - methyl C calling - region identification)
'Concepts' 카테고리의 다른 글
복제수변이(Copy Number Variants) 이해하기 (0) | 2022.09.29 |
---|---|
Linear Model Selection and Regularization (0) | 2022.09.18 |
불균형 데이터 처리를 위한 7가지 Over Sampling 기법들 (0) | 2021.10.09 |
Understanding P-value from CAFE results (0) | 2021.08.10 |
[통계] Likelihood, Likelihood ratio test (우도, 우도비검정) (0) | 2021.04.18 |