복제수변이는 인간의 유전체 상에 발생할 수 있는 구조변이 (Structural Variants, seqeunce variants와 구별됨) 중 한 종류로
특정한 DNA segment에 대해 duplication 혹은 deletion이 발생되어 해당 segment의 유전체 내에서의 copy number에 변화가 생긴 것을 의미한다.
인간의 경우 엄마, 아빠로부터 난자, 정자가 결합하여 수정란이 만들어지고, 그 수정란의 발생으로 인간 개체가 형성되므로 유전체 상의 어떤 임의의 지역을 살펴본다고 가정했을 때, 그 지역은 copy number 2를 가지는 것이 일반적이다(repeat 등의 다른 유전체 상의 element를 고려하지 않음). 그러나 생물체의 유전체 내에서는 지속적으로 크고 작은 변이가 발생하는데 이로부터 특정 지역이 소실되거나, 동일한 지역이 복제되어 다시 유전체 내에 삽입되는 경우, 해당 특정 지역의 복제 수, copy number에 변화가 생기게 된다.
저렇게 CNV가 발생한 지역이 유전자 발현에 영향을 줄 수 있는 지역인 경우 - 전사인자가 부착할 수 있는 지역, 유전자를 암호화하고 있는 지역 등- 유전자 발현 정도를 조절하는 기능에 영향을 주어서 질병이나 특이 표현형의 원인이 되기도 한다.
단적인 예로 복제수변이가 생긴 지역이 특정 유전자를 포함하고 있을 때 이 지역에 duplication으로 인한 복제수변이가 생긴 경우 유전자의 발현량이 늘어날 수 있겠고, deletion이 생긴 경우 유전자의 발현량이 감소할 수 있다. 그리고 CNV는 종 분화에 영향을 미쳤을 수 있다는 가능성도 제기되어 진화 측면에서도 연구되고 있고, 또한 개인 유전체 및 암 유전학 분야에서도 연구되고 있다.
종양 세포는 세포분열을 조절하는 기능에 문제가 생겨 종양조직 주변에 비정상적인 세포분열이 과다하게 일어나 종양 조직을 형성하게 되는데, 세포분열을 반복적으로 수행하면서 발생한 유전체상에서의 복제수변이를 포함한 구조변이가 종양조직 세포 내 유전체에 축적되게 된다. 직접적으로 표현형에 영향을 주는 복제수변이가 아니더라도 복제수변이의 존재 자체로 유전체의 길이가 달라지는 등의 변화가 생기므로 이는 유전체 구조에도 변화를 주고, 또 일련의 변이가 축적되는 과정을 통해 암세포의 분열 과정, 종양 조직의 성장 과정을 유추해 낼 수 있어 암 질병 표현형 연구 및 종양 발달 과정 연구에도 필수적인 요소이다.
이렇게 가장 기본적인 복제수변이라는 개념은 참조유전체와 비교해서 특정 지역의 복제수에 변화가 생긴 것 을 의미한다. 그런데 여기에는 한 가지 고려할 사항이 존재하는데, <변이의 기준을 어디에 둘까?>이다. 위에서는 참조유전체와 비교한다고 했는데, 복제수변이라는 구조변이가 종 분화에도 영향을 미친다고 했듯이, 특정 종 내에서 정상으로 분류되는 개체 유전체 상에 이미 복제수변이가 존재할 수 있고, 이는 인종 (집단)에도 동일하게 적용될 수 있다.
조상을 공유하는 개체들끼리 참조유전체와 비교해서 복제수변이로 판단할 수 있는 유전체 지역을 공유한다고 했을 때, 그러한 복제수변이는 과연 흥미로울까? 해당 집단을 다른 집단과 비교하는 문제가 아닌 이상, 그것이 해당 집단을 구분해내는 어떤 특이 형질을 나타내는 것이 아니라면 그런 지역은 해당 집단 내에서 공유하고 있는 유전체 상에서의 특이 지역일 뿐이다. 따라서 한 집단 내 여러 개인에 대해 복제수변이를 탐색할 때, 이 집단 내에서 차이가 나는 지역을 복제수변이의 성립 조건으로 두고 탐색을 수행하는 경우도 존재한다.
이렇게 집단 수준에서 복제수변이를 탐색하였을 때 CNP (Copy Number Polymorphism)이라고 표현하고, 집단 내에서 특정 지역의 복제수가 다양한 수로 존재하는 지역을 의미하는데, 대개의 경우 CNV와 CNP를 혼용하여 사용하는 것으로 알려져 있다. 실제로 다양한 논문이나 저술들에서 CNV에 대해 조금씩 다른 서술을 하고 있다. 비슷한 용어로 CNA (Copy Number Alteration)도 있는데, CNV와 의미상으로 다르지 않고 somatic variant (암 유전체 등 발생이 완료된 개체 내에서 발견되는 유전체 변이) 일 때 CNV 보다 CNA라는 표현을 사용하는 것으로 알려져 있다.
- Regions of the genome that vary in integer copy number
- Phenomenon in which sections of the genome are repeated and the number of repeats in the genome varies between individuals (wiki)
- Number of copies of a specific segment of DNA varies among different individuals’ genome
- A segment of DNA in which copy-number differences have been found by comparison of two or more genomes
- A circumstance in which the number of copies of a specific segment of DNA varies among different individuals’ genomes (nih)
- Genomic alterations that result in an abnormal number of copies of one or more genes (illumina)
- Large segments of DNA ranging in size from thousands to millions of DNA bases can vary in copy-number
- A segment of DNA that is 1kb or larger and is present at a variable copy number in comparison with a reference genome (nat.review)
- Copy number variation: A variation that increases or decreases the copy number of a given region
- Copy number gain: A sequence alteration whereby the copy number of a given region is greater than the reference sequence
- Copy number loss: A sequence alteration whereby the copy number of a given region is less then the reference sequence
세줄 요약
- CNV: 유전체 상에서 발생하는 구조변이, 특정 지역의 복제수 상에 변화가 생긴 변이
- 집단 수준에서 집단 내 복제수 차이가 있어야 복제수변이로 판단한다는 CNP 가 있으나, CNV와 보통 혼용하는 개념
- CNA와 CNV는 동의어이고 germline variant의 경우 CNV, somatic variant의 경우 CNA라고 표현함
참고문헌
https://www.genome.gov/genetics-glossary/Copy-Number-Variation
Copy Number Variation (CNV)
A copy number variation (CNV) is when the number of copies of a particular gene varies from one individual to the next.
www.genome.gov
'Concepts' 카테고리의 다른 글
Support Vector Machine (0) | 2022.10.17 |
---|---|
Linear Model Selection and Regularization (0) | 2022.09.18 |
Methylome sequencing data 처리 워크플로우 (0) | 2021.12.19 |
불균형 데이터 처리를 위한 7가지 Over Sampling 기법들 (0) | 2021.10.09 |
Understanding P-value from CAFE results (0) | 2021.08.10 |