본문 바로가기

Concepts

SNP (Single-nucleotide polymorphism)

SNP

  DNA 상에 발생하는 다양한 종류의 변이 중 base-level에서 발생하는 변이를 SNV, single nucleotide variant라고 한다. SNV는 특정 위치의 염기가 다른 종류의 염기로 바뀌는 Substitution, 1개 이상-수 개의 염기가 삽입되는 Insertion, 그리고 반대로 1개 이상-수 개의 염기가 삭제되는 Deletion으로 분류할 수 있다. 최근에야 SNP 데이터의 생성이 용이해지면서 많은 경우 SNV과 SNP를 혼용해서 사용하지만, 엄밀하게 SNV는 individual level에서 정의되는 변이이고, SNP과 구분된다.

  SNP (Single-nucleotide polymorphism)은 직역하면 '단일염기다형성' 이 된다. 이는 개인에게서 관찰할 수 있는 '단일염기변이'인 SNV 데이터를 집단 수준으로 수집, 유전체 상의 특정 위치의 변이의 발생 빈도를 계산해 그 빈도가 1% 이상인 위치와 그 위치에서 발생할 수 있는 변이를 이르는 말이다. Polymorphism, 다형성이라는 표현은 해당 위치에 발생하는 변이의 종류가 여러 가지일 수 있기 때문에 붙은 표현이다. 집단 내에서 1% 미만의 빈도를 가지는 변이는 SNP이라고 하진 않고, rare variant라고 부르게 된다.

https://www.nutrigeneticsspecialists.com/single-post/2017/03/27/What-is-a-SNP

  예를 들어 100명의 샘플로 이루어진 집단 내에서 특정 위치에 SNV 를 가진 개인이 10명 이상인 경우, 해당 위치를 SNP라고 call 하게 된다. 그리고 calling 된 해당 위치의 SNP은 개인에서 발생한 SNV substitution의 종류에 따라 1가지 이상의 변이 type을 가질 수 있다(reference base가 A 인 경우  A->C, A->G, A->T 변이를 가질 수 있음).

  Population 레벨에서 판단할 수 있는 SNP을 정의했는데, SNV든,  SNP든 Genome 상에서는 base 레벨에서 발생하는 변이로 유전체 내에서 발생할 수 있는 다양한 종류의 변이 중 가장 작은 변이라고 할 수 있다. 인간 기준 전체 유전체가 32억개의 염기 쌍으로 구성되어있는데, SNP은 그중 한 개 위치에 발생하는 변이를 의미하고 전체 유전체 내에서는 평균적으로 1000개의 염기 중 하나가 SNP이라고 알려져 있다. 전체 유전체를 두고 개수를 평균 내면 1000개 base 중 1개라는 값이 나오지만, 유전체 전체에 걸쳐 uniform 한 분포를 가지는 것은 아니며, 어떤 종류의 Chromosome 인지, gene을 coding하는 지역인지, chromosome 내 어떤 위치에 있는지 등의 영역에 따라 서로 다른 빈도와 분포를 보인다. 

 

SNP의 활용

표현형과의 상관관계 연구

  당연한 말이지만, SNP이 존재하는 위치에 따라서 각 SNP의 영향은 상이하다. 대부분의 경우는 형질에 특이적인 영향을 미치지 않는 경우가 많고, 유전자를 암호화하고 있는 지역 중에서도 단백질로 발현되는 부분 (Coding region - exon)에 발생하는 SNP이나, 일부는 질병, 약물에 대한 반응 등을 포함한 특정 표현형에 직접적으로, 혹은 간접적으로 영향을 줄 수 있는 것으로 알려져 있다.

  표현형의 기원을 유전 정보로부터 찾으려던 시기에는 어떤 유전자의 기능, 특정 위치의 SNP (변이) 등이 특정한 형질에 대한 스위치처럼 기능한다고 생각해서 개별 요소들의 형질에 대한 직접적인 영향을 연구하고자 했으나, 유전체와 표현형 사이 관계에 대한 개념이 다음 단계로 변화하면서 많은 경우 표현 형질은 유전체 상의 유전정보를 포함한 분자 수준에서의 다양한 분자들의 상호작용 및 환경으로부터의 영향을 받아 결정된다고 이해하게 되었고, 어떤 유전자와, 유전체 내 어느 지역 (지역 내 변이 포함)이 질병/표현형에 기여하는지 파악하는 것이 주된 연구 대상이 됐다. 그리고 그 안에서 SNP은 특정 지역 내 발생 빈도, 해당 변이의 집단 내 빈도, 개별 SNP의 표현형에 대한 영향력, 특정 지역 내 SNP의 부분집합과 표현형 사이의 상관성 등의 개념들로 표현형을 설명할 수 있는 중요한 요소라고 할 수 있다.

 

집단 구조 및 진화 연구

  SNP은 집단 내에서 정의되는 개념이라는 점에서 집단의 구조를 파악하고, 해당 집단의 진화 연구에도 활용될 수 있다. 변이의 입장에서 한 개인에게 발생한 변이가 다음 세대로 전달되어 특정 집단 내에서 생존하기 위해서는 개체의 생존에 치명적인 영향을 주면 안 된다. 달리 말하면, 특정 환경에서 생존하는 데 이득을 줄 수 있는 변이는 해당 환경에 처한 집단 내에서 발생했을 때, 그 집단에 보존될 확률이 높다. 이런 점으로부터 SNP을 집단의 구조 (해당 집단이 공유하고 있는 - 다른 집단과 차이를 보이는 유전체 변이의 발생 빈도)를 연구하고, 그로부터 특정 집단이 어떤 진화과정을 거쳐 특정되었는지의 과정을 연구할 수 있게 된다. 

 

SNP database

NGS 기법(차세대 염기서열 분석, 유전체로부터 염기 서열 데이터를 얻는 기술) 이 발달하고, 그 비용이 저렴해지면서 데이터 생성이 기하급수적으로 늘어나면서 개인 데이터 뿐만 아니라, 집단 수준에서의 데이터를 확보하는 것이 가능해졌고, 다양한 많은 연구에서 SNP calling (Sequencing data로부터 SNP을 밝히는 일)을 진행, 데이터들을 생성하고 있다. 생성된 데이터들은 공용 database에 제출, 다양한 연구에 서로 cross-referencing 되며 활발하게 사용되고 있다.

 

SNPedia

인간의 SNP 정보와 밝혀진 기능을 위키 형태로 제공하는 데이터베이스이고, 레퍼런스와 여러 플랫폼에서의 SNP ID, genomic position과 그에 따른 gene annotation정보도 제공하고 있다. 

 

SNPedia

 

www.snpedia.com

dbSNP

인간 포함 생물종들의 SNP 정보를 제공하는 데이터베이스이다.

 

Home - SNP - NCBI

 

www.ncbi.nlm.nih.gov

 

반응형