Concepts

Understanding P-value from CAFE results

척척석사1 2021. 8. 10. 23:30

CAFE (Computational Analysis of gene Family Evolution) 프로그램은 gene family 크기의 진화 과정을 확률모델을 활용하여 예측하는 프로그램이다. Gene family의 크기의 진화를 예측하는 것인 만큼, 이 진화 과정에서의 이벤트는 gene family의 Expansion, Contraction으로 구분되고, gene family 규모의 변화가 짧은 시간에 큰 폭으로 이루어진 경우, rapidly evolving gene family로 분류된다.

 

Gene family의 expansion, contraction은 영문 뜻과 동일하게 gene family의 규모의 확장, 축소를 의미한다. Gene family 의 규모(size)는 gene family에 속한 gene 의 갯수이며, 조상 종에서 자손 종으로 진화함에 따라 gene family에 속하는 gene 갯수 변화에 따라 그 규모가 커진 경우 expansion, 작아진 경우 contraction 이라고 정의된다.

 

현재 종에 존재하는 gene 정보를 토대로 만들어진 gene family 정보와 각 branch 에 해당하는 진화적 거리 정보를 포함하는 tree를 본 프로그램에 input 으로 넣어주면 CAFE 에서 사용하는 Birth-death process 모델을 통해 ancestor 상에서의 gene family size 예측이 이루어지고, 이 모델 예측 결과에 대해 각 gene family 별로 p-value 를 계산하게 된다. 이 단계에서 계산된 p-value는 인풋으로 입력한 현재 종에서의 gene family 에 속하는 gene 갯수에 대해 model 의 예측 결과로 얻어진 조상 종에서의 gene family size 예측 결과로부터 얻어지는데, 조상종 간의 gene family size 에 variance 가 클 수록 작은 p-value 을 갖게 된다. 따라서 낮은 p-value를 가지는 gene family에 대해 진화 과정중 특정 branch 상에서 자연선택이나, 유전체 상에서 발생할 수 있는 다양한 구조변이 (duplication, deletion 등)에 따른 gene family expansion, 혹은 contraction 이 발생했음을 유추할 수 있다.

 

앞서 확인된 small p-value 를 가지는 gene family는 "rapidly evolving gene family" 라고 분류되고 (default p-value threshold: 0.01), CAFE 는 tree 상에서 어떤 branch 상에서 rapidly evolving expansion / contraction 이 발생하는지 추가로 확인하는 작업을 수행한다.

프로그램이 제공하는 방식은 1. viterbi, 2. branch cutting, 3. likelihood ratio test 로 세 가지이고 각각의 원리는 다음과 같다.

  1. Viterbi: 모든 branch 에 대해 parent node - child node 간의 transition 에 대한 p-value 를 계산하고, 이 중 낮은 p-value 를 가지는 branch 가 해당 Gene family 의 overall p-value 를 낮게 만든 unusually large changes 가 발생한 branch 라고 할 수 있다.
  2. Branch cutting: overall p-value 가 일정 수준 이하로 낮게 나왔을 때, 그만큼의 p-value 감소를 야기한 branch 를 잘라낸 뒤 overall p-value 를 branch-cut tree 에 대해서 구하면 p-value 값이 증가 할 것을 예측할 수 있다. 모든 branch에 대해 branch-cut tree 에 대한 p-value 를 계산하여 cutting 이후에 구해진 p-value 가 기존의 overall p-value에 비해 높은 수준 증가한 경우, 해당 cut 된 branch 에 의해 low p-value 가 얻어졌다는 판단을 하는 방식이다.
  3. Likelihood ratio test: (라는 방식이 있다는데 풀어서 설명할 만큼 이해하지 못했다.)

위의 세 방식 중 프로그램 내부적으로 설정된 기본값은 viterbi 방식이다.

 

References

1. CAFE 프로그램 논문

https://academic.oup.com/bioinformatics/article/22/10/1269/237347

 

CAFE: a computational tool for the study of gene family evolution

Abstract. Summary: We present CAFE (Computational Analysis of gene Family Evolution), a tool for the statistical analysis of the evolution of the size of gene f

academic.oup.com

2. CAFE 프로그램에서 사용된 Birth and death process 를 활용한 gene family evolution model 
https://genome.cshlp.org/content/15/8/1153.short

 

Estimating the tempo and mode of gene family evolution from comparative genomic data

Estimating the tempo and mode of gene family evolution from comparative genomic data Matthew W. Hahn1,6,7, Tijl De Bie4,6, Jason E. Stajich5, Chi Nguyen2, and Nello Cristianini3 1 Center for Population Biology, University of California, Davis, California 9

genome.cshlp.org

3. cafe manual in pdf (github)

https://github.com/hahnlab/CAFE/blob/master/docs/cafe_manual.pdf

 

GitHub - hahnlab/CAFE: Analyze changes in gene family size and provide a statistical foundation for evolutionary inferences.

Analyze changes in gene family size and provide a statistical foundation for evolutionary inferences. - GitHub - hahnlab/CAFE: Analyze changes in gene family size and provide a statistical foundati...

github.com

4. CAFE original github

https://github.com/hahnlab/CAFE

 

GitHub - hahnlab/CAFE: Analyze changes in gene family size and provide a statistical foundation for evolutionary inferences.

Analyze changes in gene family size and provide a statistical foundation for evolutionary inferences. - GitHub - hahnlab/CAFE: Analyze changes in gene family size and provide a statistical foundati...

github.com

5. CAFE v5 github

https://github.com/hahnlab/CAFE5

 

GitHub - hahnlab/CAFE5: Version 5 of the CAFE phylogenetics software

Version 5 of the CAFE phylogenetics software. Contribute to hahnlab/CAFE5 development by creating an account on GitHub.

github.com

(어차피 다 연결될 깃헙을 따로 올려둘 필요가 있나.. 하는 생각을 잠깐..)

반응형