본문 바로가기

Concepts

[통계] Likelihood, Likelihood ratio test (우도, 우도비검정)

생물체의 진화를 연구하는데에는 다양한 접근방식과 방법론이 있을텐데, 생물정보학에서 가능한 진화 연구 중에는 <Positive selected gene 분석> 정도로 불리는 분석 방법이 있다. 생물체의 진화 과정을 생각하면 계통수 (phylogenetic tree)를 먼저 떠올릴 수 있을 것 같다.

5개 종으로 만들어진 계통수, Target branch 를 Bpl, Bpa의 공통조상 - Bpl 사이의 branch로 설정했다.

여러 개의 종에 대해 얻어진 계통수 상의 특정한 branch 상에서 해당 branch에 특이적으로 positive selection이 된 변이들을 포함하는 유전자를 찾는 분석이 <Positive selected gene 분석> 이다. 이 분석에 대해서 자세히 다루기 전에, 여기서 selection을 판단하는 데 활용하는 검정방법인 Likelihood ratio test (우도비검정)을 먼저 살펴보려고 한다.

 

1. Likelihood (vs Probability)

우리말로 번역하면 가능도, 우도.. 정도로 쓸 수 있는 likelihood는 주어진 표본 데이터와 특정한 모수에 대해 정의되는 값으로 위키에서는 "확률분포의 특정한 모수가 확률변수의 표집값과 일관되는 정도를 나타내는 값" 이라고 하는데, 이 설명은 너무 어렵고, 같은 단락의 조금 구체적인 설명을 보면 "주어진 표집값에 대한 모수의 가능도는 이 모수를 따르는 분포가 주어진 관측값에 대해 부여하는 확률이다" 라고 하고 있다. 다시 설명하면 내가 가진 표본 데이터(~확률변수의 표집값, 주어진 표집값, 관측값)가 있을 때 그 데이터가 특정 모수를 가지는 분포에서 얻어졌을 확률을 의미한다.

~ 할 확률 이라고 하니 또 Probability와 혼동하게 되는데, 통계학~생물정보학 사이에서 다양한 개념들을 재미나게 소개하고있는 Statquest라는 유튜브 채널에서는 Likelihood를 Probability와 그림을 통해 다음과 같이 비교해주고 있다.

왼쪽의 그림에서 특정 분포(평균이 32, 표준편차가 2.5인 정규분포)를 가정했을때 쥐의 무게가 32~34 사이일 Probability 는 분포 상에서 확률변수의 구간에 대한 면적 넓이를 통해 구할 수 있는 것을 알 수 있다.

 

 

 

 

 

 

 

 

같은 그림에서 Likelihood를 구한다고 치면, 34g 짜리의 마우스가 있을 때, Likelihood는 이 마우스가 있을 때 이 마우스가 평균이 32이고, 표준편차가 2.5인 정규분포에서 추출되었을 확률을 의미하고, 이는 분포 상에서 확률변수 X (무게) = 34일 때, 확률분포의 값으로 구할 수 있다.

 

 

 

 

 

위에서 봤던 예시에서의 분포에서 조건부확률을 정의하는 왼쪽 부분을, 즉 분포를 오른쪽으로 옮겼을 때에는 34g짜리 마우스가 있을 때 이 34g짜리 마우스가 평균이 34, 표준편차가 2.5인 정규분포에서 얻어졌을 확률은 오른쪽으로 옮겨간 분포에서의 X=34일 때의 Y값으로 변하는 것을 (+) 확인할 수 있다.

 

 

 

 

 

 

결론적으로 Likelihood는 데이터가 있을 때 해당 데이터가 특정 모수를 가지는 모델/분포로부터 얻어졌을 확률 정도로 정리할 수 있다. 예시로 정규분포를 사용했지만 연속적인 분포, 모델 모두에 적용될 수 있다. 이를 한참 곰씹자면 처음에 위키에서 정리한 정의도 이해가 될 것 같은 기분이 든다. 확률분포의 특정한 모수 - 특정한 모수를 가지는 확률분포, 특정한 모델이 확률변수의 표집값, 즉 내가 가진 데이터를 설명할 수 있는 능력? 내가 가지고 있는 데이터와 일관되는 정도를 수치형태로 나타낸다는 뭐 그런 의미 아닌가.. 하고. 

 

2. Likelihood ratio test 우도비

특정한 모델이 내 데이터를 얼마나 설명할 수 있는지 가 Likelihood 라고 한다면, 서로 다른 모델 중에서 어떤 모델을 채택할지 에 대한 의사결정과정에도 Likelihood 를 활용할 수 있을 것 같다. 정확히 그런 데에 활용되는 것이 Likelihood ratio test (LRT, 우도비검정)이다. Minitab 문서에서는 어떤 모형이 표본 데이터에 더 나은 적합도를 제공하는지 확인하기 위해 모든 모수가 자유인 제약이 없는 모형과 귀무가설에 의해 더 적은 수의 모수로 제약되는 모형 등과 같은 두 가지 모형의 적합도를 비교하는 가설검정 이라고 설명하고 있다.

위키의 설명과 함께 정리하면, LRT는 모델이 표집 데이터를 얼마나 잘 설명하는지를 나타내는 수치인 Likelihood를 활용하여 비교 대상인 두 모델 중 보다 적합한 모델을 판단하는 데 활용되는 검정 방법론이라고 할 수 있다. 

 

일반적으로 LRT에서 비교 대상이되는 두 모델 중 하나는 Maximum Likelihood 기법으로 얻어진 parameter set이 되고 (Alternative model), 다른 하나는 특정 제약을 부과한 모델 (Null model)이다. 각각의 모델과 데이터에 대해 Alternative model의 Likelihood, Null model의 likelihood를 구할 수 있고 그 두 Likelihood를 활용하여 Likelihood ratio를 구할 수 있다. 그 likelihood ratio는 χ² curve 를 따르므로 chi-scquare test를 통해 p-value를 구할 수 있게 된다.

 

**

왜냐(왜 Likelihood ratio가 chi-squared 분포를 따르냐?)! 는 다음의 타래를 따라가 보면 좋을 것 같다. -> why is a likelihood-ratio test distributed chi-squared? -> Does this help?

엄밀하게 Likelihood ratio가 chi-squared distribued되었다고 말할 수는 없고 점근적으로 해당 분포를 따른다고 말할 수 있다고 한다.  

**

 

Likelihood ratio의 값이 1에 가까운 경우, 테스트하고자 하는 parameter set이 null model과 다를 바가 없다는 것을 의미하고, 해당 alternative parameter set model에 null model과 달리 포함된 변수가 모델 구축에 유의하지 않다는 것을 의미하고, 이는 다른 말로 이 데이터에 적합하기에 충분하지 않다는 것을 의미한다고 볼 수 있을 것 같다. 

 

3. 정리

Positive selected gene 분석에 활용되는 Likelihood와 Likelihood ratio test를 개념적으로 (..) 살펴 보았다.

Likelihood는 가지고 있는 데이터를 특정한 모델이 얼마나 잘 설명할 수 있는지.! 를 나타내는 수치로 데이터가 있을 때 특정한 모델의 모수가 이 데이터와 얼마나 일관된지를 나타내는 수치라고도 표현할 수 있다.

Likelihood ratio test는 서로 다른 두 모델의 Likelihood 값을 이용해 Likelihood ratio라는 통계량을 구한 뒤 해당 통계량의 유의성 여부를 chi-squqred test 를 이용하여 검정하는 방식이다. 이를 통해서 alternative model이 가지고 있는 데이터에 적합한지 여부를 판단할 수 있다. 

Poisitive selected gene 분석에서는 ~특정 *branch에서 *selection이 발생했는지 여부를 확인하기 위해 branch 상의 selection이 *positive selection인지, *neutral evolution인지 여부를 구분할 수 있는 두 개의 모델을 정의하고 각각의 likelihood를 계산해서~ LRT 를 통해 해당 gene의 positive selection 여부를 판단하는데, 추후에 쓰여질 글에서 이러쿵 저러쿵 늘어놓은 *용어들과 조금 더 자세한 내용을 다루게 될 것 같다. 

 

 

***

References 

shlee1990.tistory.com/766

 

[통계 이론] 선형 회귀 : 우도비검정

 정보 업무명  : 선형 회귀 : 우도비검정 작성자  : 박진만 작성일  : 2020-04-19 설  명 : 수정이력 :  내용 [개요] [특징] 통계이론 설명 [활용 자료] 없음 [자료 처리 방안 및 활용 분석 기법] 없음

shlee1990.tistory.com

www.statisticshowto.com/likelihood-ratio-tests/

 

Likelihood-Ratio Tests (Probability and Mathematical Statistics) - Statistics How To

Simple definition for likelihood-ratio tests (also called Likelihood-ratio chi-square tests). When to run the test and basic steps.

www.statisticshowto.com

statnmath.tistory.com/m/91

 

Binary logistic regression - 이원 로지스틱 회귀 (4) 예제 Wald Test, Likelihood Ratio Test

http://statnmath.blogspot.ca/2015/08/case-study-binary-logistic-regression.html 자세한 내용은 여기 참고하세요. 이 전 포스팅(http://statnmath.tistory.com/88)에 이어 이번 포스팅은 case study를 가지고..

statnmath.tistory.com

ko.wikipedia.org/wiki/%EA%B0%80%EB%8A%A5%EB%8F%84

 

가능도 - 위키백과, 우리 모두의 백과사전

위키백과, 우리 모두의 백과사전. 통계학에서, 가능도(可能度, 영어: likelihood) 또는 우도(尤度)는 확률 분포의 모수가, 어떤 확률변수의 표집값과 일관되는 정도를 나타내는 값이다. 구체적으로,

ko.wikipedia.org

en.wikipedia.org/wiki/Likelihood-ratio_test

 

Likelihood-ratio test - Wikipedia

From Wikipedia, the free encyclopedia Jump to navigation Jump to search Statistical test used for comparing the goodness of fit of two statistical models In statistics, the likelihood-ratio test assesses the goodness of fit of two competing statistical mod

en.wikipedia.org

 

반응형