본문 바로가기

Paper review

DeepLGP: a novel deep learning method for prioritizing lncRNA target genes

lncRNA Long non-coding RNA로 200nt 이상의 길이를 가지는 긴 RNA 분자이면서 단백질로 번역되지 않는 RNA를 의미한다.

생물체 내에서 lncRNA는 다양한 조절 기전에 참여하여 작용하는 것으로 밝혀졌는데, 다양한 조절 기전들은 다음과 같다.

- Chromosomal silencing (염색체 침묵, 염색체 자체가 비활성화되는 작용)

- Genomic imprinting (유전자 각인, 유전자의 발현 조절이 부모로부터의 원인에 의해 이루어지는 후성유전학적 현상)

- Chromatin modification (염색질 구조 변형)

- Transcriptional activation (전사 활성)

- Transcriptional interference (전사 저해)

- Nuclear transport (핵 내외로 물질 전달)

 

위와같은 다양한 조절 작용 중에서도 lncRNA가 연구 주제로 각광받는 이유 중 하나는 lncRNA가 유전자의 발현을 조절하는 작용을 하기 때문이다. 암을 비롯한 다양한 질병의 원인이 유전자의 발현 조절이 비정상적으로 이루어지기 때문이고, lncRNA 역시 실제로 다양한 질병과의 상관관계를 가지고 있는 것으로 밝혀져 오고 있다. 

유전자 발현은 DNA가 mRNA로 전사되고, 전사된 mRNA가 단백질로 번역되는 과정을 통해 이루어지는데, lncRNA는 이 과정 중 다양한 층위에 개입해서 유전자 발현을 조절할 수 있다. 

- 후성유전학적 조절 과정

   - 유전자 유전정보가 암호화된 유전체 상의 DNA, 혹은 유전자가 mRNA로 전사된 뒤의 mRNA 분자에 메틸기를 부착시키는 기작에 lncRNA가 관여한다. DNA 혹은 RNA 분자에 메틸기가 부착하면 많은 경우 음의 방향의 전사 조절이 이루어져서 유전자 발현이 억제된다. 

  - 염색체는 세포핵 내의 어떤 입체 구조를 이루면서 존재하는데, 이 입체 구조에 의해서 원거리에 있는 조절 영역이 유전자 발현 조절에 관여할 수 있다. 이러한 이유로 염색체, 염색질의 구조가 변형되는 것 또한 유전자 발현 조절의 한 축을 담당하고 있는 기작인데, lncRNA는 염색질 구조를 변경하는데 관여하기도 한다.

- 전사 과정 

   - 전사인자에 결합하는 ligand 역할을 수행, 전사에 직접적으로 관여하는 complex 형성에 관여함으로써 전사를 조절한다.

- 전사 후 과정 

   - 전사된 mRNA는 다양한 과정을 거쳐 mature-mRNA가 되는데, 이 과정을 포함 다양한 기작에 의해 mRNA를 절단하는 작용에 참여한다.

   - RNA editing, 번역, 단백질의 위치 조작 등의 과정에 관여하여 유전자 발현을 조절한다.

   - miRNA의 발현 조절을 통해 miRNA가 전사 후 상태의 mRNA에 작용해 번역이 안되도록 하는 등의 조절을 한다. 

 

lncRNA가 염색질 구조 변형을 통해 유전자 발현을 조절하는 예시
lncRNA가 전사과정 자체에 관여해 유전자 발현을 조절하는 예시

이처럼 lncRNA는 다양한 기작에 관여하여 유전자 발현을 조절하므로 암을 포함한 다양한 질병 표현형과도 높은 수준의 상관관계를 보이는 것으로 밝혀져 오고 있다. 따라서 lncRNA는 점차 중요한 연구주제가 되었고, 아래와 같이 다양한 방향에서의 연구가 이루어지고 있다.

 - lncRNA 연관 질병 예측

 - lncRNA와 miRNA, lncRNA와 protein. 사이의 상호작용 연구 

 - lncRNA의 DNA 결합 부위 예측 연구 

 

그러나 다양한 연구 중에 lncRNA가 타깃 하는 유전자를 찾는 computational 한 방법론은 아직 연구가 되지 않았다.

따라서 본 논문의 저자들은 DeepLGP 라는 방법론을 통해 어떤 lncRNA에 의해 어떤 유전자가 조절되는지, lncRNA의 타깃 유전자를 예측하고자 했다. 

 

본 논문에서 개발한 방법론은 lncRNA가 타겟하는 유전자를 찾는 데에

- 생물학적 배경 지식 

- 'guilty by association' 정보

를 반영하고자 했다. 

 

우전 생물학적 배경 지식으로 활용된 정보는 lncRNA, target 후보 유전자의 발현량과 각각의 유전체 상에서의 위치, 그리고 potential association 등이 있다.

유전자의 발현은 RNA-seq 데이터로부터 얻을 수 있고, 특정 lncRNA의 발현에 따라 유전자의 발현이 조절되었다면 두 유전자의 발현량 사이에 특이적인 상관관계가 관찰될 것을 기대할 수 있다. 그리고 이러한 조절 작용은 조직이나 기관 특이적이므로 본 연구에서는 13개의 조직으로부터 lncRNA, gene 발현량 데이터를 수집하였다. 

그리고 앞서 lncRNA가 염색질의 입체구조에 영향을 주는 방식으로 유전자 발현조절에 관여할 수 있다고 언급하였는데, 이러한 특성은 유전체 내 위치 상의 거리의 영향을 받기도 한다. 기본적으로 염색체 염색질은 인접한 지역과 높은 수준으로 상호작용하고, 경우에 따라 원거리 상의 조절작용이 발생하기도 한다. 그러나 그 빈도에 차이가 있기도 해 본 연구에서는 lncRNA,  유전자 각각의 유전체 상에서의 위치를 염색체의 종류, 염색체 상에서의 위치 정보로 변환하여 특성 데이터로 활용한다. 

lncRNA가 유전자의 발현을 조절하는 기작 중 하나가 miRNA를 통한 조절이었는데, miRNA는 micro RNA로 보통 번역 직전의 mRNA에 부착함으로써 해당 유전자의 발현을 억제하는 기능을 한다. miRNA와 lncRNA의 상호작용 정보, miRNA와 gene의 상호작용 정보는 각각 이미 데이터베이스화 되어있는데, 이를 바탕으로 miRNA를 매개로 하는 lncRNA와 유전자 간의 potential association 값을 생성하여 학습에 활용하고자 했다. 

 

 본 논문에서 'guilty by association' 정보 라고 표현한 것은 유전자의 상호작용 네트워크 정보를 의미하는 것이다. 저 표현 자체를 직역하면 연좌제 정도로 볼 수 있는데, 생물체 내에서 특정 표현형이 발현되는 과정에는 다양한 유전자들의 조절과 그로 형성된 pathway에 의해, 혹은 일련의 연쇄적인 작용을 통해 이루어진다. 이러한 정보를 반영하기 위해 gene network 정보를 반영하고자 했다. lncRNA가 유전자에 작용하는 과정 또한 특정 유전자에 직접 작용할 수 도 있고 여러 단계를 거쳐 영향을 미칠 수도 있기 때문이다. 

 

앞서 설명한 데이터를 활용해서 본 논문에서는 CNN 기반의 분류 모델을 구축하였다. 논문에서 위와 같은 figure를 제공하는데, 이 모델을 다음과 같이 크게 세 단계로 구분하고 있다. 

 

1. feature selection 

2. Network encoding using GCN

3. Model training using CNN

 

feature selection step에서 앞서 얘기한 13개 조직의 발현량, 염색체 상에서의 위치, miRNA 매개 potential association 점수를 수집한다. 모든 lncRNA, gene이 15개의 변수를 갖게 되고 모든 lncRNA-gene pair에 대해  miRNA 매개 potential association 점수가 계산된다. 

 

그리고 'guilty of association' 정보를 반영하기 위해  GCN이 수행된다. 이때 gene에 대해 만들어져 있던 15D 데이터들이 gene interaction network로부터 encoding 된 정보를 바탕으로 업데이트된다. (15D -> 15D' for gene)

 

최종 단계에서는 업데이트 된 gene의 15D' 데이터와 lncRNA의 15D 데이터, 그리고 두 pair에 대해 계산된 16번째 변수까지 [2X16] 데이터에 대해 CNN 모델을 학습시켜 두 lncRNA - gene 사이의 상호작용 여부에 대한 예측을 하는 모델이 만들어진다. 이 학습은 실험적으로 lncRNA - gene 간의 상호작용이 밝혀진 데이터를 활용해서 이루어졌다.

 

본 논문에서는 위와 같이 lncRNA - gene pair에 대해 두 분자 간의 조절작용의 존재 여부를 0, 1로 분류하는 문제라고 정의하고, 최종 출력층으로 2개의 노드를 설정, lncRNA가 유전자의 발현량을 조절하는지, 조절 과정에 영향을 줄 수 없는 상태인지를 예측하게 했다. 

 

논문의 결과로 본 논문은 GCN encoding, CNN 분류모델의 조합이 가장 높은 성능을 보이는 것을 밝혔다. 

 

또한 추가적인 실험을 통해 DeepLGP의 결과물이 생물학적으로 의미를 가지는지 여부를 검증하고자 했다. 저자들은 lncRNA의 유사도에 따른 target gene의 유사도, lncRNA target gene에 따른 연관 질병의 유사도 두 가지 상관관계를 통해 DeepLGP을 통해 lncRNA와 질병 사이의 상관관계를 설명할 수 있는 target 유전자를 예측해낼 수 있음을 밝히고자 했다. 0.14~0.43 사이의 상관계수를 구할 수 있었고 상관계수 자체는 significant 함을 보였다는 서술로 논문의 저자들은 DeepLGP의 결과물이 lncRNA와 연관된 질병 사이의 빈 곳을 메우는 역할을 할 수 있겠다고 얘기하고 있기는 한데, 개인적으로 논문을 읽으면서 한 생각은 계산된 상관계수가 크지 않고 (명확하지 않은 상관관계), 상관계수를 구하는 데 활용한 수치 또한 단순 overlap 유전자 수 정도로 엄밀하지 못하고 생물학적인 배경이 오히려 부족한 가설과 실험 도구를 활용했다고 생각된다. 

 

다만 유전체 상의 위치를 데이터화 해서 변수로 활용하는 방식이나, GCN을 활용해 Gene network 정보를 반영하는 것 등에서는 참고할 만한 점이 있어 보인다. 

 

 

References

https://www.nature.com/articles/s41580-020-00315-9

NONCODEV5, lncRNA annotation, 발현량 데이터 

http://www.noncode.org/

 

NONCODE

An integrated knowledge database dedicated to ncRNAs, especially lncRNAs.

www.noncode.org

BioGPS, 유전자 발현량 데이터 

http://biogps.org/#goto=welcome

 

BioGPS - your Gene Portal System

"Finally an app for Gene Jockeys, Cellheads, and Systems Wonks!"

biogps.org

RNAInter, miRNA 매개 상호작용 데이터 

http://www.rnainter.org/

 

http://www.rnainter.org/

 

www.rnainter.org

 

반응형