본 글은 ISMB2022 에서 발표된 포스터 에 대한 리뷰입니다.
https://drive.google.com/file/d/1sxP-WYLebeaW2nrt_MvsxGUyL23klMtz/view
YouWuMLCSBposter_20220705155209.pdf
drive.google.com
Background: drug screening
본 포스터에서 drug screening 이라는 용어가 사용됩니다. 일반적으로 screening 이라는 용어는 약학, 화학, 생물학 등의 다양한 분야에서 물질의 효과를 발굴해내는 작업들에 광범위하게 사용되는데, 물질의 특성을 밝히는 큰 틀에서의 실험의 한 종류라고 보면 될 것 같습니다. 해당 작업의 목적에 따라 여러 유형의 screening 으로 구분되고 세부적인 실험들이 그 하위에서 구성되는데, drug screening 이라고 하면 신약 후보물질의 효과를 입증하거나, 부작용을 파악하는 등의 경우가 있을 수 있겠습니다.
본 포스터에서 언급되는 drug screening은 introduction 부분에서는 일반적으로 신약물질에 대한 효과를 찾는다는 광범위한 의미로 사용된 것 같은데, 본 연구에서 개발된 모델이 수행하고자 하는 drug screening 은 후보물질에 대한 개별 환자들의 유전자 발현 측면에서의 반응을 밝히는 것 을 의미합니다.
Abstract
신약개발의 과정에서 새로운 화합물을 투약했을 때 환자 특이적으로 어떤 반응이 나타날 지 예측하는 일은 매우 중요합니다. 다양한 방법론들이 이 문제를 해결하기 위해 개발되고 있으나, 기계학습 모델을 활용한 접근은 데이터 부족을 통해 쉽지 않은 것으로 알려져 있습니다.
본 포스터에서는 새롭게 개발한 Context-aware deconfounding autoencoder, CODE-AE 모델을 제시하고, 이 모델을 활용하여 다른 요소들에 의해 가려져 있던 “common biological signal” 을 추출해 낼 수 있음을 다양한 결과를 통해 보여주고 있습니다.
본 연구에서 개발된 CODE-AE를 활용해 저자들은 50개의 약물에 대한 9,808명의 환자반응을 스크리닝하였고, 개인화 된 처방의 가능성을 확인, 특정 약물에 반응하는 biomarker 를 발굴할 수 있었다고 합니다.
Main problem
신약 물질에 대한 환자 개개인의 실제적인 반응(in-vitro 등의 실험 세팅 상에서의 반응이 아닌)을 예측하는 것
CODE-AE method
CODE-AE의 목표는 label이 되어있는 세포주의 약물 반응 데이터를 기반으로 약물에 노출된 적 없는 환자 개인의 임상의학적 반응을 예측해내는것입니다.
CODE-AE는 다음과 같은 네 단계로 구성되어 있습니다 (Figure 1).
(1) 세포주 별 약물 반응으로 얻어진 유전자 발현 데이터와 약물 처리가 되어있지 않은 상태의 환자 개인 유전자 발현 데이터를 embedding space 에 mapping 시킨다.
(2) deconfounding을 통해 교란변수 (confounding factor)를 분리해낸다.
(3) 임베딩 되고, 교란변수의 분포가 제거된 세포주 임베딩 데이터와 환자 임베딩 데이터를 같은 공간에 정렬(alignment)한다.
(4) (3)에서 같은 공간에 정렬된 세포주 임베딩 데이터로 지도학습 모델을 학습시키고 (약물에 대한 반응 label이 존재), 이 모델을 (3)의 환자 임베딩 데이터에 대한 예측을 생성하게 해 최종적으로 환자의 약물 반응을 예측한다.
CODE-AE는 위와같은 일련의 과정을 통해 교란변수가 제거된 분포로부터 비선형 임베딩 함수를 학습합니다(직역 죄송합니다..). 이 임베딩 함수는 고차원 데이터인 세포주 별 혹은 환자 별 유전자 발현 데이터 (세포주*유전자 수, 환자 수*유전자 수)를 저차원의 벡터화 하여 두 종류의 임베딩된 데이터 분포가 유사하도록 생물학적으로 유의미한 신호만을 추출합니다. 두 종류의 데이터 중 세포주 데이터는 약물에 대한 반응이 label 되어 있고, 환자 데이터는 그렇지 않은데, 본문에서는 이 두 데이터 모두를 활용하여 임베딩 함수를 학습시킴으로써 unlabeled 데이터에 대한 generalization이 가능하다는 식으로 언급하고 있습니다. 또한 두 데이터를 aligning 하는 과정이 포함되어 있어 OOD problem(out of distribution, 학습 데이터에는 포함되지 않았던 class가 포함된 데이터가 테스트 데이터에 포함되는 문제-참고)에서도 자유롭다고 합니다.
CODE-AE의 기본적인 구조는 다음과 같습니다 (Figure 2).
- Tissue / Cell line private encoder 에서 각각 환자, 세포주의 유전자 발현량 데이터가 private 임베딩 과정을 통해 개별 데이터의 특성을 추출할 수 있도록 하는 학습이 이루어집니다.
- 그림 (a) 좌측 중간에 환자, 세포주 데이터를 함께 받는 layer-shared encoder는 두 데이터를 받아 common한 생물학적인 정보를 추출해 낼 수 있도록 학습됩니다.
- 그림 (a)의 우측 상단의 decoder D는 layer-shared encoder 의 임베딩 결과와 각각의 private encoder의 임베딩 결과를 concatenation 한 것으로부터의 복원을 수행하도록 학습됩니다.
- Shared encoder은 분류 모델과도 연결되어 약물에 대한 반응 label 예측을 수행할 수 있도록 하였습니다 (그림 a 중간 부분).
Summary
- 본 연구에서는 약물에 대한 환자의 반응을 예측하는 drug screening 문제를 해결하기 위해 COntext-aware DEconfounding AutoEncoder 라는 새로운 모델 구조를 제안하였습니다.
- CODE-AE는 이름에서 언급된 것 처럼 세포주, 환자 데이터 각각에 대한 임베딩 수행을 통해 Context-aware 한 feature를 추출하고, shared layer를 활용해 세포주, 환자 데이터의 분포를 유사하게 만드는 과정을 통해 deconfounding을 수행, 그 두 데이터를 연결한 것으로부터 reconstruction decoder를 학습시켜 개별 데이터의 context 특이적인 정보와 두 데이터의 생물학적으로 common 한 정보를 추출할 수 있도록 했습니다.
- Shared encoder로부터 추출된 특성으로부터 약물반응 예측 모델을 학습시키고, 이를 환자 데이터에 적용시켜 약물 처리를 경험하지 않은 환자에 대한 약물반응을 예측할 수 있도록 했습니다.
- 본 연구는 세포주로부터 수집한 유전자 표현형 데이터의 일반화를 통해 label이 없는 환자 표현형 데이터에 대한 약물반응 예측을 가능하게 하였고, 이는 신약개발 및 개인맞춤의학 분야에서 중요한 zero-shot learning (학습 중에 관찰되지 않은 클래스의 샘플을 관찰하고 그 클래스를 예측 - 본 연구에서는 label이 없는 데이터에 대해 label을 생성, wiki)을 가능하게 하였습니다.