본문 바로가기

반응형

Concepts

(12)
Support Vector Machine 본 글은 An Introduction to Statistical Learning의 9 Support Vector Machines 챕터를 정리한 것입니다. SVM Classification approach : Maximal Margin Classifier의 generalized version Maximal Margin Classifier: Linear boundary 필요로 함: 모든 데이터셋에 적용 어려워 Support Vector classifier: MMC의 확장판ㅡ 보다 다양한 데이터들을 다룰 수 있게 됨 Support Vector Machine: SVC의 확장, non-linear class boundary 또한 다룰 수 있게 됨 9.1 Maximal Margin Classifier 9.1.1 W..
복제수변이(Copy Number Variants) 이해하기 복제수변이는 인간의 유전체 상에 발생할 수 있는 구조변이 (Structural Variants, seqeunce variants와 구별됨) 중 한 종류로 특정한 DNA segment에 대해 duplication 혹은 deletion이 발생되어 해당 segment의 유전체 내에서의 copy number에 변화가 생긴 것을 의미한다. 인간의 경우 엄마, 아빠로부터 난자, 정자가 결합하여 수정란이 만들어지고, 그 수정란의 발생으로 인간 개체가 형성되므로 유전체 상의 어떤 임의의 지역을 살펴본다고 가정했을 때, 그 지역은 copy number 2를 가지는 것이 일반적이다(repeat 등의 다른 유전체 상의 element를 고려하지 않음). 그러나 생물체의 유전체 내에서는 지속적으로 크고 작은 변이가 발생하는데 ..
Linear Model Selection and Regularization 본 글은 An Introduction to Statistical Learning의 Chapter 6. Linear Model Selection and Regularization 을 정리한 것입니다. 목차 1. Introduction 2. Subset selection 2.1. Best subset selection 2.2. Stepwise selection 2.3 Choosing the Optimal model 3. Shrinkage method 3.1. Ridge regression 3.2. The Lasso 3.3. Selecting tuning parameter 4. Dimension reduction 4.1. Principal component Regression 4.2. Partial least..
Methylome sequencing data 처리 워크플로우 차세대 시퀀싱 기술의 발달로~ 라는 서문을 많은 논문들이 사용해왔는데, 시퀀싱 기술의 발달은 비단 존재하는 DNA 분자의 염기서열을 밝히는 데에 그치지 않고, DNA 분자의 상태를 시퀀스 데이터 형태로 얻어낼 수 있게 했다. 그런 연구의 결실들이 다양한 종류의 프렙/call 과정을 변형시켜 만든 epigenetic feature 에 대한 시퀀싱 기법들이다. 생체 내의 특정한 상태를 데이터 형태로 얻고자 하는 연구 덕분에 염기서열을 밝히자 -> 발현량을 밝히자 -> 발현 기작을 밝히자 -> 발현 기작에 관여하는 특정한 염기서열, 단백질을 밝히자 하는 식으로 데이터를 활용한 연구의 영역이 점차 확장되고 있다. 오늘은 그러한 epigenetic feature 중에서도 DNA분자의 methylation 상태를 ..
불균형 데이터 처리를 위한 7가지 Over Sampling 기법들 본 포스트는 아래 글을 번역한 것입니다. https://towardsdatascience.com/7-over-sampling-techniques-to-handle-imbalanced-data-ec51c8db349f 7 Over Sampling techniques to handle Imbalanced Data Deep dive analysis of various oversampling techniques towardsdatascience.com 불균형 데이터를 처리하는 것은 모델을 트레이닝 할 때 직면하게 되는 주요한 과제이다. 분류 대상인 레이블의 균형은 분류 모델을 트레이닝 하는 과정에서 중요한 역할을 하는데, 트레이닝 데이터셋 내의 레이블이 불균형 상태로 존재하는 경우, 모델은 트레이닝 데이터셋 내의..
Understanding P-value from CAFE results CAFE (Computational Analysis of gene Family Evolution) 프로그램은 gene family 크기의 진화 과정을 확률모델을 활용하여 예측하는 프로그램이다. Gene family의 크기의 진화를 예측하는 것인 만큼, 이 진화 과정에서의 이벤트는 gene family의 Expansion, Contraction으로 구분되고, gene family 규모의 변화가 짧은 시간에 큰 폭으로 이루어진 경우, rapidly evolving gene family로 분류된다. Gene family의 expansion, contraction은 영문 뜻과 동일하게 gene family의 규모의 확장, 축소를 의미한다. Gene family 의 규모(size)는 gene family에 속한 ..
[통계] Likelihood, Likelihood ratio test (우도, 우도비검정) 생물체의 진화를 연구하는데에는 다양한 접근방식과 방법론이 있을텐데, 생물정보학에서 가능한 진화 연구 중에는 정도로 불리는 분석 방법이 있다. 생물체의 진화 과정을 생각하면 계통수 (phylogenetic tree)를 먼저 떠올릴 수 있을 것 같다. 여러 개의 종에 대해 얻어진 계통수 상의 특정한 branch 상에서 해당 branch에 특이적으로 positive selection이 된 변이들을 포함하는 유전자를 찾는 분석이 이다. 이 분석에 대해서 자세히 다루기 전에, 여기서 selection을 판단하는 데 활용하는 검정방법인 Likelihood ratio test (우도비검정)을 먼저 살펴보려고 한다. 1. Likelihood (vs Probability) 우리말로 번역하면 가능도, 우도.. 정도로 쓸 ..
데이터베이스 입문 1.1 데이터베이스 시스템의 응용 데이터베이스의 다양한 활용 예 판매: 고객, 상품, 구매 정보 관리 은행업무: 고객정보, 계좌, 예적금 등의 정보 및 은행업무 수행을 위한 트랜잭션 대학: 학생정보, 수강신청, 학점 정보 등의 학사관리 1.2 데이터베이스 시스템의 목적 초기 데이터베이스의 형태: 파일 시스템 대학 예시 교수, 학생, 학과, 수업에 대한 정보 보관 예시 다음과 같은 응용프로그램의 필요 새로운 학생, 교수, 수업 추가 수업에 학생을 등록하고 수업 명단 생성 학생에게 학점 부여, 평점 계산, 성적 증명서 생성 새로운 기능이 필요할 때마다 새로운 응용프로그램이 필요 파일 시스템에 정보를 저장했을 때의 단점 데이터 중복과 비일관성 데이터 중복 → 저장공간의 낭비 ex: 여러 과목을 듣는 학생의 인..
[Format] Hi, Sam!_v1 SAM 파일 포맷은 read data를 reference sequence에 mapping한 결과로 얻게 되는 sequence alignment 를 표현합니다. 많은 컬럼을 담는 만큼 많은 정보를 담고 있는 파일이라 1부, 2부로 분류해서 본 포스트에서는 이 포맷을 이해하는 의의, 이해 과정에 필요한 추가적인 개념과 sam format의 전반적인 형태, 담고있는 정보 일반을 전달하고 추후에 작성 될 2부에서는 sam format 내에 "flag", "CIGAR string"을 조금 더 자세히 다루고, mapping 프로그램에 따라 결과물을 살펴볼 때 주의해야 할 점 정도를 추가로 서술하게 될 것 같습니다. [요약] SAM FORMAT이 컬럼 별 담고있는 정보는 아래와 같습니다. SAM format - 생물..
F-statistics in population genetics 인간의 유전체는 22개의 상염색체쌍, 그리고 성염색체 2개로 구성되어있다(2n = 46). 쌍이라고 표현되는 것은 엄마-아빠로부터 물려받은 23개의 염색체가 쌍을 이뤄서 존재하기 때문이다. 23개 중 성염색체의 조합으로 우리의 성별이 결정되기도 한다. Heterozygosity는 엄마(n_m)-아빠(n_p)로부터 각각 한 세트 받아 구성된 자손의 유전체(n_m + n_p = 2n)내에서 특정 위치에 서로 다른 allele(대립유전자)을 가지는 상태를 의미한다. 발생 과정에서 쌍커풀을 만드는데 관여하는 유전자(A)가 있는데, 그 유전자 상에 특정 위치에 변이가 포함된 경우(a) 발생 과정에서 쌍커풀이 사라지게 된다고 가정했을 때, 어떤 개체가 양 부모로부터 A, A 를 물려받은 경우 쌍커풀을 가진 아기로 ..

반응형