Morpheus로 hierarchical clustering 해보기 5단계

이번 글에서는 web에서 제공하는 Free software을 사용해서 hierarchical clustering을 간단히 테스해 보고자 한다.

이러한 방식은 Microarray와 같이 Expression profiling에서 사용된다. Microarray는 연구 대상 sample에서 대량의 유전자 발현 상황을 총체적으로 탐색하는 방법으로, 전사된 전사체(transcriptome)를 빠르게 분석할 수 있다. 연구대상 샘플을 준비해서 RNA를 추출하고 역전사 효소를 사용하는 cDNA를 합성한다. Microarray는 수 만 개의 유전자 조각들을 하나의 microarray에 놓을 수 있기 때문에, 전체 유전체에 대한 정보를 한번의 실험에서 얻을 수 있다는 장점이 있다.

발현 프로파일링 (Expression profile)은 유전자 발현의 양상과 패턴을 분석하는 것이다. 이는 유전자 발현의 양과 유형을 측정하여, 세포나 조직의 생물학적 상태를 이해하는 데 사용된다.

Clustering은 이들 다양한 샘플의 유전자 발현을 군집별로 계층화하는 것이라 할 수 있다.

이 소프트웨어는 Broad Institute에서 제공하는 다목적 매트릭스 시각화 및 분석 소프트웨어로 데이터세트를 heat map으로 확인 할 수 있다.  Morpheus에서 다양한 도구를 탐색할 수 있다: 예를 들면, 클러스터링, 새 주석 만들기, 검색, 필터링, 정렬, 차트 표시 등.

현재까지 30,000명 이상의 사용자100,000개 이상의 매트릭스가 분석되었다고 한다.

Morpheus
매트릭스의 시각화

1. 엑셀 파일로 데이터를 준비한다

분석하고자 하는 데이터를 .excel 형식으로 준비한다.

2. Morpheus 사이트에서 엑셀파일 업로드한다

파일 업로드 방식은 다양하다. 편할 대로 업로드 한다.

3. 업로드한 엑셀 파일 데이터를 확인하고 OK!

업로드가 완료되면 데이터 매트릭스가 보인다.

제대로 업로드 되었는지 확인하는 단계다.

4. Tools –> Hierarchical clustering 선택

업로드 한 데이터를 Tools 항목에서 군집 분석 종류 중 Hierarchical clustering을 선택한다.

계층적 군집화 Hierarchical clustering은 데이터 마이닝과 통계에서 군집 분석의 한 방법으로, 군집의 계층 구조를 구축하는 것을 목표로 한다. Hierarchical clustering의 결과는 일반적으로 덴드로그램으로 표시한다.

이는 계층적 트리 모형을 이용해 개별 개체들을 순차적, 계층적으로 유사한 개체 내지 그룹과 통합하여 군집화를 수행하는 알고리즘이다. 군집화(Clustering)란 데이터를 유사한 것끼리 묶어서 그룹을 만드는 것을 의미한다. 계층적 군집 분석은 비슷한 군집끼리 묶어 가면서 최종 적으로는 하나의 케이스가 될때까지 군집을 묶는 클러스터링 알고리즘인 것이다. 군집간의 거리를 기반으로 클러스터링을 하는 알고리즘이며, K-Means와는 다르게 군집의 개수가 정해지지 않아도 사용할 수 있다.

이 때 Columns을 할 지 Rows를 할 지 선택할 수 있고 몇 가지 선택 유형이 있다.

원하는 항목을 선택하고 OK 한다.

5. 결과를 이미지 형식으로 저장한다

보여지는 결과를 몇 가지 이미지 형식 (PDF, PNG, SVG)으로 저장할 수 있다.

원하는 형식으로 저장하면 컴퓨터의 “다운로드” 폴더에 저장된다.

추가로 세부 항목을 선택해 보자–> Cluster 타입 중 Columns & Rows 를 모두 선택한 후 저장해 본다.

분석 결과 해석

계층적 군집 분석
계층적 군집 분석

columns 으로 계층적 군집 분석을 해 본 결과다.

A와 D, B와 F, C와E가 먼저 묶이고, A/D와 B/F가 묶이고, C/E는 가장 나중에 군집화 된 것을 알 수 있다.

가장 발현 패턴이 유사한 집단끼리 묶인다는 것을 알 수 있다.

만약 A, B, C, D, E, F가 특정한 환자에서 얻은 약물 반응이라고 생각해 보자,

A와 D, B와 F, C와E가 각각 약물 반응이 유사하고, A/D와 B/F가 다음으로 유사, C/E의 약물 반응은 가장 다르다는 것을 알 수 있다.

이제 여러분의 데이터로 직접 해 보기 바란다.