Gene Set Enrichment Analysis GSEA 분석 5 단계: 특정 유형의 암과 관련된 유전자가 뭘까?

Gene Set Enrichment Analysis GSEA
Gene Set Enrichment Analysis GSEA

이번 글에서는 Gene Set Enrichment Analysis GSEA 유전자 세트 농축 분석에 대해 알아보고자 한다.

1. 유전자 세트 농축 분석(Gene Set Enrichment Analysis GSEA)이란

선험적으로 정의된 유전자 세트가 두 생물학적 상태(예: 표현형) 간에 통계적으로 유의하고 일치하는 차이를 보이는지 여부를 결정하는 전산 방법이다.

GSEA 분석 결과 중 Enrichment plot 이 논문에 많이 실린다.

위 예시된 GSEA 결과 중 중요 파일은 gsea_report_for 로 시작하는 엑셀 파일이다 _for conrol 대조군 파일은 대조군에서 유의한 gene set, _for test 실험군 파일은 실험군에서 유의한 gene set이다.

_for control 대조군 파일에는 enrichment score ES 와 Normalized enrichment score (NES) 가 음수 _for test실험군 파일에는 ES 와 NES 는 양수 다 음수 양수와 관계없이 NES 의 절대값이 큰 순서로 ranking 되어 있 다.

음수는 DOWN ranking 하위 에서 core gene 의 밀집도가 있다는 것을,

양수는 UP ranking 상위 에서 core gene 의 밀집도가 있다는 것을 의미 한다.

Enrichment plot 이미지에서 세로 선이 해당 gene set 에 포함된 유전자들이며 fold change 순으로 나열된다.

Peak 가 왼쪽에 생기면 대조군 대비 실험군에서 up 된 유전자들이 많다는 의미이고,

peak 가 오른쪽에 생기면 down 된 유전자가 많다는 의미이다

2. 농축 점수(Enrichment Score, ES)란?


유전자 집합 농축 분석의 주요 결과는 농축 점수(ES)로, 순위가 매겨진 유전자 목록의 상단 또는 하단에 유전자 집합이 표현되는 정도를 반영한다. GSEA는 순위가 매겨진 유전자 목록을 따라 내려감으로써 ES를 계산하고, 유전자가 유전자 세트에 있을 때 누적 합계 통계를 증가시키고 그렇지 않을 때 감소시킨다.

증가분의 크기는 유전자와 표현형의 상관관계에 따라 다르다. ES는 목록을 탐색할 때 발생하는 0으로부터의 최대 편차로 나타낸다.

양성 ES는 순위 목록의 맨 위에 있는 유전자 세트 농축을 나타낸다. 반대로 음의 ES는 순위 목록의 맨 아래에 있는 유전자 세트 농축을 나타낸다.

분석 결과에서 농축 플롯은 유전자 세트에 대한 농축 점수를 그래픽으로 보여주는 것이다.

3. GSEA을 사용하는 이유는?


유전자 세트 농축 분석 Gene Set Enrichment Analysis(GSEA)는 위에서 설명했듯이 주어진 데이터 세트에서 특정 유전자 세트 또는 생물학적 경로가 통계적으로 풍부한지 여부를 결정하기 위해 생물 정보학 및 유전학에서 사용되는 계산 방법이다.

이 분석법은 연구자들이 유전자 발현 데이터의 기능적 중요성을 알고 관련된 생물학적 기전을 밝히는 데 도움이 된다.

예를 들어 여기 수 천 권의 책으로 가득 찬 거대한 도서관이 있다. 각 책은 우리 몸의 유전자를 뜻한다. 이 도서관의 서로 다른 선반을 서로 다른 생물학적 경로 또는 특정 기능을 수행하기 위해 함께 작동하는 유전자 집합이라고 가정해 보자.
이를테면, 어떤 선반은 세포 성장과 관련된 유전자 집합을 나타내고, 또 다른 선반은 면역 반응과 관련된 유전자 집합을 나타낸다는 식이다.

다음으로 누군가가 특정 질병에 걸렸을 때와 같이 특정 상황에서 도서관에 있는 이들 선반 중 어떤 선반이 더 중요하거나 활동적인지 알아보고 싶다고 가정해 보자.

이런 가정에서 GSEA 분석이 유용하다. GSEA는 라이브러리(유전자 발현 데이터 세트)의 특정 선반(유전자 세트)이 해당 특정 상황(실험 조건, 혹은 어떤 질병)에서 상당히 풍부하거나 과도하게 발현되었는지 조사하는 데 사용한다.

GSEA를 수행하기 위해 유전자 및 해당 발현 수준 목록인 유전자 발현 데이터 세트로 시작하며, 이 데이터 세트는 건강한 조직과 질병이 있는 조직 또는 약물 치료 전후 즉 대조군과 실험군의 유전자 발현을 비교하는 것과 같은 다양한 실험에서 사용할 수 있다.

4. GSEA의 분석 주요 5 단계

다음은 GSEA의 분석 단계를 간단히 정리해 본 것이다.

1.유전자 순위를 매긴다: 먼저 발현 수준에 따라 데이터 세트의 유전자 순위를 매긴다. 이것은 가장 많이 발현된 유전자부터 가장 적게 발현된 유전자까지 배열하는 것을 의미한다. 순위는 데이터 세트에서 더 활성화되거나 중요한 유전자를 식별하는 데 유용하다.

2. 유전자 세트를 선별한다: 다음은 조사할 유전자 세트 또는 경로를 선택하는 것이다. 예를 들면, DNA 복구, 세포 주기 조절이나 세포사멸 같은 특정 생물학적 과정과 관련된 사전에 정의된 유전자 세트가 될 수 있다. 공개적으로 제공되어 사용가능한 다양한 유전자 세트 데이터베이스를 통해 이와 같은 사전 정의된 유전자 세트를 선택할 수 있다..

3. 농축 점수를 계산한다: 이제 선택한 유전자 세트에 대한 농축 점수를 계산한. 농축 점수는 유전자 세트의 유전자가 순위 목록의 상단 또는 하단에 얼마나 강력하게 집중되어 있는지 알려준다. 농축 점수를 계산하기 위해 누적 합계를 추적하면서 순위 목록 유전자를 유전자별로 이동한다. 합계는 유전자 집합에서 유전자를 만나면 증가하고 그렇지 않으면 감소한다. 농축 점수는 유전자 세트와 발현 데이터 사이의 상관 정도를 반영한다.

4. 통계적으로 유의한지 평가한다: 농축 점수가 통계적으로 유의한지 확인하려면 우연히 기대하는 것과 비교하는데, 이것은 순열 테스트 또는 무작위 테스트라는 통계 테스트를 수행하여 이루어진다. 이 테스트에서는 발현 데이터 세트의 유전자 레이블을 여러 번 무작위로 섞고, 각 섞기의 농축 점수를 다시 계산하고, 점수의 null 분포를 만든다. 그런 다음 관찰된 농축 점수를 이 null 분포와 비교하여 중요성을 평가한다.

5. 결과를 해석한다: 마지막으로 GSEA 결과를 해석한다. 농축 점수가 유의미하게 양수이면 유전자 세트가 순위 목록의 맨 위에 농축되어 있음을 의미하며, 이는 세트의 유전자가 실험 조건에서 더 활성이거나 중요함을 의미한다. 반면 농축 점수가 상당히 음수이면 순위 목록의 맨 아래에 있는 유전자 세트가 풍부하다는 것을 의미하며, 이는 세트의 유전자가 실험 조건에서 덜 활성이거나 중요함을 의미한다.

예를 들어 보자. 특정 유형의 암과 관련된 유전자가 뭘까 궁금하다고 치자.

그래서 암 조직 샘플과 건강한 조직 샘플에서 유전자 발현 데이터를 확보하고, 세포주기 조절과 관련된 유전자 세트를 사용하여 GSEA를 수행한다.

발현 수준에 따라 유전자 순위를 매긴 후 세포 주기 유전자 세트에 대한 농축 점수를 계산한다. 농축 점수는 상당히 긍정적인 것으로 나타났는데, 이 결과는 세포 주기 조절에 관여하는 유전자가 건강한 조직 샘플에 비해 암 조직 샘플에서 더 활성화되거나 중요하다는 것을 보였다는 것이다.

이러한 결과를 바탕으로 세포 주기 경로가 암의 발달 또는 진행에 중요한 역할을 할 수 있다고 생각할 수 있으며, 관련 기전을 더 잘 이해하고 잠재적으로 암 치료를 위한 새로운 표적을 식별하기 위해 이러한 유전자들을 추가로 조사할 수 있게 되는 것이다.

Leave a Comment