Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

Sequence alignment란 DNA, RNA, 또는 단백질 서열 사이의

기능적, 구조적인 상관 관계를 밝혀 내기 위해서

서열을 비교하여 상호 유사한 구간을 찾는 과정이다

1. Sequence alignment (염기서열 일치 분석)

오늘은 생물학 관련 연구를 하다 보면 꼭 알아야 하는 sequence alignment에 대해서 알아 보도록 하겠다. Sequence alignment 의 뜻은 각 염기서열 혹은 단백질 서열이 얼마나 일치하는지 확인하는 것을 말한다.

생물학 연구에서 필수적인 부분이다. 기초적인 부분에서는 내가 사용할 plasmid DNA의 서열이 정확한지 확인하는 것부터 복잡하게는 RNA-seq, CRISPR screening, Chip-seq 등의 macro data를 분석하는 것까지 모두 sequence alignment를 통해서 이루어진다.

오늘은 기초적인 부분을 포스팅 해보겠다. Sequence alignment를 할 수 있는 tool은 여러가지가 있지만 가장 기본적인 NCBI BLAST를 이용하는 방법을 살펴보자. BLAST는 Basic Local Alignment Search Tool 의 약자이다.

우선 NCBI로 접속해 보자. (https://www.ncbi.nlm.nih.gov/). 오른쪽에 보면 popular resources에 BLAST라고 있는 것이 보일 것이다. 클릭하자.

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

클릭하면 아래와 같은 창을 확인 할 수 있다. 오늘 포스팅에서는 Web BLAST에 있는 4가지 중에 Nucleotide BLAST에 대해서 알아볼 것이다.

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

2. NCBI BLAST 종류

(1) Nucleotide BLAST : 염기 서열 간의 일치 분석

(2) Protein BLAST : 아미노산 서열 간의 일치 분석

(3) blastx : 염기 서열을 아미노산 서열로 번역 (Nucleotide sequence -> Protein sequence)

(4) tblastx : 아미노산 서열을 염기 서열로 변환 (Protein sequence -> Nucleotide sequence)

3. Nucleotide BLAST – NCBI 데이터베이스

이 BLAST를 이용해서 내가 제공한 sequence 정보가 NCBI에 업로드 되어있는 모든 sequence 정보와 일치하는 것이 있는지 검색할 수도 있고, 내가 제공한 두 개의 이상의 sequence가 일치하는지도 알 수 있다.

먼저 NCBI에 있는 데이터베이스에서 내가 제공한 sequence가 일치하는 것이 있는지 확인하는 방법부터 알아보겠다. Nucleotide BLAST를 클릭해보자.

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

1. 굳이 뒤로 가기를 누르지 않아도 앞서 설명한 BLAST의 종류를 선택할 수 있다.

2. 본인이 확인하고 싶은 Seqeunce를 입력하는 창이다. Sequence를 직접 입력해도 되고 NCBI acession number를 입력해도 된다. NCBI acession number에 대해서는 추가 포스팅을 하도록 하겠다.

3. 검색할 데이터 베이스를 선택 할 수 있다. 전체 데이터베이스를 선택하면 아무래도 오래 걸린다. 내가 원하는 데이터 베이스를 선택 가능하다. 예를 들면, cDNA database에서만 검색을 하거나 아니면 유전자에서만 검색을 하는 것이 가능하다. 이 부분은 아래에서 좀 더 자세히 다루도록 하겠다.

4. 새로운 창에 결과를 표시하게 하는 것이다. 보통 BLAST가 한번에 원하는 결과가 딱 나오기도 하지만 아닌 경우도 있기 때문에 다시 BLAST를 쓸 가능성이 높다. 따라서 클릭해주고 진행하자.

5. BALST를 시작하는 버튼이다.

데이터 베이스의 선택

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

데이터 베이스에는 여러가지가 있지만 많이 사용되는 것을 위주로 설명해 보겠다.

1) Nucleotide collection (nr/nt) : 이것은 GeneBank, EMBL, DDBJ, PDB, RefSeq 모두를 포함한 데이터베이스이다. 선택 가능한 것 중에 범위가 가장 크다고 생각하면 된다.

2) Reference RNA sequence (ref_rna) : NCBI Transcript Reference Sequences로 cDNA 데이터 베이스이다.

3) Heman RefSeqGene sequence (RefSeq_Gene) : 사람의 Referece gene 데이터 베이스이다.

여기서 Ref_Seq이라는 것은 reference seqeunce라는 뜻으로 NCBI staff들에 의해서 Review된 seqeunce이다. 즉 믿을 수 있는 seqeunce라는 뜻이다.

Organsim (종) 선택

바로 아래에 Organsim 에서는 종을 선택 하거나 제외 (ex Homo sapiens) 할 수 있다. 선택하지 않으면 전체 데이터베이스를 이용하여 검색하기 때문에 시간이 조금 더 소요된다.

결과를 새 창에서 표시 메뉴를 클릭하고 BLAST를 누르면 alignment가 시작된다. 결과 페이지를 보자.

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

Description 부분에 나오는 목록은 NCBI 데이터베이스에서 본인이 제공한 염기 서열 정보와 일치율이 높은 순서대로 결과가 표시된다. 클릭해서 들어가면 sequence를 자세히 볼 수 있다.

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

맨 위의 빨간 네모의 메뉴에서 보고 싶은 정보를 변화할 수 있다. 두 번째 빨간 네모에서는 alignment를 보여주는 형식을 바꿀 수 있다.

필자의 경우는 pairwise with dots for identities를 가장 선호한다. 이 형식은 일치하는 염기 서열을 점으로 표시하고 다른 부분의 염기서열을 붉은색으로 표시해준다. 그래서 틀린 부분을 한 눈에 파악하기 좋다.

4. Nucleotide BLAST – 내가 제공한 두 개의 염기서열

이번에는 내가 제공한 두 개 이상의 염기서열에서 얼마나 공통적으로 일치하는 부분이 있는지 확인하는 방법이다. 똑같이 Nucleotide BLAST로 들어가자.

Nucleotide sequence alignment 방법 / Nucleotide sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (1)

빨간 네모 칸에 보이는 Align two or more seqeunce의 네모 박스를 체크해주면 seqeunce를 입력할 수 있는 창이 두 개가 된다. 두 개의 seqeunce를 분석할 것이면 하나씩 넣어주고 BLAST를 눌러주면 된다.

물론 하나의 창에 여러개의 sequence를 넣어 한번에 분석할 수 있다. 하지만 Nucleotide BLAST 자체가 1:1 비교이므로 3개의 sequence의 공통된 부분을 찾아주진 않는다 (ex A:B or A:C 비교, A:B:C의 공통된 부분이 아님)

3개 이상의 염기서열의 공통된 부분을 찾아주는 tool에는 clustal X가 있다. 추후에 포스팅 하도록 하겠다.