Amino acid sequence alignment 방법 / Amino acid sequence alignment tool / Sequence alignment / NCBI BLAST사용법 (2)
1. Sequence alignment (염기서열 일치 분석)
오늘은 생물학 관련 연구를 하다 보면 꼭 알아야 하는 sequence alignment에 대해서 알아 보도록 하겠다. Sequence alignment 의 뜻은 각 염기서열 혹은 단백질 서열이 얼마나 일치하는지 확인하는 것을 말한다.
생물학 연구에서 필수적인 부분이다. 기초적인 부분에서는 내가 사용할 plasmid DNA의 서열이 정확한지 확인하는 것부터 복잡하게는 RNA-seq, CRISPR screening, Chip-seq 등의 macro data를 분석하는 것까지 모두 sequence alignment를 통해서 이루어진다.
오늘은 기초적인 부분을 포스팅 해보겠다. Sequence alignment를 할 수 있는 tool은 여러가지가 있지만 가장 기본적인 NCBI BLAST를 이용하는 방법을 살펴보자. BLAST는 Basic Local Alignment Search Tool 의 약자이다.
2. NCBI BLAST 종류
(1) Nucleotide BLAST : 염기 서열 간의 일치 분석
(2) Protein BLAST : 아미노산 서열 간의 일치 분석
(3) blastx : 염기 서열을 아미노산 서열로 번역 (Nucleotide sequence -> Protein sequence)
(4) tblastx : 아미노산 서열을 염기 서열로 변환 (Protein sequence -> Nucleotide sequence)
3. Protein BLAST – 데이터베이스에서 비교
Protein BLAST 역시 Nucletide BLAST와 사용법이 거의 비슷하다. 다만 A, T, C, G 가 아니라 amino acid sequence를 사용하는 것만이 다르다. 기본적인 인터페이스는 nucleotide와 같으며 사용법 역시 다르지 않다.
데이터베이스의 선택
Protein BLAST의 경우에는 제공하는 데이터베이스의 종류를 선택할 수 있다. 하지만 보통 모든 데이터베이스에서 검색이 가능한 non-redundant protein sequences (nr)을 선택한다. NCBI에서 검증한 reference protein (ref_protein)을 선택해도 좋다. 이는 reference database에서 찾기 때문에 모델이나 추정 서열은 모두 배제한다.
4. Protein BLAST – 내가 제공한 두 가지의 염기서열 비교
내가 제공하는 두 가지의 sequence 서열에서 일치를 비교하고 싶을 때는 위 그림에서 보이는 Align two or more sequences의 네모 박스를 체크한다. 그러면 sequence를 입력 할 수 있는 창이 두 개가 되며 각각 sequence를 넣고 alignment를 수행 하면 된다.