[요약]미국 메사추세츠공과대(MIT) 연구팀은 개별 아미노산이 어떻게 단백질의 기능을 결정하는지를 쉽게 계산할 수 있는 모델을 개발했다. 이는 새로운 단백질을 설계하고 시험하는데 사용할 수 있다. (2019.03)
MIT 연구팀은 아미노산 체인의 세그먼트가 어떻게 단백질의 기능을 결정하는지 알아내는 기계 학습(머신 러닝) 모델을 만들었다. 이는 연구자가 약물 개발 또는 생물학 연구를 위해 새로운 단백질을 설계하고 테스트하는데 도움을 줄 수 있다.
단백질은 펩타이드 결합으로 연결된 아미노산의 선형 사슬이다. 이 사슬 내의 순서나 물리적 상호 작용에 따라 매우 복잡한 3차원 구조로 접힌다. 이 구조는 단백질의 생물학적 기능을 결정한다. 따라서 단백질의 3차원(3D) 구조를 알아낼 수 있다면 단백질이 특정 약물에 어떻게 반응하는지 예측해낼 수도 있다.
하지만 수십 년에 걸친 연구와 다중 이미징 기술의 발전에도 불구하고, 우리는 수백만 종의 단백질 구조 중 수만 가지 정도만을 알고 있다. 연구자들은 이를 해결하기 위해 아미노산 서열을 기반으로 단백질 구조를 예측하는 기계 학습 모델을 사용하기 시작했다. 문제는 다양한 아미노산 서열들이 매우 유사한 구조를 갖고 있는데다, 모델을 훈련시킬 수 있는 구조가 많지 않다는 점이다.
MIT연구팀은 초기에 3D 단백질 구조를 훈련 지침으로 사용하면서 단백질 서열의 각 아미노산 위치를 쉽게 계산할 수 있는 표현을 ‘배우는 법’을 개발했다. 이런 기계 표현 모델은 단백질 구조에 대한 데이터를 다시 요구하지 않으면서 개별 아미노산 세그먼트의 기능을 예측하는데 도움이 되도록 표현을 사용할 수 있도록 해준다.
앞으로 이 모델은 연구자들에게 특정한 아미노산 세그먼트를 더 잘 활용하고 수정할 수 있는 기회를 주면서 단백질공학의 개선에 사용될 것으로 기대를 모은다. 일각에서는 이 모델이 단백질 구조 예측에서 연구자들의 관심이 줄어들게 할 것이라는 예측도 나온다.
MIT 컴퓨터과학 및 인공지능연구소(CSAIL)의 대학원생 트리스탄 베플러는 “우리는 단백질이 하는 일을 알고 싶어 하고, 이를 위해서는 구조를 알아야 한다”면서 “아미노산 서열만 주어진 단백질의 기능을 예측하는 방법을 개발할 필요가 있다”고 말했다.
지금까지의 연구에서는 단백질 구조를 직접 예측했다. 하지만 MIT 연구팀은 예측된 단백질 구조 정보를 표현으로 인코딩했다. 이 과정에서 모델은 특정 아미노산의 기능의 학습하고, 알려져 있는 단백질의 구조적 유사성을 이용해 정확하게 작업이 이뤄지고 있는지를 파악한다.
연구팀은 단백질 구조 분류(SCOP) 데이터베이스에 있는 약 2만2000개의 단백질을 이용해 모델을 훈련시켰다. 이어 연구팀은 단백질 구조와 아미노산 서열의 무작위 쌍을 짝지어서 임베딩이라고 하는 수치 표현으로 변환했다. 자연어 처리에서 임베딩은 본질적으로 수백 개의 숫자로 이루어진 테이블을 하나의 문장에서 문자 또는 단어에 해당하는 방식으로 조합한 것이다. 비슷한 두 가지 임베딩은 문자 또는 단어가 문장에 함께 나타날 가능성이 높다. 이 연구에서 각 임베딩은 각각의 아미노산 서열이 다른 것과 얼마나 유사한 지에 대한 정보를 담고 있다. 모델은 두 개의 임베딩을 정렬하고 유사성 점수를 계산해 3D 구조가 얼마나 유사한지 예측한다. 이와 함께 모델은 각 임베딩에 대한 ‘접촉(컨택트) 맵’을 예측한다. 예측된 단백질의 3차원 구조에서 각 아미노산이 얼마나 멀리 떨어져 있는지를 나타내는 것이다. 이는 아미노산이 단백질의 어느 구조에 속하는지를 파악하고 각 아미노산의 기능을 알아낼 수 있도록 도와준다.
이런 과정을 거쳐 하나의 입력된 아미노산 사실에 대해 모델은 3D 구조의 각 아미노산 위치에 대해 하나의 수치 표현 또는 임베딩을 생성해낸다. 그 다음 기계 학습 모델은 이를 이용해 3D 구조로 각 아미노산의 기능을 예측한다.
스탠퍼드대 컴퓨터과학과 세라핌 바토글로 교수는 “이들의 연구는 단백질 서열의 국부적인 구조적 특성을 나타내는데 중요한 진전”이라고 평가했다.
(원문: 여기를 클릭하세요~)