딥마인드, 단백질 구조 예측 AI ‘알파폴드’ 공개

 

PCNA (Proliferating Cell Nuclear Antigen) 단백질 3차 구조 (sourceProtein Data Bank).

 

바둑 인공지능(AI) 알파고를 개발한 구글 딥마인드가 이번에는 단백질의 형태를 예측하는 AI프로그램을 만들었다고 발표했다.

3일 영국 일간 가디언에 따르면 딥마인드는 2일(현지시간) 멕시코 칸쿤에서 열린 단백질 구조 예측 학술대회(CASP)에서 단백질의 아미노산 결합구조를 3D(입체) 형태로 예측하는 AI프로그램 ‘알파폴드(AlphaFold)’를 공개했다.

단백질은 모든 생명체를 구성하는 아미노산 복합체이다. 20가지 아미노산들이 비틀어지고 구부러져 서로 연결되는 방식으로 형성된다. 단백질의 기능은 그 구조와 긴밀히 연결돼 있는데, 단백질 구조는 긴 사슬처럼 연결된 아미노산이 용수철 모양으로 말리거나 접히면서 공 모양의 입체구조가 돼야 생물학적 기능을 수행한다. 기능도 결합 구조와 개수에 따라 달라진다. 다양한 결합구조를 통해 신체의 운동을 조절하고 호르몬의 신호 전달자와 같은 역할을 수행한다. 단백질이 사람의 몸속에서 자신만의 입체구조를 형성하는 일련의 과정이 단백질 접힘이다.

잘못 접혀진 단백질 구조 때문에 알츠하이머 치매나 파킨슨병 같은 뇌질환이 나타나는 것으로 알려졌다. 아미노산 결합 구조에 따라 단백질이 어떤 역할을 하는지, 단백질이 잘못 접히는 형태에 따라 어떤 질병이 생기는 지를 통해 단백질과 관련된 각종 질병들의 발병 원인이 무엇인지 밝혀낼 수 있다. AI가 ‘단백질 접힘’ 원인 등을 규명하면 치료에도 한 발 더 다가갈 것으로 의학계는 기대하고 있다.

딥마인드는 알파폴드를 구축하기 위해 사람의 뇌 기능을 모방한 신경망을 활용했다. 단백질의 입체구조를 예측할 수 있을 때까지 신경망에 단백질 정보를 입력했고 아미노산만으로 수천 개의 단백질을 식별하는 훈련을 시켰다.

새로운 단백질이 제시되면 알파폴드는 신경망을 이용해 아미노산 사이의 거리와 이를 연결하는 화학 결합 간의 각도를 예측한다. 예측한 각도와 거리를 기반으로 3D형태의 단백질을 보여준다. 연구자들은 AI에 충분한 정보가 쌓이게 되면 단백질의 아미노산 구조를 분석해 그 차이점을 밝힐 수 있을 것으로 예상된다.

리암 맥거핀 영국 레딩대 박사는 “단백질이 어떻게 접히는지 예측하는 것은 엄청난 일이다”며 “이론적으로 생명과 관련된 어떤 것이라도 고칠 수 있게 된다”고 말했다.

데미스 하사비스 딥마인드 공동설립자는 “’알파폴드’에 아미노산 결합 구조 정보가 충분히 쌓이면 아미노산 결합 구조에 따른 단백질 간의 차이점을 밝힐 수 있다”며 “단백질 접힘과 관련된 문제를 해결하는 첫 걸음이 될 것”이라고 밝혔다.

구글 AI가 의학분야로 방향전환을 할 것이란 전망은 지난해 말부터 나왔다. 지난 5월에는 딥마인드와 런던칼리지대 연구진은 동물 뇌에서 위치 감각을 담당하는 신경세포 기능을 모방해 포유류와 같은 길찾기 능력을 가진 AI를 개발했다고 국제학술지 네이처에 발표했다.

 

 

(원문: 여기를 클릭하세요~)

 

 

 

 

‘알파고’ 이어 ‘알파폴드’ 등장

 

 

구글 자회사인 구글 딥마인드(Google DeepMind)는 인공지능 바둑 프로그램 알파고(AlphaGo)를 통해 인간의 자존심이었던 바둑의 세계를 초토화시킨 것으로 유명하다.

이 딥마인드가 지금 과학계를 정조준하고 있다. 3일 ‘가디언’ 지에 따르면 딥마인드는 새로운 인공지능 프로그램 ‘알파폴드(AlphaFold)’를 개발했다. 이를 통해 모든 생물의 몸을 구성하고 있는 단백질을 분석하고 있는 중이다.

이 같은 사실은 2일 멕시코 칸쿤에서 시작된 한 비공개 컨퍼런스에서 밝혀졌다. 관계자들은 “딥마인드의 계획대로라면 머지않아 극도로 복잡한 단백질 구조를 3D 형상으로 분석하고 건강한 단백질을 예측해낼 수 있다”며 “과학자들이 크게 놀라고 있다”고 말했다.

 

인공지능 회사인 딥마인드에서 단백질의 구조를 3차원적으로 규명해내기 위한 프로그램인 ‘알파폴드’를 개발했다. 사진은 구형단백질 ‘미오글래빈’의 3차원 구조. ⓒ Wikipedia

 

“알파폴드 프로젝트에 과학계 큰 충격”

단백질은 수많은 아미노산의 연결체다. 20가지의 서로 다른 아미노산들이 펩타이드 결합이라고 하는 화학 결합을 통해 길게 연결돼 폴리펩타이드 사슬을 형성하게 된다. 그리고 이 사슬이 1차·2차·3차·4차 구조를 이루면서 고유한 기능을 갖게 된다.

이런 무한대에 가까운 결합 구조로 인해 그동안 과학자들은 초정밀 컴퓨터‧영상장치 등을 활용, 다양한 방식으로 단백질 구조와 기능을 규명해왔다.

그 방식 중의 하나가 ‘단백질 접힘(protein folding)’이다. 선형의 아미노산 복합체인 단백질이 개개의 단백질에 고유한 접힌 구조(folded structure or native structure)를 만드는 과정을 말한다.

많은 과학자들을 통해 지난 수십여 년 동안 단백질 접힘을 결정하는 화학 원리를 이해하려는 노력이 꾸준히 이루어져 왔다.

특히 1980년대 들어서는 단백질 공학을 적용, 유전자 조작을 통해 단백질의 특정 아미노산을 다른 아미노산으로 바꾸었을 때 이 변화가 어떤 영향을 주는지를 연구할 수 있게 되면서 단백질 접힘 연구가 급진전을 이루게 되었다.

 

알파고(AlphaGo)는 바둑을 통해 인공지능의 우수성을 널리 알리는 역할을 했다. 이후 개발된 알파폴드 역시 과학계로부터 큰 관심을 불러일으키고 있다. ⓒ Wikimedia

 

이후 수많은 연구 결과를 통해 상당량의 정보가 축적되고 이 현상에 대한 이해가 깊어졌다. 그러나 무한대에 가까운 단백질 구조의 복잡성으로 인해 해결된 질문보다 더 많은 질문이 남아 있는 상태다.

이에 과학자들이 힘을 모으고 있다. 생화학계는 물론 이론화학, 물리학, 전산과학, 정보이론 등의 다양한 학문 분야에서 단백질 접힘을 규명하기 위한 대규모 학제 간 연구가 진행되고 있는 중이다.

이런 상황에서 딥마인드의 ‘알파폴드’가 등장했다. 컴퓨터를 통해 단백질의 구조와 기능을 예측할 수 있다는 발언에 과학계가 크게 놀라고 있다.

 

“생물‧의학‧환경‧생태 분야 등에 큰 영향”

딥마인드의 공동설립자인 데미스 하사비스(Demis Hassabis) CEO는 ‘가디언’ 지와의 인터뷰를 통해 “‘알파폴드’ 프로젝트는 과학이 풀지 못한 매우 중요하고 실질적인 문제를 풀기 위한 첫 번째 프로젝트”라고 밝혔다.

하사비스에 따르면 단백질의 3D 입체 형상은 단백질을 구성하고 있는 아미노산의 종류와 수에 따라 결정된다.

심부전 세포(heart cells) 단백질을 예로 들면, 혈액 속의 아드레날린 성분을 감지할 경우 심박 수가 급격히 높아질 수 있도록 특정 아미노산으로 정교하게 구성돼 있다. 면역기능, 근육, 감각세포 등도 마찬가지다.

만일 이들 단백질 구조에 문제가 발생할 경우 당뇨병, 파킨슨, 알츠하이머와 같은 난치병이 발생한다.

하사비스는 “만약 단백질 내부 구조를 들여다보게 될 경우, 단백질 접힘의 정상 여부를 판단할 수 있다”고 주장했다.

그는 생물학 기계인 ‘알파폴드’를 통해 단백질 접힘을 규명해낼 경우, 난치병의 발병 원인이 무엇인지 밝혀낼 수 있을 것으로 내다봤다. 이는 질병을 퇴치할 수 있는 새로운 방법으로 이어진다는 것이다.

하사비스는 특히 미세 먼지로 인한 공해 및 미세 플라스틱으로 인한 질병을 알아내고 퇴치하는데 큰 관심을 표명했다.

딥마인드는 이 프로젝트를 수행하기 위해 단백질 접힘 올림픽이라고 할 수 있는 ‘단백질 구조 예측 학술대회(CASP8)’에도 참가한 바 있다. 학술대회에 참가한 연구팀들을 통해 단백질 접힘과 관련된 정보를 수집하기 위해서다.

 

뛰어난 분석력을 가진 인공지능이 그동안 미지에 싸여 있던 단백질의 구조를 밝히는 데 큰 역할을 할 것으로 보인다. 이는 생물학, 의학은 물론 건강, 생태, 환경 등 관련 분야에 큰 영향력을 줄 것으로 보인다. ⓒ Pixabay

 

관계자들은 이렇게 수집한 정보들을 분석해 그동안 미지에 싸여 있던 단백질의 구조를 밝혀낼 수 있을 것으로 보고 있다.

‘알파폴드’를 구축하기 위해 딥마인드에서는 사람의 뇌 기능을 모방한 뉴럴 네트워크(neural network)를 적용했다. 현재 이 신경망에 수많은 단백질 정보를 입력, 그 구조를 3D 형태로 식별해 내는 훈련을 시키고 있는 중이다.

관계자들은 이 인공지능 시스템에 충분한 정보가 주어지고 전체 단백질 구조를 파악해 진단할 수 있다고 판단되면, 어느 시점에서 단백질 내의 아미노산 구조를 정밀 분석해 그 차이점을 밝혀낼 수 있을 것으로 보고 있다.

이런 소식이 알려지면서 많은 과학자들이 기대감을 표명하고 있는 중이다. 레딩 대학의 리암 맥거핀(Liam McGuffin) 교수는 “딥마인드가 드디어 과학계에 발을 들여놓기 시작했다”며, “향후 단백질 연구에 활력소가 될 수 있을 것”으로 전망했다.

그는 또 “‘알파폴드’ 프로젝트가 성공을 거둘 경우 21세기에 당면한 연구 과제를 풀 수 있는 기폭제가 될 것”이라며, “생물학, 의학은 물론 건강, 생태, 환경 등 관련 분야에 큰 영향력을 줄 것”으로 예상했다.

 

 

(원문: 여기를 클릭하세요~)

 

 

 

아래는 2023년 1월 5일 뉴스입니다~

(원문: 여기를 클릭하세요~)

 

세상에 없는 단백질 만드는 인공지능… “신약 개발 패러다임 바꾼다”

자연어처리 AI 도입해 단백질 구조 생성
“단백질 기반 신약 개발 속도 빨라질 것”

자연어처리 기반 단백질 구조 생성 AI로 만든 단백질들. 다양한 단백질 구조를 만들어 신약 후보 물질로 사용하면서 의약품 개발의 패러다임이 바뀔 것으로 기대를 모으고 있다./제너레이트 바이오메디신스

소셜미디어(SNS) 페이스북을 운영하는 글로벌 IT 기업 메타가 지난해 11월 논문 사전출판 사이트인 아카이브(arViv)에 저연어처리 인공지능(AI)인 ‘ESM-2′으로 단백질 6억1700만개의 구조를 예측한 결과를 공개했다. 이는 구글 자회사인 딥마인드의 AI 알파폴드가 지난해 발표한 2억1400만개를 능가하는 수치다. 예측 속도도 알파폴드보다 60배 더 빨랐다. 메타의 이번 연구는 자연어처리 AI의 쓰임새를 생물학으로 넓혔다는 평가를 받는다.

글로벌 IT(정보기술) 기업들이 인터넷 컨텐츠를 처리하기 위해 개발한 자연어처리 AI가 신약 개발의 패러다임을 바꾸고 있다. 자연어는 한국어, 영어, 일본어처럼 사람이 사용하는 언어를 말한다. 메타는 문자로 구성된 인터넷 컨텐츠를 분석하듯, 단백질을 구성하는 아미노산 20종을 문자 삼아 단백질 구조를 예측했다. 이제 실험실에서 단백질 구조 자료를 뒤지지 않아도 신약 연구를 할 수 있는 시대가 열렸다. 세상에 없는 단백질도 문자로 문장을 만들듯 AI가 만들어낼 수 있다.

사스코로나바이러스-2의 스파이크 단백질에 결합하는 단백질 구조. 자연어처리 단백질 구조 생성 AI로 만들어졌다. /워싱턴대

세상에 없던 단백질 만들어 낸다

유전정보는 DNA를 이루는 염기들이 나열된 순서이다. 생명체는 이 순서대로 아미노산을 배열하고 입체로 접어 모든 생명현상을 좌우하는 단백질을 합성한다.

데이비드 베이커 미국 워싱턴대 교수 연구진은 지난해 11월 논문 사전출판 사이트 ‘바이오 아카이브(bioRxiv)’에 단백질 구조 생성 모델 ‘로제타폴드 디퓨전’을 공개했다. 베이커 교수는 앞서 단백질 구조 예측 AI인 로제타폴드를 만들었다. 그는 이번에 자연어처리 AI인 ‘GPT’와 이미지 생성 AI로 유명한 ‘달리’ 모델을 이용해 아미노산 염기서열만으로 단백질 구조를 만드는 데 성공했다.

로제타폴드 디퓨전 개발에 참여한 백민경 서울대 생명과학부 교수는 “알파폴드와 로제타폴드로도 단백질 구조를 만들어내려는 시도는 이전부터 있었다”며 “다만 ‘진화 정보’를 모두 학습한 상태라 시간이 너무 오래 걸리고, 다양한 구조를 만들기 어려웠다”고 설명했다.

같은 염기서열이라도 생명체 종류에 따라 단백질 구조가 달라진다. 이런 특징은 생명체가 진화를 거치며 바뀐 정보를 담고 있다는 의미에서 ‘진화 정보’라고 부른다.

알파폴드와 로제타폴드처럼 기존의 단백질 구조 예측 AI는 이미 밝혀진 단백질의 아미노산 염기서열과 함께 진화 정보를 배운다. 이 때문에 정확도는 높지만, 다양한 단백질 구조를 만드는 데는 많은 시간이 필요하다.

워싱턴대 연구팀은 이 한계를 극복하기 위해 자연어처리 AI에 쓰이는 방법을 도입했다. 진화 정보에 관계 없이 주어진 아미노산 염기서열만 읽고 새로운 단백질 구조를 동시에 여러 개 만들 수 있다.

백 교수는 “자연어처리를 기반으로 하면 기존에 있는 구조에 영향을 받지 않고, 주어진 염기서열로 가능한 모든 단백질 구조를 빠르게 만들 수 있다”며 “이 같은 특징은 항체치료제 같은 단백질 기반 신약 개발에 큰 도움이 될 것”이라고 말했다.

인체 면역반응을 유도하는 항체 이미지. 코로나 바이러스 같은 외부 병원체에 결합한다./조선DB

단백질 기반 신약 개발, 더 빠르고 쉽게

항체치료제는 항체단백질을 이용해 질병의 원인이 되는 인체 단백질의 기능을 막거나, 외부에서 들어온 병원체의 감염을 차단하는 의약품이다. 치료 효과가 좋고, 부작용이 적어 차세대 치료제로 주목받고 있다. 다만 치료제로 쓸 항체단백질을 찾기 어렵거나, 아예 없는 경우도 있다. 개발에 시간과 비용이 많이 들어 항체치료제를 한 번 접종하는 가격이 수천만원, 수억원대에 이르는 상황이다.

만약 자연어처리 단백질 구조 생성 AI로 여러 단백질 구조를 만들어 가상으로 실험을 하고, 치료제 후보 물질을 추리면 개발 실패율을 낮추고, 시간도 절약할 수 있다. 이창훈 대구경북과학기술원(DGIST) 뉴바이올로지학과 교수는 “단백질 구조 생성 AI가 항체치료제 같은 단백질 기반 신약 개발의 패러다임을 바꿀 것”이라고 말했다.

단백질 신약 개발에 AI를 본격적으로 활용하려면 아직 극복해야 할 기술적 난관들이 남아 있다. 단백질은 여러 개가 서로 결합해 하나의 덩어리로 작동하는 경우가 많다. 이런 단백질 복합체 구조를 예측하거나 생성하는 것은 아직 정확도가 낮은 편이다. 이 교수는 “인체의 대부분 단백질은 단독으로 기능하기보다는 여러 단백질이 결합해 복합체 형태로 기능을 한다”며 “아직 AI의 복합체 구조 정확도는 당장 현장에서 쓰기에는 부족하다”고 말했다.

 

 

 

아래는 2023년 1월 27일 뉴스입니다~

(원문: 여기를 클릭하세요~)

 

AI가 설계한 단백질, 박테리아도 죽일 수 있다

딥러닝 언어 모델, 단백질 염기서열 학습
인공 단백질, 대장균박테리아 파괴시켜
의약품 개발 분야 적용 기대

알리 마다니 ‘프로플루언트 바이오(Profluent Bio)‘ 최고경영자(CEO) 연구팀이 인공지능 설계로 만든 단백질. /Nature Biotechnology



인공지능(AI)이 설계한 항미생물 단백질이 박테리아를 파괴할 수 있다는 연구 결과가 나왔다. 인공 단백질을 설계한 AI는 딥러닝 언어 모델이지만, 향후 의약품 개발에도 활용될 수 있다는 가능성이 제기됐다.미국 캘리포니아주의 생명공학 스타트업 ‘프로플루언트 바이오(Profluent Bio)’의 최고경영자(CEO) 알리 마다니 연구팀은 AI를 이용한 인공 단백질 염기서열 설계 논문을 26일 국제 학술지 ‘네이처 바이오테크놀로지’에 발표했다.

단백질 설계 실험에 사용된 AI는 ‘프로젠(ProGen)’이라는 딥러닝 언어 모델이다. 원래 프로젠은 단어를 문법과 의미에 맞게 배열해 정확한 자연어 문장을 만드는 목적으로 사용됐다.

연구팀은 프로젠에게 단어를 배열하는 것 대신 단백질을 구성하는 중요 성분인 아미노산 염기서열을 학습시켰다. 프로젠이 학습한 기존 단백질의 아미노산 배열은 총 2억8000만개다. 단백질 아미노선 배열을 학습한 프로젠은 직접 단백질 분자 샘플을 제안하기도 했다.

프로젠이 학습할 데이터 세트의 단백질 그룹은 평균 84~167개의 아미노산 서열로 이뤄졌다. 인공 단백질을 만들기 위한 아미노산 서열이 복잡하지만, AI에게 단백질들의 아미노산 서열을 학습시키는 것만으로도 새로운 단백질을 만들 수 있다는 사실을 확인한 것이다.

다만 AI가 제안한 단백질을 모두 실험해볼 순 없었다. 연구팀은 AI가 설계한 단백질을 모두 실험하는 대신 AI에게 설계에 집중할 단백질 그룹을 지정했다. 지정된 단백질 그룹은 박테리아를 파괴할 수 있는 특성을 가진 단백질이다.

연구팀의 실험 결과, AI가 제안한 대로 만든 인공 단백질의 아미노산 서열은 자연적으로 생성된 단백질과 최소 72.6% 같은 것으로 나타났고, 모양은 똑같았다. 프로젠은 리소자임(Lysozyme)과 말산탈수소효소(MDH), 코리스미산무타제(CM)의 염기서열과는 거의 일치하는 설계를 보였다. MDH의 경우 인체 세포에 존재하는 MDH2가 암 악성화 단백질을 억제하는 데 효과가 있다고 알려지기도 했다.

특히 리소자임은 대장균과 같은 세균 세포벽에 있는 무코다당류를 분해·파괴할 수 있다. 프로젠이 설계한 인공 단백질 샘플 100개 중 66개가 달걀흰자와 타액에 있는 박테리아를 파괴하는 천연 단백질과 유사한 화학 반응을 보였다. 가장 강한 화학 반응을 일으킨 인공 단백질 5개 중 2개는 대장균을 완전히 파괴할 수 있었다.

연구팀은 AI를 이용한 항미생물 인공 단백질 설계를 향후 의약품 개발 분야에 활용할 수 있을 것으로 봤다. 알리 마다니는 “딥러닝 언어 모델이 진화로 만들어진 단백질 서열을 실질적으로 설계할 수 있다”며 “딥러닝 모델이 리소자임과 CMMDH와 같은 다양한 세포에 적용될 수 있는 유연한 단백질 서열 표현을 배웠다는 것을 시사한다”고 설명했다.

다만 마다니는 “유사한 모델로 의약품 개발을 위한 새로운 테스트 분자를 개발할 수 있지만, 여전히 실험 단계인 만큼 실질적으로 적용될 때까지는 시간이 소요될 것”이라고 밝혔다.

 

 

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *