새샘(淸泉)

<사이언스>지가 2021년 올해의 최고 연구성과로 선정한 인공지능 '로제타폴드' 본문

글과 그림

<사이언스>지가 2021년 올해의 최고 연구성과로 선정한 인공지능 '로제타폴드'

새샘 2021. 12. 26. 17:25

'사이언스'가 선정한 2021년 올해의 과학계 최고 연구성과인 AI 로제타폴드가 해독한 단백질 구조. 구불구불한 노란색 물질은 단백질의 2차 구조인 알파-나선 구조이고, 납작한 흰색 물질은 단백질의 또 다른 2차 구조인 베타-병풍 구조이다.

 

 

2021년 11월 17일 저명 과학학술지 '사이언스 Science'2021년을 빛낸 10대 혁신기술 scientific breakthrough과 함께 과학계를 실망 시킨 3대 사건 scientific breakdown을 선정·발표했다.

 

10대 혁신기술 가운데서도 최고 혁신기술로 선정된 기술은 AI(artificial intelligence 인공지능)를 이용한 단백질 구조 예측 컴퓨터 모델로서, 이 모델 중 하나가 우리나라 과학자 백민경 Minkyung Baek 박사(워싱턴대학교)가 제1저자 first author로서 발표하여 개발한 '로제타폴드 RosettaFold'란 이름의 AI이다.

 

AI 기반 컴퓨터 모델은 단백질 입체구조를 빠른 시간 안에 정확하게 예측하는 기술이며, 한국인 연구자의 기술이 '사이언스' 선정 올해의 최고 연구성과로 꼽힌 것은 이번이 처음이다.

 

전례가 없는 핵심기술인 AI '로제타폴드' 컴퓨터 모델은 '사이언스' 편집진 평가에서 1위를 차지했고, 독자 상대 온라인 투표에서도 득표율 38.9%로 1위를 차지한 것은 인류가 50년 이상 풀지 못한 난제인 단백질 구조 예측 문제를 해결할 실마리가 되었기 때문으로 분석된다.

 

 

구조생물학은 50년 이상 동안이나 수수께끼로 남아 있는 학문

 

우리 모두 생명 활동에서 가장 중요한 고분자는 단백질임을 잘 알고 있으며, 단백질 없는 생명체는 없다는 말은 결코 과언이 아니다.

그래서 생명과학자들은 오랫동안 단백질에 초점을 맞추어 생명 현상을 연구해 오고 있는 것이다.

단백질 연구 분야 가운데서도 가장 뜨거운 주제가 단백질 구조라는 사실은 단백질의 주요 기능은 바로 단백질의 구조에 의해 결정됨을 말해 준다.

 

단백질 구조의 첫 번째 연구는 1957년 존 켄드류 John C. Kendrew와 맥스 페루쯔 Max F. Perutz의 X-선 결정학 X-ray crystallography이었다.

뒤이어 크리스찬 앤핀센 주니어 Christian B. Anfinsen Jr.는 단백질 구조는 열역학적으로 안정적이기 때문에 단백질을 구성하는 아미노산 서열에 따라 그 3차 구조를 예측할 수 있다는 이론을 제기했다.

 

하지만 단백질 구조는 사람들이 생각했던 것보다 훨씬 복잡했다.

중심이론 central dogma에 따르면 DNA 유전정보가 먼저 RNA로 전사 transcription된 다음, 이어 RNA에서 펩티드 사슬로의 해독translation이 일어나며, 펩티드 사슬들이 서로 연결되어 형성된 폴리펩티드 polypeptide 즉 단백질이 합성 assembly되는 것이다.

1분자의 단백질은 1개의 폴리펩티드 사슬 polypeptide chain이거나 또는 여러 개의 폴리펩티드 사슬로 이루어지며, 폴리펩티드 사슬마다 고유한 형태로 접힌다 folding.

동시에 단백질 분자의 특이 형태 specific shape는 분자별 4단계 구조인 1차, 2차, 3차 및 4차 구조에 따라 결정된다.

이 4단계 구조 가운데 앞선 단계의 구조가 다음 단계의 구조를 결정하는 것이다.

 

단백질 1차 구조는 폴리펩티드 사슬의 아미노산 서열을 말하며, 펩티드 사슬의 1차 구조가 비틀리거나 겹쳐짐으로써 단백질 2차 구조가 만들어진다.

2차 구조는 연이은 형태 변화를 거쳐 대개 둥글거나 섬유질의 입체구조인 3차 구조 또는 4차 구조로 바뀐다.

3차 구조에는 결합부위나 조절부위로 작용하는 특이 영역 specific domain이 있어, 이 특이 영역이 다른 특이 구조물과 결합함으로써 특이 기능을 수행하는 것이다.

2개 이상의 폴리펩티드 사슬로 이루어진 단백질은 4차 구조가 생긴다.

 

단백질의 입체구조인 3차 또는 4차 구조를 알아야 체내에서의 단백질 기능을 알 수 있으며, 단백질 이상으로 생기는 알츠하이머치매 Alzheimer's dementia나 파킨슨병 Parkinson's disease과 같은 여러 난치병의 원인을 알아내거나 치료법을 개발할 수 있다.

 

따라서 크리스챤 앤피센 주니어의 이론이 제기된 지 50년이 지났지만 여태 과학자들은 단백질 접힘 문제를 해결하지 못하고 있어 단백질 구조에 대한 이해는 여전히 제한되어 있다.

 

최근 초저온전자현미경기술 cryo-electron microscopy이 개발되어 결정화 과정 없이 단백질 구조를 관찰할 수 있게 됨으로써, 단백질 구조 연구에 있어 진전을 보게 되었다.

그러나 초저온전자현미경은 매우 비싼 기계여서 극히 일부의 연구소에서만 사용할 수 있을 뿐 대다수 과학자들은 이용하기에 쉽지 않은 게 현실이다.

그래서 생명과학계에서는 단백질 접힘 문제를 해결할 수 있는 새로운 기술 모색이 시급했던 것이다.

 

 

단백질 구조 예측 문제 해결을 돕는 인공지능(AI)

 

컴퓨터과학이 발달하면서 학자들 일부는 한때 단백질 접힘 문제를 해결하기 위한 방법의 하나로 컴퓨터 모델을 제안했다.

이 제안은 타당한 아이디어이긴 했지만 그 뒤 수십 년 동안 단백질 구조를 예측할 정도의 정밀도를 가진 컴퓨터 모델 개발은 미미한 수준이었다.

 

지난 25년 동안 국제단백질구조예측대회 International Protein Structure Prediction Competition(CASP)를 통해 단백질 접힘 문제를 완벽하게 해결할 수 있는 컴퓨터 모델 개발에 주목해 왔다.

14차 대회인 CASP14까지는 딥마인드 DeepMind가 개발한 알파폴드 AlphaFold 시스템이 단백질 구조 예측 정밀도에서 단연 두각을 나타내었다.

 

대회의 심사 방법은 대회 참가 컴퓨터 모델이 산출한 결과의 정밀도를 정답인 '최적 시험표준 golden test standard'과 비교하는 방식이다.

정밀도는 0부터 100점까지의 GDP 점수로 측정한다.

GDP 90점은 사람이 직접 실험한 결과의 정밀도로서, 이 점수는 경쟁력이 있는 컴퓨터 모델로 평가된다.

그리고 딥마인드의 알파폴드가 산출한 결과의 GDP는 92.4점, 실험오차는 1.6점이었다.

상동성이 전혀 없는 가장 어려운 단백질에 대한 정밀도 역시 놀라운 점수인 87.0을 기록했다.

 

동시에 알파폴드 신경망은 일반적인 단백질 구조는 물론 아미노산의 수가 2,180개이면서 상동 구조 homologous structure[아미노산 서열이 비슷한 구조]가 전혀 없는 더 큰 단백질까지도 몇 분 안에 그 구조를 예측할 수 있다.

알파폴드 컴퓨터 모델은 각 아미노산에 기초하여 신뢰할 만한 단백질 구조를 정확하게 예측할 수 있기 때문에 연구자들은 그 예측 결과를 편리하게 사용할 수 있다.

 

뒤이어 올 7월에는 워싱턴대학교 의과대학 생화학과 교수이자 단백질디자인연구소 소장인 데이비드 베이커 David Baker 교수는 백민경 박사를 팀장으로 하는 전산생물학자팀을 이끌고 '로제타폴드 RoseTTAFod'란 AI 컴퓨터 모델을 개발하는데 성공했다.

심층기계학습(딥러닝) deep learning을 기반으로 한 로제타폴드는 제한된 정보만으로도 표적 단백질 구조를 빨리 정확하게 예측할 수 있어, 그 정밀도는 알파폴드보다 기능이 향상된 알파폴드2와 비슷하였다.

 

 

올 7월 이후 전 세계 140개 이상의 과학연구팀들이 GitHub에서 로제타폴드 관련 프로그램들을 내려받았다.

전 세계 과학자들은 지금 로제타폴드를 이용하여 관련 분야의 연구 속도를 높이기 위한 단백질 모델을 개발하고 있는 중이다.

 

지금까지 2개의 강력한 인공지능 기반 단백질 구조 예측 모델[알파폴드2, 로제타폴드]이 개발되어 무료로 제공되고 있다.

바야흐로 과학자들은 단백질 결정을 만들 필요가 없으며 값비싼 초저온전자현미경을 사용할 필요도 없이 언제든지 이 두 컴퓨터 모델을 사용하여 단백질 공간 구조를 알아낼 수 있게 된 것이다.

 

 

로제타폴더를 비롯한 사이언스 선정 2021년 10대 핵심기술은 다음과 같다.

1. 생명 연구 전체를 위한 단백질 구조 예측  Protein structures for all

2.  고대 토양 DNA에서 사람과 생물 나이를 안다  Ancient soil DNA comes of age

3. 태양 핵융합에너지를 만드는 ?  Fusion’s day in the Sun? 

4. 코로나19 치료하는 강력한 알약  Potent pills boost COVID-19 arsenal 

5. 환각제를 이용한 PTSD(외상후스트레스장애치료법  A psychedelic PTSD remedy 

6. 인공항체가 감염병을 치료한다  Artificial antibodies tame infectious diseases 

7. NASA 착륙선이 화성의 핵에 접근하여 비밀을 밝히다  NASA lander uncovers the Red Planet’s core 

8. 마침내 입자물리학의 표준 모델에 문제가 생겼나요?  At last, a crack in particle physics’ standard model? 

9. CRISPR는 신체 내부 유전자도 교정한다  CRISPR fixes genes inside the body 

10. 조기 배아생의 창을 열다  Embryo ‘husbandry’ opens windows into early development 

 

그리고 다음은 사이언스 선정 과학계를 실망 시킨 3대 사건이다.

1. 기후 목표 달성 희망이 점점 사라진다  Hope dims for climate target

2. 알츠하이머 약물의 분노 유발 부작용  Alzheimer’s drug prompts outrage

3. 위협받고 있는 과학자들 Scientists under fire

 

※출처

1. Science iNEWS 2021-12-26, 'Science announced the top ten scientific breakthroughs in 2021, and AI, an unprecedented breakthrough, is on the list,' (https://inf.news/en/science/deaac2177c33de7c3e5334ecb1b2ba1b.html)

2. 동아사이언스 20121. 12. 19 [표지로 읽는 과학]올해 최고 연구 성과 '로제타폴드'(https://www.dongascience.com/news.php?idx=51142)

3. Minkyung Baek, et al., Accurate prediction of protein structures and interactions using a three-track neural network, Science 10.1126/science.abj8754(2021)(https://www.ipd.uw.edu/wp-content/uploads/2021/07/Baek_etal_Science2021_RoseTTAFold.pdf)

 

2021. 12. 26 새샘