인공지능 기반 신약개발
인공지능 기반 신약개발
약물은 어떻게 우리 몸에서 작용할까?
현대 생물학이 정립되면서 우리가 알게 된 사실에 따르면, 다수의 질병은 단백질의 기능 저하 또는 과다·과소 발현으로발생한다.
우리가 알고 있는 약물들 중 대다수는 바로 해당 질병을 일으키는 표적단백질과 결합하여 그 기능을 조절한다.
약물의 작동방식은 크게 두 가지로, 하나는 표적 단백질의 기능을 억제하는 것이고, 다른 하나는 증진하는 것으로, 단백질의 어느 위치에 약물이 붙는지에 따라 앞서 말한 방식이 대개 달라진다.
그렇지만 공통 조건이 있는데, 바로 어떤 위치가 되었든 약물이 표적 단백질과 충분히 강하게 결합해야 한다는 것이다.
여기서 구조 기반 신약개발의 원리가 등장한다.
구조 기반 신약개발이란
약물과표적 단백질의 결합을 분자 구조 측면에서 직접적으로 고려하여 이상적인 약물을 찾아내고 설계하는 방법을 뜻한다. 하지만 어찌 보면 너무나도 당연한 이런 원리가 기존에는 활용되지 못했다. 단백질의 구조를 몰랐기 때문이다.
그래서, 전통적인 신약개발 과정에서는 경험적으로 또는 수많은 시행착오를 통해 약물을 “발견”할수 있었다. 구조 기반 신약개발은 현대 생화학의 원리에 기반하여, 신약개발에 소요되는 비용과 시간을 획기적으로 절감할 수 있도록 도와준다.
위에서 간단히 그 원리를 설명했지만, 사실 구조 기반 신약개발 과정이 그렇게 단순한 것은 아니다. 우선 표적 단백질을 찾아내야 하고, 어디에 어떤 약물이 결합해야 원하는 기능(저해 또는 증진)을 잘 수행할지 알아야 한다.
무엇보다도, 어렵게 찾아낸 약물이 우리 몸에 해롭지 않을지, 어떤 식으로 합성 및 보존이 가능할지 등등 여러 가지 요소를 모두 검증한 뒤에야 약물로서 쓰일 수 있게 된다. 특히 약물 발굴 단계에서 우리는 수많은 경우의 수를 고려해야 하는 문제에 봉착하게된다.
인체에는 2만여 개의 단백질이 있으며, 화합물은 줄이고 줄여도 최소 수억 종류는 된다. 우리는 궁극적으로는 2만여 개 단백질 중, 단 한개 표적 단백질의 특정 부위에만 결합하는 화합물을 수 억 개의 화합물 후보군 가운데서 찾아내야 한다. 모래사장에서 바늘 찾기이다.
신약개발에서 컴퓨터의 역할이 등장
컴퓨터가 구조 기반 신약개발에 활용된지는 40년이 넘게 되었다. 1982년 UCSF Dock이 등장하여, 표적 단백질과 화합물 사이의 결합을 컴퓨터를 통해 시뮬레이션하는 이른바 “리간드 도킹”이 가능해졌다(리간드라 함은 단백질에 붙는 분자를 통칭하는 단어로, 여기서는 주로 화합물을 의미한다).
이 방법은 기본적으로는 “만약 두 화합물이 결합한다면 어떤 구조로 붙을 것인가”에 대한 예측을 제공한다. 이후로 시간이 지나고 발전을 거듭하여, 위에 언급한 신약개발의 여러 요소 가운데 “어떤 약물이 붙어야 원하는 기능을 잘 수행할지”, 즉 다수 화합물의 결합 가능성을 비교해 주는 툴로 발전하였다.
이를 컴퓨터 공간에서 다수의 화합물을 스크리닝한다는 측면에서 “가상 탐색”이라고 칭하며, 현재 컴퓨터 기반 신약개발에서
중추적인 역할을 수행하고 있다.
컴퓨터만 충분히 많이 있고 예측력이 정확하다면, 현실에서는 모두 다루는게 거의 불가능한 경우의 수 문제를 컴퓨터에 맡길 수 있게 되었다.
이와 동시에, 신약개발의 다른 단계에 해당하는 표적 단백질 발굴, 약물의 물성및합성 가능성을 평가하는 목적으로도 컴퓨터 방법은 지속적으로 발전해 왔다.
리간드 도킹과는 달리 해당 주제들은 구조 기반으로 표적 단백질과 화합물의 관계를 보는것은 아니다. 이를테면, 표적 단백질 발굴은 대개 순수한 생물학의 영역이며, 이를 돕는 컴퓨터 방법은 주로 생물 정보학에서 비롯된다. 마찬가지로 약물의 물성 및 합성은 순수한 화학의 영역으로, 화학 정보학 기반의 컴퓨터 방법들이 이를 보조하고 있다.
컴퓨터를 이용한 구조 기반 신약개발은 크게 아래와 같은 단계를 거친다.
1) 표적 발굴: 표적 단백질 발견, 구조 결정(또는 예측), 표적 위치 탐색
2) 유효 물질* 발굴: 표적 위치에 대한 가상 탐색을 통한 결합 후보 선별
3) 선도 물질* 최적화: 유효 물질을 부분적으로 바꿔 물성과 결합력 증진
* 유효물질은 표적 위치에 약하게 결합하는 물질이며 선도물질은 유효물질의 물성을 변경하여 충분한 강도로 표적위치에 결합하여 약물로서 가치가 있는 물질
여기서 중요한 부분은, 컴퓨터가 수행하는 것은 “예측”이라는 점이다. 우리가 예측에만 의존하여 모든 과정을 진행할 수는 없으므로, 각 단계가 끝날 때마다 실험을 이용한 검증은 필수적인 단계가 된다. 즉 1번과 2번, 2번과 3번 사이에는 각각 유효, 선도 물질 여부를 검증하는 실험이 반드시 존재해야 한다.
바꿔서 현실적으로 얘기하자면, 실험이 주된 과정이고 컴퓨터는 그 과정에서 수많은 경우의 수를 줄여주는 보조 역할을 한다고도 얘기할 수 있겠다. 즉 수많은 “거짓 양성 (False positives)”과 “거짓 음성(False negatives)”이 나오더라도, 컴퓨터를 이용한 후보군 선택이 동수의 임의 추출보다는 나을 것이라는 기대에 따른 것이다.
따라서 구조 기반 신약개발에 있어서 컴퓨터의 역할이 주인공이 될지, 아니면 조연이 될지는 방법의 예측 정확도에 따라 결정되게 된다. 그리고 최근까지 컴퓨터의 역할은 조연이었다.
그렇다면 컴퓨터는 신약개발에서 주인공으로 올라설 수 있을까? 달리 질문하자면, 어떻게 해야 구조 기반 신약개발을 위한 컴퓨터 방법의 예측력을 향상시킬 수있을까? 지난 40여 년간 수많은 화학자와 약학자들이 노력했으나 발전 속도는기대에 미치지 못하였다. 그러나 2010년대 후반에 이르러 외부 환경의 영향으로 변곡점이 발생하였다. 바로 인공지능이다.
인공지능을 이용한 신약개발
2010년대 중반만 하더라도 인공지능이 과학에 쓰일 것이라는 생각은 소수의 희망적인 사람들의 것이었다. 이른바 딥러닝의 시대가 열리고 알파고가 등장하여 바둑계를 평정했을 때에도, 구글 포토에서 사진의 객체가 자동으로 인식 및 선별될 때에도 인공지능이 과학 연구를 도와줄 것이라는 기대는 하기 쉽지 않았다.
비슷한 시기에 약 물성 예측대회에서 인공지능이 1등을 했을 때에도 소수에 대한 제한적인 활용만 가능할 것이라 생각되었다. 2018년에 등장한 알파폴드-1 은 이런 관점을 바꾸었다. 비로소 과학에 인공지능이 접목되었을 때의 파급력에 대해 자연과학자들이 인지하기 시작했다.
그러나 이때까지만 해도 기존 방법으로 원래 가능했던 연산을 인공지능이 좀 더 빠르고 잘 한다는 인상을 주는 정도였다. 그리고 2020년에 알파폴드-2 가 등장하였다. 이제는 원래 가능하던 것을 더 잘하는 게 아니었다. 전에는 불가능한 것이 가능해졌다.
이로서 자연과학의 생태계가 바뀌었다. 기존에 쓰던 컴퓨터 알고리즘의대대적인 수정이 불가피해졌다. 컴퓨터를 잘 쓰지 않던 분야에서도 인공지능 도입을 진지하게 고려하게 되었다. 단백질 구조예측의 거대한 난제가 풀렸으니, 다른 문제가 인공지능으로 안 풀릴 리가 없기 때문이라는 기대에서였다.
구조 기반 신약개발은 단백질 구조예측 문제의 연장선 상에 있다. 즉, 다른 어떤 분야에 비해서도 알파폴드-2에 의해 야기된 생태계 변화의 영향을 가장 직접적으로 받는 분야가 된 것이다.
우선 구조 기반 신약개발 자체가 가능한 표적 단백질이 크게 늘어났다. 구조 기반 신약개발은 원자 수준의 단백질 구조를 반드시 필요로 하는데, 알파폴드-2의 등장과 동시에 구조가 밝혀지지 않은 사람 단백질 수 만개에 대해 높은 신뢰도의 예측 구조를 누구나 활용할 수 있게 되었다.
결과적으로 구조 기반 신약개발은 표적 단백질 구조가 있어야만 적용할 수 있는 조건부 방법에서 대부분의표적에 적용 가능한 일반적인 방법으로 바뀌게 된 것이다. 두 번째는 문제의 유사성이다.
단백질 구조예측은 단백질의 구조를 원자 수준으로 예측하는 문제다. 리간드 도킹은 단백질 대신 단백질-화합물 결합체의 구조를 역시 원자 수준으로 예측하는 문제이다.
대상이 조금 확장되었을 뿐 푸는 문제의 종류는 동일하다. 따라서 분야를 이해하고 있는 과학자들은 곧바로 구조 기반 신약개발을 다음 연구목표로 떠올리게 되었다.
이는 알파폴드-2를 개발한 구글 딥마인드의 행적에서도 드러난다. 그들은 알파폴드-2를 공개한지 4년 후, 후술할 단백질-리간드 모델링이 가능한 알파폴드-3 를 공개하였고, isomorphic lab을설립하여 이를 이용한 신약개발에 나서고 있다.
그다음 내용은 첨부파일을 확인해 주세요.
발간물 컬렉터의 큐레이션
1) 구조 기반 신약개발: 약물과 표적 단백질의 결합을 분자 구조 측면에서 고려하여 이상적인 약물을 찾아내고 설계하는 방법입니다.
2) 컴퓨터 활용: 컴퓨터 시뮬레이션을 통해 수많은 화합물 후보군을 가상 탐색하여 신약개발 과정을 효율화합니다.
3)인공지능의 도입: 알파폴드-2와 같은 인공지능 기술이 단백질 구조 예측을 혁신적으로 개선하여 신약개발의 예측력을 크게 향상시켰습니다.
4) 미래 과제: 데이터 과적합 문제 해결과 약물의 물성, 독성 및 면역원성 예측이 향후 중요한 연구 과제로 남아 있습니다.