GIST-서울대, 약물효과 예측 AI 모델 개발
기존 AI 모델보다 예측 정확도가 34% 높아
기존 AI 모델보다 예측 정확도가 34% 높아
25일 GIST에 따르면, 연구진이 'PANCDR' 모델을 서울대병원 박성혜 교수팀의 소아 뇌종양 환자 데이터에 적용한 결과 5개의 약물이 가장 좋은 반응성을 보였다. 또 이와 관련된 기존 연구를 조사한 결과, 5개 약물 모두 뇌종양과 관련돼 있었다. 이는 'PANCDR' 모델의 정확도와 신뢰도가 높다는 것을 의미한다.
이현주 교수는 "이 AI 모델은 세포실험 데이터로 약물 반응 모델을 학습하더라도 환자 데이터에서 높은 정확도로 예측이 가능하다"며 "향후 개인 맞춤 치료를 위한 정확한 약물 반응 예측을 제공하게 될 것"이라고 말했다.
동일한 유형의 암 환자에 같은 약물을 사용하더라도 개인의 유전적 특성이나 돌연변이 암세포로 인해 약물 효과가 달라질 수 있다.
각 개인에게 맞는 약물을 찾기 위해서는 정확한 약물 반응 예측이 중요하다. 때문에 최근에는 머신러닝이나 딥러닝 같은 AI 기법을 사용해 약물의 반응을 예측하려는 연구가 활발히 진행되고 있다.
대부분의 약물 반응 예측 연구에서는 약물 반응 정보가 존재하는 환자 데이터의 수가 부족해 데이터가 충분히 많은 세포실험 데이터, 즉 세포주로 데이터 모델을 학습시킨다. 그러나 세포주 데이터는 면역계, 혈관계 등이 존재하지 않다는 점에서 환자 데이터의 유전자 발현량 정보와는 큰 차이가 있다. 따라서 세포주 데이터로 학습시킨 모델을 환자 데이터에 적용했을 때 정확성이 낮아지는 한계가 있다.
연구진은 AI 모델에서 세포주 데이터와 환자 데이터 상호 간 차이를 줄이기 위해 적대적 생성 신경망(GAN)을 활용했다. GAN은 기존의 데이터를 모방해 새로운 데이터를 만드는 알고리즘으로 두 개의 모델이 서로 목표를 달성하기 위해 적대적으로 겨루는 구조를 지니고 있다.
즉 연구진의 AI 모델은 세포주 데이터로 학습하더라도 환자 데이터에서도 정확한 약물 반응을 예측할 수 있다. 이 AI 모델은 판별자와 약물 반응 예측 모델을 번갈아 가며 학습시킨다. 1단계에서는 가우시안 인코더가 인코딩한 잠재 벡터가 세포주의 유전자 발현 데이터에서 온 것인지 환자의 유전자 발현 데이터에서 온 것인지 구분하는 판별자를 학습시킨다.
2단계에서는 반대로 판별자가 어느 데이터에서 온 것인지 구분하지 못하도록 약물 반응 예측 모델을 학습시킨다. 이때 환자의 데이터는 유전자 발현 데이터만 있고 약물 반응성이 없는 대규모의 데이터를 활용했다.
그결과, 'PANCDR' 모델은 환자 데이터에서 기존의 약물 반응 예측 모델보다 34% 이상 뛰어난 예측 성능을 보였다.
한편, 연구진은 이번에 개발한 'PANCDR' 모델을 생명정보학 분야 국제학술지 '생물정보학 브리핑(Briefings in Bioinformatics)'에 발표했다.
monarch@fnnews.com 김만기 기자
※ 저작권자 ⓒ 파이낸셜뉴스, 무단전재-재배포 금지