Ученые НИУ ВШЭ создали нейросеть, которая с точностью 95% предсказывает, будут ли белки взаимодействовать друг с другом. Разработка может ускорить поиск молекулярных механизмов болезней, биомаркеров и потенциальных мишеней для новых лекарств. Исследование опубликовано в журнале Scientific Reports (18+).
Модель получила название GSMFormer-PPI. Она учитывает три типа данных о каждом белке в предполагаемой паре: аминокислотную последовательность, трехмерную структуру и свойства молекулярной поверхности. Для обработки этих данных авторы использовали существующие алгоритмы: белковую языковую модель, графовую нейронную сеть и отдельный модуль для анализа поверхности.
Главное отличие разработки — в способе обработки информации. В отличие от предыдущих подходов, где признаки просто объединялись в один вектор, GSMFormer-PPI анализирует связи между разными типами данных с помощью трансформерного модуля. Это позволило значительно повысить точность предсказаний.
Понимание того, какие белки могут взаимодействовать друг с другом, критически важно для изучения механизмов заболеваний. Нарушения в таких связях приводят к неправильной работе клеток. Экспериментальная проверка всех возможных пар белков занимает слишком много времени, особенно когда речь идет о десятках или сотнях молекул. Новая нейросеть поможет биологам быстрее находить перспективные направления для исследований.
"При взаимодействии белков особенно важна их поверхность: именно через нее молекулы распознают друг друга и на ней сосредоточены физико-химические свойства, от которых зависит связывание. В нашей модели мы попытались учесть эту информацию вместе с последовательностью и трехмерной структурой белка, а затем не просто объединить признаки, а дать алгоритму возможность анализировать связи между ними. Именно это и позволило точнее предсказывать белок-белковые взаимодействия", — сказала один из авторов статьи, директор Центра биомедицинских исследований и технологий Института ИИиЦН ФКН НИУ ВШЭ Мария Попцова.
Чтобы проверить, насколько хорошо работает новая модель, исследователи протестировали ее на наборе данных PINDER — крупной базе известных белковых взаимодействий. В экспериментах GSMFormer-PPI показала точность 95,7% и превзошла популярные графовые модели, например GCN и GAT. Также исследователи провели тест с более простым вариантом GSMFormer-PPI — без модуля, который анализирует связи между разными типами данных. Эта версия работала хуже, что доказывает: дело не только в самих данных о белке, но и в том, как именно модель их сопоставляет.
Дополнительные тесты показали, что для точного прогноза важны все три типа данных: последовательность, пространственная структура и свойства поверхности белка. Когда исследователи поочередно убирали один из компонентов, качество предсказания снижалось. Иными словами, модель работает лучше именно потому, что рассматривает белок сразу на нескольких уровнях. В перспективе такие системы могут помочь быстрее отбирать пары белков при изучении механизмов болезней и поиске мишеней для лекарств.
Работа выполнена при поддержке гранта для исследовательских центров в области искусственного интеллекта Министерства экономического развития РФ, реализуемого на базе НИУ ВШЭ.