Анализ огромных наборов данных, собранных исследователями, всегда был трудоемкой и сложной задачей, поскольку они использовали микроскопию и технику smFRET, чтобы увидеть, как белки перемещаются и взаимодействуют с окружающей средой. При этом задача требовала высокого уровня экспертизы. Следовательно, быстрое увеличение количества набитых серверов и жестких дисков.
Теперь исследователи из Департамента химии, Нано-научного центра, Центра исследований белков Novo Nordisk Foundation и Института Нильса Бора Копенгагенского университета разработали алгоритм машинного обучения для выполнения тяжелой работы.
"Раньше мы сортируем данные, пока не зациклились.
Теперь наши данные анализируются одним нажатием кнопки. И алгоритм делает это не хуже или лучше, чем мы. Это высвобождает ресурсы для сбора большего количества данных, чем когда-либо прежде, и получения более быстрых результатов », – объясняет Саймон Бо Йенсен, биофизик и аспирант кафедры химии и Центра нанотехнологий.
Алгоритм научился распознавать паттерны движения белков, что позволило ему классифицировать наборы данных за секунды – процесс, на выполнение которого у экспертов обычно уходит несколько дней.
"До сих пор мы работали с множеством необработанных данных в виде тысяч шаблонов. Раньше мы проверяли его вручную, по одному.
Поступив так, мы стали узким местом в наших собственных исследованиях. Даже экспертам сложно проводить последовательную работу и снова и снова приходить к одним и тем же выводам.
В конце концов, мы люди, которые устают и склонны к ошибкам », – говорит Саймон Бо Дженсен.
Секундная работа алгоритма
Исследования взаимосвязи между перемещениями и функциями белков, проведенные исследователями UCPH, признаны во всем мире и необходимы для понимания того, как функционирует человеческое тело. Например, заболевания, включая рак, болезнь Альцгеймера и Паркинсона, вызваны скоплением белков или изменением их поведения.
Технология редактирования генов CRISPR, получившая в этом году Нобелевскую премию по химии, также основана на способности белков разрезать и сплавлять определенные последовательности ДНК. Когда исследователи UCPH, такие как Гильермо Монтойя и Никос Хатзакис, изучают, как происходят эти процессы, они используют данные микроскопии.
"Прежде чем мы сможем лечить серьезные заболевания или в полной мере использовать CRISPR, нам нужно понять, как работают белки, мельчайшие строительные блоки.
Вот где в игру вступают движение и динамика белков. И здесь наш инструмент очень помогает », – говорит Гильермо Монтойя, профессор Центра исследований белков Novo Nordisk Foundation.
Внимание со всего мира
Похоже, что исследователям белков со всего мира не хватало именно такого инструмента. Несколько международных исследовательских групп уже представили себя и проявили интерес к использованию алгоритма.
«Этот инструмент искусственного интеллекта является огромным преимуществом для отрасли в целом, потому что он обеспечивает общие стандарты, которых раньше не было, когда исследователям по всему миру нужно сравнивать данные. Раньше большая часть анализа основывалась на субъективном мнении о том, какие модели были полезны.
Они могут варьироваться от исследовательской группы к исследовательской группе. Теперь у нас есть инструмент, который может гарантировать, что все мы придем к одним и тем же выводам », – объясняет директор по исследованиям Никос Хатзакис, доцент кафедры химии и аффилированный профессор Центра исследований белков Фонда Ново Нордиск.
Он добавляет, что инструмент предлагает и другую перспективу:
"Хотя анализ хореографии движения белков остается нишей, он приобретает все большую популярность, поскольку современные микроскопы, необходимые для этого, становятся дешевле.
Тем не менее, анализ данных требует высокого уровня знаний. Наш инструмент делает метод доступным для большего числа исследователей в области биологии и биофизики, даже для тех, кто не имеет специальных знаний, будь то исследования коронавируса или разработка новых лекарств или зеленых технологий."
