Новый метод машинного обучения для анализа сложных научных данных о белках: метод позволяет быстрее и точнее анализировать данные с ЯМР-спектрометров

Спектрометры ЯМР позволяют ученым определять структуру молекул, например белков, но высококвалифицированным специалистам-людям может потребоваться значительное количество времени для анализа этих данных. Этот новый метод машинного обучения позволяет анализировать данные гораздо быстрее и точнее.

В исследовании, недавно опубликованном в Nature Communications, ученые описали свой процесс, который, по сути, учит компьютеры распутывать сложные данные о свойствах белков атомного масштаба, разбивая их на отдельные, читаемые изображения.
«Чтобы использовать эти данные, нам необходимо разделить их на характеристики из разных частей молекулы и количественно оценить их конкретные свойства», – сказал Рафаэль Брушвайлер, старший автор исследования, научный сотрудник штата Огайо и профессор химии и биохимии в Государственный университет Огайо. "А до этого было очень сложно использовать компьютеры для идентификации этих отдельных функций, когда они перекрывали друг друга."

Процесс, разработанный Давэй Ли, ведущим автором исследования и научным сотрудником Центра химических инструментов кампуса штата Огайо, учит компьютеры сканировать изображения с ЯМР-спектрометров. Эти изображения, известные как спектры, выглядят как сотни и тысячи пиков и впадин, которые, например, могут отображать изменения белков или сложных смесей метаболитов в биологическом образце, таком как кровь или моча, на атомарном уровне.

Данные ЯМР дают важную информацию о функции белка и важные подсказки о том, что происходит в организме человека.
Но разложение спектров на читаемые пики может быть трудным, потому что часто пики перекрываются. Эффект похож на горный хребет, где более близкие и большие пики скрывают более мелкие, которые также могут нести важную информацию.

«Подумайте о считывателях QR-кода на вашем телефоне: спектры ЯМР похожи на QR-код молекулы – каждый белок имеет свой собственный специфический« QR-код », – сказал Брушвейлер. "Однако отдельные пиксели этих" QR-кодов "могут в значительной степени перекрываться друг с другом.

Ваш телефон не сможет их расшифровать. Это проблема, с которой мы столкнулись с ЯМР-спектроскопией, и которую мы смогли решить, обучив компьютер точно считывать эти спектры."
Процесс включает в себя создание искусственной глубокой нейронной сети, многоуровневой сети узлов, которые компьютер использует для разделения и анализа данных.
Исследователи создали эту сеть, а затем научили ее анализировать спектры ЯМР, передавая спектры, которые уже были проанализированы человеком, в компьютер и сообщая компьютеру ранее известный правильный результат.

Процесс обучения компьютера анализу спектров почти как обучение ребенка чтению – исследователи начали с очень простых спектров. Как только компьютер понял это, исследователи перешли к более сложным наборам. В конце концов, они загрузили в компьютер очень сложные спектры различных белков и из образца мочи мыши.

Исследователи обнаружили, что компьютер, используя глубокую нейронную сеть, которую научили анализировать спектры, был способен анализировать пики в очень сложной выборке с той же точностью, что и человек-эксперт. Более того, компьютер сделал это быстрее и с высокой воспроизводимостью.
По словам Брушвайлера, использование машинного обучения в качестве инструмента для анализа спектров ЯМР – лишь один из ключевых шагов в длительном научном процессе интерпретации данных ЯМР.

Но это исследование расширяет возможности ЯМР-спектроскопистов, в том числе пользователей нового Национального центра ЯМР сверхвысокого поля National Gateway, стоимостью 17 долларов США.5-миллионный центр, финансируемый Национальным научным фондом. Ожидается, что центр будет введен в эксплуатацию в 2022 году и будет иметь первые 1.2-гигагерцовый ЯМР-спектрометр в Северной Америке.
Эта работа была поддержана Национальным научным фондом и Национальными институтами здравоохранения.

В число других ученых-исследователей, участвовавших в этом исследовании, входят Александр Хансен, Чуньхуа Юань и Лей Брушвайлер-Ли, все из Центра химических инструментов в кампусе штата Огайо.

Пластиковые машины