Методы дрессировки собак помогают исследователям учить роботов осваивать новые трюки

Используя положительное подкрепление, подход, знакомый всем, кто использовал угощения для изменения поведения собаки, команда значительно улучшила навыки робота и сделала это достаточно быстро, чтобы сделать обучение роботов для реальной работы более осуществимым предприятием. Результаты недавно опубликованы в статье под названием «Хороший робот!"
"Здесь вопрос заключался в том, как заставить робота изучить какой-то навык?"сказал ведущий автор Эндрю Хундт, аспирант, работающий в Лаборатории вычислительного взаимодействия и робототехники Джонса Хопкинса. "У меня были собаки, поэтому я знаю, что вознаграждения работают, и это послужило вдохновением при разработке алгоритма обучения."
В отличие от людей и животных, которые рождаются с интуитивно понятным мозгом, компьютеры – это чистый лист и должны учиться всему с нуля. Но настоящее обучение часто достигается методом проб и ошибок, и робототехники все еще пытаются понять, как роботы могут эффективно учиться на своих ошибках.

Команда достигла этого, разработав систему вознаграждения, которая работает для робота так же, как работа для собаки. Если собака могла получить печенье за хорошо выполненную работу, робот зарабатывал числовые баллы.
Хундт вспомнил, как однажды он научил своего щенка терьер-микса по имени Лия команде «оставь это», чтобы она могла игнорировать белок на прогулке. Он использовал два вида угощений, обычные угощения для тренировок и что-то еще лучшее, например, сыр.

Когда Лия была взволнована и обнюхивала угощения, она ничего не получила. Но когда она успокоилась и отвернулась, она получила хороший материал. "Тогда я дал ей сыр и сказал:" Оставь это! Хорошая Лия!’"
Точно так же, чтобы складывать блоки, Роботу Spot нужно было научиться сосредотачиваться на конструктивных действиях.

По мере того, как робот исследовал блоки, он быстро понял, что правильное поведение при складывании дает высокие баллы, а неправильное – ничего. Протяни руку, но не хватайся за блок? Нет баллов. Опрокинуть стопку?

Однозначно нет очков. Спот заработал больше всего, поместив последний блок поверх стека из четырех блоков.

Тактика обучения не только сработала, но и потребовалось всего несколько дней, чтобы научить робота тому, что раньше занимало недели.

Команда смогла сократить время практики, сначала обучив имитационного робота, который очень похож на видеоигру, а затем выполнив тесты с помощью Spot.
«Робот хочет получить более высокий балл», – сказал Хундт. "Он быстро учится правильному поведению, чтобы получить лучшую награду.

Фактически, для достижения 100% точности роботу требовался месяц практики. Мы смогли это сделать за два дня."

Положительное подкрепление не только помогло роботу научиться складывать блоки, но и с помощью балльной системы робот так же быстро научился нескольким другим задачам – даже тому, как играть в симулированную навигационную игру. Способность учиться на ошибках во всех типах ситуаций имеет решающее значение для разработки робота, который мог бы адаптироваться к новым условиям.
"Вначале робот понятия не имел, что делает, но с каждой тренировкой он будет становиться все лучше и лучше.

Он никогда не сдается, пытается складываться и может выполнить задачу в 100% случаев », – сказал Хундт.
Команда считает, что эти результаты могут помочь обучить домашних роботов стирать и мыть посуду – задачи, которые могут быть популярны на открытом рынке и помочь пожилым людям жить самостоятельно. Это также может помочь в разработке улучшенных беспилотных автомобилей.

«Наша цель – в конечном итоге разработать роботов, которые могут выполнять сложные задачи в реальном мире, такие как сборка продукции, уход за пожилыми людьми и хирургия», – сказал Хагер. «В настоящее время мы не умеем программировать такие задачи – мир слишком сложен. Но подобная работа показывает нам, что есть многообещающая идея о том, что роботы могут научиться выполнять такие реальные задачи безопасным и эффективным способом."