Этот эксперимент является испытательной площадкой для ключевой задачи современной робототехники: способность гарантировать безопасность и успех автоматизированных роботов, работающих в новых условиях. Поскольку инженеры все чаще обращаются к методам машинного обучения для разработки адаптируемых роботов, новая работа исследователей Принстонского университета продвигает вперед такие гарантии для роботов в контекстах с различными типами препятствий и ограничений.
«За последнее десятилетие или около того, машинное обучение в контексте робототехники вызвало огромный интерес и прогресс, прежде всего потому, что он позволяет обрабатывать богатые сенсорные данные», например, с камеры робота, и отображать эти сложные входные данные. к действиям, сказал Анирудха Маджумдар, доцент кафедры машиностроения и аэрокосмической техники в Принстоне.
Однако алгоритмы управления роботами, основанные на машинном обучении, подвержены риску переобучения их обучающим данным, что может сделать алгоритмы менее эффективными, когда они сталкиваются с входными данными, которые отличаются от тех, на которых они были обучены. Лаборатория Intelligent Robot Motion Lab Маджумдара решила эту проблему, расширив набор доступных инструментов для обучения политик управления роботами и количественно оценив вероятный успех и безопасность роботов, работающих в новых условиях.
В трех новых статьях исследователи адаптировали фреймворки машинного обучения из других областей к области передвижения и манипуляции роботов.
Они обратились к теории обобщения, которая обычно используется в контекстах, которые сопоставляют один вход с одним выходом, например, автоматическая маркировка изображений. Новые методы являются одними из первых, кто применяет теорию обобщения к более сложной задаче обеспечения гарантий работы роботов в незнакомых условиях. В то время как другие подходы обеспечивали такие гарантии при более ограничительных предположениях, методы команды предлагают более широко применимые гарантии производительности в новых средах, сказал Маджумдар.
В первой статье – доказательстве принципа применения фреймворков машинного обучения – команда проверила свой подход в симуляциях, которые включали в себя колесное транспортное средство, проезжающее через пространство, заполненное препятствиями, и роботизированную руку, захватывающую объекты на столе. Они также подтвердили методику, оценив уклонение от препятствий небольшого беспилотника под названием Parrot Swing (комбинированный квадрокоптер и самолет с неподвижным крылом), когда он летел по коридору длиной 60 футов, усеянному картонными цилиндрами. Гарантированная вероятность успеха политики управления дроном составляла 88.4%, и он избегал препятствий в 18 из 20 испытаний (90%).
Работа, опубликованная окт.
3 в Международном журнале исследований робототехники, в соавторстве с Маджумдаром; Алек Фарид, аспирант кафедры машиностроения и аэрокосмической техники; и Anoopkumar Sonar, концентратор информатики из Princeton’s Class 2021 года.
При применении методов машинного обучения из других областей к робототехнике, сказал Фарид, «есть много специальных предположений, которые вам необходимо удовлетворить, и одно из них говорит о том, насколько похожи среды, которые вы ожидаете увидеть, на те среды, в которых была ваша политика. обучен на.
Помимо демонстрации того, что мы можем сделать это в роботизированной среде, мы также сосредоточились на попытках расширить типы сред, для которых мы могли бы предоставить гарантию."
«Виды гарантий, которые мы можем дать, варьируются от 80% до 95% успеха в новых средах, в зависимости от конкретной задачи, но если вы развертываете [беспилотный летательный аппарат] в реальных условиях, тогда 95 %, вероятно, недостаточно хорошо ", – сказал Маджумдар. "Я считаю это одной из самых больших проблем, над которой мы активно работаем."
Тем не менее, подходы команды представляют собой столь необходимый прогресс в обеспечении гарантий обобщения для роботов, работающих в невидимой среде, – сказал Хонгкай Дай, старший научный сотрудник исследовательского института Toyota в Лос-Альтосе, Калифорния.
«Эти гарантии имеют первостепенное значение для многих критически важных для безопасности приложений, таких как беспилотные автомобили и автономные дроны, где обучающий набор не может охватить все возможные сценарии», – сказал Дай, который не участвовал в исследовании. "Гарантия говорит нам, насколько вероятно, что политика может по-прежнему работать достаточно хорошо в невидимых случаях, и, следовательно, вселяет уверенность в политике, где ставка неудачи слишком высока."
В двух других статьях, которые будут представлены в ноябре. 18 на виртуальной конференции по обучению роботов исследователи изучили дополнительные усовершенствования, чтобы приблизить политики управления роботами к гарантиям, которые потребуются для реального развертывания. В одном документе использовалось имитационное обучение, в котором человек-«эксперт» предоставляет данные для обучения, вручную направляя смоделированного робота, чтобы он поднимал различные объекты или перемещался по разным пространствам с препятствиями.
Такой подход может повысить эффективность политик управления на основе машинного обучения.
Чтобы предоставить данные для обучения, ведущий автор Аллен Рен, аспирант в области машиностроения и аэрокосмической техники, использовал компьютерную 3D-мышь для управления смоделированной роботизированной рукой, которой поручено захватывать и поднимать кружки для питья различных размеров, форм и материалов. Другие эксперименты по имитационному обучению включали в себя руку, толкающую коробку через стол, и моделирование колесного робота, перемещающегося по мебели в домашней обстановке.
Исследователи применили правила, извлеченные из задач по захвату кружек и толканию коробок, на роботизированной руке в лаборатории, которая могла брать 25 разных кружек, зажимая их края между двумя пальцевидными захватами, а не держась за ручку. как человек. В примере с толканием ящиков политика достигла 93% успеха в более простых задачах и 80% – в более сложных задачах.
«У нас есть камера наверху стола, которая видит окружающую среду и делает снимок пять раз в секунду», – сказал Рен. "Наша симуляция обучения политике берет это изображение и выводит, какие действия должен предпринять робот, а затем у нас есть контроллер, который перемещает руку в желаемое место на основе выходных данных модели."
В третьем документе продемонстрирована разработка планировщиков на основе видения, которые гарантируют летающим или шагающим роботам выполнение запланированных последовательностей движений в различных средах.
Создание политик контроля для запланированных перемещений породило новую проблему масштаба – необходимость оптимизации политик, основанных на видении, с тысячами, а не сотнями измерений.
«Это потребовало разработки некоторых новых алгоритмических инструментов, позволяющих справиться с этой размерностью и при этом иметь возможность давать сильные гарантии обобщения», – сказал ведущий автор Сушант Вир, научный сотрудник постдокторантуры в области машиностроения и аэрокосмической техники.
Ключевым аспектом стратегии Вира было использование примитивов движения, в которых политика предписывает роботу двигаться прямо или, например, поворачивать, а не указывать крутящий момент или скорость для каждого движения. «Сужение пространства возможных действий делает процесс планирования более управляемым с вычислительной точки зрения», – сказал Маджумдар.
Вир и Маджумдар оценили планировщиков на основе видения на моделировании беспилотника, перемещающегося вокруг препятствий, и четвероногого робота, пересекающего пересеченную местность с уклонами до 35 градусов – «очень сложная проблема, которую все еще пытаются решать многие люди, занимающиеся робототехникой. решить, – сказал Вир.
В исследовании робот на ногах достиг 80% успеха в невидимых тестовых средах. Исследователи работают над дальнейшим улучшением гарантий своих политик, а также над оценкой эффективности политик на реальных роботах в лаборатории.
Работа частично поддержана U.S. Управление военно-морских исследований, Национальный научный фонд, награда факультета Гугла за исследования и награда за исследования Amazon.
