Новый тест показывает, что ИИ по-прежнему лишен здравого смысла

«Современные модели машинного генерирования текста могут написать статью, которая может быть убедительной для многих людей, но они в основном имитируют то, что они видели на этапе обучения», – сказал Линь. «Наша цель в этой статье – изучить проблему того, могут ли современные модели генерации текста писать предложения для описания естественных сценариев в нашей повседневной жизни."
Понимание сценариев повседневной жизни
В частности, Рен и Линь проверили способность моделей рассуждать и показали, что существует большой разрыв между текущими моделями генерации текста и производительностью человека. С учетом набора нарицательных существительных и глаголов передовым компьютерным моделям НЛП была поставлена задача создавать правдоподобные предложения, описывающие повседневный сценарий.

Хотя модели генерировали грамматически правильные предложения, они часто были логически бессвязными.
Например, вот один пример предложения, созданного современной моделью со словами «собака, летающая тарелка, бросить, поймать»:
"Две собаки бросают друг в друга летающие тарелки."
Тест основан на предположении, что связные идеи (в данном случае: «человек бросает летающую тарелку, а собака ее ловит») не могут быть получены без более глубокого понимания концепций здравого смысла. Другими словами, здравый смысл – это больше, чем просто правильное понимание языка – это означает, что вам не нужно все объяснять в разговоре.

Это фундаментальная задача для разработки универсального ИИ, но помимо академических кругов, она актуальна и для потребителей.

Без понимания языка чат-боты и голосовые помощники, построенные на этих современных моделях естественного языка, уязвимы для сбоев. Это также важно, если мы хотим, чтобы роботы все больше присутствовали в человеческой среде.

В конце концов, если вы попросите робота принести горячее молоко, вы ожидаете, что он будет знать, что вам нужна чашка мили, а не вся упаковка.
«Мы также показываем, что если модель генерации лучше работает в нашем тесте, она также может принести пользу другим приложениям, которые требуют здравого смысла, например, роботизированному обучению», – сказал Линь. "Роботам необходимо понимать естественные сценарии нашей повседневной жизни, прежде чем они будут предпринимать разумные действия для взаимодействия с людьми."
Вместе с Лином и Реном в статье фигурируют Ванчуньшу Чжоу из USC, Мин Шэнь, Пей Чжоу; Чандра Бхагаватула из Института искусственного интеллекта Аллена; и Йеджин Чой из Института искусственного интеллекта Аллена и Пол Дж. Школа компьютерных наук и инженерии Аллена, Вашингтонский университет.

Проверка здравого смысла
Здравый смысл или способность делать выводы, используя базовые знания о мире – например, тот факт, что собаки не могут бросать летающие тарелки друг в друга – на протяжении десятилетий сопротивлялись усилиям исследователей ИИ.

Современные модели глубокого обучения теперь могут достигать точности около 90%, поэтому может показаться, что НЛП приблизилось к своей цели.

Но Рен, специалист по обработке естественного языка, и Лин, его ученик, нуждались в более убедительных доказательствах точности этой статистики.

В своей статье, опубликованной на конференции «Результаты применения эмпирических методов в обработке естественного языка» (EMNLP) в ноябре. 16, они ставят под сомнение эффективность эталона и, следовательно, уровень прогресса, фактически достигнутого в данной области.

«Люди приобретают способность составлять предложения, научившись понимать и использовать общие концепции, которые они узнают в своей окружающей среде», – сказал Линь.
"Приобретение этой способности считается важной вехой в человеческом развитии.

Но мы хотели проверить, действительно ли машины могут обрести такую генеративную способность здравого смысла."
Для оценки различных моделей машин пара разработала задачу генерации ограниченного текста под названием CommonGen, которую можно использовать в качестве эталона для проверки генеративного здравого смысла машин.

Исследователи представили набор данных, состоящий из 35 141 концепции, связанной с 77 449 предложениями. Они обнаружили, что даже самая эффективная модель достигла точности 31.6% против 63.5% для людей.

«Мы были удивлены, что модели не могут вспомнить простое здравое знание о том, что« человек, бросающий летающую тарелку »должен быть гораздо более разумным, чем собака, делающая это», – сказал Линь. «Мы обнаружили, что даже самая сильная модель, называемая T5, после обучения с большим набором данных все еще может делать глупые ошибки."
Похоже, говорят исследователи, что предыдущие тесты не в достаточной мере оспорили модели с их способностями к здравому смыслу, вместо этого имитируя то, что они видели на этапе обучения.
«Предыдущие исследования в первую очередь были сосредоточены на различительном здравом смысле», – сказал Рен. «Они тестируют машины с помощью вопросов с несколькими вариантами ответов, когда пространство для поиска машины невелико – обычно четыре или пять кандидатов."

Например, типичная установка для разборчивого тестирования здравого смысла – это ответ на вопрос с несколькими вариантами ответов, например: «Где взрослые используют клей-карандаш??"A: класс B: кабинет C: ящик стола.
Ответ здесь, конечно же, "B: офис"."Даже компьютеры могут понять это без особых проблем.

Напротив, генеративная установка является более открытой, например, задача CommonGen, где модели предлагается сгенерировать естественное предложение из заданных понятий.
Рен объясняет: «Благодаря обширному обучению моделей очень легко добиться хороших результатов в этих задачах.

В отличие от этих разборчивых задач рассуждений на основе здравого смысла, предлагаемый нами тест фокусируется на генеративном аспекте машинного здравого смысла."
Рен и Линь надеются, что набор данных послужит новым ориентиром для будущих исследований по внедрению здравого смысла в генерацию естественного языка. Фактически, у них даже есть таблица лидеров, отображающая оценки, достигнутые различными популярными моделями, чтобы помочь другим исследователям определить их жизнеспособность для будущих проектов.

«Роботам необходимо понимать естественные сценарии нашей повседневной жизни, прежде чем они будут предпринимать разумные действия для взаимодействия с людьми», – сказал Линь.
«Я верю, что, привнося в машины здравый смысл и другие знания в конкретной предметной области, однажды мы сможем увидеть агентов ИИ, таких как Саманта, в фильме« Она », которые генерируют естественные реакции и взаимодействуют с нашей жизнью."