Исследователи отлаживают контроль над созданием изображений AI

Речь идет о типе задачи искусственного интеллекта, называемой условной генерацией изображений, в которой системы искусственного интеллекта создают изображения, соответствующие определенному набору условий. Например, систему можно обучить создавать оригинальные изображения кошек или собак, в зависимости от того, какое животное запрашивал пользователь.

Более поздние методы основаны на этом, чтобы включить условия, касающиеся макета изображения. Это позволяет пользователям указать, какие типы объектов они хотят отображать в определенных местах на экране. Например, небо может быть в одном ящике, дерево – в другом, поток – в отдельном ящике и т. Д.

Новая работа основана на этих методах, чтобы дать пользователям больше контроля над получаемыми изображениями и сохранить определенные характеристики в серии изображений.
«Наш подход можно легко изменить», – говорит Тианфу Ву, соавтор статьи о работе и доцент кафедры компьютерной инженерии в NC State. "Как и предыдущие подходы, наш позволяет пользователям создавать изображение в системе на основе определенного набора условий. Но наш также позволяет вам сохранить это изображение и добавить к нему.

Например, пользователи могут заставить ИИ создать горный пейзаж. Затем пользователи могут заставить систему добавлять лыжников в эту сцену."
Кроме того, новый подход позволяет пользователям управлять ИИ определенными элементами, чтобы они были идентифицируемыми, но были перемещены или изменены каким-то образом.

Например, ИИ может создать серию изображений, на которых лыжники поворачиваются к зрителю, когда они перемещаются по ландшафту.
«Одно из приложений для этого – помочь автономным роботам« представить », как может выглядеть конечный результат, прежде чем они начнут выполнение данной задачи», – говорит Ву. "Вы также можете использовать систему для создания изображений для обучения искусственному интеллекту.

Таким образом, вместо компиляции изображений из внешних источников вы можете использовать эту систему для создания изображений для обучения других систем искусственного интеллекта."
Исследователи протестировали свой новый подход, используя набор данных COCO-Stuff и набор данных Visual Genome. Основанный на стандартных показателях качества изображения, новый подход превзошел предыдущие современные методы создания изображений.
«Наш следующий шаг – посмотреть, сможем ли мы распространить эту работу на видео и трехмерные изображения», – говорит Ву.

Обучение новому подходу требует значительных вычислительных мощностей; исследователи использовали рабочую станцию с 4 GPU. Однако развертывание системы менее затратно с точки зрения вычислений.
«Мы обнаружили, что один графический процессор обеспечивает скорость почти в реальном времени», – говорит Ву.

"В дополнение к нашей статье мы сделали наш исходный код для этого подхода доступным на GitHub. Тем не менее, мы всегда открыты для сотрудничества с отраслевыми партнерами."

Работа поддержана Национальным научным фондом в рамках грантов 1909644, 1822477, 2024688 и 2013451; U.S. Управление армейских исследований, грант W911NF1810295; и Администрацией общественной жизни в рамках гранта 90IFDV0017-01-00.