Текст уведомления здесь

Искусственному интеллекту привили любопытство

Информатики из Университета Техаса и компании DeepMind разработали новый алгоритм, позволяющий искусственному интеллекту «мотивировать» себя на изучение окружающего мира и таким образом учиться быстрее и эффективнее.
Добавить в закладки
Комментарии

Специалисты в области искусственного интеллекта (ИИ) давно работают над алгоритмами «любопытства», которые позволяли бы машинам самостоятельно исследовать окружающий мир и обучаться ради самого процесса обучения. Однако скопировать человеческую любознательность очень сложно. Например, большинство существующих алгоритмов не способны оценить пробелы ИИ в знаниях, чтобы предсказать, что ему будет интересно, до того, как он это увидит. То есть компьютер пока не способен в отличие от человека оценить, интересна ли ему книга, только по ее обложке.

Кроме того, люди (в частности, маленькие дети) исследуют не все подряд и не случайным образом — они выбирают любопытную для них часть реальности и концентрируются на ней, так как у них возникает внутренняя мотивация заниматься именно этим.

Двое исследователей — Тодд Хестер, сотрудник компании Google DeepMind (именно ее алгоритм AlphaGo победил чемпиона мира в настольной игре го) и информатик из Университета Техаса Питер Стоун — решили приблизить ИИ к человеческому способу познания мира и разработали новый алгоритм любопытства под названием «Целенаправленное исследование с внутренним вознаграждением за вариативность и новизну» (Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards (TEXPLORE-VENIR).

Алгоритм основан на технике, которая называется «усиленное обучение». В процессе усиленного обучения программа пробует что-то делать, и, если это действие продвигает ее ближе к некой установленной цели, например к концу лабиринта, программа получает небольшое вознаграждение и с большей вероятностью повторит этот маневр в будущем.

«Наградой» выступают баллы, начисляемые ИИ. А получает он их, как видно из названия, за два типа поведения: вариативность (отклонения в предсказательных моделях ИИ, чтобы побудить его исследовать, где его модель не определена, — иначе говоря, двигаться от простого к сложному) и стремление к новым состояниям, которые отличаются от тех, на которых он тренировался. То есть награды выдаются за поиск нового и разнообразного.

DeepMind использовал именно алгоритмы усиленного обучения, чтобы научить свои программы играть в компьютерные игры или настольную игру го путем случайных экспериментов.

Таким образом новый алгоритм учится и строит модель мира, «награждая» себя за открытие информации, которая не похожа на то, с чем он сталкивался раньше. Например, он находит новые точки на карте или, если это кулинарное приложение, экзотические рецепты. Он также награждает себя за уменьшение неопределенности — за то, что эти места и рецепты становятся ему известны.

Свой метод программисты протестировали на двух сценариях. Первый — виртуальный лабиринт, состоящий из четырех комнат, соединенных закрытыми на замок дверями. Компьютерная программа (бот) должна была найти ключ, взять его и использовать для открытия дверей. Каждый раз, когда она проходила в дверь, она зарабатывала 10 очков, и у нее было 3000 шагов для достижения результата. Если исследователи сначала давали боту исследовать 1000 шагов, руководствуясь только TEXPLORE-VENIR, он зарабатывал примерно 55 очков в среднем во время 30 000-шагового теста. Но если бот использовал другие алгоритмы любопытства для такого исследования, он набирал от 0 до 35 очков.

В другой обстановке, когда боту нужно было одновременно и исследовать комнаты, и проходить сквозь двери, TEXPLORE-VENIR зарабатывал 70 очков, R-Max — 35, а другие — меньше пяти, сообщают исследователи.

Затем исследователи применили алгоритм к физическому роботу — игрушке Nao. В трех разных заданиях машина зарабатывала очки за удар по тарелке, за то, что она держала розовую ленту на руке перед глазами или нажимала кнопку на ноге.

Для каждой задачи у робота было 200 шагов, чтобы заработать очки, но сначала 400 шагов для исследования (поиска способов, как можно выполнить все указанные действия) — беспорядочно или используя TEXPLORE-VENIR. И в 13 испытаниях этот алгоритм показал себя лучше алгоритмов беспорядочного перебора.

«Так, эксперименты с ботом и роботом показали, что TEXPLORE-VENIR хорошо подготовлен к поиску решений для заранее поставленных задач. Это похоже на то, как дети сначала беспорядочно „болтают“ руками и ногами, прежде чем учатся ползать, а потом ходить», — говорится в сообщении журнала Science.

Усиленное обучение очень важно для развития ИИ, так как позволяет роботу адаптироваться к условиям среды и задачам, которые изначально не были заложены в его программу. Например, базовая модель домашнего робота может быть помещена в дом, где он будет обучаться задачам, которые требуются от него в данном конкретном домашнем хозяйстве.

Как считает Тодд Хестер, следующим шагом будет использование глубоких нейронных сетей, алгоритмов, смоделированных по архитектуре мозга, чтобы роботы могли обучаться как дети.

Статья с описанием нового алгоритма опубликована в журнале Artificial Intelligence.

Ранее ИИ победил человека и в покере.

Вам понравилась публикация?
Расскажите, что вы думаете, и мы подберем подходящие материалы

Disney будет создавать роботов совместно с Калифорнийским технологическим институтом

Калифорнийский технологический институт (Caltech) и Disney Research заключили соглашение о совместной исследовательской работе по тематикам искусственного интеллекта и робототехники.
Добавить в закладки
Комментарии

Трехлетнее соглашение между инженерами и исследователями Caltech и Disney Research было запущено в августе 2017 года, сообщение об этом выпущено на сайте института. Ученые планируют совместно разрабатывать роботов с возможностями автономного движения и совершенствовать технологии машинного обучения.

Участники совместного проекта будут разрабатывать навигационное и программное обеспечение, которое позволило бы роботам безопасно перемещаться в толпе и взаимодействовать с людьми. Роботы должны будут также оценивать действия людей, с которыми они встречаются — например, замечать, затерялся ли человек в толпе. К работе с научным подразделением корпорации присоединились специалисты в области машинного обучения и компьютерного зрения. Ученые из Caltech, подключившиеся к коллаборации, ранее разработали приложение для смартфонов, которое может различать более 550 видов птиц Северной Америки. В Disney заинтересованы в создании роботов, которые смогут выполнять трюки в кино, поясняется в пресс-релизе.

Ранее Caltech и Disney Research работали по нескольким проектам. Математики из Калифорнийского института и инженеры Disney использовали технологию машинного обучения для анализа поведения футболистов на поле и их взаимодействия со зрителями матча.

Disney Research — партнерская научная программа The Walt Disney Company с лабораториями по всему миру, среди которых Университет Карнеги-Меллон и Швейцарская высшая техническая школа Цюриха. Партнеры Disney занимаются инновационными разработками в области компьютерной графики, робототехники, анализа данных, машинного обучения и поведенческой науки. Исследовательская программа была запущена в 2008 году. [ ... ]

Читать полностью

Ученые из MIT научили дронов обходить препятствия

Американские инженеры разработали систему передвижения дронов, работающую по принципу неопределенности.
Добавить в закладки
Комментарии

Дроны активно внедряются в современную городскую среду. Беспилотные летающие роботы ведут трансляции и съемки, мониторинг местности, с помощью них даже начинают передавать интернет посредством Wi-Fi. Торговые площадки серьезно готовятся перейти на доставку товаров с помощью дронов. Не так давно Amazon анонсировала Prime Air — сервис доставки посылок по воздуху прямо в руки покупателям менее чем за полчаса.

Пока применение дронов сталкивается с множеством проблем. Помимо юридической неопределенности бизнеса с использованием летающих роботов, эксплуатируемые сейчас дроны с трудом передвигаются в городских пространствах. При высоких скоростях движения беспилотникам, особенно маленьким дронам, сложно избегать многочисленные препятствия.

Команда инженеров из Массачусетского технологического института (MIT) разработала систему NanoMap, которая позволяет двигаться беспилотникам в плотной городской среде со скоростью почти 20 миль в час. Система NanoMap считает, что позиция дрона со временем остается неопределенной, и при моделировании движения учитывает такую неопределенность, как будто дрон отклоняется в сторону. Немного напоминает принцип неопределенности положения и скорости электрона — мы не можем одновременно определить и положение, и импульс электрона, поэтому позицию электрона в атоме описываем с помощью орбиталей.

NanoMap измеряет глубину свободного пространства при продвижении и сшивает изображения, моделируя 3D-образ окружающего ландшафта. Это позволяет дрону точнее оценивать глубину окружающего пространства и прогнозировать изменения в положении встречающихся объектов. Об этом MIT сообщает в своем пресс-релизе. [ ... ]

Читать полностью

Дронами можно будет управлять ногами

Ученые из Сколтеха разработали новый интерфейс для управлением дронами. Теперь квадрокоптер проецирует на пол сенсорную панель, которая реагирует на касание и жесты ног.
Добавить в закладки
Комментарии

Раньше дронами управляли джойстиком — подавали команды по радио. В Сколтехе разработали новый способ взаимодействия с дронами — с помощью проектора и 3D-сенсора, сканирующего пространство перед пользователем и распознающего жесты человека. Чтобы подать команду, достаточно «кликнуть» стопой на изображение, которое дрон спроецировал на любую твердую поверхность — асфальт или стену.

Для демонстрации ученые использовали квадрокоптер, снаряженный сенсором глубины и микро-проектором. Квадрокоптер поднимается в воздух, зависает в заранее указанной точке и проецирует интерфейс на пол. Человек может взаимодействовать с квадрокоптером, нажимая на элементы интерфейса и делая жесты ногами, привычные пользователям смартфонов, включая жесты для мультитача.

Выглядит это так:

Читать полностью