Текст уведомления здесь

Искусственному интеллекту привили любопытство

Информатики из Университета Техаса и компании DeepMind разработали новый алгоритм, позволяющий искусственному интеллекту «мотивировать» себя на изучение окружающего мира и таким образом учиться быстрее и эффективнее.
Добавить в закладки
Комментарии

Специалисты в области искусственного интеллекта (ИИ) давно работают над алгоритмами «любопытства», которые позволяли бы машинам самостоятельно исследовать окружающий мир и обучаться ради самого процесса обучения. Однако скопировать человеческую любознательность очень сложно. Например, большинство существующих алгоритмов не способны оценить пробелы ИИ в знаниях, чтобы предсказать, что ему будет интересно, до того, как он это увидит. То есть компьютер пока не способен в отличие от человека оценить, интересна ли ему книга, только по ее обложке.

Кроме того, люди (в частности, маленькие дети) исследуют не все подряд и не случайным образом — они выбирают любопытную для них часть реальности и концентрируются на ней, так как у них возникает внутренняя мотивация заниматься именно этим.

Двое исследователей — Тодд Хестер, сотрудник компании Google DeepMind (именно ее алгоритм AlphaGo победил чемпиона мира в настольной игре го) и информатик из Университета Техаса Питер Стоун — решили приблизить ИИ к человеческому способу познания мира и разработали новый алгоритм любопытства под названием «Целенаправленное исследование с внутренним вознаграждением за вариативность и новизну» (Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards (TEXPLORE-VENIR).

Алгоритм основан на технике, которая называется «усиленное обучение». В процессе усиленного обучения программа пробует что-то делать, и, если это действие продвигает ее ближе к некой установленной цели, например к концу лабиринта, программа получает небольшое вознаграждение и с большей вероятностью повторит этот маневр в будущем.

«Наградой» выступают баллы, начисляемые ИИ. А получает он их, как видно из названия, за два типа поведения: вариативность (отклонения в предсказательных моделях ИИ, чтобы побудить его исследовать, где его модель не определена, — иначе говоря, двигаться от простого к сложному) и стремление к новым состояниям, которые отличаются от тех, на которых он тренировался. То есть награды выдаются за поиск нового и разнообразного.

DeepMind использовал именно алгоритмы усиленного обучения, чтобы научить свои программы играть в компьютерные игры или настольную игру го путем случайных экспериментов.

Таким образом новый алгоритм учится и строит модель мира, «награждая» себя за открытие информации, которая не похожа на то, с чем он сталкивался раньше. Например, он находит новые точки на карте или, если это кулинарное приложение, экзотические рецепты. Он также награждает себя за уменьшение неопределенности — за то, что эти места и рецепты становятся ему известны.

Свой метод программисты протестировали на двух сценариях. Первый — виртуальный лабиринт, состоящий из четырех комнат, соединенных закрытыми на замок дверями. Компьютерная программа (бот) должна была найти ключ, взять его и использовать для открытия дверей. Каждый раз, когда она проходила в дверь, она зарабатывала 10 очков, и у нее было 3000 шагов для достижения результата. Если исследователи сначала давали боту исследовать 1000 шагов, руководствуясь только TEXPLORE-VENIR, он зарабатывал примерно 55 очков в среднем во время 30 000-шагового теста. Но если бот использовал другие алгоритмы любопытства для такого исследования, он набирал от 0 до 35 очков.

В другой обстановке, когда боту нужно было одновременно и исследовать комнаты, и проходить сквозь двери, TEXPLORE-VENIR зарабатывал 70 очков, R-Max — 35, а другие — меньше пяти, сообщают исследователи.

Затем исследователи применили алгоритм к физическому роботу — игрушке Nao. В трех разных заданиях машина зарабатывала очки за удар по тарелке, за то, что она держала розовую ленту на руке перед глазами или нажимала кнопку на ноге.

Для каждой задачи у робота было 200 шагов, чтобы заработать очки, но сначала 400 шагов для исследования (поиска способов, как можно выполнить все указанные действия) — беспорядочно или используя TEXPLORE-VENIR. И в 13 испытаниях этот алгоритм показал себя лучше алгоритмов беспорядочного перебора.

«Так, эксперименты с ботом и роботом показали, что TEXPLORE-VENIR хорошо подготовлен к поиску решений для заранее поставленных задач. Это похоже на то, как дети сначала беспорядочно „болтают“ руками и ногами, прежде чем учатся ползать, а потом ходить», — говорится в сообщении журнала Science.

Усиленное обучение очень важно для развития ИИ, так как позволяет роботу адаптироваться к условиям среды и задачам, которые изначально не были заложены в его программу. Например, базовая модель домашнего робота может быть помещена в дом, где он будет обучаться задачам, которые требуются от него в данном конкретном домашнем хозяйстве.

Как считает Тодд Хестер, следующим шагом будет использование глубоких нейронных сетей, алгоритмов, смоделированных по архитектуре мозга, чтобы роботы могли обучаться как дети.

Статья с описанием нового алгоритма опубликована в журнале Artificial Intelligence.

Ранее ИИ победил человека и в покере.

Вам понравилась публикация?
Расскажите, что вы думаете, и мы подберем подходящие материалы

Женщины, пьющие чай, меняются эпигенетически

Шведские ученые из Университета Уппсала обнаружили, что, когда женщины регулярно употребляют чай, это вызывает в их организме изменения эпигенома, связанные с возникновением раковых заболеваний.
Добавить в закладки
Комментарии

Эпигенетика — область генетики, которая изучает изменения в активности генов без изменения нуклеотидной последовательности самой ДНК. Посредством различных эпигенетических механизмов (таких как модификация гистонов и метилирование ДНК, то есть присоединение к ней метильных групп) конкретные гены проявляют свою активность в нужный момент. Особенно важную роль эпигенетика играет в процессе развития организма, когда из совершенно одинаковых клеток эмбриона посредством эпигенетических механизмов появляются клетки печени, глаз, кишечника и других органов. Также эпигеном играет большую роль в поддержании стабильного здоровья человека, и сегодня уже известно множество распространенных болезней, таких как диабет и атеросклероз, которые напрямую связаны с нарушениями эпигенома.

К изменениям эпигенома могут привести различные факторы окружающей среды, привычки (например, курение, употребление алкоголя) и образ жизни. В новой работе шведские ученые проследили, каким образом регулярное употребление чая влияет на эпигеном людей. Предыдущие исследования показали, что кофе и чай могут играть важную роль в уменьшении риска заболевания у людей, так как подавляют активность онкогенов. Также они уменьшают воспаления и др. Как предполагается, эти благоприятные механизмы могут быть опосредованы изменениями метилирования ДНК.

Чтобы это подтвердить, ученые провели исследование метилирования ДНК в геномах 3096 человек. ДНК-метилирование анализировали на 421,695 участках так называемых CpG-островов (то есть компактно расположенных в геноме, связанных вместе нуклеотидов гуанин и цитозин), распределенных по всему геному. Результаты работы показали, что у женщин, регулярно потребляющих чай, имеются эпигенетические изменения в генах DNAJC16 и TTC17, участвующих в опухолевых образованиях и метаболизме женских гормонов, эстрогенов.

У мужчин подобных изменений обнаружено не было. Как пишут ученые, потребление чая снижает уровень именно женских гормонов — эстрогенов, что подчеркивает потенциальную разницу между биологическим ответом на чай у мужчин и женщин. [ ... ]

Читать полностью

Создан генератор случайных чисел, умеющий оценивать энтропию

Исследователи из Женевского университета разработали новый метод генерации случайных чисел на основе законов квантовой физики.
Добавить в закладки
Комментарии

С появлением систем хранения и передачи данных появились также системы, позволяющие перехватывать эти данные. Поэтому важную информацию зашифровывают с помощью криптографических ключей. Они представляют собой секретный набор символов, который используется неким алгоритмом для шифрования/дешифрования. Даже если алгоритм будет вычислен, без ключа «достать» информацию невозможно.

Хороший криптографический ключ должен состоять из чередующихся случайным образом нулей и единиц, которые составляют базовую единицу информации (бит) в цифровых устройствах, например в компьютерах. Кажется, что создать случайный набор цифр легко, но специалисты по теории информации давно поняли, что на самом деле получить действительно случайную последовательность довольно сложно. Даже если человек будет хаотично нажимать на цифры на клавиатуре, возникает определенная последовательность или выраженное преобладание одной цифры. Еще одним недостатком «ручной» генерации ряда цифр является скорость, в миллионы раз меньшая, чем скорость генерации цифр машиной. Последняя также имеет алгоритм выбор цифр, пусть и очень сложный, но поддающийся расшифровке.

Для решения проблемы предвзятости исследователи из Женевского университета разработали новый генератор случайных чисел, основанный на принципах квантовой физики.

Квантовая физика основана на непредсказуемости действия. В отличие от классической физики в ней нет зависимости действия от причины. Если мы толкнем шарик, лежащий на плоской поверхности, он обязательно покатится — таковы ясные и понятные законы классической физики. Но если направить фотон на полупрозрачное зеркало, мы не можем заранее предсказать, отразится он или пройдет через зеркало. Потому что в квантовой физике действие случайно. Следовательно, генератор на основе законов квантовой механики невозможно упрекнуть в предвзятости или наличии алгоритма. [ ... ]

Читать полностью

Воду можно заменить кислым синим светом

Биологи из Университета Эссена и Калифорнийского технологического института в Пассадене выяснили, что животные могут определять считавшуюся до сих пор безвкусной воду на вкус, а также пить свет, если он кажется им кислым.
Добавить в закладки
Комментарии

Считается, что язык различает пять вкусов — соленый, кислый, сладкий, горький и так называемый умами (например, такой вкус имеет глутамат). С древних времен считалось, что у воды вкуса нет.

Но некоторые недавние исследования нейробиологов показали, что кортекс млекопитающих специфически реагирует на воду. Однако о клеточном и молекулярном механизме этого взаимодействия ученым было почти ничего не известно. Очевидно, что мозг получает сигналы о жажде или ее прекращении из ротовой полости, так как животные и человек прекращают пить задолго до того, как клетки кишечника или крови дадут мозгу сигнал, что организму достаточно воды.

Нейробиологи из США и Германии решили выяснить, какие именно химические реакции происходят во рту при воздействии воды. Для этого они проводили эксперименты на мышах, у которых во вкусовых сосочках последовательно «отключали» вкусовые рецепторные клетки (TRCs), реагирующие на все вкусы, кроме какого-то одного: сладкого, кислого, горького, соленого или умами. Затем рот мышей промывали водой и фиксировали электрические импульсы, идущие от рецепторов и означающие, что они среагировали на раздражитель.

В итоге рецепторы с отключенными клетками, как и ожидалось, не реагировали на вкусы, за которые они «отвечают». Однако ученые выяснили, что рецепторные клетки, ответственные за кислый вкус, отчетливо активизировались при омывании их водой. [ ... ]

Читать полностью