ИССЛЕДОВАНИЕ МЕХАНИЗМОВ ЦЕЛЕНАПРАВЛЕННОГО АДАПТИВНОГО УПРАВЛЕНИЯМ. С. Бурцев, Р. В. Гусарев, В. Г. РедькоМосква, ИПМ им. М. В. Келдыша РАН Исследуется возможный механизм эволюционного возникновения целенаправленного адаптивного управления. Разработана и исследована компьютерная модель эволюции популяции агентов, обладающих двумя естественными потребностями: энергии и размножения. Каждая из потребностей характеризуется количественно мотивацией. Мотивации задают цели агентов, цели направлены на удовлетворение потребностей. Каждый агент имеет простую нейронную сеть, которая управляет его поведением. Модель демонстрирует, что целенаправленное поведение действительно возникает в ходе моделируемого эволюционного процесса. Возникновение целенаправленности сопровождается формированием простейшей иерархии в системе управления агентом. ВведениеЧеткое понимание механизмов, обеспечивающих целенаправленность, необходимо при построении интеллектуальных систем управления сложными объектами. В представленной работе мы пытаемся выделить и исследовать некоторые общие функциональные свойства, определяющие целенаправленное адаптивное управление. Для изучения понятия целенаправленности мы используем эволюционное компьютерное моделирование достаточно простой многоагентной системы. Подобное эволюционное моделирование многоагентных систем активно применяется в последнее время при исследовании экономических, информационных и социальных структур [1-3]. Мы также используем методы и концепции, которые развиваются в сравнительно новом направлении исследований "Искусственная жизнь" [3-5]. Основное понятие, которое мы используем для характеристики целенаправленного поведения - понятие мотивации. Под мотивацией подразумевается стремление к цели. Мы вводим количественные параметры, характеризующие мотивации агентов, и анализируем, как мотивации влияют на управление адаптивным поведением агентов и на эволюцию популяции агентов. Основные предположения модели состоят в следующем: 1. Описание модели1.1. Общая характеристика моделиДля простоты мы предполагаем, что среда, в которой живут агенты, одномерна. Агенты могут перемещаться в соседние клетки или перескакивать через несколько клеток. Время дискретно. В каждый такт времени каждый агент популяции выполняет строго одно действие. Эти действия таковы: 1) находиться в состоянии покоя ("отдыхать"); Управление агентом (выбор действий) осуществляется его нейронной сетью. Параметры нейросети (веса синапсов) модифицируются в процессе эволюции популяции агентов. Веса синапсов нейронной сети составляют геном агента. Эпизодически (случайно) на несколько тактов в некоторых клетках появляется пища агентов. Агенты "близорукие", а именно, любой агент видит ситуацию только в трех клетках: в той, которой находится сам агент, и в двух соседних клетках. Мы определяем эти 3 клетки как "поле зрения" агента (рис. 1). Рис. 1. Агенты в одномерной клеточной среде. 1.2. Взаимодействие агентов с окружающей средой и друг другомПитаниеАгент видит пищу, находящуюся в его поле зрения. Агент может съесть пищу в той клетке, в которой он находится. Если агент выработал действие "есть", и в его клетке есть пища, то внутренний энергетический ресурс агента увеличивается, а пища из клетки исчезает. Т.е. агент съедает всю пищу в клетке за один такт времени. СкрещиваниеЕсли два агента, находящиеся в соседних клетках, вырабатывают действие "скрещиваться", то возможно появление нового агента - "потомка". Геном (набор весов нейронной сети) потомка формируется на основе генома "родителей" при помощи рекомбинации и мутаций. Оба родителя передают часть своего энергетического ресурса потомку, полученная от родителей энергия составляет начальный ресурс потомка. Если энергетический ресурс одного или обоих родителей меньше ресурса, который необходимо передать потомку, появление нового агента не происходит, но ресурс родителей уменьшается, как и при появлении потомка, что приводит к гибели одного или обоих скрещивающихся агентов. После удачного скрещивания рожденный агент помещается в одну из клеток, соседних с клетками родителей, при условии, что хотя бы одна из этих клеток свободна (в ней нет другого агента). Если обе возможные клетки заняты, то потомок погибает. Последнее означает, что мир слишком тесен - нет "жизненного пространства" для потомка. 1.3. "Физиология" агентовОпишем физиологию агентов, характеризуя взаимосвязи между действиями агента и его внутренним состоянием. Используем следующие обозначения: R - энергетический ресурс, DR - изменение ресурса за один такт времени; ki - параметры, характеризующие изменение внутреннего энергетического ресурса; ME , MR - параметры, характеризующие мотивации. Выполнение какого-либо действия приводит к изменению внутреннего ресурса агента по следующим правилам: 1) Отдых (нахождение в состоянии покоя): DR = - k1. Прокомментируем приведенные соотношения. Во время отдыха агент теряет небольшое количество ресурса (k1). Двигаясь и прыгая, агент также затрачивает некоторое количество энергетического ресурса (k2, k3). При питании агент теряет малое количество ресурса (k4) и получает энергию, пропорциональную количеству пищи (k5A). Выполняя действия скрещивания, агент теряет в любом случае некоторую энергию (k6). Если действия скрещивания агентов в соседних клетках скоординированы (оба скрещиваются), то рождается потомок, и оба родителя передают часть своей энергии (k7) потомку. Если энергетический ресурс агента недостаточен для выполнения выбранного действия, то этот агент умирает. Мотивации агента определяются следующим образом (см. рис. 2): 1) Мотивация к поиску пищи равна: где R0 - некое "оптимальное" значение энергетического ресурса. 2) Мотивация к скрещиванию составляет: где R1 - "оптимальное" для размножения значение энергетического ресурса. Рис. 2. Зависимость уровня мотиваций от внутреннего ресурса агента. 1.4. Структура нейронной сети агентаНейронная сеть управляет поведением агента. Мы предполагаем, что нейронная сеть агента содержит один слой нейронов (рис. 3). На входы нейронной сети поступают сенсорные сигналы. Входы и нейроны связаны по принципу "все со всеми", то есть каждый нейрон получает сигналы от всех входов. Нейроны формируют выходные сигналы, которые определяют действия агента. Рис. 3. Структура нейронной сети агента. Рассмотрим входные сигналы нейронной сети. Предполагаем, что агент получает из внешней среды следующую информацию: Кроме того, из внутренней среды агент получает информацию о своих мотивациях MR и ME. Таким образом, мы имеем 3+2+2+2 = 9 входных сигналов нейронной сети. Нейроны определяют действия агента. Каждый нейрон соответствует одному действию. Будем считать, что агент в данный такт времени выполняет то действие, которое соответствует нейрону с максимальным выходным сигналом. Действия агента перечислены в п. 1.1. Принимая во внимание, что действия движения и скрещивания имеют два варианта (двигаться и скрещиваться можно как направо, так и налево), получаем, что имеется 7 различных действий агента. Соответственно, нейронная сеть агента содержит 7 нейронов. Мы предполагаем, что нейроны имеют логистическую активационную функцию: F(b) = [1+exp (-b)]-1, где yj - выход j-го нейрона, xi - входы нейрона, wij - синаптические веса j-го нейрона. Так как входы и нейроны имеют полные межслойные синаптические связи (рис. 3), то нейронная сеть имеет 7х9 = 63 синаптических веса, которые полностью определяют работу системы управления агентом. 1.5. Схема эволюцииПопуляция агентов эволюционирует во времени. Основной механизм эволюционного процесса - формирование генома рождающихся агентов. Геном кодирует веса связей нейронной сети агента, каждый вес представлен отдельным геном. Всего в нейронной сети имеется 63 веса, соответственно геном можно записать как: При появлении нового агента, его геном формируется следующим образом: 1) осуществляется равномерная рекомбинация генов родителей; Равномерная рекомбинация заключается в формировании каждого гена потомка путем случайного выбора этого гена от одного из двух его родителей. В процессе мутаций к каждому гену добавляется случайная величина z, равномерно распределенная в интервале [-pm , pm]: 2. Моделирование2.1. Параметры компьютерного экспериментаДля того чтобы исследовать влияние мотиваций на поведение отдельного агента и популяции в целом, были проведены две серии экспериментов. В первой серии моделировалась эволюция популяции агентов с "работающими" мотивациями (введенными так, как это описано выше), во второй серии мотивации у агентов были "выключены" (входы от мотиваций искусственно "задавливались" специальным выбором параметров R0 и R1). В обоих случаях эксперимент проводился для нескольких значений вероятности случайного появления пищи в клетках, с тем, чтобы проанализировать влияние количества ресурса в окружающей среде на поведение популяции. Из разумных соображений была задана физиология агентов, т.е. были зафиксированы параметры ki, определяющие изменения энергетического ресурса R агента при совершении им различных действий. Эти параметры, остававшиеся неизменными во всех экспериментах, были заданы, исходя из следующих соображений: 1) при выполнении действия "отдыхать" (параметр k1) агент тратит наименьшее количество запасенной энергии; 2) при выполнении действия "есть" (k4) потери энергии в два раза больше, чем при выполнении действия "отдыхать"; 3) при выполнении действия "двигаться" (k2) потери энергии еще в два раза больше; 4) затраты на "скрещивание" (k6) равны затратам на "прыжок" (k3) и в 5 раз больше чем при "движении" (при "прыжке" агент перемещался на 5 клеток в случайную сторону). Таким образом, соотношения для параметров, определяющих изменение внутреннего ресурса агента при выполнении действий, имеют следующий вид: Оптимальный ресурс агента R0 задавался на три-четыре порядка больше, чем затраты на выполнение какого-либо действия (R0 = 104 k1). Таким образом, наличие оптимального ресурса позволяло агенту существовать несколько тысяч тактов времени. Значение параметра R1, определяющее мотивацию к скрещиванию, определялось, как R1 = 0,5R0. Количество энергии, передаваемое от одного родителя к потомку, полагалось равным k7 = 0,1R0. Учитывая то, что потомок получает энергию от обоих, энергетический ресурс "новорожденных" агентов составлял 0,2R0. Количество энергии, получаемое агентом в результате съедания "одной порции" пищи (k5 A), было значительно больше типичной затраты на действия, но существенно меньше оптимального ресурса и составляло 0,02R0. Пища сохранялась в клетке (если ее не съедал агент) в течение 20 тактов. Интенсивность мутаций составляла pm = 0,05. Начальная популяция агентов состояла из 200 агентов. Энергетический ресурс агентов начальной популяции задавался примерно в два раза больше оптимального значения R0. Вся агенты начальной популяции имели один и тот же набор синаптических весов. Каждому синаптическому весу нейронной сети агента в нашей модели соответствует свой номер (от 1 до 63). Отличные от нуля веса нейронной сети агентов начальной популяции представлены в таблице 1. Эти веса были заданы, исходя из изложенных ниже соображений. Мы требовали, чтобы агенты начальной популяции имели два основных "врожденных инстинкта": 1) инстинкт пополнения ресурса и 2) инстинкт размножения. Инстинкт пополнения ресурса задавался весами 5, 13, 18 (таблица 1). Этот инстинкт определяет действия агента при наличии пищи в поле его зрения. Если агент видит пищу в соседней клетке, то он двигается к ней, если пища находится в одной с ним клетке, агент съедает ее. При появлении в поле зрения другого агента включается инстинкт размножения, определяемый весами 23, 29. Этот инстинкт заключается в том, что наличие соседа вызывает действие скрещивания. В дополнение к двум основным инстинктам был введен инстинкт "боязни тесноты", определяемый весами 24, 31. Этот инстинкт позволяет агентам сохранять свободу передвижения: если агент попадает в ситуацию, когда он с обеих сторон окружен соседями, то у него вырабатывается действие "прыгать". Значения остальных синаптических весов (не указанных в таблице 1) для агентов начальной популяции полагались равными нулю. Таблица 1. Отличные от нуля веса синапсов агентов начальной популяции.
2.2. Результаты моделированияОсновным количественным показателем, по которому мы определяли "качество жизни" агентов, была общая численность популяции. На рисунке 4 представлены зависимости общей численности популяции от времени для агентов с мотивациями (мотивации "работают") и без мотиваций (мотивации "задавлены") при различном количестве пищи в нашей клеточной среде. Количество пищи задавалось параметром Pg - вероятностью случайного её появления в каждый такт времени в каждой клетке. При малом количестве пищи (рис. 4а) популяция вымирает, как в случае агентов с мотивациями, так и для агентов без мотиваций - агенты довольно быстро расходуют начальный энергетический ресурс и не находят какой-либо стратегии выживания. При среднем количестве пищи (рис. 4б) популяция успешно развивается, если эволюция находит достаточно эффективную стратегию поведения агентов. Для популяции агентов с мотивациями такая стратегия находится, а для популяции без мотиваций - нет, и популяция постепенно вымирает. При избытке пищи (рис. 4в) агенты с мотивациями находят более эффективную жизненную стратегию, чем агенты без мотиваций: конечное число агентов в эксперименте с мотивациями более чем в полтора раза превышает численность популяции в эксперименте без мотиваций. Приведенные результаты демонстрируют, что популяция агентов, имеющих мотивации, лучше приспосабливается к окружающей среде, чем популяция агентов без мотиваций. Рис. 4. Динамика численности популяции (начальная численность популяции 200 агентов, размер мира 900 клеток) для агентов с мотивациями (I) и без мотиваций (II) при различных вероятностях появления пищи Pg: а) Pg = 1/2000 (в любой клетке пища появляется случайно в среднем через 2000 тактов); б) Pg = 1/200; в) Pg = 1/20. Рассмотрим, как формируется поведение агентов с мотивациями, для этого проанализируем зависимость от времени числа агентов, выполняющих отдельные действия на примере эксперимента со средним уровнем пищи (рис. 4б). На рис. 5а,б показаны зависимости от времени численности агентов, выполняющих действия "отдыхать" и "питаться". Мы выбрали эти зависимости, так как большинство агентов в популяции выполняют именно эти действия. Рисунок 5в, на котором показана "нижняя часть" рис. 5б в увеличенном масштабе, дает представление об эволюции остальных действий агентов. Видно, что на временном отрезке 0 - 10 тысяч тактов численность популяции быстро падает (с 200 примерно до 100), затем наблюдается небольшой рост. На отрезке 10 - 40 тысяч тактов доля "питающихся", составлявших подавляющее большинство в популяции в начале эволюции, сокращается, а доля "отдыхающих" растет. Это связано с тем, что действие "отдыхать" требует наименьших затрат энергии и, следовательно, когда агент не видит пищи или другого агента, ему выгодно выбирать именно это действие. На следующем этапе (50 - 150 тысяч тактов) в популяции агентов с мотивациями (рис. 5б) эволюция оптимизирует веса, связывающие нейроны агента с мотивационными входами, и затем начинается рост численности. В случае агентов без мотиваций такой оптимизации не происходит. Рис. 5. Динамика распределения агентов по совершаемым действиям (эксперимент тот же, что и на рис. 4б): а) без мотиваций; б) с мотивациями; в) детали рис. 5б. 3. Анализ и обсуждение результатовРезультаты моделирования позволяют нам представить эволюцию системы управления поведением исследуемых агентов. Рассмотрим сначала эволюцию стратегии поведения в популяции агентов, не обладающих мотивациями. Изначально у агентов имеются две заданные программы действий, направленные на пополнение ресурса: 1. "ВИЖУ ПИЩУ" -> "ЕСТЬ", и на размножение:2. "ВИЖУ СОСЕДА" -> "СКРЕЩИВАТЬСЯ", а в ситуации, когда возбуждение входов нейросети агента не соответствует ни одному из инстинктов, выбор действия ничем не определен. Через некоторое время эволюция вырабатывает для этого случая следующую программу: 3. "НЕ ВИЖУ НИЧЕГО" -> "ОТДЫХАТЬ". Теперь действия определены для любых внешних условий, и стратегию поведения агента можно описать, как набор следующих простых рефлексов (рис. 6): 1. вижу пищу - есть; Рис. 6. Схема управления агента без мотиваций. Видно, что действия агента напрямую определяются текущим состоянием окружающей среды. Рассмотрим теперь эволюцию системы управления агента, обладающего мотивациями. Приведенные результаты, а также детальный анализ эволюции действий и весов нейронной сети агентов [7] позволяют представить следующую схему системы управления агентом. В дополнение к трем программам, рассмотренным выше, в процессе эволюции появляется следующий уровень управления - метапрограмма, управляющая выбором выработанных простейших программ в зависимости от мотиваций. Возникшая система управления является иерархической - при помощи мотиваций формируется следующий уровень управления. Так в случае малого внутреннего ресурса мотивация к пополнению ресурса тормозит потребность в скрещивании, выключая программу 2. В случае большого внутреннего ресурса включается мотивация к размножению, что делает размножение предпочтительным, хотя и потребление пищи здесь также возможно. Возникшую при этом систему управления можно представить следующим образом (рис. 7): 1. мало ресурса - выполнять программы 1 и 3; Рис. 7. Схема управления агента с мотивациями. Возникновение нового уровня иерархии системы управления в нашей модели подобно метасистемному переходу от простых рефлексов к сложным рефлексам в теории метасистемных переходов В.Ф. Турчина [8]. Итак, представленные результаты демонстрируют, что поведение агента, управляемого иерархической системой, состоящей из двух уровней - уровня простых рефлексов и метауровня, обусловленного мотивациями, более эффективно, чем поведение, определяемое одними лишь простыми рефлексами. При этом мотивации формируют действия агента в соответствии с целями удовлетворения потребностей (в нашем случае потребностей питания и размножения). ЗаключениеХотя в представленной работе исследованы простейшие механизмы целенаправленного адаптивного управления для достаточно абстрактного примера, предложенный в работе подход может служить основой для анализа целенаправленного управления в системах различной природы: робототехнических, производственных, экономических и социальных. В этом контексте отметим очень интересную и важную постановку широкого спектра исследований в рамках концепции "Эволюционной кибернетики", предложенной авторами (В.Ф. Турчин, Ф. Хейлигхен, К. Джослин) международного Интернет-проекта "Principia Cybernetica Project" [9]. Согласно этой концепции задача "Эволюционной кибернетики" [10] - "исследование возникновения и развития целенаправленных структур в Природе, Мышлении, Обществе и Технологиях". Список использованных источников:1. Axelrod R. The Complexity of Cooperation: Agent-Based Models of Competition and Collaboration, Princeton: Princeton University Press, 1997 2. Tesfatsion L. "How Economists Can Get Alife" // W. Brian Arthur, Steven Durlauf, and David Lane (eds.), The Economy as an Evolving Complex System, II, Santa Fe Institute Studies in the Sciences of Complexity, Addison-Wesley, 1997, Volume XXVII. 3. Тарасов В.Б. Искусственная жизнь и нечеткие эволюционные многоагентные системы - основные теоретические подходы к построению интеллектуальных организаций // Изв. РАН. Теория и системы управления. 1998. N.5. 4. Langton C. G. (Ed.) Artificial Life. // The Proceedings of an Interdisciplinary Workshop on the Synthesis and Simulation of Living Systems, Redwood City CA: Addison-Wesley, 1989. 5. Редько В.Г. Лекции по эволюционной кибернетике. Лекция 12. Направление исследований "Искусственная жизнь" - эволюционные и нейросетевые методы. // http://www.keldysh.ru/BioCyber/Lectures/Lecture12/Lecture12.html 6. Yaeger L. Computational genetics, physiology, metabolism, neural systems, learning, vision, and behavior or Polyworld: Life in a new context. // Langton C.G. (ed). Artificial Life III. Addison-Wesley, 1994. 7. Бурцев М.С., Гусарев Р.В., Редько В.Г. Модель эволюционного возникновения целенаправленного адаптивного поведения 1. Случай двух потребностей. Препринт ИПМ РАН, 2000, N 43. 8. Турчин В.Ф. Феномен науки. Кибернетический подход к эволюции. М.: ЭТС, 2000. 9. F. Heylighen, C. Joslyn, V. Turchin (ed.) Principia Cybernetica Web (Principia Cybernetica, Brussels). // http://pespmc1.vub.ac.be/ 10. Heylighen F. Evolutionary cybernetics // in: F. Heylighen, C. Joslyn and V. Turchin (editors): Principia Cybernetica Web (Principia Cybernetica, Brussels). http://pespmc1.vub.ac.be/EVOLCYB.html , 2000. |