Принципы и механизмы самообучения автономного робота
Ключевые слова: самообучение, работоспособность, эффективность, поведение, физиология, потребность, мотивация, виртуальный робот, стабилизация, ошибки, необходимые и достаточные условия, паразитные процессы, ограничение мощности, боль, дифференцировка, импринтинг, превентивные реакции, служба безопасности.
Аннотация
На базе разработанного автором метода компьютерного моделирования высокой детализации (КМВД) в статье представлены рабочие механизмы и схемы, которые позволяют управлять поведением автономного робота. Рассматриваются принципы обучения автономного робота, которые позволяют сформулировать универсальный критерий самообучения.
Введение
Чтобы понять как работает нервная система животного, нужно разобраться на каких кибернетических принципах работают нейроны и механизмы обучения, причём, совсем необязательно копировать все биохимические свойства биологического нейрона.
Чтобы избавиться от недостатков, которые свойственны нейроподобным сетям, а также современным пакетам компьютерного моделирования автором разработан новый метод компьютерного моделирования динамических систем, который работает без пересчёта дифференциальных уравнений. Метод называется «Метод Компьютерного Моделирования Высокой Детализации» и выполнен исключительно программным способом с использованием универсального динамического элемента (УДЭ, инкан), на базе которого могут строиться сколь угодно сложные динамические модели систем и механизмов.
Описание работы Универсального Динамического Элемента (УДЭ) и Метода Компьютерного Моделирования Высокой Детализации (КМВД) находится в приложении к книге «Самообучение автономного робота» [1].
Главным условием при моделировании нервной системы - должна быть возможность неограниченного наращивания элементов моделируемого механизма, его модернизации и модификации. Мозг и нервная система любого животного состоят из сотен тысяч различных механизмов. И в каждом таком механизме нужно разбираться отдельно. Биологи, к сожалению, ещё не скопировали ни одной схемы нервной системы, по которой можно было бы построить её работающую модель. Поэтому, в процессе исследования, автор строил собственные модели тех механизмов, которые, по его мнению, могут работать в живом организме или в роботе.
Основная часть
Принципы и назначение обучения. Универсальный критерий самообучения
Истинным обучением можно назвать только обучение, которое связано с нахождением новой стратегии поведения, раньше которой не существовало у животного. Такое обучение присуще только высшим животным, у которых очень сложная организация мозга.
Обучением можно назвать выбор наиболее эффективного инструмента, которого у животного пока нет в наборе готовых инструментов, т.е. который нужно ещё найти или придумать самому.
Чтобы разобраться в механизмах изменения поведения, нужно, для начала,
ответить на некоторые вопросы:
* Что животное получает в конечном итоге, после того как оно изменит своё
поведение в типической ситуации?
* Зачем обучение нужно? * Существует ли универсальный критерий самообучения?
Одной из форм СамоОбучения - является механизм безопасности, который служит, чтобы предотвратить нарушение РаботоСпособности текущего действия.
Обучение подразумевает изменение поведения в типичной ситуации. Значит, до обучения уже какое-то поведение было. И это поведение было удовлетворительным (до некоторых пор). Поведение нужно менять, когда оно становится неудовлетворительным, т.е. перестаёт удовлетворять каким-то требованиям (перестаёт находить НДУ, нет подтверждения РаботоСпособности и т.д.).
Критериев, по которым может меняться поведение робота всего два.
Первый: сохранение РаботоСпособности (РСп) контролируемого механизма,
Второй: повышение Эффективности Производства Продукта (ЭПП).
Ключевую роль в механизмах Обучения играют такие понятия как Эффективность и РаботоСпособность. РаботоСпособность является абсолютным и универсальным критерием, по которому можно строить механизмы изменения поведения.
В процессе эксплуатации любого механизма, со временем, по тем или иным причинам, происходит нарушение его РаботоСпособности или снижается Эффективность работы. Для восстановления РСп или повышения ЭПП существуют специальные службы, приводящие условия, необходимые для нормальной работы контролируемого механизма, в Коридор Допустимых Значений (КДЗ).
Известно, что каждый механизм должен производить собственный Продукт, причём, надлежащего качества и количества. Как правило, процесс производства Продукта цикличен и на каждом цикле происходит контроль за качеством и количеством произведённого Продукта, т.е. за Эффективностью работы механизма.
Детектор ЭПП будет контролировать Эффективность Производства Продукта (ЭПП). Если ЭПП находится в Коридоре Допустимых Значений, то продолжается штатное производство Продукта. Если Детектор ЭПП регистрирует снижение ЭПП, то включаются службы по её восстановлению, а само производство Продукта приостанавливается.
Анализатор Причины снижения Эффективности диагностирует нарушение тех или иных НДУ, без которых работа контролируемого механизма неэффективна, либо невозможна. Результаты диагностики передаются Механизму Принятия Решения (МПР), который выбирает из набора готовых решений тот инструмент, который способен восстановить утраченные НДУ, обеспечивающие РаботоСпособность механизма.
После регистрации снижения ЭПП, в Детекторе ЭПП формируется строб Фиксации, который участвует в запоминании образа для текущей Типической Ситуации и сопоставляет его через механизм Отрицательного Импринтинга с конкретным Превентивным рефлексом.
Следует иметь ввиду, что нет какого-либо одного конкретного механизма обучения, который бы находился в одном месте или узле. Не стоит собирать все свойства процессов обучения в одном механизме. Механизмы изменения поведения могут быть разными, а значит, и служить различным службам.
Виды Механизмов Изменения Поведения:
- Самонастройка. Самонастройка - восстанавливает Работоспособность. Т.е. отсутствие РаботоСпособности включает Драйвер по Самонастройке.
- Изобретение Нового Правила Поведения (НПП), более эффективного, которое ускоряет процесс достижения цели. Т.е. до изобретения НПП некоторое правило поведения уже существовало, но оно было менее эффективно.
Причём, единичное обнаружение более эффективного направления (инструмента) не будет обучением. При Обучении НПП должно быть запомнено и использоваться неоднократно. При окончательном обучении предпочтение будет отдаваться выбору НПП (по отношению к старому ПП).
- Для Отрицательной Эмоции (ОЭ). Поиск манёвра, помогающего избежать получение ОЭ.
- Тренировки - обеспечивают Подстройку, Подгонку параметров под безошибочную работу тех механизмов, которые уже работают.
- Импринтинг (положительный и отрицательный) - «фотографирует» Признак и привязывает его к конкретному механизму. Т.е. Отрицательный Импринтинг должен препятствовать снижению эффективности работы механизма. А Положительный Импринтинг будет способствовать увеличению эффективности работы механизма.
Суть Обучения состоит не в том, чтобы сформировать корректирующее действие на уже совершившееся снижение Эффективности Производства Продукта (отклонение от нормы, как в случае классического стабилизатора температуры), а в том, чтобы не допуская совершения надвигающегося отклонения, сформировать превентивные реакции по недопущению этого снижения ЭПП.
Механизм Обучения позволяет, с помощью изменения (подгонки) некоторого параметра, увеличить эффективность работы инструмента, автоматизма.
Т.е. Обучение повышает Эффективность.
В поведении животного должен быть выбор в направлении принятия решения. Если такого выбора нет - это значит, что всё поведение жестко определено и никакого обучения быть не может. Т.е. обучение возможно только в том случае, если есть что выбрать из нескольких возможных инструментов, для текущей типической ситуации.
Обучение нужно для того, чтобы избегать, предупреждать формирование доминанты в процессе штатного удовлетворения текущей потребности, т.к. доминанта будет нарушать штатную последовательность развития автоматизма.
Обучиться - это значит настроить, подогнать (ушедший) параметр под критерий РаботоСпособности или найти новый способ (инструмент), с помощью которого достижение старой цели (удовлетворение драйвера), стало бы быстрее, а значит, эффективнее.
Одной из целей Обучения является попытка сэкономить энергию для следующих повторных действий. Целью механизма ЭнергоСбережения является снижение нормы энергопотребления. Суть механизма: если ошибок нет, то можно по чуть-чуть снижать норму на потребление энергии.
Кроме того, назначение Обучения состоит в том, чтобы:
а) избегать нарушения РаботоСпособности исполнительного механизма
в следующий раз в аналогичной Типической Ситуации, либо
б) за счёт формирования нового поведения увеличить эффективность
исполнительного механизма (за счёт сокращения времени и средств).
В поведении задача и цель Обучения состоит в том, чтобы действие (Команда) не претерпевало несанкционированного прерывания от начала своего включения до своего Штатного завершения.
Обучение позволяет:
1. Сохранять (экономить) энергию. (Тренировки).
2. Реже попадать (избегать) в сложные ситуации.
3. Находить новые решения старых проблем.
4. Быстрее восстанавливать утраченную РСп.
Механизм Обучения является сервисным (обслуживающим) и служит для увеличения эффективности в работе Команды. Как, впрочем, и все остальные Сервисные Службы должны способствовать увеличению эффективности той Команды, которую они обслуживают. А работа Сервисных Служб должна способствовать повышению эффектив-
ности работы Основного механизма в производстве Полезного Продукта. Но сами Сервисные Службы не могут производить Полезный Продукт.
Виртуальный робот (Тачка)
С помощью программирования можно нарисовать робота на экране, а Метод Компьютерного Моделирования Высокой Детализации позволит создать систему управления его эффекторами и механизмами. Виртуальный робот представляет собой прямоугольную рамку, у которой спереди заострён нос.
Робот имеет простой набор эффекторных механизмов, а также сенсорные антенны, которые будут помогать виртуальному роботу воспринимать окружающий его мир.
Для простоты, а также, чтобы избежать лишнего наукообразия, виртуальной робот будет называться - «Тачкой» (это имя собственное и сложились оно исторически).
Динамика поведения Тачки и подробные схемы приведены в электронном приложении к книге «Самообучение автономного робота» [1].
По бокам Тачки находятся две антенны с датчиками DT(2) и DT(3). Если один из них пересечёт границу экрана, то сформируется признак пересечения границы экрана PR(14) или PR(27). Если Тачка подъезжает к краю экрана правым бортом, то сработает датчик DT(3) и сформирует признак PR(27), который принимает значения либо «1» либо «0». Этот признак поступает непосредственно на Мотор Поворота НаЛево (МПЛ), который формирует отворот от Заграницы. МПЛ работает до тех пор, пока датчик регистрирует наличие признака Заграницы. Аналогично срабатывает датчик DT(2) и признак PR(14), поступая на Мотор Поворота НаПраво, формирует отворот от заграницы.
На пути Тачки будут встречаться различные препятствия, например, зелёная стенка (прямоугольник зелёного цвета), которую нужно обходить либо отворачивать от неё.
Столкновение со стенкой будет нарушать выполнение основной задачи (Команды К1), которая была поставлена перед Тачкой изначально. Команда К1 формулируется так: «Двигаться по экрану монитора с максимально возможной скоростью».
Значит, чтобы восстановить выполнение Команды, нужно восстановить все необходимые условия, которые обеспечивают выполнение движения вперёд. Одним из таких условий должно быть отсутствие препятствия на пути движения.
После столкновения со стенкой, уйти от неё поможет функция «Отворот от препятствия». Но чтобы была функция - должен быть механизм её реализующий.
Без рабочего механизма - нет и функции!
Нужно построить механизм по отвороту от стенки. Алгоритм манёвра должен быть такой:
1. Отключить Мотор Движения Вперёд,
2. Включить Мотор Движения Назад МДН,
3. Включить Мотор Поворота НаЛево МПЛ,
4. Включить таймер отсчёта времени (КПВ)
5. После отсчёта времени - сбросить ФП1,
6. Продолжить движение вперёд.
Однако предыдущая Команда К1 всё ещё продолжает действовать и активирует Мотор Движения Вперёд. Чтобы её отключить нужно придумать Драйвер, который отключит предыдущий (только Драйвера могут отключать друг друга). Отключение будет идти через Формирователь Приоритета ФП1.
Рис. 1
Пример схемы, реализующей функцию «Отворот от препятствия»
Компаратор С(1) тормозит (блокирует) триггер TR M(3) и КПВ М(4)(таймер), до тех пор, пока Тачка не коснётся носом DT(5)=1 зелёной стенки. Признак PR(60) определяет наличие зелёного на носу Тачки. После этого маневра отворота от зелёной стенки, будут восстановлены условия для движения вперёд и Тачка продолжит выполнение команды К1 - движение вперёд.
Потребность в энергоресурсе заставляет Тачку идти на поиск Сырья, из которого будет извлекаться энергия, обеспечивающая РаботоСпособность Тачки.
Есть мнение, что НеРаботоСпособность механизма (либо снижение его эффективности) является провоцирующей причиной любого поведения. Сигналом к Действию!
По-другому. Снижение эффективности механизма ВКЛючает Драйвер (Потребность) по её восстановлению.
Производство Продукта
Любой механизм создаётся для того, чтобы производит некоторый полезный продукт,
который, в свою очередь, будет удовлетворять чью-то потребность.
Продукт необязательно должен быть чем-то материальным, таким как: хлеб,
гайки, велосипеды и т.д. Продукт, производимый механизмом, может быть
вполне нематериальным, например, телевизор производит телевизионную картинку,
автомобиль производит перемещение товаров, динамик производит звук и т.д.
Тачка также является механизмом (хоть и виртуальным), а значит, на неё можно
возложить обязанность по производству некоторого продукта. И в этом будет её
предназначение.
Производство любого продукта происходит во времени, поэтому для удобства
моделирования можно представить производство продукта как ток продукта,
причём, Тачка должна производить продукт с постоянной скоростью, иначе
она будет испытывать неприятные ощущения.
Пусть Тачка ползает по экрану и собирает сырьё.
- Сырьё нужно найти.
- Концентрация сырья, на разных участках, будет разная.
- Пусть Тачка собирает Сырьё с помощью Насоса Сбора Сырья (НСС).
- Избыток собранного Сырья будет храниться в Баке Для Сырья (БДС).
- Одна часть Произведенного Продукта должна быть израсходована на производство собственной энергии, чтобы работали моторы и насосы.
- Другая часть Продукта подлежит накоплению и сдаче на Базу, в соответствии с нормой. Излишки Продукта могут идти на развитие и на содержание сервисных служб, которые увеличивают ЭПП.
- Требование собирать сырьё должно исходить от стабилизатора (Драйвера), который следит за тем, чтобы ток сырья через трубу НСС не снижался ниже критического уровня.
Уменьшение концентрации сырья в поле приведёт к снижению тока сырья через НСС, а это должно привести к увеличению скорости поиска (барражирования) Сырья, т.е. увеличению расхода энергии на МДВ.
Увеличив скорость барражирования, увеличится и расход энергии на МДВ. А это снизит Эффективность Производства Продукта (ЭПП). Однако, увеличение скорости МДВ, восстановит нужный ток сырья через НСС.
Любое действие производит «положительный Продукт». Однако, параллельно с производством положительного продукта будет производиться отрицательный продукт (Шлак), за счёт работы Паразитного Процесса, который является неотъемлемым процессом, сопровождающим Прямой Процесс. Т.е. любое действие производит два процесса: положительный и отрицательный. Любой Паразитный Процесс будет тормозить развитие Прямого Процесса, за счёт оттягивания ресурса из источника Прямого Процесса.
Усталость - также паразитный процесс, который снижает эффективность текущего процесса.
Производство Продукта нужно повышать. Наверняка, в Природе существует такой механизм, который позволяет Развиваться и способствует этому. Однако линейное увеличение мощности производства Продукта, рано или поздно, приведёт к возникновению брака (ошибкам), который будет тормозить тенденцию к увеличению нормы мощности Производства Продукта.
Повышать расход тока, мощность на Производство Продукта можно до тех пор, пока не начнёт снижаться Эффективность Производства Продукта ЭПП и не начнут появляться первые ошибки. Причём, назначение обучения будет состоять в том, чтобы научиться
избегать появления ошибок и тем самым увеличить Эффективность.
Работоспособность
Понятие РаботоСпособность (РСп) является основополагающим в изучении вопросов механизмов изменения поведения, обучения, адаптации и др. Все Поведенческие и Физиологические реакции направлены на её восстановление и сохранение.
РаботоСпособность механизма определяет: выполняет ли механизм безошибочно возложенную на него функцию или уже нет.
РаботоСпособностью должны обладать все механизмы! То есть РСп является общим, неотъемлемым свойством, которое присуще всем механизмам. Работоспособность можно определить как абсолютный критерий, так же как и мощность.
РаботоСпособность - понятие абсолютное. Либо она есть, либо её нет!
Понятие называется абсолютным, если при любых условиях (в том числе и на других планетах) оно не будет менять своих свойств.
Важное свойство Работоспособности: её можно оценить, измерить, а значит, контролировать!
Если эффектор (механизм, автоматизм) работает, то он в течение Критического
Периода Восприятия (КПВ) должен подать сигнал о законченности действия. Либо должен непрерывно подавать сигнал о наличие работоспособности, наличии штатных условий. Отсутствие такого рода сигналов запускает Механизмы по Восстановлению Работоспособности.
Работоспособность - как критерий, участвует в механизмах Автоматической Подстройки и Обучения.
Ниже приведена простая схема, регистрирующая НеРаботоСпособность лампы:
Рис.2
Детектор НеРаботоСпособности
РаботоСпособность механизма (например, мотора) будет поддерживаться, если соблюдаются Необходимые и Достаточные Условия (НДУ) для его работы. Основным условием для работы любого механизма - является энергообеспечение, которое, как и все НДУ должно находиться в Коридоре Допустимых Значений (КДЗ).
Каждое НДУ должно иметь свою норму, которая обеспечивает нормальную РСп. Снижение нормы или её увеличение приводит к потере этого условия и запуску Драйвера по восстановлению.
Таким образом, любая потребность, которую испытывает животное (или робот) является потребностью в восстановлении РСп механизма, которая была нарушена вследствие потери НДУ. Восстанавливая НДУ через Буфер ИВхП с помощью стабилизаторов, будет восстановлена РСп и тем самым удовлетворена Потребность в восстановлении РСп.
У каждой Команды должен быть Контроллер Правильности Выполнения Команды, который контролирует её Штатную Работу, т.е. РСп Команды. В случае нарушения РСп (потери НДУ), сигнал об этом поступает на Анализатор Причины (АП), который принимает решение: какую функцию- автоматизм выбрать из Библиотеки Готовых Решений (БГР), которая сможет восстановить РаботоСпособность Команды, т.е. выставит все НДУ.
После того, как функция из БГР восстановит все НДУ для штатной работы текущей Команды, она (команда) продолжит свою работу по программе.
Чтобы поддерживать 100% РСп рефлекса нужно обеспечить постоянство НДУ (в рабочем коридоре). Стабилизатор поддерживает постоянство НДУ, которые обеспечивают постоянство РСп рефлекса. Т.е. контроль идёт за РаботоСпособностью механизма, а стабилизатор поддерживает постоянство НДУ!
Эффективность
Оценить и измерить Эффективность работы механизма не так просто, как кажется. Конечно, в экономике существуют «умные» формулы, по которым рассчитываются эффективность, производительность, себестоимость и т.д. Но для робототехники эти формулы мало подходят. Поэтому для каждой конкретной ситуации нужно применять индивидуальный инструмент измерения эффективности.
Эффективность должна показывать насколько качественно механизм продолжает выполнять свою работу. А поскольку механизмы бывают разные, то и эффективность для каждого из них определяется по разному.
У Эффективности Производства Продукта (ЭПП) есть родственные понятия, такие как: РаботоСпособность, Результативность, Коэффициент Полезного Действия (КПД) и др.
Вопрос: Почему именно Эффективность Производства Продукта (ЭПП) используется в качестве основного контролируемого параметра?
Ответ: Если бы мощность агрегата, механизма была неограниченной, то не надо было бы считать его эффективность и КПД. Ограничение по мощности - вот что является причиной использования ЭПП, которая, в с.о., даёт оценку правильности поведения, а механизм по увеличению ЭПП даёт стимул к Развитию (через Обучение).
Эффективность действия будет определяться Получением Признака, Подтверждающего его Успешное Завершение.
Отсутствие Ошибок, за определённое время, будет определять 100% эффективность работы. ЭПП=100% - это когда Ошибок нет. Появление первых Ошибок (непостоянных, время от времени) будет говорить о том, что эффективность снизилась.
Снижение энергозатрат на каждое действие (повышение эффективности) будет являться Основной Задачей Обучения и Тренировок.
Обучение - как один их инструментов повышения эффективности, которое является одним из условий Развития.
Существуют механизмы, ЭПП которых будет меняться при различных условиях, на разных режимах работы. А это значит, что для разных Типических Ситуаций (ТС) нужно измерять свою ЭПП. А с другой стороны изменение ЭПП (например, снижение) будет сообщать о том, что Типическая Ситуация изменилась (появилась новая ТС).
За уровнем ЭПП следит собственная СБ. Уровень ЭПП для каждого эффектора может зависеть от Внешних и Внутренних условий. В обязанности СБ входит защита ЭПП от уменьшения, т.е. СБ должна следить, чтобы ЭПП не уменьшалась.
Любое снижение эффективности должно быть наказуемо. А что такое наказание? Принудительное прекращение текущего действия. Можно по-другому: если тебя наказали, то это значит, что у тебя понизилась эффективность или нарушилась РаботоСпособность. Кто более эффективен - тот и прав! Тот сам наказывает других.
Обучение (так же как и тренировка) должно повышать эффективность работы организма, автоматизма. Повышение эффективности позволяет совершать прежнюю работу более быстро и меньшими энергетическими затратами.
Высокий уровень ЭПП позволяет подключить дополнительные сервисные службы, новые опции, которые, в свою очередь, также способствуют повышению ЭПП.
Снижение эффективности работы механизма ниже допустимого уровня должно приводить к отключению его от энергоснабжения. Снижение ЭПП приводит к снижению качества работы механизма, от этого он начинает работать хуже, чем до снижения ЭПП.
Если происходит регистрация смены эффективности (либо в сторону увеличения, либо в сторону уменьшения), то одновременно с этим должны фиксироваться сопутствующие признаки, из которых, в дальнейшем, будут отдифференцированы истинные признаки, приводящие к изменению эффективности.
Движение робота можно поставить в зависимость от уровня эффективности, с которой ассоциируется текущее действие. Т.е. движение будет в сторону признака, который имеет большую эффективность. При принятии решения должен участвовать механизм оценки наибольшей эффективности.
Нарушение эффективной работы эффектора (т.е. снижение ЭПП) должно восприниматься животным как боль.
Всё, что снижает эффективность текущего действия (Драйвера) должно восприниматься как паразитный процесс, в т.ч. если это чувство голода, страха, усталость и т.д. А чтобы восстановить эффективность нужно освободиться от паразитного
процесса!
Детектор Снижения ЭПП имеет свою СБ, которая должна предупреждать о возможном снижении ЭПП и применять превентивные рефлексы по уклонению от опасности.
Эффективность имеет тенденцию к снижению и поэтому её нужно регулярно повышать (восстанавливать).
Если продолжать выполнять работу с пониженной ЭПП, то это будет Усталость. Усталость требует прекратить выполнение текущего действия, т.к. причиняет Неприятные Ощущения. Или по-другому: В режиме Усталости работа идёт с меньшей эффективностью.
Снижение эффективности - является следствием ограничения по мощности.
СБ - ограждает животное от снижения эффективности работы инструмента, путём торможения текущего действия.
Служба Безопасности намеренно ограничивает выходную мощность текущего механизма, с той целью, чтобы не снижалась эффективность работы главного механизма. Это намеренное ограничение можно рассматривать как проявление усталости.
Основная Задача организма - это Производить Продукт с максимальной Эффективностью! Но без Ошибок!
Последовательное повышение эффективности, с последующим подключением новых инструментов, ведёт к Развитию. А снижение эффективности приводит к Деградации.
Дуализм поведения и физиологии
С технической точки зрения существенной разницы нет между физиологическими процессами, происходящими в живом организме и поведенческими рефлексами и стереотипами.
Все двигательные акты и рефлексы в живом организме выполняют только одну функцию: они восстанавливают Необходимые и Достаточные Условия НДУ для работы того или иного физиологического механизма. Работающих механизмов в живом организме очень много,
поэтому совсем непросто обеспечить НДУ для одного и при этом не испортить условия РаботоСпособности для другого механизма.
Под дуализмом Физиологии и Поведения понимается неразделяемый, совместный процесс восстановления НДУ при помощи рефлексов физиологии и поведения. Когда, в процессе достижения Цели, физиологические возможности организма заканчиваются, то поведение берёт на себя эстафету по восстановлению НДУ.
Чтобы обеспечить удовлетворение физиологических потребностей, на удовлетворение
которых требуются специфические условия (наличие тепла, пищи, воды и т.д.),
необходимо сформировать сложное поведение, которое будет обеспечивать эти НДУ.
Если сравнить «физиологию» процессов, происходящих в Тачке с её механизмами поведения, то можно заметить следующие общие закономерности:
- задачи и цели схожи,
- схожесть построения механизмов физиологии и поведения,
- терминология очень похожа - отсюда «недопонимание» и путаница в понятиях.
Таким образом, прослеживается Физиологическо-Поведенческий Дуализм по восстановлению и стабилизации эффективной работы организма:
- для восстановления физиологических условий применяются стабилизаторы НДУ,
- драйвера в поведении выполняют ту же функцию, что и физиологические стабилизаторы, а именно, восстанавливают недостающие условия для работы физиологических механизмов.
Физиологические стабилизаторы восстанавливают контролируемые константы с помощью увеличения расхода энергии, а поведенческие стабилизаторы восстанавливают превышение расхода энергии (относительно нормы) с помощью изменения поведения.
Потребность. Мотивация
Понятие «Потребность» пришло из физиологии, но в робототехнике широкого применения не получило. Связано это, вероятно, с тем, что чёткого определения этому понятию физиологи ещё пока не дали.
Каждый, конкретный механизм выполняет свою собственную работу, а значит, для каждого механизма существует своя цель и потребность.
Если в организме (в системе) всё в порядке, то ничего менять не надо! Или по-другому: если возникает потребность что-то менять, это означает, что где-то, что-то не в порядке.
Любое действие совершается для создания Необходимых и Достаточных Условий (НДУ), которые обеспечивают РаботоСпособность механизма, участвующего в производстве Продукта.
Тогда уже любой вид поведения можно назвать деятельностью по созданию НДУ, которые запускают механизм по производству необходимого Продукта. Впрочем, наличие этого Продукта, также будет условием для запуска следующего механизма. И так далее.
Потребность - это поведенческая реакция по нахождению условий, которые снимут торможение с физиологического стабилизатора, который запустит специфический автоматизм. По-другому: Потребности возникать не будут, если никуда ходить
и ничего искать не надо! А все желания будут удовлетворяться немедленно.
Потребность позволяет восстанавливать РаботоСпособность (и НДУ) механизма, которая была нарушена вследствие потери НДУ. Восстанавливая НДУ через Буфер ИВхП с помощью стабилизаторов, будет восстановлена РСп и тем самым удовлетворена Потребность в восстановлении РСп.
Ну, а если вспомнить, что Работоспособность и Эффективность Производства Продукта родственные понятия, то можно сформулировать, что: должна существовать Потребность в повышении уровня эффективности. И чем ниже понижается уровень эффективности УЭФ, тем выше Потребность в восстановлении УЭФ.
Для того чтобы удовлетворить Потребность нужно создать Необходимые и Достаточные Условия, настройки (т.е. удовлетворить этим условиям) и поддерживать их в процессе удовлетворения (сопутствующее условие).
Понятия Потребность и Мотивация тесно связаны друг с другом. Мотивация может восприниматься только в том случае, если её нельзя удовлетворить по каким-либо причинам. Если приходится удовлетворять потребность, которая находится в разряде мотиваций, то тем самым можно сформировать ещё большее неудовольствие, чем то которое формируется от самого терпения. Следовательно, нужно тормозить механизм удовлетворения этой потребности.
Мотивация ощущается потому, что на торможение текущей потребности необходим ресурс, расход которого нужно контролировать. Тормозить мотивационную потребность нужно для того, чтобы она не активировала рецепцию и эффекторы в том канале, который удовлетворяет континиум-потребность.
Конечно, никакой робот или другое техническое устройство не способны получать удовольствие. Однако, можно предположить, что удовольствие возникает от удовлетворения мотивации, при условии, что мотивация - это заторможенная потребность. Тормозить потребность (тем самым переводя её в разряд мотивации) приходится в силу тех или иных причин, на какой-то период времени.
Удовольствие - есть процесс удовлетворения заторможенной потребности (мотивации). Возможно, происходит процесс последовательной дезактивации рецепции и эффекторов, которые участвуют в последовательной цепочке блокировки удовлетворяемой потребности.
В разработках технических систем инженеры редко пользуются понятиями из физиологии, поэтому Потребность и Мотивацию можно заменить на более определённые понятия, например, Драйвер, а если Драйвер заблокировать, то возникнет мотивация. Потребность можно рассматривать как Драйвер по восстановлению НДУ.
Однако понятие Потребность гораздо шире о объёмнее, чем простой драйвер, поэтому оно не раз будет применяться в различных контекстах.
Стабилизация
Стабилизация является базовой функцией в любом живом организме!
Стабилизация обеспечивает Устойчивость работы любого механизма за счёт работы стабилизаторов.
Любой рефлекс является реакцией системы стабилизирующей в ответ на изменение баланса в контролируемой системе. Система стабилизирующая должна возвращать изменённый уровень контролируемой системы к уровню нормы.
Существуют два типа стабилизаторов:
Первый тип: Стабилизатор на отсечение («лишней» части ИВхП).
Второй тип: Стабилизатор на добавление.
Рис.3
Пример стабилизатора внутренней температуры Tin
Стабилизатор внутренней температуры Tin работает следующим образом:
При Температуре Окружающей Среды ТОС=0,6 внутренняя температура также будет Tin=0,6. Однако, если компаратор С(1) зафиксирует снижение Tin ниже 0,5, то он примет значение «1» и увеличит уровень ЛВП (Линейка Вариации Параметра). Это приведёт к увеличению тока Печки, который, в свою очередь, повысит на необходимый уровень Tin, восстановив её значение до уровня, которое лежит
между 0,7 > Tin > 0,5.
Таким образом, Tin будет всегда восстанавливаться при изменении ТОС. Изменяя параметр Р(1) - можно увеличивать или уменьшать Температуру Окружающей Среды (ТОС).
С целью сохранения РаботоСпособности всех своих органов и механизмов, организм животного должен поддерживать и восстанавливать Необходимые и Достаточные Условия (НДУ), которые обеспечивают безаварийную работу этих механизмов. Постоянство НДУ обеспечивается механизмами стабилизации.
У стабилизатора есть цель. Она заключается в поддержании определённого уровня отслеживаемого параметра. При выходе какого-либо параметра за пределы допустимого коридора (КДЗ) будет включаться соответствующий стабилизатор по приведению параметра к норме.
Т.о., стабилизатор сохраняет рабочий параметр в допустимом коридоре, но при этом увеличивается его ЛВП. Увеличение ЛВП стабилизатора будет тем Драйвером, который должен сформировать поведение, направленное на снижение ЛВП (но при этом нельзя допускать ухода контролируемого параметра из Коридора Допустимых Значений). Т.е. ЛВП - превращается в Поведенческий Драйвер, который ищет область преферендума, где произойдёт снижение ЛВП стабилизатора. А значит, времени у Поведенческого Драйвера столько, пока ЛВП стабилизатора способна удерживать контролируемый параметр в коридоре нормы.
Назначение любого стабилизатора в том, чтобы восстанавливать НДУ, которые обеспечивают РаботоСпособность контролируемого механизма (за счёт дополнительного энергорасхода).
Однако нельзя стабилизировать все параметры за счёт бесконечного увеличения энергорасхода. Это значит, что дальнейшая стабилизация (восстановление) должна осуществляться за счёт смены поведения.
Стабилизаторы восстанавливают физиологию, а Драйвера (поведенческие) восстанавливают токи ЭнергоСистемы. У Физиологического Стабилизатора энергоресурс находится «под рукой», а для поведенческого Драйвера нужно устранить причину,
т.е. передвинуться и найти Объект (по удовлетворению). Драйвер это поведенческий стабилизатор.
Драйвера - принадлежат к поведенческой области. Они тоже стабилизируют параметры, но для этого требуются специфические условия (НДУ, пища, вода), которые нужно искать.
Стабилизаторы в живом организме являются принадлежностью физиологических параметров, не имеют антагонистов и не требуют дополнительных условий для своей работы (кроме энергии).
Ошибки
Принятие решения к совершению действия не может происходить при полной уверенности в правильности выбора, потому как для сбора всех данных для принятия правильного решения потребуется бесконечно много времени и сил.
Значит, любое действие или решение вынуждено приниматься в условиях неполной информированности. Тем более, когда действовать нужно быстро. Многорассуждающий человек пытается в своих рассуждениях собрать максимум доводов «за» или «против» принятия решения. Неуверенный, сомневающийся человек редко берёт на себя ответственность в принятии важного решения.
Математики придумали Теорию Вероятности для того, чтобы снять с себя ответственность за неправильные результаты и возложить её на Случай. Но и у человека и у животных возможны (и должны быть) ошибки, что качественно отличает нас от машины.
Но вот какой существует парадокс: для того, чтобы машина была обучаемой - она тоже должна совершать ошибки! Обучение правильному поведению - это как раз и будет тем ответом на совершённые ошибки.
Вот пример из жизни: только что родившийся цыпленок (котенок, щенок и т.д.) будет постоянно получать «подзатыльники», «тумаки» от своих соседей по двору. На каждом дворе существуют свои правила поведения. Если их кто-то не знает, то он будет познавать их через совершение поступков, делать которые НЕЛЬЗЯ. Тумаки прекратятся, когда все правила поведения будут усвоены и поведение станет без ошибок.
Ошибка может формироваться на неправильное действие, после которого приходит Признак, который не соответствует Признаку Ожидаемому. Это несоответствие будет формировать строб ошибки. А значит, нужно ставить Детектор Ошибки на каждое действие.
Если Тачка начинает новое действие, то одновременно включается Ожидание Появления адекватной реакции на это действие. В случае, если в течение ожидаемого времени, Строб Подтверждения Появления Адекватной Реакции не пришёл, то формируется строб ошибки. Строб Ошибки участвует в изменении
настроек при формировании действия. Изменения настроек происходят по чуть-чуть и продолжаются до тех пор, пока не исчезнут Ошибки.
Оптимальное значение настроек определяется отсутствием Ошибок! (или их минимумом).
НДУ - Необходимые и Достаточные Условия, при которых работа механизма становится полностью БезОшибочной.
Эффективность, равная 100% - даёт подтверждение правильности совершаемого действия. И наоборот. Отсутствие подтверждения правильности будет указывать
на ошибочность действия.
Одной из основных причин возникновения Ошибок может быть Ограничение мощности Механизма Утилизации Шлака. Ещё одной из причин Ошибок является выход Входных Потоков из Коридора Допустимых Значений.
Необходимые и Достаточные Условия (НДУ)
Необходимые и Достаточные Условия (НДУ) необходимы для :
- безошибочной работы физиологических механизмов,
- безаварийной работы поведенческих Команд.
Для каждого конкретного механизма должен быть свой набор НДУ, который обеспечивает ему БезОшибочную работу (РСп=100%).
НДУ создаются из Входных Потоков, посредством их преобразования с помощью стабилизаторов и ограничителей.
Каждое условие из всего спектра НДУ должно находиться в Коридоре Допустимых Значений (КДЗ).
Наличие всех НДУ - обеспечивает БезОшибочную работу механизма, а отсутствие хотя бы одного - будет регистрироваться как НеРСп; и через Анализатор Причины (АП) и Механизм Принятия Решения (МПР) будет формировать действие по восстановлению НДУ!
Каждое НДУ должно иметь свой Коридор Допустимых Значений, который обеспечивает РСп механизма. Выход условия за пределы этого коридора приводит к потере НДУ (а значит, и РаботоСпособности) и запуску Драйвера по восстановлению потерянного условия.
Одна из функций обучения состоит в прогнозе и предупреждении возникновения неблагоприятной ситуации и заблаговременном переводе механизма в активное состояние.
ПредУстановка НДУ предсказывает, что через некоторое время будет совершено действие, которое может входить как одно из звеньев некоторого Автоматизма.
Сигналом ПредУстановки НДУ будет сигнал окончания предыдущего звена автоматизма.
Действие может быть выполнено и без полной установки всех НДУ, но тогда результатом этого действия будет Неудача, т.е. неподтверждение ожидаемого результата.
Настройки нужно устанавливать перед началом планируемого действия, чтобы в момент начала действия всё было подготовлено, а значит в новых условиях нужная настройка не приведёт к ошибкам.
НДУ нужно устанавливать непосредственно перед включением механизма.
Если НДУ будут выставлены всегда, то это будет неэкономная трата ресурса.
Подготовка, ПредУстановка НДУ
ПредУстановку НДУ можно рассматривать как УсловноРефлекторную реакцию (УР), а также как средство против инерционности стабилизатора по восстановлению нормы. Т.е. норма должна быть достигнута за определённое время, просрочка которого может формировать Ошибку.
Обучение позволяет предвидеть предстоящие осложнения и подготовиться к ним (УР). Тренировка изменяет настройки у рефлекса, тем самым увеличивая его эффективность.
Механизм Условного Рефлекса призван предупредить возможную Аварию, а значит и непредвиденные расходы энергии и подготовить организм к новым условиям.
УР является подготовительной фазой по обеспечению Условий (НДУ) для Безошибочного выполнения Действия. По-другому: если НДУ не будут выставлены вовремя, то Действие будет выполнено, но с Ошибкой.
У каждого драйвера должна существовать своя СБ, которая отслеживает приближение любого чужого драйвера, пытающегося захватить приоритет над текущим, при этом СБ должна затрачивать энергию или другой ресурс, который идёт на противодействие захвату.
Условный Признак должен подготовить Службу Безопасности (СБ) к совершению превентивного действия. СБ - предназначена для того, чтобы собственный драйвер не был оборван ПСД, а закончился естественно. В таком случае, у неё должны быть службы оповещения о приближающейся аварии. Оповещать нужно службы Подготовки к Аварии либо службы, которые должны предотвратить Аварию (предварительную смену драйвера).
Интенсивность Входных Потоков (ИВхП)
В каждом живом организме существуют тысячи механизмов, которые выполняют различные функции и производят различные продукты. Собственно, механизм для того и создаётся, чтобы производить нужный продукт.
Для правильной работы любого механизма должны соблюдаться определённые Необходимые и Достаточные Условия (НДУ). Невыполнение НДУ приводит к потере РаботоСпособности любого механизма.
Окружающая Среда, в которой живёт животное, представляет собой большое количество энергетических факторов, которые воздействуют на организм и оказывают влияние на формирование НДУ для работы всех его жизненно важных механизмов.
Существуют сотни, тысячи Входных Потоков в окружающей нас среде, которые обеспечивают нам существование, которые мы не замечаем, но их значения как бы «встроены» в наш организм и любое изменение Входных Потоков будет влиять на наше самочувствие и нашу РаботоСпособность.
Вот некоторые примеры Входных Потоков:
Температура (тепловой поток),
Световой поток,
Звуковые потоки,
Концентрация кислорода в атмосфере,
Концентрация углекислого газа в атмосфере,
Радиация,
Гравитация,
Напряжённость магнитного поля,
Ветер...
...а также любые другие факторы Внешней Среды, которые своей формой энергии, в той или иной степени, участвуют в создании НДУ для нормальной работы организма.
Факторы Внутренней Среды организма также участвуют в поддержании его РаботоСпособности.
Для каждой Интенсивности Входного Потока (ИВхП) в организме должен существовать свой Буфер Интенсивности Входного Потока. С помощью Буфера ИВхП будут создаваться и поддерживаться НДУ для безаварийной работы конкретного механизма. На буфер легче влиять, чем на всю Окружающую Среду.
Рис.4
Буфер Входного Потока
Все Входные Потоки участвуют в производстве энергоресурса, который при моделировании энергосистемы Тачки обозначается как Ток Базовый (ТБ). Ток Базовый производится на Фабрике Производства Продукта ФПП.
Кроме того, Входные Потоки участвуют в формировании НДУ для безошибочной работы физиологических механизмов, которые участвуют в производстве Тока Базового, а поведение участвует в нахождении таких Интенсивностей Входных Потоков, которые восстанавливают НДУ и снижают токи физиологических стабилизаторов.
Адаптация это восстановление утраченной Работоспособности некоторого механизма за счёт изменения чувствительности к Интенсивности Входного Потока, изменение которого и вызвало нарушение РаботоСпособности. За счёт изменения чувствительности к Интенсивности Входного Потока можно восстановить НДУ некоторого механизма, а значит и его РаботоСпособность.
Паразитные процессы. Шлак
Если Прямым процессом назвать производство основного продукта, то Паразитные процессы будут препятствовать этому производству. Причём, Паразитные процессы будут являться проявлением того же Прямого процесса, только вектор его будет направлен в противоположную сторону.
Приведу пример:
В Печке сжигается уголь. Печка даёт тепло - это Прямой процесс, основным продуктом, которого является тепло. Но помимо тепла Печка производит Шлак, который остаётся от сжигания угля. Процесс производства Шлака можно назвать Паразитным, поскольку если
Шлак не удалять, он заполнит всю Печку и она погаснет.
Паразитные процессы рано или поздно нарушают линейность основного процесса.
Паразитный процесс - приводит к Ошибке и снижению Эффективности Прямого процесса. Т.е. если наступает снижение эффективности Прямого процесса, то следует искать подключение Паразита.
Ограничение мощности любого Производства определяется началом развития того паразитного процесса, который начинает развиваться одновременно с увеличением мощности на производство (например, производство теплоты), однако, вектор этого процесса направлен на оттягивание энергии на «собственные нужды», тем самым паразитный процесс подсаживает энергосистему Основного
Производства через параллельное энергопотребление. Т.о., дальнейшее увеличение мощности будет в холостую сливаться, не приводя к увеличению Производства.
Большинство энергоносителей обладают одним общим свойством. А именно: после сжигания топлива остаётся шлак. Если шлак вовремя не утилизировать, то со временем он заблокирует весь процесс получения энергии. Значит, должен быть Механизм по Утилизации Шлака (МУШл).
В компьютерной модели энергосистемы виртуального робота предполагается, что чем больше расходуется энергии, а значит, и тока на работу мотора, тем больше производится Шлака. Если Ток Рабочий МДВ Iраб. будет большим, то МУШл перестанет справляться с полной утилизацией Шлака и, значит, Шлак начнёт накапливаться. В свою очередь, неутилизированный Шлак будет формировать (виртуально, конечно) Ток Шлака. Это так называемый паразитный ток, который уменьшает активную составляющую Тока Рабочего. Введение в энергосистему такого понятия как «паразитный ток» даёт возможность смоделировать ограничение по мощности для любого механизма.
Усталость - также можно рассматривать как паразитный процесс, который снижает эффективность текущего процесса.
Снижение эффективности, при линейном увеличении энергоснабжения связано с развитием паразитных процессов (например: усталостью), которые снижают скорость производства Продукта.
Результатом действия Паразитного Процесса является снижение Эффективности Производства Продукта. Паразитный процесс работает как Отрицательная Обратная Связь.
Усталость - это паразитный процесс, который отнимает часть Оперативного Ресурса на восстановление расходных материалов. Чем больше усталость - тем дольше происходит восстановление. А это значит, что в это время ЭПП других механизмов снижена. Чем сильнее работает мотор - тем он больше будет уставать, что, в свою очередь, снижает скорость (SP) мотора и ЭПП.
Всё, что снижает эффективность текущего действия (Драйвера) должно восприниматься как паразитный процесс, в т.ч. если это чувство голода, страха, усталость и т.д. А чтобы восстановить эффективность нужно освободиться от паразитных процессов, в т.ч от неудовлетворённых потребностей.
Ограничение мощности как нарушение НДУ
Мощность является главным условием, фактором, который определяет возможность продолжать текущее действие как для живого организма так и для робота.
В живом организме происходит постоянный расход запасенной энергии, который и поддерживает жизнь. А в неживом роботе энергообеспечение можно отключить, а потом снова включить без всякого ущерба для робота. В этом ещё одно принципиальное отличие живого организма от неживого автомата.
Мощность это всегда произведение двух параметров взаимодополняющих, взаимокомпенсирующих друг друга, а это значит, что Мощность должна всегда иметь локальный максимум, экстремум.
Вопрос: Зачем увеличивать мощность?
Ответы:
1. Возможно, увеличение любого параметра (эффективности) является необходимым условием в механизме Развития.
2. Мощность нужно увеличивать для увеличения Производства Продукта, что, в свою очередь, является основным критерием в механизме Развития.
3. Мощность можно увеличивать до тех пор, пока увеличивается эффективность и не нарушается РаботоСпособность механизма.
В физиологии увеличение эффективности формирует Положительную эмоцию и даёт разрешение продолжать выбранное действие. А это значит, что увеличение параметра будет продолжаться до тех пор, пока эффективность не уменьшается. Безнаказанность позволяет увеличивать параметр.
Ограничение по мощности является причиной совершения Ошибок, формирования Боли и снижения эффективности. А для того, чтобы обучаться НУЖНО совершать ошибки, которые легче всего получить, если заканчивается подводимая энергия. Поэтому в модель энергосистемы живого организма нужно намеренно заложить принцип «Ограничения по мощности».
Необходимость в изучении механизма Ограничения по мощности состоит в том, что в результате увеличения тока нагрузки - уменьшается эффективность работы механизма (ЭПП), что, в свою очередь, приводит к появлению ошибок, которые корректируют нормы и поведение.
Любой параметр, приводящий к нарушению работоспособности, будет критерием по ограничению мощности (теплота, загрязнения и т.д.).
Наряду с развитием прямого процесса, одновременно происходит развитие паразитного процесса, который должен тормозить развитие прямого, а значит, ограничение по мощности будет определяться мощностью Механизма по Утилизации Шлака МУШл, который должен вовремя утилизировать Шлак. В «режиме НЕнакопления Шлака» организм может работать долго. Это номинальный режим.
Вывод: Чтобы повысить мощность рабочего механизма, нужно уменьшить влияние паразитных процессов за счёт работы Сервисных Служб, которые: убирают мусор, привозят продукты питания, организовывают центры отдыха и т.д.
Боль
Живое отличается от неживого тем, что живой организм обладает Болью. А где боль, там и Душа. Если построить механизм Боли, тогда Тачка станет «живой» и начнет
правильно реагировать на свои неправильные действия.
В настоящее время физиологи не имеют однозначного ответа на вопрос: Что такое боль? Нет окончательного ответа на этот вопрос и с кибернетической точки зрения.
Боль обладает одним замечательным свойством: она всегда прерывает текущее действие! За счёт нарушения НДУ.
Боль нарушает некоторые НДУ текущего действия и тем самым оно автоматически прерывается. В момент прерывания формируется Строб Фиксации, который фотографирует Признаки, Предшествующие нарушению НДУ.
Таким образом, если найти фактор, который будет прерывать любое текущее действие, то можно будет сказать, что технический аналог Боли будет найден.
Боль - можно рассматривать как Отрицательную Обратную Связь, которая ограничивает возможности животного.
Боль является фактором, который формирует общую для всех потребность. Тем самым происходит некоторая блокировка выполнения предыдущих потребностей.
Ограничение по мощности является причиной совершения Ошибок, формирования Боли и снижения эффективности.
В данном контексте (построения модели механизма Обучения) понятие Боли будет рассматриваться - как нарушение РаботоСпособности контролируемого механизма, или снижение его Эффективности работы.
Неприятные Ощущения (НОЩ)
Неприятные Ощущения могут возникать в живом организме по разным причинам. Для робототехники такой термин мало приемлем, потому как это понятие очень неконкретное.
Однако чтобы обучаться, робот должен испытывать и стараться избегать Неприятные Ощущения (впрочем, как и живой организм) и стремиться получать Приятные Ощущения.
У Неприятных Ощущений есть родственное понятие - Боль. Но всё таки, НОЩ не являются болью, а только ощущениями.
Рис.5
Шкала ощущений (очень схематично)
Таким образом, Боль и Радость будут полюсами ощущений, проявления которых будут выражаться в той или иной двигательной активности.
Отчего и как могут формироваться Неприятные Ощущения?
Когда у вас что-то ценное отнимают (например, деньги или энергию) - вам становится неприятно, а когда дают что-то ценное, то наоборот.
Неприятные Ощущения могут возникать от снижения ЭПП.
Приятные Ощущения могут возникать от повышения ЭПП.
Кроме того, функция НОЩ состоит в том, чтобы проинформировать организм о том, что он вышел за пределы Номинальной Мощности в Форсированный Режим. В Форсированном Режиме накапливается избыточный Шлак, который вызывает НОЩ, которые, в с.о., активируют рефлексы самозащиты от поломки, которые должны снизить НОЩ, переведя работу из Форсированного в Номинальный Режим. А это значит, что Рефлексы Самозащиты начинают препятствовать (неспособствовать) развитию тех рефлексов, которые провоцируют работу в Форсированном Режиме.
Приятные Ощущения - животное стремится получить.
Неприятные Ощущения - животное стремится избегать.
Суть неприятности НОЩ состоит в том, что новые ощущения начинают блокировать и тормозить Текущее Действие, которое нужно выполнять.
По-другому: Факторы или драйверы, которые препятствуют продолжению Текущего Действия - вызывают НОЩ. И наоборот: если ты испытываешь Приятные Ощущения (ПрОЩ), то это совершают факторы, которые способствуют развитию Текущего Действия.
Физиологические НОЩ воспринимаются в виде ощущений Холода, Жары, Голода и т.д.
Отключение второстепенных потребителей, например, Сервисные Службы, также должно вызывать НОЩ, потому что это отключение переводит этих потребителей в разряд НеРаботоСпособных.
Накопление негативных факторов (Шлака, температуры, задолженности по кислороду и т.д.) приводит к НОЩ. В Номинальном Режиме все негативные факторы полностью успевают утилизироваться, а значит, не приводят к НОЩ.
Источником НОЩ при Усталости будет являться уровень Неутилизированного Шлака. Если НОЩ от Усталости становится больше, чем от НОЩ от Голода, то формируется Драйвер Отдыха, в процессе которого формируются Приятные Ощущения (ПрОЩ). А за время ПрОЩ они блокируют НОЩ Голода.
Для того чтобы не допустить преждевременного отключения текущего Драйвера - приходится терпеть НОЩ. На это Терпение тратится энергия, которая и будет определять насколько легко или тяжело выполняется текущее Действие.
Терпеть приходится не сами Неприятные Ощущения, а провоцирование того рефлекса, который они вызывают и который нужно заблокировать. Т.е. дополнительные энергоресурсы, которые выделяются на стабилизацию и сохранение текущего действия, будут вызывать НОЩ.
Выполнять Действие становится легче от того, что уровень НОЩ (который возникает от затраты энергии на Терпение) - может снижается, по сравнению с уровнем НОЩ, который был раньше.
Терпение связано с (пере)Напряжением сил (энергии), которые затрачиваются на компенсацию (нейтрализацию) НОЩ, которые, в с.о., требуют прекратить текущее действие.
НОЩ также могут возникать от того, что Детектор НеРСп механизма фиксирует ошибку. Ошибка - это реакция на отсутствие Ожидаемого Признака, после подачи запускающего сигнала. Таким образом, НОЩ формируются от того, что многие механизмы становятся НеРаботоСпособными.
Например, при тяжёлой работе, беге и т.д. формируются НОЩ, которые мешают продолжению бега. Т.е. эти НОЩ возникают от того, что многие механизмы в организме начинают снижать свою ЭПП или просто становятся НеработоСпособными.
Потребность в снятии Неприятных Ощущений возникает вследствие получения Ошибок от НеРаботоспособного механизма, которые формируются от «неприхода» ожидаемого признака. Ошибки накапливаются и поступают в DELG, где формируют НОЩ. Таким образом, если чувствуешь какую-либо неудовлетворённость (потребность) - нужно искать нерабочий механизм, который формирует ошибки.
НОЩ формируют Драйвер по отключению текущего Действия или даже отключению всей силовой нагрузки - Драйвер по Аварийному Отключению Нагрузки (ДАОН).
Вопрос: В чём заключается специфичность поведения на НОЩ?
Ответ: Противодействие Рефлексу Аварийного Отключения от энергоснабжения/Нагрузки.
Если во время физической работы искусственно снижать восприятие НОЩ (например, химией), то можно теоретически работу выполнять очень долго, без усталости. Сравни с допингом.
Одно из назначений Обучения состоит в том, чтобы суметь избежать Неприятные Ощущения, которые испытывает животное в некоторой Типической Ситуации. Т.е. Обучение позволяет Предвидеть последствия при совершении действия и применить/подготовить Превентивный механизм, который позволит избежать НОЩ.
НОЩ обладают свойством ОбщеГенерального торможения всей двигательной активности. Т.о., если НОЩ долго присутствуют, то снижается общая РаботоСпособность.
Дифференцировка
Часто требуется выявить причину, которая вызывает НеРаботоСпособность или снижение производительности какого-либо механизма. Или определить действие, которое приводит к НеРаботоСпособности.
Суть Дифференцировки - выявить, определить Признак, на который будет срабатывать некоторый конкретный автоматизм или рефлекс.
Значит, надо отфильтровать фоновые, случайные или сопутствующие признаки от значимых.
Механизм дифференцировки помогает найти тот признак, который постоянно сопутствует рефлексу и удерживает его. Это так называемый неотъемлемый признак (от рефлекса), т.е. признак, принадлежащий рефлексу. Механизм дифференцировки служит для идентификации нового, неизвестного, признака, который сопутствует известному признаку, который (известный признак) вызывает специфический рефлекс.
Дифференцировку можно рассматривать как отсекание фона, как статистический сумматор сочетаний стробов ОЭ и активности канала. Сочетания будут накапливаться в инкане, тем самым увеличивая чувствительность канала к сигналу.
Поиск закономерностей у человека - аналогичен процессу дифференцировки у животных; и в том и другом случае должен формироваться некоторый образ, сформированный из множества признаков, прошедших отбор и дифференцировку.
Образ представляет собой отдельный признак, который так же имеет право вступать в формирование других образов.
Одно из назначений дифференцировки - это изменение энергоструктуры системы в пользу активации того или иного механизма.
Задача по дифференцировке:
Пусть существует некоторый образ, который нужно определить, распознать, идентифицировать или сопоставить конкретному действию. Однако этот образ находится на Фоне других признаков, которые затрудняют обнаружение и распознавание искомого образа. Но нам сильно повезло! У нашего Детектора
Образа (ДО) есть Учитель.
Этот Учитель давно знаком с тем образом, который мы ищем, и согласился давать нам сигналы Подтверждения, в случае если Искомый Образ (ИО) присутствует на рецепторном поле Детектора, и давать сигналы Опровержения, если ИО отсутствует.
Выдавать сигналы Подтверждения и Опровержения Учитель будет только тогда, когда его об этом попросят. Картинка к опознанию будет предъявляться Учителю не один раз (может быть 100 раз).
С увеличением числа Предъявлений к Опознанию (ПкО) должен увеличиваться (статистически) уровень правильных, безошибочных признаков.
Рис.6
Схема Фильтрация от фона. Дифференцировка.
В случае аналоговой проводимости PR(...), возможно, влияние от нескольких каналов.
Если будет проводимость через ключ-компаратор, то единичный сигнал сразу включит ДО, а значит, остальные рецепторные каналы уже не смогут влиять на состояние ДО. Комплексный Детектор (ДКП) не может иметь на входе ключи-компараторы. Значит, на входных рецепторных каналах ДКП должны быть регулируемые
аналоговые проводимости.
Алгоритм работы схемы Фильтрация от фона:
1. Дано: Все входные признаки PR(...) - единичные, прошедшие первичный анализ.
2. Пусть первые три признака PR(1), PR(2), PR(3) принадлежат исследуемому объекту.
3. Остальные признаки не принадлежат объекту и могут появляться случайным образом, или присутствовать постоянно (фоновые).
4. Требуется: Определить, отдифференцировать признаки, принадлежащие объекту от посторонних, т.е. не принадлежащих ему.
5. В результате селекции значимых признаков, только они будут способны сформировать включение Детектора Образа А.
6. Описание работы схемы: На все входы подаются единичные сигналы в случайном порядке.
7. Если среди входных сигналов присутствуют первые три PR(1), PR(2), PR(3) (или хотя бы один из них), то от Учителя поступает положительный строб, который на активных каналах увеличивает величину чувствительности/проводимости к этому признаку.
8. Если Учитель подаёт отрицательный строб, это значит, что исследуемого объекта в поле зрения нет. В этом случае обнуляются все проводимости у активных каналов (у неактивных сохраняются).
Дифференцировка образа возможна только на подтверждаемые действия. Импринтинг и Запоминание Образа, как реакция на Отрицательную Эмоцию, не получают подтверждения правильности реакции, после выполнения действия, а это значит, что Дифференцировка на них не распространяется (2-3 сочетания для запоминания).
Для дифференцировки признака должен существовать механизм начальной фиксации признаков с дальнейшей их привязкой с удовлетворением потребности.
В последующие сочетания данной потребности система должна ориентироваться и искать признаки, у которых наибольший вес в данной ситуации. Таким способом формируется образ, признаки которого всегда сопутствуют удовлетворению этой потребности.
В процессе положительной дифференцировки должна существовать фаза Проверки набора входных признаков на истинность. В этой фазе будет формироваться принудительный мотив к действию. Принудительный мотив будет формировать нужное действие вне зависимости от того - какие входные признаки находятся на входе. После совершения действия должна произойти проверка адекватности ожидаемого результата - полученному результату. Если не будет фазы проверки, то действие никогда не совершится, а значит, и проверять будет нечего.
Механизм Положительной Дифференцировки (МПД) - это более сложный, продвинутый механизм по отношению к импринтингу или механизму с отрицательным обучением.
Дифференцировка предполагает нахождение из многих признаков - Предшествующего, для формирования одного и того же рефлекса.
Дифференцировка проявляется только при т.н. положительном подкреплении. На отрицательную стимуляцию не возникает желание использовать дополнительные попытки для уточнения условий, при которых возникает, либо не возникает боль.
Импринтинг
Импринтинг это прочная и быстрая фиксация в памяти животного признаков
какого-либо объекта. В памяти новорождённых зрячих млекопитающих и вылупившихся из яйца выводковых птенцов запечатлевается облик матери, а при её отсутствии любые существа и объекты, её заменяющие: человек, геометрические фигуры и т.д. Врождённая реакция научения позволяет животным следовать друг за другом и за
родителями, узнавать их. Другими словами механизм импринтинга как бы «фотографирует» образ объекта, в течение короткого промежутка времени, так называемого критического периода восприятия (КПВ). В дальнейшем, этот образ будет являться запускающим признаком для специфического рефлекса.
Импринтинг формирует единственный безусловный рефлекс, на который не требуется условия подтверждения.
Если Отрицательный Импринтинг фиксирует Признак, Предшествующий НеШтатному завершению Драйвера, то должен существовать Положительный Импринтинг у которого, Строб Фиксации Признака формируется сразу на Штатное завершение Драйвера, т.е. его естественное удовлетворение. Зафиксированный Признак (Предшествующий Штатному завершению Драйвера) будет активировать Автоматизм Активного Поиска Объекта удовлетворения.
Примером Положительного Импринтинга может служить запоминание хищником - запаха жертвы, на момент её поедания. В дальнейшем, во время очередной охоты, этот запах (как, впрочем, и другие характерные признаки) будет привлекать хищника (а не «отворачивать» как в Отрицательном Импринтинге) в направлении жертвы.
Запоминание запаха пищи может рассматриваться как импринтинг т.е. «фотографирование» запаха и сопоставление его с удовлетворением соответствующей потребности.
Импринтинг и положительный и отрицательный - «фотографирует» Признак и привязывает его к конкретному механизму. Т.е. ОИ должен препятствовать снижению эффективности работы механизма. А Положительный Импринтинг должен способствовать увеличению эффективности работы механизма.
В каждом рефлексе на конкретный образ формируется конкретное действие.
В безусловном рефлексе все связи жёсткие (известны). Т.е. если прикоснуться к горячему чайнику, то последует отдергивание руки. В этом рефлексе известно, на какой признак нужно формировать какую реакцию.
В импринтинге известна двигательная реакция, но неизвестен внешний образ, на который эта реакция должна формироваться. Следование утят за уткой - это безусловный рефлекс на признак: удаление утки от утят. Однако, до тех пор, пока утята не сфотографировали образ утки, этому рефлексу нельзя присвоить статус
«безусловный», связь не сформируется.
Одним из основных признаков Обучения будет наличие фиксирующего строба, который участвует в запоминании Признаков, Предшествующих Опасности. Если предположить, что Фиксирующий Строб (ФС) выделяет из всего возможного набора признаков только те признаки, которые присутствуют на момент фиксации, то можно смоделировать схему Отрицательного Импринтинга (ОИ) на примере конкретной, работающей схемы:
Рис.7
Схема Отрицательного Импринтинга
Принцип работы схемы Отрицательного Импринтинга:
1. Датчик Передней Антенны Тачки постоянно принимает из окружающей среды признаки:
PR(41) - зелёный на Передней Антенне (ПА),
PR(35) - серый на Передней Антенне (ПА),
PR(13) - чёрный на Передней Антенне (ПА),
....
PR(33) - жёлтый на Передней Антенне (ПА) и т.д.
2. Схема Последействия, состоящая из инканов М(1), М(3), М(5) и компараторов С(1), С(3), С(5) продлевают на некоторое время признак цвета, который появился на ПА. Назначение схемы в том, чтобы запоминать на непродолжительное время наличие признака, после того как он уже исчез:
Рис.8
Хронограмма процессов последействия
3. Сигнал со схемы Последействия поступает на инкан, у которого в Верхнее Плечо (ВП) и в Нижнее Плечо (НП) встроены ключи, управляющие поступлением Виртуальной Жидкости (ВЖ) в инкан. Эти два ключа обеспечивают полную изоляцию инкана как от притока ВЖ, так и от её стока. В схемотехнике такую изоляцию называют ChipSelect (CS).
Т.о., изменение уровня в инкане возможно только когда на ключи поступает Строб Фиксации «1».
4. В качестве Строба Фиксации можно принять признак столкновения Тачки с зелёной стенкой. До момента столкновения с зелёной стенкой Тачка двигается по экрану и время от времени её Передняя Антенна регистрирует тот или иной цвет, который поступает на соответствующий Рецепторный Канал и на схему последействия.
5. В момент столкновения Тачки с зелёной стенкой формируется Строб Фиксации, который разблокирует инкан памяти для восприятия признака последействия. Датчик Передней Антенны до столкновения уже зарегистрировал признак PR(41) «зелёный на ПА», который сохранился на схеме последействия. Т.о., инкан М(2) - заряжается и устанавливает компаратор С(2) в единицу. Тем временем, Строб
Фиксации исчезает и инкан памяти - закрывается от посторонних признаков.
6. Таким образом, компаратор С(2) будет удерживать ключ S1 в проводящем состоянии, что, в свою очередь, обеспечивает прохождение признака «зелёный на ПА» PR(41) сразу на Рефлекс отворота от препятствия. Связь замкнулась.
7. Теперь, когда на Передней Антенне появится зелёный цвет, Тачка сразу сформирует Рефлекс отворота.
Однако отворачивать от препятствия нужно только в процессе движения вперёд, а не всегда когда на ПА появится зелёный. Для этого в нижнее плечо Буфера Рефлекса отворота нужно поставить запрещающее, тормозящее условие, например, такое: без наличия движения вперёд - Рефлекс отворота невозможен.
Эта упрощённая модель Отрицательного Импринтинга (ОИ) позволяет выбирать и устанавливать единственный рабочий Рецепторный канал из всего спектра рецепции, который будет участвовать в запуске Превентивного рефлекса обороны.
Отрицательным импринтинг называется потому, что исполняемый рефлекс - является рефлексом обороны, который входит в арсенал Службы Безопасности и участвует в пресечении текущего действия.
Отрицательный Импринтинг входит в состав Службы Безопасности.
Положительный Импринтинг входит в состав Службы Поиска, Разведки.
Служба Разведки - это установка на успех, при Поиске. Строб Успеха (от нахождения цели поиска) будет фиксировать удачное, последнее действие. Положительный Импринтинг.
В Службе Безопасности каждый канал связан с конкретным превентивным автоматизмом, который включается на личный ОИ. Обучение может помогать не только экономить ресурсы, но и увеличивать скорость их поступления.
Если новый рефлекс нельзя приобрести, то можно растормозить уже готовый! А уже на расторможенный рефлекс «импринтинговать» и устанавливать собственную рецепцию.
Служба безопасности (СБ)
Любой механизм, в нашем мире, рано или поздно ломается. Поломка работающего механизма может произойти только по причине нарушения Необходимых и Достаточных Условий НДУ, которые были в Коридоре Допустимых Значений и обеспечивали его РаботоСпособность.
Когда механизм потеряет свою РаботоСпособность - его приходится ремонтировать,
а на время ремонта заменить на работающий. И на ремонт и на дублирующий
механизм нужны деньги (которых всегда не хватает). Поэтому поломку лучше предупредить и не доводить до ремонта.
Большинство живых организмов обладает способностью обучаться. Одна из форм обучения входит в состав Службы Безопасности (СБ), которая должна предвидеть и предотвращать возникновение НеШтатной Ситуации (НШС). В обязанности СБ входит контроль за Окружающей Средой (ОС), с целью обнаружения подозрительных признаков и формирования на них рефлексов безопасности, которые входят в состав СБ.
Служба Безопасности должна предвидеть и предотвращать возникновение нештатной ситуации (НШС).
У каждого Драйвера должен быть свой собственный Набор Подчиненных Драйверов (НПД), автоматизмов, рефлексов, Служба Безопасности, Детектор НеРаботоСпособности, Механизм по Обучению и т.д. Причем, у каждого Драйвера НПД будет типичен и мало чем отличаться от других.
В каждом Драйвере существует своя СБ, которая предназначена для того, чтобы текущий Драйвер корректно доработал до своего удовлетворения. По-другому: СБ должна следить за тем, чтобы Доминантный Драйвер не произвёл Принудительную Смену текущего Драйвера (ПСД), а также принять меры по уклонению от встречи с возможной опасностью.
СБ ловит (через ОИ) Признак, Предшествующий Аварии, запоминает его и формирует на него Превентивное действие по уклонению от опасности.
СБ может иметь собственные драйвера, которые могут доминировать над другими драйверами. Драйвер Тревоги СБ срабатывает и захватывает (через ФП) РецепторноЭффекторное Поле РЭП по управлению текущим действием.
Необходимые и Достаточные Условия (НДУ) РаботоСпособного механизма всегда должны быть в Коридоре Допустимых Значений (КДЗ, ОДЗ). Таким образом, должен быть механизм, контролирующий НДУ. РСп должна определяться конкретными параметрами, например: скоростью МДВ, временем достижения цели и т.д.
СБ должна сохранять постоянство эффективности. Не допускать снижения эффективности. СБ должна мониторить окружающую среду (ОС) и выдавать предупреждения о той или иной возможной опасности (из существующего набора);
например:
- возможность снижения эффективности,
- возможность получения травмы,
- возможность снижения РСп и т.д.
Цель работы СБ заключается в увеличении времени, в течение которого механизм (например, мотор) работает без сбоев (БезАварийно). Т.е. СБ должна оберегать механизм от возможной НеРаботоСпособности - формируя превентивные действия на опасный признак.
Служба Безопасности любого Драйвера должна следить за тем, чтобы не было Принудительной Смены Драйвера (ПСД). В случае, если ПСД происходит - СБ должна добиваться снижения частости появления строба ПСД (за определённое время). Например, путём смены неэффективного инструмента на более эффективный.
Частость Появления ПСД (на фоне общего количества включений) будет определять эффективность (успешность) работы СБ драйвера.
Обучение и Служба Безопасности являются Сервисными Службами, т.е. только косвенно влияют в процессе Производства Продукта. Обучение входит в состав СБ, которая следит за тем, чтобы не нарушались НДУ исполняемой Команды.
СБ проверяет совместимость исполняемого действия с набором текущих признаков. Если присутствуют опасные признаки, то к действию применяется Превентивная реакция (например, торможение или отворот), которая обезопасит текущее действие от аборта.
У (каждой) Команды должна быть собственная СБ, которая должна следить за тем, чтобы её Команда каждый раз завершала бы свою работу Штатно.
Когда СБ воспринимает Признак, Предшествующий НеШтатной Ситуации, она должна сформировать Превентивную Реакцию, которая предотвратит незапланированное прерывание Команды.
Задача СБ не допускать нарушения НДУ, которые обеспечивают РСп Команды, при помощи превентивных инструментов.
Служба Безопасности должна быть у каждого Драйвера или Команды.
Итак: в обязанности Службы Безопасности входит - регистрация Опасного Признака, Предшествующего нарушению РаботоСпособности Команды, а также формирование на этот признак Превентивного Действия, которое позволяет сохранить РаботоСпособность исполняемой Команды (в будущем) за счёт сохранения НДУ.
Подготовка к действию
Каждый специалист знает, что для качественного выполнения работы необходимо хорошо подготовиться. Бывает, что подготовительная работа занимает больше времени (и денег), чем собственно сама работа. В поведении самообучаемого робота подготовка к каждому действию также имеет немаловажное значение.
Подготовительной работой могут заниматься специальные службы, названия у них у всех могут быть разные, но функции выполняют они одинаковые - готовят механизм к работе. Без энергоснабжения ни один механизм работать не будет. Значит, его необходимо обеспечить энергией, причём, сделать это вовремя и в полном объёме.
Механизм планирования расхода энергии на совершение действия позволяет оценивать запас энергообеспечения, который бы позволил довести действие до полного и успешного завершения. Правильно настроиться, подготовится к действию - означает снабдить эффектор необходимым энергоресурсом, которого хватит для успешного завершения планируемого действия. Подключение механизма к энергоресурсу -
называется активация, а отключение его от энергоснабжения - дезактивацией.
Дезактивация механизма, например, мотора, может быть связана с переходом в другой ЭнергоРежим, в котором этот механизм не используется, а значит, и не должен потреблять энергию.
Для полной активации механизма на него нужно подать (необходимый и достаточный) энергоресурс и подождать, пока его основные характеристики примут рабочие значения. Т.о., на переход из неактивного состояния в активное требуется время, которого в критической ситуации может не хватить. Резервный ресурс на поддержание РСп позволяет выиграть время.
Подготовительная функция обучения состоит в Прогнозе возникновения неблагоприятной ситуации и заблаговременный перевод механизма в активное состояние.
Подготовка к действию подразумевает установку всех Необходимых и Достаточных Условий,
которые обеспечивают БезАварийную или БезОшибочную работу механизма. Но на практике не всегда удаётся вовремя выставить исключительно все НДУ, поэтому часто действие приходится выполнять без полного набора НДУ, что, в свою очередь, увеличивает вероятность ошибок после совершения действия.
Настройки планируемого действия нужно устанавливать перед его началом, чтобы в момент начала действия всё было подготовлено, а значит, в новых условиях нужная настройка не приведёт к совершению ошибки.
У каждого Драйвера или Команды есть свои Службы Безопасности, в обязанности которых входит оповещать их о возможной опасности, а также выставлять предварительные настройки для превентивного действия, обеспечивающего безопасность Тачки. Изменение настроек нужно производить предварительно перед тем когда будет совершен маневр или рефлекс.
У Службы Безопасности существует конкретное Превентивное поведение, подготовленное под известную коллизию. Остаётся только отдифференцировать Типический Признак и «импринтинговать» его на Превентивный рефлекс. Для этого нужно обнаружить Признак, Предшествующий определённому типу Аварии с известным диагнозом и сопоставить ему рефлекс из Базы Готовых Превентивных Рефлексов.
Превентивные рефлексы поведения являются инструментами СамоОбороны.
Суть обучения: совершить превентивное отключение, чтобы не снижать Уровень Эффективности, а значит, не снижать собственное энергофинансирование. Т.е. чем ниже Уровень Эффективности механизма, тем хуже его снабжают энергией.
Смысл Превентивного Обучения состоит в том, чтобы в следующий раз в аналогичной типической ситуации не нарушалась Работоспособность Команды. Предварительная установка НДУ будет являться задачей Условного Рефлекса.
Универсальный критерий обучения - это сохранение РаботоСпособности текущего Действия (Механизма) при изменении условий в Окружающей Среде с помощью Превентивных инструментов личной Службы Безопасности.
Заключение
В статье кратко рассмотрены основные положения, на которых построены механизмы самообучения автономного работа. Ниже приведена схема, которая показывает в чём состоит связь между РаботоСпособностью механизма и возможностью обучаться без учителя.
Рис. 9
Связь между восстановлением РаботоСпособности и Самообучением.
Литература
1. Канарейкин А.В. Самообучение автономного робота с использованием метода компьютерного моделирования высокой детализации КМВД. СПб. Страта. 2019.
2. Канарейкин А.В. Свидетельство ГРПЭВМ № 2017661336. Программа моделирования динамического элемента (инкана).
3. Канарейкин А.В. Свидетельство ГРПЭВМ № 2018660306. Программа, реализующая метод компьютерного моделирования динамических систем и механизмов на инкане (метод высокой детализации).
4. Физиология поведения./Ред. Батуев А.С. Л.: Наука, 1986.
5. Тыщенко В.П. Физиология насекомых. – М.: Высшая школа. 1986.
Электронная почта для связи с автором: inkan66a@gmail.com
Comentários