обучаемые системы управления

Антонов В.М. ОБУЧАЕМЫЕ СИСТЕМЫ УПРАВЛЕНИЯ Антонов В. М. ОБУЧАЕМЫЕ СИСТЕМЫ УПРАВЛЕНИЯ Липецк 1998 Антонов В. М. Липецк, 1998. — 320 с. Обучаемые системы управления. — Изд-во ЛипГТУ, Системы со зрением и другим очувствлением. Работают по принципу нервных систем животных. Предлагаются взамен компьютерных программируемых систем управления. Устройство, техническая реализация, теория с математико-биологическими основами обучения. Патенты: 1352456, 1647604, 1788469, 1824625, 2030780, 2068575, 2069053. Владимир Михайлович Антонов, 1998 г. Предисловие автора То представление о нервных системах животных, которое положено в основу технических обучаемых систем управления, возникло в результате настойчивого стремления понять суть экспериментов Ивана Петровича Павлова над собаками. Помню, я даже остановился во время прогулки, когда в полном сосредоточении замкнулось последнее звено моих рассуждений, и все стало вдруг понятно. Было это в июне 1985 года. Целю всех последующих работ, и в том числе данной книги, являлось желание объяснить, как могут формироваться сами собой законы функционирования объектов и какая структура системы управления для этого необходима. Финансовую поддержку работам оказывали Елецкий завод тракторных гидроагрегатов (Самохин А. В.), Грязинский завод гидрооборудования (Остапенко А. А.), и организация ЦНИИМаш из подмосковных Подлипок (Богомолов В. П.). Непосредственным участником всех основных разработок был научный сотрудник Буков А. А. Сентябрь 1989 года. Антонов В. М. (справа) и научный сотрудник Буков А. А. с роботом, на котором установлена обучаемая система управления со зрением ЧАСТЬ I. Обучаемые системы управления: устройство, принцип действия и обучения I. Что такое обучаемые системы управления Обучаемые системы управления являются автоматическими и могут быть использованы для управления стационарными и подвижными машинами, такими как роботы, металлорежущие станки, транспортные средства, — для регулирования производственных процессов на металлургических, химических и иных установках, для анализа, прогноза и диагностики, а также в режиме советчика /1.14/. Они способны принимать решения на основе зрительной, слуховой, тактильной и иной образной информации, поставляемой техническими органами чувств: глазами, ушами, чувствительной кожей и прочими органами и даже такими, каких нет у живых существ. Принимаемые решения могут выражаться в форме сигналов управления приводами машин или в виде словесно-числовых выводов, заключений и рекомендаций. Обучаемые системы управления предлагаются взамен логических систем, к которым относятся: механические (кулачковые и револьверные с упорами), релейные (электрические, гидравлические и пневматические), вычислительные (аналоговые и дискретные), а также взамен тех систем, которые запоминают движения и действия и способны воспроизводить их. Последние системы иногда именуют также обучаемыми, но точнее было бы их называть запоминающими. По внешним признакам они действительно схожи с обучаемыми системами: оснащаются такими же рецепторными датчиками, т. е. Техническими глазами, ушами, кожей, — и методы обучения похожи, но по принципу действия не имеют ничего общего с ними. В режиме обучения запоминающие системы периодически через определенные малые отрезки времени, измеряемые десятыми и менее долями секунды, запоминают образы ситуаций и соответствующие им сигналы управления всех приводов, задаваемые обучателем, а в режиме работы отыскивают в каждый момент времени в своей памяти образ, подобный тому, который характеризует текущую ситуацию, и извлекает из памяти сигналы управления, соответствующие этому образу. Предлагаемые обучаемые системы управления не запоминают образы: они вообще не имеют такого пространственного накопителя информации, каким является обычный блок памяти компьютера. Технический мозг, в который направляется параллельным потоком информация от рецепторов и которых выдаёт на выходе сигналы управления приводами, представляет собой активный преобразователь и не предназначен для документального запоминания. Процесс обучения сводится не к запоминанию образов ситуаций, а к формированию такой проводимости резисторного поля технического мозга, проходя через который рецепторная информация сразу же превращается в сигналы управления. Нет у технического мозга также сходства с компьютерными процессами, производящими сложные вычислительные процедуры в последовательном режиме. Поэтому быстродействие его определяется только временем прохождения сигнала, и в электрическом исполнении оно практически мгновенно. Наиболее характерной реализацией обучаемых систем управления является аналоговый вариант /1.4/. В нём информация, собираемая аналоговыми рецепторами, преобразуется аналоговым техническим мозгом и суммируется им в сигналы управления» Что такое - аналоговый рецептор? Это — чувствительный элемент (первичный преобразователь), охватывающий малый участок поля очувствления и преобразующий внешнее воздействие в непрерывный, аналоговый, изменяющийся по величине сигнал на выходе. В качестве такого рецептора может быть фотоэлектрический преобразователь (фоторезистор, фотоэлемент), встроенный в сетчатку технического глаза и воспринимающий свет, направляемый на него оптикой, если оптика представляет собой объектив, который направлен на обозреваемую сцену, то отдельный рецептор будет воспринимать свет от соответствующего малого участка поля зрения. Рецепторами могут быть также звукорезисторы, реагирующие на силу звука в узком мер из токопроводящей резины, реагирующие на усилие нажатия, терморезисторы, реагирующие на тепло, и другие. Рецепторы очувствления образуют рецепторные поля, например сетчатку глаза или чувствительную техническую кожу. Количество рецепторов в системе не ограничено; расположение их в рецепторном поле — произвольное, неорганизованное, однако переставлять или заменять их после обучения объекта управления уже нельзя. Подсоединение рецепторов к техническому мозгу также может быть случайным, однако и в этом случае произвольное переподсоединение рецепторов после обучения недопустимо. Отмеченные особенности обучаемых систем управления роднят их с нервными системами животных, способных вырабатывать условные рефлексы. Есть и другие сходства; так, те и другие системы обучают методом поощрения-наказания или «вождением объекта за руку», в результате чего они вырабатывают навыки действие или поведения. Законы управления при этом формируются в техническом мозгу, как можно обучить робот, оснащенный обучаемой системой управления со зрением, поиску различных предметов, свободно ориентированных в пространстве, или электродуговой сварке любых предметов в любом положении при условии, разумеется, что разделанных шов зрительно выделяется на общем фоне, например обведён мелом. Обучение «вождением объекта за руку» можно характеризовать как пассивное, так как осуществляется оно в процессе обычной работы и не требует от обучателя специальных знаний по обучению. Он должен знать только своё дело, и, чем выше его квалификация, тем совершенней будут навыки объекта обучения. Завершают обучение тогда, когда точность действий объекта устроит обучателя. При активном обучении составляют выборку из специально подобранных ситуации, и только в них производят обучение, и тогда оно становится более эффективным, хотя и требует специальных знаний. Как особенность, характерную также для живых существ, следует отметить многократность повторов действий при обучении: объект «водят за руку» до тех пор, пока не добьются желаемого результата, а при активном обучении раз за разом предъявляют одни случае, если в каждой ситуации система выдаёт требуемые сигналы управления, не выходящие за пределы допустимых отклонений. При очередном повторе погрешности в действиях обучаемого объекта или сигналов управления должны уменьшаться, и, если этого не происходит, то следует искать ошибку в действиях обучателя или противоречие в выбранных ситуациях. И ещё одна особенность обучаемых систем управления обращает на себя внимание: это — их высокая надежность (применительно к живым существам — живучесть). При выходе из строя отдельных элементов системы, например некоторых рецепторов, отказа в работе системы не происходит, а лишь снижается точность действий исполнительных органов. Если погрешность в действиях объекта превышает допустимое отклонение, то устраняют её не ремонтом вышедших из строя элементов, а дообучением системы. К тому же допускается определённая неточность изготовления всех элементов системы; более того, разброс характеристик, возникающий при этом, например различное отклонение от линейности и различное быстродействие элементов, улучшает систему, делая её более совершенной и расширяя её функциональные возможности. Поэтому, при изготовлении обучаемых систем управления отчасти реализуется принцип «чем хуже, тем лучше», совершенно неприемлемый в мире техники. Такая странная особенность обучаемых систем оказалась возможной потому, что обучаются они по факту очувствления, а не по законам параметрического пространства. Отсюда возникает еще одна особенность — свобода компоновки объекта управления: он оказывается не связанным ни с какой системой внешних координат. Так, робот может быть скомпонован, изготовлен и собран «по месту», т.е. в конкретных условиях своей работы, и обучен всему необходимому в этих же условиях. Перечисленных особенностей достаточно для того, чтобы убедиться в сходстве обучаемых систем управления и нервных систем животных. Также схожи их функциональные возможности, основными из которых являются: * поиск в пространстве свободно ориентированных заданных предметов; * преследование-уклонение; * цикловое управление; * воспроизведение; * регулирование процессов; * принятие словесно-числовых решений в сложных ситуациях; * диагностика; * прогнозирование. Те же, что и у животных, недостатки у обучаемых систем управления: они не способны документально запоминать и производить вычисления. Для сравнения, компьютер может запомнить дословно текст, числа, документально зрительную картинку, — и запоминает все это с первого предъявления. Он может производить различные вычисления по программе или по заложенному алгоритму, вводимых также однажды. Обучаемые же системы управления можно заставить что-либо документально запомнить или произвести вычисления только в результате очень долгого и скрупулёзного обучения. Говоря о сходстве обучаемых систем управления и нервных систем живых существ, никак нельзя распространять это сходство в полной мере на нервные системы человека, а точнее — на те её стороны, которые свойственны исключительно человеку. Обучаемые системы не способны логически мыслить, перебирать варианты, воспринимать речь, не обладают той волей, которая позволяла бы им ставить самим себе задачи. По существу они являются простейшими рефлекторными системами. 2. Из истории создания обучаемых систем управления Изобретение обучаемых систем управления. Первая заявка на изобретение обучаемой системы управления, которая так и называлась «Обучаемая система управления» (автор Антонов В.М.), подана 29 августа 1985 года и зарегистрирована под номеров 3949838/08 Государственным комитетом СССР по делам изобретений и открытий. В ней было приведено описание устройства, метода обучения и работы системы. Позднее сложилась терминология обучаемых систем управления, но в первых заявках использовались обычные общеизвестные технические термины тех лет. Так система очувствления представлялась состоящей не из органов чувств и рецепторов, а из многоканальных сигнализирующих устройств; технический мозг и его матрица упоминались как блок памяти или как постоянное запоминающее устройство (ПЗУ); строчные шины матрицы мозга именовались как каналы сигнализирующих устройств, а столбцевые — как сумматоры, причём плюс-столбец матрицы мозга был правым сумматором, а минус- столбец — левым; набор синапсов одной столбцовой шины матрицы был представлен в виде мембраны, контактирующей одной своей стороной с каналами сигнализирующих устройств, а другой — с сумматорами; сигнал на выходе системы определялся элементом сравнения, на котором сигнал левого сумматора вычитался из сигнала правого. Цель первой заявки состояла в том, чтобы утвердить отечественный приоритет в изобретении такой автоматической системы управления, у которой законы управления не разрабатывались бы логически, а формировались автоматически в процессе обучения. Другими словами: патентовалась принципиально новая система управления. Поэтому в заявке не уточнялся вид энергии: система могла быть гидравлической, пневматической, электрической или иной другой. Не уточнялось и исполнение мембраны; говорилось только, что материал мембраны должен быть таков, что в момент обучения под воздействием увеличенного перепада давлений (разности потенциалов), искусственно создаваемого обучателем, увеличивается проводимость мембран в месте действия контактов с потенциалами. Вводилось понятие отличительности состояния среды, так называемой дискреты состояния, которой должен соответствовать хотя бы один отдельный канал сигнализирующих устройств, несущий сигнал исключительно в этой ситуации. Чем больше таких каналов, тем надёжней система управления. Желательно, чтобы сигналы перекрывали друг друга. Подчёркивалось, что допускается разброс характеристик сигнализирующих устройств и случайное подсоединение их каналов к мембранам блока памяти. Если объект имеет несколько приводов, то каждый из них должен иметь свою отдельную подобную систему управления. Обучение предусматривалось методом «вождения за руку». Воздействие оператора обучения, вызывающее наращивание сигнала управления, характеризовалось как возбуждение, а обратное воздействие, уменьшающее сигнал, — как торможение, и проводилась аналогия с выработкой условных рефлексов в биологии. Обучение - многократное, в несколько циклов; при этом происходит наращивание проводимостей мембраны индивидуально для каждого канала сигнализирующих устройств. Сохранение увеличенных проводимостей и есть память системы, но память эта хранит не образы среды, а навыки действий. Обучение объекта не выделяется в отдельный режим, а совмещается с работой: обучатель вмешивается только тогда, когда необходимо подправить действия объекта. При избытке каналов сигнализирующих устройств порча отдельных из них незначительно ухудшает работу системы, поэтому отпадает необходимость в их ремонте. Подчёркивалась индивидуальность блоков памяти: переставлять мембраны о объекта на объект после обучения нельзя. Таким образом, все принципиальные отличия обучаемых систем управления, закрепившиеся за ними в последующих изобретениях и в научных статьях, были отражены в первой заявке, а введение понятия отличительности состояния очувствления, которая гарантировала отличительность сигнала управления в данной ситуации, определяло условие сходимости процесса обучения. Вторая заявка на изобретение «Обучаемая и самообучающаяся система управления и регулирования» (автор Антонов В.М.) подана 10 октября 1985 года и зарегистрирована под номером 3965056/08. В ней были изменены и уточнены некоторые термины. Было введено понятие матрицы постоянного запоминающего устройства, имеющей отроки и столбцы. Столбцы матрицы, объединённые в отдельную пару, назывались теперь не правый и левый, а плюс- и минус-. Подчеркивался рецепторный принцип устройства многоканальных сигнализирующих устройств. Мембрану постоянного запоминающего устройства предлагалось выполнять из аморфных полупроводников, которые позволяют не только наращивать электрическую проводимость, но и убирать её. Дискреты состояния среды именовались ситуациями. Цель заявки состояла в дополнении обучения системы самообучением и в расширении функций системы: она могла быть использована не только для управления объектами, но и для регулировки процессов. В третьей заявке на изобретение, именуемой «Обучаемое устройство для распознавания образов» (автор Антонов В. М.), поданной 18 октября 1985 года и зарегистрированной под номером 3967683/24, и в четвертой заявке, именуемой «Обучаемая система технического зрения» (автор тот же), поданной 29 октября 1985 года и зарегистрированной под номером 3971956/08, рассматривалось конкретное применение обучаемой системы с техническим зрением для управления, например, роботами. Глаза имели сетчатки из рецепторов. Уточнялся термин «запоминающее устройство»: оно стало называться аналоговым запоминающим устройством. Матрица этого устройства включала уже неограниченное количество включенных попарно столбцов; каждая отдельная пара предназначалась для управления отдельным приводом. В заявках говорилось, что изменение проводимости элемента аналогового запоминающего устройства, расположенного на пересечении строки и столбца матрицы, определяется двумя факторами: потенциалом строки, т.е. степенью возбуждения соответствующего рецептора, и величиной сигнала (команды) запоминания, поданного оператором на соответствующий столбец. Подчеркивалось, что управляющим фактором является зрительная ситуация. В указанных первых заявках на изобретения произошла некоторая трансформация терминологии обучаемых систем управления, были выявлены все особенности этих систем, определено их назначение и очерчены области применения. Математическое моделирование. В это же время было проведено математическое моделирование систем: исходя из принципов устройства, обучения и работы, были получены выражения для сигналов управления на выходе системы в зависимости от возбуждения рецепторов и выражение для поправки проводимостей отдельных аналоговых элементов памяти в зависимости от возбуждения соответствующего рецептора и от погрешности сигнала управления /1.6, 1.15/. Объединённые воедино выражения составили теоретический алгоритм обучения, схожий о алгоритмом Качмажа, применяемым в математике для решения систем линейных алгебраических уравнений /1.3/. Указанный алгоритм обучения был зарегистрирован в виде программного средства в Госфонде Главного информационно-вычислительного центра Минвуза РСФСР /1.43/. На основе полученной математической модели определился расчётный, компьютерный вариант обучаемой системы управления; с его помощью были проведены многочисленные вычислительные эксперименты, подтвердившие обучаемость и работоспособность систем. Это позволило считать компьютерный вариант самостоятельно реализацией обучаемых систем управления, не требующей изготовления специального устройства. Полученная математическая модель легла в основу теоретических исследований обучаемых систем; с нее, собственно, начала оформляться теория этих систем и, в частности, теория образов /1.9, 1.10, 1.17/. Результаты исследований были настолько убедительными, что позволили ввести сначала знакомство, а потом и краткое изучение обучаемых систем управления в учебный процесс вуза, в такие курсы, как «Математическое моделирование технологических процессов и систем», «Основы систем автоматизированного проектирования технологических процессов», «Теория автоматического управления» и другие /1.28/. Компьютерный вариант обучаемой системы управления приемлем и даже, может быть, выгоден для выдачи словесно-числовых выводов и рекомендаций в задачах диагностики, прогнозирования и принятия решений в сложных многофакторных ситуациях при условии, что время срабатывания системы может быть большим. Если же говорить о применении обучаемых систем для управления, например, роботами, то в этом случае быстродействие систем становится чуть ли не решающим фактором, и компьютерный вариант с его принципом последовательного опроса датчиков и последовательных процессорных расчётов сигналов управления для каждого в отдельности привода с такой задачей не справится. И тогда более предпочтительной оказывается специальная аналоговая реализация обучаемых систем с параллельными потоками информации очувствления, с параллельным прямым преобразованием этой информации в сигналы управления и с параллельной выдачей этих самых сигналов на исполнительные органы /1.8, 1.12, 1.13/. Изготовление и испытания аналоговых обучаемых систем управления. Работы по созданию аналоговых конструкций обучаемых систем управления велись в Липецком политехническом институте с момента уяснения принципов построения, обучения и работы этих систем, т.е. с 1985 года. Первая обучаемая система была собрана и установлена на робот ТУР-10К вместо устройства числового программного управления (УЧПУ) в 1989 году. Она включала один глаз с сетчаткой из 140 фоторецепторов, установленный непосредственно на охвате, и мозг с выходами на три исполнительных двигателя, установленный на руке робота. В качестве фоторецепторов глаза использовались фоторезисторы типа СФЗ, а в качестве аналоговых элементов мозга — обычные подстроечные резисторы. Электронные усилители, выполнявшие функции сумматоров-вычитателей, обеспечивали на выходе системы стандартные сигналы управления. Робот был обучен поиску заданных предметов, произвольно расположенных на столе среди посторонних. Обучение включало подбор определенных ситуаций в обучаемую выборку, измерение возбуждений рецепторов в каждой из ситуации, расчёт проводимостей элементов мозга по теоретическому алгоритму обучения и ручную настройку этих элементов. Обученный таким образом робот хорошо справлялся с задачей поиска, останавливаясь над заданным искомым предметом и проходя посторонние. Попутно решались и другие задачи: без дополнительного обучения робот отслеживал сложные траектории, зрительно выделенные на фоне стола, и мог преследовать подвижные цели. Результаты эксперимента полностью подтвердили теоретические предположения: аналоговая обучаемая система управления оказалась работоспособной /1.32/. Несколько улучшенная конструкция этой системы с глазом уже из 200 фоторецепторов и с мозгом, попрежнему, на три привода: на поворот основания робота, на выдвижение руки и на поворот охвата вокруг своей оси, — установленная на тот же робот ТУР-10К (рис. 1.1), несколько лет использовалась как лабораторная установка в учебном процессе вуза. В 1990 году был разработан и изготовлен новый полупромышленный образец обучаемой системы управления с глазом из 200 фоторецепторов и мозгом уже на 6 приводов (рис. 1.2). Эта конструкция системы предназначалась для учебных целей, и поэтому в ней обеспечивался легкий доступ ко всем элементам. Рис. 1.1. Робот ТУР-10К с обучаемой системой управления. Глаз, состоящий из 200 фоторецепторов, установлен на схвате. Мозг для управления тремя приводами закреплен на руке. Рис. 1.2. Учебный вариант обучаемой системы управления с глазом из 200 фоторецепторов и мозгом на 6 приводов. Годом позже была изготовлена и опробована в работе полупромышленная конструкция обучаемой системы управления ОСУ120х12Граф-1991 с глазом из 200 фоторецепторов и мозгом на 12 приводов. Устройство весило менее 0,5 кг и могло разместиться на ладони (рис. 1.3). Рис. 1.3. Полупромышленный вариант обучаемой системы управления. Глаз из 200 фоторецепторов совмещен с мозгом на 12 приводов. Вес менее 0,5 кг. Патентование. Параллельно с разработками конструкций велось патентование обучаемых систем управления. Первым изобретением, на которое было выдано Авторское свидетельство, стало «Рецепторный датчик положения обучаемой системы управления» с приоритетом от 04 ноября 1985 года /1.4/. В этом изобретении отражены практически все особенности систем. Указанный датчик совмещает функции измерения и управления. Он состоит из собственно датчика с рецепторами, например, в виде фотоэлектрических элементов и постоянного запоминающего устройства, выполненного в форме матрицы аналоговых элементов памяти. Строчные шины матрицы совмещены с рецепторами, а столбцовые (разрядные) попарно подсоединены к элементам сравнения, выполняющим функции сумматороввычитателей. Выходы элементов сравнения (электронных усилителей) являются выходами всей системы. Процессом обучения устанавливается однозначная связь между информацией, поставляемой системой очувствления, и сигналами управления на все исполнительные органы. Во время обучения электрическая проводимость аналоговых элементов памяти матрицы постоянного запоминающего устройства наращивается в зависимости от возбуждения соответствующих рецепторов и от сигналов обучения, подаваемых обучателем на тот или иной столбец матрицы. В качестве аналоговых элементов могут быть использованы гальваномагнитные устройства, электрохимические элементы, нагруженные на вход полевых транзисторов линейные конденсаторы, аморфные полупроводники и другие. Процесс обучения — сходящийся, то есть величина корректировки на последующем цикле всегда меньше предыдущей. Ошибка обучения может быть исправлена последующим обучением. Обучение можно считать законченным, если движения исполнительных органов удовлетворяют обучателя с заданной степенью точности. Если погрешность движений больше допустимой, обучение следует продолжить. В этом изобретении введены понятия рецепторной доли сигнала управления и весовых коэффициентов, соответствующих проводимостям аналоговых элементов памяти. Вторым изобретением, на которое получено Авторское свидетельство, было — «Датчик перемещения для обучаемой системы управления», заявленное 8 июля 1987 года /1.11/. Этот датчик содержит три группы фотоэлектрических элементов, обладающих одинаковым внутри группы и различным в различных группах быстродействием. Постоянные времени фотоэлектрических элементов в каждой из групп, а также количество охваченных световым пятном фотоэлектрических элементов в каждой из групп определяются согласно математическим выражениям, приведённым в формуле изобретения, и зависят от шага расположения и от порогового значения возбуждений фотоэлектрических элементов каждой из групп, а также от минимальной и максимальной учитываемых скоростей перемещения объекта. Обучаемая система управления с таким датчиком способна реагировать на скорость и ускорение подвижного объекта. Следующим изобретением было — «Обучаемое оптическое устройство управления элементом перемещения», заявленное 9 ноября 1988 года /1.26/. Устройство имеет два оптических канала, в каждом из которых установлены объектив с диафрагмой, оптический затвор, блок оптической памяти в виде диапозитива и фотоэлектрический приёмник, выходы которых подсоединены ко входам электронного усилителя, а выход усилителя является выходом устройства. В описании изобретения приведена математическая модель работы устройства и выведен алгоритм обучения, который соответствует алгоритму Качмажа. В запатентованных позднее других изобретениях были отражены как принципиальные отличия обучаемых систем, так и их отличия, дополняющие и уточняющие ранние изобретения. В одном из них технический мозг дополнялся мыслительным блоком о внутренними обратными связями, известными как рецепторы мозга /1.38/. В другом — всё рецепторное поле очувствления разбивается на отдельные участки с переменным напряжением питания, осуществляемым специальным устройством, обеспечивающим, таким образом, переключение внимания системы для выполнения различных задач /1.37/. В третьем — были введены так называемые рецепторы темноты, возбуждающиеся при отсутствии внешнего воздействия на них /1.45/. Некоторые, сведения из нейробиологии Навыки. В поведении человека можно выделить три формы реакции на внешние воздействия: безусловные рефлексы, навыки и рассудочные действия. Безусловные рефлексы, например непроизвольное сокращение мышц при болевом ощущении, являются врождёнными и характерны для всех живых организмов, включая беспозвоночных. Навыки, возникающие в результате научения (обучения), свойственны всем И. П. Павлов позвоночным, имеющим кору головного мозга. И только рассудочные действия, например сборка узла по инструкции, являются чисто человеческой особенностью. Сосредоточим наше внимание на навыках и договоримся понимать под ними автоматизм поведения и действий, например обычную ходьбу или заученные движения при выполнении постоянной работы; они не являются врождёнными и не требуют сосредоточенного внимания к себе. Изучение навыков, как категории физиологии высшей нервной деятельности, началось с открытия гениальным русским учёным Иваном Петровичем Павловым (1849-1936) явления установления функциональных взаимосвязей в нервных системах животных, названного им условными рефлексами и известного теперь в нейробиологии как классическое обусловливание. Им были введены три главных момента, характеризующих условные рефлексы (в более широком смысле — навыки): во-первых, они возникают в результате обучения (научения); во-вторых, обучение выражается в поощрении (вознаграждении) и наказании, и, в-третьих, функциональные взаимосвязи в нервных системах носят всеохватный, ассоциативный характер, примером чего может быть возникновение связи слюновыделения у собаки со звуками шагов человека, приносящего ей корм. Условный рефлекс можно трактовать как ответное действие организма на раздражитель, подкрепленный поощрением или наказанием; раздражитель есть не что иное, как ситуация, воспринимаемая органами очувствления, а подкрепление можно понимать как воздействие обучателя, регулирующего тонус обучения /1.1/. Условные рефлексы систематизированы: реагирующие на внешние раздражители называют эстероцептивными, на раздражители от внутренних органов — интероцептивными, на раздражители скелетно-мышечной системы - проприоцептивными. Последние условные рефлексы лежат в основе всех двигательных навыков; они начинают вырабатываться со дня рождения, и от них зависит слаженность и точность движений движений. Различают также наличные и следовые условные рефлексы. Наличными называют условные рефлексы, при выработке которых подкрепление применяют во время действия сигнального раздражителя. Их разделяют на совпадающие, отставленные и запаздывающие. Совпадающий рефлекс вырабатывается тогда, когда сразу после включения сигнала к нему присоединяют подкрепление. Например, при работе со слюнными рефлексами собаки включают звонок, а примерно через одну секунду начинают собаку кормить. При таком сочетании рефлекс образуется быстрее всего и скоро укрепляется. Отставленным называют рефлекс, возникающий при запаздывании подкрепеления до 30 секунд; он требует более продолжительного обучения. Запаздывающий рефлекс вырабатывается при смещении подкрепления по отношению к сигналу уже на 1...3 минуты; он усваивается ещё труднее. И, наконец, следовыми называют условные рефлексы, при выработке которых подкрепляющие воздействия оказывают лишь спустя некоторое время после отключения сигнала. Рефлекс вырабатывается на след от ситуации с раздражителем; сдвиг по времени составляет от 15...20 секунд до 1...5 минут. Это — наиболее трудоемкое обучение. Навыки могут возникать в результате самообучения методом подражания; это — так называемое викарное научение, которое отчетливо проявляется у человека, но характерно также для приматов и других высокоразвитых животных, у которых оно не столь очевидно, и поэтому специалисты в области поведения долгое время отрицали его возможность. У беспозвоночных и низших позвоночных никаких признаков викарного научения не обнаружено /1.7/. Подкрепление навыков или, другими словами, поощрение-наказание играет в научении первостепенную роль; оно определяет уровень бодрствования организма, его тонус; поэтому можно говорит о том, что любые навыки являются следствием воздействия обучателя, если понимать под обучателем не только человека и не только старшего сородича у животных, но и обучающие факторы, такие как чувства голода, боли, комфорта, дискомфорта. Стоит еще раз обратить внимание на то, что способность к обучению у человека и животных сильно зависит от возраста: в детском возрасте она большая, а к старости — угасает. Специалисты подчеркивают, что у некоторых животных эта способность носит чуть ли не ступенчатый характер: до какого-то возраста она есть, а потом полностью исчезает. Примером взрывного характера обучения в самом раннем возрасте может быть импринтинг, другими словами — запечатление, процесс, в результате которого детёныш усваивает большую часть своих знаний в момент рождения. Так, например, птенцы птиц вырабатывают свою привязанность к родителю в момент вылупления из яйца, обращая особое внимание в этот момент на сильные раздражители: на вид родителя, на его звуки и на все воздействия, исходящие от него. Память. Память в бытовом смысле понимается как способность к обучению, однако нейрофизиологи определяют её иначе: как хранение и извлечение информации о прошлом опыте, проводя аналогию с памятью компьютерных устройств. И хотя такое техногенное представление механизма запоминания и научения вообще не подтверждается фактами (все попытки составить карту памяти или отыскать в мозгу следы хранящейся там документальной информации — энграмм — оказались безрезультатными), нейрофизиология, к сожалению, придерживается его до настоящего времени. Эмоции и мимика. Реакции человека и животных на воздействие внешних и внутренних раздражителей, охватывающие все виды чувствительности и связанные с удовлетворением (в результате поощрения) или неудовлетворением (при наказании) потребностей называют эмоциями. Обратим внимание на выражение эмоций, то есть на двигательные реакции организма, которые сопровождают (или являются причиной?) те или иные ответные действия. Каждому человеку приходилось, вероятно, в каких-то ситуациях сжимать кулаки и губы, напрягать желваки челюстей, а при неожиданной опасности многие чувствовали, как бегут по спине мурашки; говорят даже, что от ужаса волосы могут вставать дыбом. А какая сложная и выразительная мимика у спортсмена в момент наивысшего напряжения сил! Оказывается, у человека и у животных есть специальный двигательный аппарат, предназначенный для выражения эмоций - мимическая мускулатура. У змей к чешуйкам прикрепляются небольшие мышцы, изменяющие угол их наклона; у птиц есть мышцы, способные изменять наклон перьев; большинство млекопитающих обладает сравнительно подвижной кожей, в которую на большей части поверхности тела обычно вплетаются кожные мышцы. Именно при помощи этих мышц лошадь может подёргивать кожей спины. Расположенные на лице кожные мышцы называются лицевыми. У высших млекопитающих, например у собаки, и особенно у приматов и человека, лицевые мышцы стали средством выражения эмоций. Их разнообразие и функциональная направленность настолько велики, что им соответствует обширная зона в двигательной коре мозга, превышающая даже области, ответственные за регуляцию движения кистей рук; следовательно, головной мозг очень тонко регулирует деятельность лицевых мышц. Отмечая это, трудно согласиться с мнением части нейрофизиологов, считающих, что движения мышц, при помощи которых выражаются эмоции, произошли от аналогичных двигательных актов далёких предков, которым внешнее выражение эмоций необходимо было для демонстрации своего состояния. Скорее всего, внешняя форма эмоций является лишь сопутствующим явлением, а главное назначение их - изменение отношения к раздражителям и связанное с этим изменение поведения с переключением и сосредоточением внимания в мобилизацией сил. Нервные системы. Нервные системы включают органы чувств: глаза, уши, чувствительную кожу и прочее, — мозг, вырабатывающий сигналы управления всем организмом, нейроны, объединённые в нервы и поставляющие информацию от органов чувств к мозгу, и мотонейроны, по которым сигналы управления от мозга направляются к мышцам. Нервная система осуществляет восприятие действующих на организм раздражителей, проведение и обработку возникающего при этом возбуждения, формирование ответных приспособительных реакций; она регулирует и координирует все функции организма в его постоянном взаимодействии с внешней средой. Другими словами, нервные системы являются тем устройством или тем механизмом, который вырабатывает навыки. Рецепторы. Существуют специфические клетки тела, настроенные на чувствительность к разным формам энергии в окружающей среде и состоянию самого организма, их называют рецепторами. Рецепторы глаза реагируют на свет, рецепторы уха — на звук, рецепторы кожи — на касание, на холод, рецепторы мышц — на их положение и т.д. Отдельный вид рецепторов образует отдельное очувствление: фоторецепторы глаза образуют зрение, рецепторы уха — слух, рецепторы кожи — осязание, рецепторы языка — вкус и рецепторы носа — обоняние. Принято считать, что у человека — всего пять органов чувств, те, что перечислены, однако нейрофизиология насчитывает их больше, в частности существует ещё чувство равновесия. Ещё больше типов специализированных рецепторов; так, в языке одни из них реагируют на сладкое, другие — на соленое, третьи — на кислое, а четвертые — на горькое. По принципу преобразования внешнего воздействия (стимула) в сигналы единой формы рецепторы делят на семь главных типов: кислородные, вкусовые, обонятельные, соматосенсорные (кожные), мышечные, слуховые и зрительные. Назначение кислородного рецептора состоит в реагировании на содержание кислорода в крови; назначение прочих — понятно из их названия. Механизм преобразования стимула в сигнал в рецепторах до конца ещё не изучен, но в основу такого преобразования нейробиология кладет возникновение электрического рецепторного потенциала, создающего ионный ток в самом рецепторе и импульс тока в аксоне передающего нейрона. Установлено, что рецепторные мембраны чрезвычайно чувствительны к соответствующему стимулу; большей частью эта чувствительность достигает теоретического предела; так, волосковые клетки внутреннего уха способны обнаружить движение, соизмеримое о размером атома водорода, а фоторецептор сетчатки глаза фиксирует всего лишь один фотон света. Согласно общепринятой в нейробиологии концепции стимул тем или иным способом открывает в мембране канал для прохождения потока ионов. В хеморецепторе (вкусовом или обонятельном, реагирующем на химическое воздействие) особая молекула заставляет рецепторную молекулу отодвигать воротную молекулу, тем самым пропуская поток ионов. В механорецепторе, как полагают, растяжение мембраны расширяет канал, пропуская в него ионный ток. В фоторецепторе ионный ток происходит главным образом в темноте и блокируется действием света на мембраны дисков в рецепторе. Движение ионов деполяризует мембрану; при этом меняется ее заряд — это и есть рецепторный потенциал. На следующем этапе рецепторный потенциал порождает импульс тока, но происходит это не прямо. Иногда импульс возникает на некотором расстоянии от точки рецепторного потенциала; в частности, в сетчатке глаза он порождается за двумя синапсами. Предполагается, что на этом участке, где не обнаруживается импульс, передача сигнала осуществляется электротонически, то есть с помощью местных токов. Представляют интерес рабочие характеристики рецепторов. Статическая зависимость реакции рецептора от стимула подчиняется экспоненциальному или близкого к нему логарифмическому закону: чем сильнее раздражитель, тем менее чувствительным становится рецептор. Такими же являются и динамические пусковые процессы. Такой же экспоненциальной зависимостью характеризуется так называемая адаптация рецепторов, в результате которой происходит угасание сигнала на выходе при постоянной и неизменной внешней стимуляции. Зрение. Глазное яблоко представляет собой аппарат, который содержит сетчатку и создаёт на ней с помощью оптической системы четкое изображение обозреваемой сцены. Работая в паре, глаза во многом определяют поведение человека и животных. Управляется глазное яблоко шестью мышцами, составляющими три пары, в каждой из которых мышцы работают в противофазе. Роговица (прозрачная передняя часть глаза) и хрусталик вместе образуют своего рода оптику как у фотоаппарата. Изменение формы хрусталика, преломляющего свет, осуществляется радиальными мышцами. В возрасте более 45 лет хрусталик становится более жестким, и глаз постепенно утрачивает способность фокусировать изображение на сетчатке, расположенной на задней стороне яблока (рис. 1.4). Рис.1.4. Глаз Сетчатка представляет собой примыкающую к яблоку оболочку со светочувствительными клетками — палочками и колбочками. Палочки, значительно более многочисленные, чем колбочки, ответственны за наше зрение при слабом свете и отключаются при ярком освещении. Колбочки не реагируют на слабый свет, не позволяют видеть мелкие детали и цвета при ярком освещении. Фоторецепторы (палочки и колбочки) распределены по сетчатке неравномерно: на периферии они редкие, в самом центре сетчатки расположена так называемая центральная ямка диаметром в полмиллиметра, буквально нашпигованная колбочками. Интересно отметить, что светочувствительные клетки расположены не на той стороне сетчатки, на которую падает свет изображения, а на обратной, так что свету приходится добираться до них, проходя через слой других нервных клеток толщиной около четверти миллиметра. Убедительного ответа на вопрос «зачем так?» — нейробиология не имеет до настоящего времени. Правда, этот промежуточный слой довольно прозрачен и, вероятно, не сильно вредит четкости изображения. Всего в глазу человека 125 миллионов палочек и колбочек; их выходы сложным образом перекрещиваются с помощью других нервных клеток, в частности — ганглиозных, аксоны, которых проходят по поверхности сетчатки, собираются в пучок у слепого пятна и покидают глаз, образуя зрительный нерв; в нем насчитывается уже только один миллион аксонов (волокон). Указанное соотношение 125:1 не распределено по сетчатке равномерно: в центральной ямке и около нее соотношение фоторецепторов и выходов ганглиозных клеток в зрительном нерве близко к 1:1. Поле зрения одной ганглиозной клетки принято называть рецептивным. Размеры этих полей определяются количеством рецепторов, охваченных клетками; они минимальны в центральной ямке сетчатки, где острота зрения наивысшая, и, чем дальше от этой ямки, тем рецептивные поля становятся крупнее; соответственно там снижается острота зрения. В центральной ямке расстояние между центрами колбочек составляет около 2,5 мкм; это соответствует 0,5 угловых минуты или средней по величине монете, видимой о расстояния около 150 метров. На крайних точках сетчатки рецептивные поля могут иметь диаметр в один градус и более. О реакции фоторецепторов глаза на свет принято судить в нейробиологии по электрическим импульсам, возникающим в ганглиозных клетках; никакие иные формы передачи сигналов не рассматриваются, может быть, потому, что с электричеством проще иметь дело. Экспериментально установлено, что рецептивные поля бывают двух типов: с реакцией на освещение и с реакцией на затемнение их центров. Проще сказать, ганглиозные клетки делятся на клетки света и на клетки темноты, причём количество тех и других одинаково. Если подать свет в центр рецептивного поля ганглиозной клетки света, то в этой клетке возникает залп учащенных импульсов; если же осветить периферию этого поля, то исчезнут даже те нерегулярные случайные импульсы, которые можно отнести к шумовым; но стоит только стимул убрать, то есть погасить свет, как снова возникнет залп учащённых импульсов, угасающий приблизительно в течение одной секунды. Реакция клеток темноты обратная: они выдают залпы импульсов в тех случаях, когда освещена периферия их рецептивного поля и когда погружается в темноту центр этого поля. На равномерное освещение всего рецептивного поля и на его затемнение ганглиозные клетки обеих типов никак не реагируют. Слух. Человек различает звуки частотой от 20 Гц до 20 кГц; это очень широкий диапазон, он шире только у китов и дельфинов; у других животных и птиц он значительно уже и при этом может быть смещен в сторону ультразвука. Ухо человека состоит из трёх главных частей: наружное ухо собирает звук и проводит его к барабанной перепонке; среднее ухо содержит систему мелких косточек — молоточек, наковальню и стремя, — которая передаёт колебания барабанной перепонки внутреннему уху; внутреннее ухо состоит из наполненного жидкостью мешочка — улитки, в средней части улитки находится основная (базилярная) мембрана, содержащая волосковые клетки, которые и являются звуковыми рецепторами. Всего волосковых клеток — звукорецепторов — в одном ухе приблизительно 25 000, намного меньше, чем фоторецепторов в глазу. Существует, по крайней мере, два объяснения работы механизма слуха. Согласно одному, волокна базилярной мембраны улитки резонируют на своих частотах, и эти увеличенные колебания превращаются в сигналы уха. Более современное объяснение сводится к тому, что бегущая вдоль базилярной мембраны внутрь улитки звуковая волна имеет наибольшую амплитуду на определённом участке мембраны в зависимости от частоты: низкие частоты усиливаются на широком конце улитки, а высокие - на узком. Колебания мембраны передаются на поднятые кончики рецепторных волосковых клеток, а те, в свою очередь, преобразуют механические воздействия в рецепторные сигналы. Исследованиями установлено, что соседние частоты сужают зону увеличенной амплитуды, обостряя тем самым контраст звуков. Осязание. Всё, что связано о чувствительностью кожи, нейробио-логи называют соматической чувствительностью; в неё входят чувства болевые, температурные, легкого прикосновения, давления, вибрации. Внешние воздействия могут быть химическими, тепловыми и механическими; химические регистрируются хеморецепторами, тепловые — терморецепторами, а механические — механорецепторами. Самым простым типом рецептора является свободное (оголённое) нервное окончание; нервное волокно ветвится и образует голые окончания на поверхности или в глубине кожи. Так устроены терморецепторы; они делятся на холодовые и тепловые; у первых пика их чувствительности приходится на температуру выше, чем температура тела, у вторых, наоборот, — на температуру ниже; усиление ответа в рецепторе одного типа сопровождается снижением ответа в рецепторе второго типа. Такое их поведение похоже на поведение фоторецепторов света и темноты. При очень высоких температурах терморецепторы сигнализируют острую боль; при воздействии на них некоторых веществ они создают ощущение зуда, при слабом касании - ощущение щекотки. В самых глубоких слоях кожи располагаются рецепторы, именуемые тельцами Пачини, диаметр чувствительного окончания которых находится в пределах 6. ..12 мкм. Эти рецепторы распространены также в соединительной ткани мышц, в надкостнице, в брыжейке. Они устроены подобно луковице в виде концентрических слоев клеточных оболочек, пространство между которыми заполнено жидкостью. Рецепторный потенциал возникает в двух случаях: при нарастании давления и при снижении его; постоянное давление импульсы не порождает. Такая реакция соответствует волне давления, которая может возникать либо на повышении, либо на понижении давления. Поэтому-то ощущение постоянного давления на кожу очень быстро угасает. Отметим тот факт, что освобожденные от жёстких оболочек — луковичных кожиц — рецепторы выдают ответ не только в моменты изменения давления, но и при постоянном давлении: импульс растягивается на всё время внешнего воздействия. Острая реакция рецепторов на стимулы делает их чувствительными к вибрации, особенно с частотой 200. ..300 Гц. Такая реакция очень удобна для восприятия фактуры ощупываемых предметов; Этому способствует также их высокая чувствительность к смещению: пороговый сигнал возникает при смещении на 1 мкм. Расположенные на поверхности кожи другие рецепторы, такие как тельца Мейснера, чувствительны к лёгкому прикосновению и к вибрации с частотой в пределах 30...40 Гц. Целыми группами по 5 ...10 штук эти рецепторы примыкают к основаниям волосяных стержней и реагируют на малейшие отклонения волос. Поэтому-то мы так чувствительны к самому слабому касанию к нашим волосам. Тактильные рецепторы разбросаны по коже человека с различной плотностью: на кончиках пальцев они удалены друг от друга на расстояние приблизительно 2 мм, на губах расстояние между ними — 3...5 мм, на ладони — 8 ...12 мм, на лбу — 20... 25 мм, на тыльной стороне кисти — 30...35 мм, на верхней части стопы — 40...45 мм, на шее 50...55 мм, а на спине минимальное воспринимаемое расстояние между двумя точками достигает почти 70 мм. Такое же приблизительно соотношение представительств этих областей в коре большого мозга. Мышечное чувство. Рецепторная информация, исходящая от мышц и сухожилий, называется мышечным чувством или проприоцепцией. Если к этому чувству добавить ощущения усилий и тяжести, кожные ощущения, то такая информация будет называться уже кинестезией; она определяет положение и движение конечностей и всего тела. Любая мышца имеет рецепторы растяжения, называемые мышечными веретенами. Больше всего мышечных веретен в мышцах кисти, стопы и шеи, где они играют важную роль в регуляции тонких движений, а также в некоторых мышцах голени, имеющих значение для поддержания позы. Меньше всего веретен в мышцах плеча и бедра, участвующих в более грубых движениях. Веретена лежат также очень густо в наружных мышцах глаз человека и животных, но у крыс, кошек и собак их почему-то нет. У лягушки мышцы конечностей состоят из веретенных волокон с разной скоростью сокращения: имеются быстрые, медленные и тонические волокна. К каждому в отдельности мышечному веретену подходят два нерва: один — моторный, по которому поступает сигнал управления от мозга, а второй — рецепторный, по которому информация о состоянии веретена направляется в мозге Рецепторный нерв внедряется своими окончаниями в центральную зону мышечного веретена; эти окончания состоят из утолщений диаметром в несколько миллиметров, чередующихся с тонкими соединительными отростками диаметром в десятые доли микрометра. Считается, что рецепторные преобразования происходят в утолщениях. У млекопитающих веретенные волокна имеют первичные и вторичные рецепторные окончания, из которых первые дают резкий ответ на динамическое растяжение, а вторые отвечают медленно адаптирующейся реакцией с малой динамической чувствительностью, поэтому можно считать, что первичные окончания говорят об изменяющемся растяжении мышцы, а вторичные окончания больше специализированы для передачи информации о положении мышцы. Сухожилия отличаются низкой чувствительностью к пассивному растяжению и высокой — к активному. В суставных сумках заложено несколько типов рецепторов, похожих на нервные окончания в коже и имеющих различную скорость адаптации: медленно адаптирующиеся рецепторы сигнализируют о положении сустава, а быстро адаптирующиеся свидетельствуют об ускорениях движения сустава. Чувство равновесия. Органом, отвечающим за равновесие тела, является статоцист. Он имеет форму заполненного жидкостью мешка, в стенке которого есть участок с рецепторами, представляющими собой тонкие волоски о плотными кристаллами на концах. При наклоне тяжелые (относительно) кристаллы давят на волоски, заставляя их изгибаться, что приводит к повышению частоты импульсных разрядов. Это устройство чувствительно к скорости и линейному ускорению; оно есть практически у всех животных, и нет его, непонятно почему, только у насекомых. Другим подобным органом являются полукружные каналы, расположенные в районе внутреннего уха; они заполнены вязкой жидкостью, в которую погружены волоски рецепторов, закрепленных на внутренних стенках каналов. При движении жидкость смещается и отклоняет волоски рецепторов — рецепторы выдают при этом залп электрических импульсов. Нетрудно сообразить, что рецепторы возбуждаются только при ускорениях каналов — при разгоне и торможении; при постоянной же скорости жидкость в каналах остается неподвижной. Статоцист и полукружные каналы вместе образуют вестибулярный аппарат, который по типу рецепторов и по принципу действия во многом схож с органом слуха. Основой рецептора в обеих случаях являются простая ресничка, содержащая кольцо из девяти пар микротрубочек, и микроворсинка, заполненная жидкостью и заключенная в трёхслойную мембрану. При отклонении в одну сторону сигналы на выходах рецепторов усиливаются, при отклонении в противоположную сторону — уменьшаются; при равномерном повороте сигнал накапливается, интегрируется. Химическая чувствительность. Для того, чтобы различать вкус или запахи, необходимы химические рецепторы. Вкусовые рецепторы у высших позвоночных расположены на языке и представляют собой сосочки в виде тупых стерженьков. Они живут всего лишь 10 дней и постоянно обновляются. Также обновляются обонятельные рецепторы, но с другим временем цикла. Вкусовые рецепторы, как уже отмечалось, специализированы: на кончике языка сосредоточены рецепторы, возбуждающиеся на сладкое; дальше расположены рецепторы, реагирующие на солёное; ещё дальше — на кислое, и у самого основания языка — на горькое. Соленый вкус создается хлористым натрием: его катионы возбуждают рецепторы. Кислый вкус создаётся кислотами: на рецепторы воздействуют ионы водорода неорганических кислот и анионы органических. Сладкий вкус возникает в результате воздействия на рецепторы глюкозы. Горький вкус соответствует воздействию ядовитых веществ. Обонятельные рецепторы сосредоточены у человека на небольшом участке слизистой оболочки в самом заднем отделе полости носа. У рецептора имеются несколько ресничек с длинною до 200 мкм и диаметром 0,1. ..0,2 мкм, и в каждой из них имеется стандартный набор микротрубочек (9 пар по окружности и одна пара в центре), то есть такой же, как у ресничек в других рецепторах. Жизненный цикл обонятельных рецепторов составляет 60 дней; после их отмирания возникают новые. Это обновление характерно только для химических рецепторов; другие рецепторы отмирают безвозвратно. Объяснить это можно тем, что расположение химических рецепторов не имеет ни какого значения, и с появлением новых рецепторов переобучение мозга не требуется, тем более что рабочие характеристики химических рецепторов стабильны. Что же касается других рецепторов, например фоторецепторов глаза, то любое их обновление приводило бы к их смещению на сетчатке и к разрушению прежних навыков; новые фоторецепторы потребовали бы переобучения мозга. Именно поэтому количество фоторецепторов такое огромное (125 млн. в одном глазу), и сделано это, очевидно, в целях резервирования на случай выхода из строя части из них. Нейроны, мотонейроны. Отдельные нервные клетки, служащие для передачи сигналов управления, называются нейронами. Те из них, которые передают сигналы, направленные от мозга к мышцам, именуются мотонейронами. Нейрон представляет собой длинный аксон, ветвящийся на концах в виде дендритов и концевых разветвлений. Длина аксона может быть в пределах от долей миллиметра до метра и более; длина дендритов не превышает миллиметра. Для того, чтобы передавать сигналы на большие расстояния и распределять их необходимым образом, нейроны объединяются в цепочки; в результате они образуют очень сложные нейронные сети. Внешне нейроны похожи на деревья: у них есть ствол — аксон, ветки — дендриты и корни — концевые разветвления; и, как нет абсолютно схожих деревьев, так нет похожих друг на друга нейронов, однако принципиальное построение их одинаковое. Так, в стволах нейронов — в аксонах — обязательно присутствуют микротрубочки диаметром от 5 нм до 30 нм, идущие вдоль всего аксона; идут они и по дендритам, и по окончаниям. Характерно то, что они нигде не разветвляются. В подвижных ресничках рецепторов микротрубочки упорядочены и объединены, как отмечалось выше, в жесткие кольца по 9 пар по окружности и дополнительной парой в центре, а в аксонах передающих нейронов они не упорядочены и расположены по одиночке или группами с выходом в дендриты и окончания. Точное назначение микротрубочек нейробиологам неизвестно: многие считают, что они помогают нейрону сохранять определённую форму и жесткость, выполняя функции корда или арматуры; другие же предполагают, что по микротрубочкам осуществляется перетекание жизненно важных веществ (рис .1.5). Рис. 1.5. Нейроны Аксоны (стволы) нейронов, как правило, обёрнуты миелином, ужесточающим оболочку нейрона. Такое ужесточение ускоряет проведение сигналов. Немиелинизированными бывают только очень короткие аксоны. При некоторых заболеваниях, например при рассеянном склерозе, миелин теряет свою жёсткость, и движения человека становятся неуверенными, пьяными. Такими же нечеткими выглядят движения младенцев, и связать это можно, в частности, с тем, что их нейроны не имеют миелиновых каркасов; миелинизация завершается в более позднем возрасте. Соединение нейронов друг с другом происходит в особых точках, называемых синапсами. В них информация с одного нейрона передаётся на другой, и эта передача, по мнению нейробиологов, может иметь форму электрическую или химическую. С помощью синапсов осуществляется либо соединение (конвергенция) многих сигналов в один общий, либо разветвление (дивергенция) одного общего сигнала на несколько последующих. Принято считать, что проводимость синапсов — односторонняя. Мотонейроны отличаются от нейронов тем, что на их дендритах происходит только собирание (конвергенция) сигналов, а их аксоны оканчиваются на мышечных волокнах; аксоны мотонейронов хорошо миелинизированы. Любое отдельное мышечное волокно контролируется только одним мотонейроном, но один мотонейрон может контролировать много мышечных волокон с помощью разветвлений своего аксона. Количество волокон, управляемых одним мотонейроном, изменяется в зависимости от того, насколько тонкими должны быть движения мышцы. В глазодвигательных мышцах на каждый мотонейрон приходится примерно по три мышечных волокна; в мышцах, приводящих в движение бедро, на один мотонейрон приходится сотня мышечных волокон. Сила мышцы зависит от количества в ней мышечных волокон. Мотонейроны, управляющие крупными мышцами, имеют много разветвлений аксона, а сам аксон гораздо толще. Сигнал управления на выходе из мотонейрона превращается в выброс химического медиатора — ацетилхолина, — который передаёт мышце команду сокращаться. Само сокращение происходит под воздействием ионов кальция. Кора головного мозга. Кора представляет собой слой нервной ткани толщиной около 2 мм, который почти полностью покрывает большие полушария головного мозга. Общая площадь коры у человека составляет примерно 2400 квадратных сантиметров, она включает миллиарды нейронов и сотни миллиардов синапсов. Нейроны коры не покрыты миелином, поэтому она выглядит серой. Снизу, перпендикулярно к коре подходят нервные волокна, идущие от рецепторов и уходящие из коры; эти нейроны покрыты миелином и выглядят в общей массе как более мозолистое тело. Проекция очувствления на кору носит упорядоченный характер, несмотря на кажущуюся хаотичность упаковки проводящих нервных волокон (рис 1.6). Мозг высших животных внешне выглядит похожим на человеческий, но отличается размерами. Так, общая площадь коры больших полушарий, например, у кошки составляет всего около 100 квадратных сантиметров, что в 24 раза меньше, чем у человека. Внутреннее устройство мозга разных животных различное; оно существенно отличается от человеческого, хотя функциональное сходство имеется. Рис. 1.6. Проекция очувствления на кору головного мозга. Клетки мозга специфичны; их можно разделить на две основные группы: на сквозные (пирамидальные) и местные (звездчатые). Связи клеток устанавливаются, как вообще всех нейронов, с помощью синапсов. Эти связи распространяются вертикально по толщине коры и почти не расходятся по сторонам: боковые отклонения не превышают двух миллиметров. Такое ограничение горизонтального распространения связей говорит о том, что хорошо организована не только входящая информация, но и выходящая. Вертикальные связи коры, называемые колонками, являются функциональными единицами мозга, своего рода — строительными блоками восприятия. Установление связей в виде синапсов происходит одновременно с ростом и обучением организма. Замечено, что прорастают только те нейроны, которые нужны, которые принимают участие в управлении организмом. Корковые клетки, не нашедшие полезных связей, в это же время отмирают. Чем сложнее и энергичнее управление, тем энергичнее растут корковые клетки. Этим можно объяснить малые размеры мозга домашних животных, живущих в благоприятных условиях, по сравнению с мозгом животных, обитающих в дикой природе. Синапсы коры головного мозга. Известно, что клетки мозга (нейроны) соединяются между собой с помощью синапсов; нейрофи-зиологи уточняют: клетки не соединяются, а лишь контактируют, поэтому синапс они понимают как функциональное соединение, передающее специфические сигналы. Смежные мембраны нейронов сближаются в месте контакта до расстояния 20...30 нм с диаметром контакта 1...2 мкм. Синапсы делятся на возбуждающие и тормозящие; первые при прохождении через них сигнала повышают частоту импульсации в последующем нейроне, а вторые, наоборот, — снижают. С дендритами и телом нейрона могут контактировать десятки, сотни и даже тысячи аксонных окончаний передающих нейронов, и часть из них возбуждает, а другая часть тормозит этот нейрон; в результате происходит выброс особых химических веществ - нейромидиаторов. И частотно-импульсную форму сигналов, и порционное выделение медиаторов в сумме можно воспринимать как аналоговую передачу сигналов. Нейрофизиологи уделяют синапсам чрезвычайно большое внимание, считая, что именно они формируют законы управления коры головного мозга. Обучаемость мозга, по мнению некоторых учёных, состоит в изменении проходимостей синапсов для импульсных потоков. Физико-химические изменения мембран служат основой для формирования памятных следов. Сигналы управления. Долгое время в нейробиологии признавалась только одна форма передачи сигналов управления по нервам — электрическая. Приборы легко регистрируют на нейронахэлектрические потенциалы, величина которых может достигать 70 милливольт. На всём протяжении от рецептора до мышц можно обнаружить электрические импульсы постоянной амплитуды, но переменной частоты (до 800 импульсов в секунду), перемещающиеся со скоростями от -0,5 до 120 метров в секунду, причём малая скорость соответствует малому диаметру нервного волокна (0,5 мкм), а большая — большому (20 мкм). На тех участках нейронов, на которых импульсы не регистрируются, отмечается ионный ток. Потом было обнаружено, что на стыках нейронов — в синапсах —электрическая импульсная передача сигналов прерывается химической с выделением нейромедиаторов, которые делятся на активизирующие процесс и на нейтрализующие. С учётом этого в настоящее время укоренилось понимание электрохимической формы передачи сигналов управления по нейронным сетям; другие формы, например гидравлическая, нейрофизиологами не рассматриваются. Нейронный транспорт веществ. Как живая клетка, нейрон нуждается в транспорте веществ, которые необходимы, по крайней мере, для развития и существования клетки. Кроме того транспортируются медиаторы, используемые для передачи сигналов в синапсах. Опытным путем установлено, что вещества перемещаются транзитом от рецепторов очувствления до коры головного мозга и от коры до мышц; следовательно, для них синапс не является непреодолимым барьером: ионы и малые молекулы переходят прямо из клетки в клетку через каналы щелевых контактов. Скорость перемещения веществ может изменяться в пределах от 1 до 400 мм в день, а перемещение синаптического медиатора через щель осуществляется со скоростью около одного микрометра в миллисекунду, что близко к скорости потока крови в капиллярах. К сожалению, в специальной литературе по нейробиологии не приводятся данные по скоростям распространения волн давления при транспортировке веществ, и вполне возможно, что эти скорости согласовались бы со скоростями распространения импульсов. Наличие микротрубочек в нервных волокнах наводит нейробиологов на мысль, что они существуют не для ужесточения нейрона (как считают некоторые), а для транспортировки веществ, и много биохимических работ подтверждает это. Стоит еще раз напомнить о том факте, хорошо известном науке, что более интенсивно растут те нейроны, которые «работают», то есть по которым распространяются сигналы управления, однако объяснению такого факта не уделено должного внимания. 4. Принцип устройства обучаемых систем управления Биогидравлическая модель нервной системы. В основу принципиального устройства обучаемых систем управления положено техногенное представление о мозге животных, точнее говоря — биогидравлическая модель нервных систем живых существ, поэтому обучаемые системы можно считать техническими нервными системами. Биогидравлическая модель, о которой идет речь, оказалась достаточно плодотворной для того, чтобы на её основе создать работоспособную систему управления. В истории нейрофизиологии хорошо известны многие инженерные концепции, и ни одна из них не смогла отразить с достаточной степенью соответствия человеческий мозг, однако некоторые из них были использованы продуктивно в самой технике. Достаточно вспомнить компьютерную и перцептронную модель, согласно которым мозг представляет собой вычислительный процессор с чрезвычайно объёмным блоком документальной памяти, либо многослойную систему электрических проводников с перекрещивающимися случайными связями. Первая модель породила электронную вычислительную технику, вторая — нейронные сети, постепенно завоёвывающими признание не только в науке, но и в технике. Неприятие техногенных концепций специалистами-нейрофизиологами не может восприниматься как запрет на иной, небиологический поход к работе мозга и всей нервной системы в целом, поскольку отдача от него может возникнуть совсем не в области биологии, а в иной сфере Биогидравлическая модель нервных систем проповедовалась в своё время великим французским ученым Декартом (1596-1650), а еще раньше — всемирно известным греческим мыслителем Аристотелем (384-322 до н.э.). Но не только авторитеты заставили возвратиться к указанной модели. Гидравлика, как вид управляющих потоков, была оттеснена в нейрофизиологии с момента первой регистрации электрических биотоков, существование которых оспорить уже было невозможно. Всеобщее увлечение электричеством захватило нейрофизиологию настолько, что все прочие виды энергии попросту были вычеркнуты из числа возможных в нервных системах» И нужно было проявить определенную волю, чтобы заставить нейрофизиологов принять, например, химическую концепцию синапса, и сам этот факт стал крупным событием. О гидравлике же не вспоминают даже тогда, когда говорят о функционировании жизнеобеспечения нервных клеток. В то же время целый ряд специфических факторов в работе нервных систем и мозга в том числе свидетельствует в пользу биогидравлической модели. Так, на поведение животных и человека со всей очевидностью влияет изменение атмосферного давления. Или — на внутриклеточном уровне: скорость перемещения так называемого потенциала действия больше соответствует скорости распространения волны давления в вязкой жидкости и совсем не соответствует скорости электричества; в некоторых (коротких) нервных клетках электрический потенциал действия не регистрируется, то есть отсутствует вообще; только эластичные гидравлические каналы, какими являются каналы нервных клеток, нуждаются в ужесточении их оболочек миелином, а электричеству миелин ни к чему; указанное ужесточение способствует повышению скорости распространения потенциала действия, то есть волны давления; разрушение миелиновых оболочек, как форма болезни, приводит к нестабильности, в движениях человека, равно такой же, какая возникает в работе гидравлических механизмов с длинными эластичными слабоармированными шлангами; скорость перемещения импульсов по нейронам прямо зависит от диаметра аксона, и даже такой общеизвестный факт, как вздрагивание ноги при ударе молоточком по колену, говорит в пользу гидравлических процессов. Биогидравлическая модель не отвергает наличие электрических биотоков, но отводит им иную роль: они необходимы для поддержания волны давления и для воздействия на мышцы (но не принимают участия в возникновении возбуждений рецепторов, в выработке сигналов управления и не служат средством передачи этих сигналов). Не отвергает она также и биохимические процессы, напротив даже — опирается на них: гидравлическая среда — биологически активна; кроме функции формирования и передачи сигналов управления она еще обеспечивает по совместительству питание нервных клеток и способствует изменению проходных сечений синаптических щелей. Другими словами, биогидравлика решает все задачи жизнедеятельности нервных систем в комплексе, а именно: чем больше поток жидкости, тем больше сигнал управления и тем энергичнее движение соответствующей мышцы; чем больше поток жидкости вообще, тем здоровее нервная клетка и тем больше скорость её роста (если она ещё растет); и, наконец, если поток жидкости исчезает в результате падения давления до нуля, например в результате разрыва нерва, то парализуется движение и возникает ощущение боли как свидетельство приостановки местной жизнедеятельности организма: нет управляющего потока — нет и жизни. Поэтапность раскрытия тайны мозга. Для того, чтобы характеризовать нервные системы в целом, не достаточно одной биогидравлической модели, отражающей только природу управляющей энергии, — необходимо ещё определить систему связей нервных клеток; и здесь уместно воспользоваться подсказкой нейрофизиологов, утверждавщих, что, хотя нервная система есть управляющее устройство, но механизм управления унаследован ею от тех управляющих систем, которые существовали в живой природе задолго до возникновения мозга /1.7/. Намек можно расшифровать так: сначала нужно понять организацию нейронных систем простейших существ, руководствующихся исключительно безусловными рефлексами, то есть таких систем, которые не способны ни запоминать и ни забывать; освоив этот рубеж, можно было переходить к следующему, имея в виду, что для реализации запоминания-забывания нужно ввести в нейронные системы некоторое, вполне определённое, конструктивное (неудачный термин для биологии) изменение, и таким изменением является, скорее всего, введение синаптической щели с изменяющейся проводимостью, и нужно определить факторы, влияющие отдельно на увеличение и отдельно на уменьшение указанной проводимости, то есть нужно хорошо освоить рубеж условных рефлексов сначала с обучением при внешней стимуляции, то есть с обучателем, а затем и без него — в виде самообучения на основе игры и подражания о критериями «хорошо» и «плохо»: и только после этого можно попытаться приступить к раскрытию тайны мозга человека, несомненно имеющего своё конструктивное отличие от мозга животных, такое отличие, которое подарило человеку речь и ту волю, с помощью которой он может ставить себе цели и принуждать себя на переключение с решения одной задачи на другую. (Перед последним рубежом стоило бы задуматься: а одолевать ли его вообще или обождать до лучших времен?). С нейрофизиологами можно согласиться в том смысле, что предложенный ими путь поэтапного освоения может оказаться во времени куда короче, чем штурм той неприступной скалы, которую представляет собой в настоящее время мозг человека. Обучаемые системы управления соответствуют нервным системам, включающим мозг, тех живых существ, которые способны вырабатывать навыки, и на большее они не претендуют. Они могут осуществить поиск, но не способны распознавать, и эти два действия нельзя смешивать. Любое животное способно осуществлять поиск — можно даже утверждать, что поиск является основной, чуть ли не единственной, функцией деятельности животных, — но распознавать, то есть классифицировать и сортировать, может только человек. Распознавание в строгом смысле не является навыком; это — продукт логики, то есть особой способности, характерной исключительно для мозга человека. Достаточно человеку повнимательнее присмотреться к самому себе, и он отметит явное различие в таких своих действиях, как, например, обычная ходьба и переставление ног по подсказке или по инструкции, как машинальное написание слова и выведение букв на ранних стадиях школьного обучения, и т.д. Первое — навык, второе — логическое действие; первое вырабатывается в результате многократных повторов при обучении, второе выполняется по командам, следующим одна за другой в определенной логической последовательности. Так, большую печатную букву А дети истолковывают как имеющую вид шалашика с перекладиной посредине, а букву Н — как два столбика с той же перекладиной и т.д. Позднее, когда вырабатывается автоматизм написания или прочтения, отпадет необходимость в подобном толкований; автоматизм и есть навык. Курица клюёт червя автоматически, нисколько не задумываясь о том, похож или не похож он на ржавый гвоздь, а цыпленок, недостаточно обученный, может попытаться склевать и его, но и он — цыплёнок — распознаванием не занимается: просто его навык ещё не до конца сформировался. В отличие от обучаемых систем управления перцептрон и развивающиеся на его основе нейронные сети создаются не для выработки навыков, а для решения задач распознавания. Будут ли они полным подобием человеческого мозга — покажет будущее (скорее всего — нет), но то, что они способны распознавать — не вызывает сомнения уже сейчас, и их распознавание отличается от компьютерного тем, что решение вырабатывается не путём расчёта по решающим правилам, а в результате обучения. Впрочем, распознавание может быть использовано, также как и навык, для управления исполнительными органами любого объекта, но только в результате многоходовых действий: сначала по определённым правилам надо перевести внешний образ ситуации во внутренний образ очувствления; затем следует подобрать из имеющихся в памяти образов тот, который меньше других отличается от полученного; после этого надо извлечь из памяти соответствующий комплект сигналов управления, и, наконец, остается распределить по соответствующим исполнительным органам. Логика здесь очевидна, но также очевидно и то, что мозг животного работает иначе. Итак, первый рубеж — безусловные рефлексы простейших живых существ. Им соответствуют простейшие нейронные системы, реализующие простые законы управления, известные в нейрофизиологии как «стимул-ответ». В технике им соответствуют логические автоматические системы управления со всевозможными датчиками, в которых всякому состоянию датчиков соответствует однозначный ответ исполнительных органов. В качестве примера можно привести станочный автомат (или полуавтомат) с концевыми переключателями, у которого порядок взаимосогласования положений переключателей (датчиков) и работы двигателей определен его циклограммой. Появившиеся на заре биологической истории безусловные рефлексы не были устранены на последующих этапах развития живых существ, а передавались как ценное свойство от одного вида к другому, и так дошли они до человека. Из простых его безусловных рефлексов можно назвать отдергивание руки при болезненном уколе пальца, из более сложных — аккомодация глаз, то есть автоматическое наведение их на резкость. Второй рубеж — навыки и условные рефлексы. Этот рубеж наукой, мягко говоря, ещё не освоен. Сами нейрофизиологи не скрывают того факта, что они пока не могут предложить ни одной удовлетворительной концепции, раскрывающей как единое целое устройство, обучение и работу нервных систем животных и тем более человека. Сегодня нейробиология, образно говоря, блуждает в дебрях эмпирики, накопившейся за многие годы практических исследований мозга, и не может найти той тропы, которая ведёт к раскрытию его тайны. Такое состояние сдерживает развитие техники. Существующие системы управления вплоть до компьютерных используют пока почти исключительно параметрическую информацию, но ведь кроме неё существует еще признаковая, факторная и, особо выделим, образная: зрительная, слуховая, тактильная и другие, — информации, И все эти «прочие» виды информации практически пока не задействованы. Может быть именно поэтому роботы, даже самые совершенные, не нашли себе широкого применения, и мешает этому их слепота, глухота, безчувствительность. Дело усугубляется ещё и тем, что логическое переваривание собранной с помощью датчиков информации имеет свои пределы, ведь логику — так называемое математическое обеспечение — формирует человек, а его возможности ограничены. Техническая модель нервных систем. В такой обстановке инженерам не оставалось ничего другого, как самим предлагать технические системы, реализующие навыки и условные рефлексы. Одной из таких систем и явилась обучаемая система управления, создание которой стало результатом нового инженерного подхода к нервным системам животных. В принципе задача раскрытия секрета нервных систем ставилась так: живой организм имеет рецепторную оболочку — сетчатку глаз, ушные рецепторы, чувствительную кожу и прочее, — вырабатывающую информацию очувствления; имеет нейронную сеть, поставляющую эту информацию в мозг; имеет кору головного мозга, преобразующую информацию в сигналы управления, и, наконец, имеет систему мотонейронов, доставляющих эти сигналы управления к мышцам, — и нужно было ответить на следующие вопросы: как рецептор вырабатывает свою информацию? как передается эта информация по нейронам? как распределяется эта информация между нейронами? что такое синапс? Какова особенность синапса коры головного мозга? имея в виду, что именно эта особенность определяет в конце концов законы управления? как вырабатываются в коре головного мозга сигналы в конце концов, сигналы управления доставляются к мышцам? Ответы будут сугубо инженерными и построены они, скорее всего, по принципу не «как есть», а «как надо», то есть решается задача не раскрытия биологической тайны, а конструирования технического секрета навыков и условных рефлексов. Начнём отвечать по порядку. В рамках биогидравлической модели рецептор представляет собой колбочку, заполненную управляющей жидкостью и соединённую с каналом нейрона (рис. 1.7). Рис.1.7. Гидравлическая модель системы навыков и условных рефлексов При воздействии на колбочку внешнего раздражителя часть жидкости выдавливается в канал; в качестве раздражителя могут выступать: свет, касание, давление, химическое воздействие и прочее. Реакция рецептора на внешнее воздействие может быть импульсной, и тогда на выходе его последует череда импульсов в виде волн давления. Для удобства импульсы можно суммировать и представлять в форме аналогового непрерывного сигнала. Усреднённое избыточное давление управляющей жидкости, создаваемое -ым рецептором на выходе под воздействием внешнего раздражителя, договоримся называть возбуждением рецептора и обозначим через b . Договоримся также под рецептором понимать только элемент очувствления и ничего больше. Рецепторы бывают двух типов: прямого действия и обратного. Например, фоторецептор прямого действия возбуждается на свету, а фоторецептор обратного действия — в темноте. Количество тех и других — одинаковое, так что на один рецептор света приходится один рецептор темноты, а вместе они составляют рецепторную пару. Этим можно объяснить экспериментально установленное наличие возбуждающих рецепторов, увеличивающих результирующий сигнал управления при воздействии на них раздражителя, и тормозящих, уменьшающих тот же сигнал в тех же условиях. Однако, если говорить не об отдельных рецепторах, а о парах, то разделение их на возбуждающие и тормозящие происходит в процессе обучения и будет подробно рассмотрено ниже. Возбуждения рецепторов b могут быть усилены или ослаблены эмоциями. С инженерной точки зрения эмоции проявляются в виде изменения напряжения той среды, в которой располагаются рецепторы, или в виде изменения давления крови. В электрических обучаемых системах управления возбуждения рецепторов можно изменить путем изменения напряжения их общего питания. Представив рецептор в виде колбочки с жидкостью и с одним отходящим каналом, нужно ответить на вопросы: на какое время хватает жидкости и как она там снова накапливается? — ведь нервная система человека не закольцована как кровеносная. Ответ по времени нужно искать в суточном цикле: запасов жидкости в рецепторе, очевидно, хватает в среднем на день, на время бодрствования; после чего давление внутри рецептора падает настолько, что он нуждается в подзарядке; и тогда наступает сон. Таким образом, сон есть не что иное, как состояние организма, в котором осуществляется подзарядка рецепторов; их возбуждения снижаются ниже порогового уровня. Засыпают, то есть переключаются на подзарядку, все органы чувств не одновременно; также не одновременно они просыпаются. То время, когда спят все рецепторы, характеризуется как глубокий сон; мышление человека при частично отключенных (спящих) органах чувств — ущербно, дефектно и называется сновидением. Нейрон, согласно той же биогидравлической модели, представляет собой микротрубочку, по которой управляющая жидкость направляется в мозг. Каждая такая микротрубочка полностью изолирована от других и нигде с ними не соединяется: она несёт свой сигнал, то есть возбуждение соответствующего рецептора, неизменным до самой коры головного мозга. Несколько микротрубочек могут быть собраны для компактности в пучок — это и есть аксон многоканального нейрона, а на конце пучка они разветвляются и представляют собой аксонные окончания. Если длина микротрубочки не достаточна для соединения рецептора с мозгом, то составляется цепочка из микротрубочек. Соединение таких микротрубочек осуществляется с помощью нерегулируемых синапсов, то есть особых точек, в которых окончания одного многоканального нейрона присоединяются к дендритам или к телу другого. Принцип независимости (автономности) отдельных информационных каналов, какими являются микротрубочки, распространяется также и на вою цепочку. Микротрубочки эластичны, и это свойство, как известно из гидравлики, может сделать неработоспособной любую гидросистему: нежёсткость трубопроводов приводит к неопределённости поток жидкости и к снижению их скоростей. Поэтому пучок микротрубочек в виде аксона имеет миелиновую оболочку, ужесточающую каналы. Говоря о передаче информации от рецептора к мозгу, стоит ещё раз повторить, что в принятой модели нервных систем животных каналы, по которым распространяется эта информация, независимы и нигде друг с другом не соединяются. Такое утверждение приходится принимать на веру, зная, что оно противоречит современным представлениям нейрофизиологии, хотя та же нейрофизиология однозначно утверждает, что конкретной группе рецепторов в мозгу соответствует конкретный участок коры. Определимся с терминологией: и отдельную микротрубочку, и непрерывную цепочку микротрубочек (там, где она есть), передающих сигнал от рецептора к коре головного мозга, договоримся называть просто нейроном, а канал, идущий от мозга к мышцам — мотонейроном. У последнего функции несколько шире, чем у нейрона; в коре мотонейрон собирает управляющую жидкость от всех рецепторов очувствления, затем транспортирует её к определённой мышце (мышечному волокну) и воздействует на неё, побуждая к сокращению; сила воздействия пропорциональна управляющему потоку. На мотонейроны распространяется тот же самый принцип независимости: они нигде не соединяются и не разветвляются. Дендритность, которую постоянно демонстрирует нейроанатомия, не должна нас смущать: мотонейроны, как отдельные каналы, могут быть собраны, как и нейроны, в пучок, образуя многоканальные мотонейроны со многими окончаниями аксона, но соединений внутри пучка нет. Это утверждение (а точнее — предположение) не исключает соединений управляющих каналов нейронов и мотонейронов в принципе. Они возможны, например, в целях дублирования, когда несколько рецепторов «работают» на один нейрон или когда несколько мотонейронов (точнее — несколько каналов мотонейрона) подсоединяются к одной мышце; такую множественность можно проигнорировать — она не опровергает принцип независимости: эти объединения можно воспринимать как одно целое. И, в конце-то концов! — такова принятая нами модель нервных систем, и она, как и любая другая, имеет право на некоторое несоответствие, лишь бы была полезной и плодотворной. Замыкает цепочку от рецептора до мышцы синапс коры головного мозга — самое узкое место канала, выполняющее функцию регулируемого дросселя. Самой главной его особенностью является то, что он может изменять свою проводимость — проходное сечение — в широких пределах. Такое свойство присуще исключительно только синапсам коры головного мозга; другие синапсы, соединяющие нейроны и мотонейроны в цепочки, не способны изменять свою проводимость, и по этой причине им лучше бы дать иное название. Свою проводимость синапс изменяет в процессе обучения; обученные синапсы определяют те законы, которые увязывают однозначно ситуации с поведением объекта в них. Таким образом, саморегулируемый синапс является главным элементом нервных систем животных: он представляет собой как раз то «конструктивное» отличие, с помощью которого Природа превратила системы безусловных рефлексов в системы условных, в системы навыков. Без преувеличения можно сказать, что появление синапса коры головного мозга, точнее — его регулируемых свойств, породило весь животный мир; такое изобретение Природы стоит очень и очень дорого. Итак, конкретный синапс встроен в канал управления, соединяющий конкретный рецептор с конкретной мышцей; каждый рецепторный нейрон, таким образом, имеет синаптическую связь со всеми мотонейронами и, наоборот, каждый мотонейрон имеет такую же связь со всеми рецепторными нейронами. В результате структура коры приобретает матричный вид со строками и столбцами; условимся нейроны представлять как строки, а мотонейроны — как столбцы матрицы, на пересечении тех и других — соединяющие их синапсы. Математическая модель работы нервных систем. Рассмотрим систему с полным набором рецепторов, общее количество которых пусть будет m, и с одним мотонейроном. Такая система может управлять только одним исполнительным органом; для любого другого исполнительного органа потребуется точно такая же система, и она может быть объединена с первой, не мешая ей, в соответствии о принципом независимости. Обозначим проводимость -го синапса, соответствующего -му рецептору, через с . Принимая течение управляющей жидкости в синапсе ламинарным, можем получить выражение для определения потока, проходящего через синапс как произведение возбуждения рецептора b на проводимость соответствующего синапса с : e b c . (1.1) Этот поток можно считать рецепторной долей общего сигнала управления; полная величина этого сигнала определится как m E m e 1 b c . (1.2) 1 Выражения (1.1) и (1.2) отражают работу системы навыков и условных рефлексов животных (нервной системы) или, что одно и тоже, обучаемой системы управления. На первый взгляд указанные выражения относят эти системы управления в разряд простейших линейных, в то время как реальные зависимости сигналов управления какого-то бы ни было объекта от внешних параметров, как мы знаем, всегда нелинейны; но это — только на первый взгляд. Проблема линейности-нелинейности будет подробно рассмотрена ниже, а здесь отметим лишь, что системы навыков и условных рефлексов работают не с внешними параметрами, а с внутренними образами очувствления; очувствление объекта может быть дискретизировано (разбито) на столь малые величины, то есть количество рецепторов можно выбрать таким большим, что в пределе система управления превратится в непрерывную, и рассуждения о линейностинелинейности потеряют смысл. Выражение (1.1) принято линейным только из соображений простоты, а в самом деле оно может быть каким угодно нелинейным при условии сохранения прямой зависимости рецепторной доли e от возбуждения b и проводимости c ; и, наконец, обучаемые системы управления не являются логическими со строгим математическим обеспечением, и выдают сигналы управления, можно сказать, всегда неточными, но в пределах допустимых отклонений. Выше мы упоминали, что электрический биоток является всего лишь сопутствующим явлением и используется только при воздействии на мышцы, однако электрический потенциал действия возникает не в конце мотонейрона, а в самом начале нейронов. Почему так? Можно предположить, что электрический потенциал действия способствует поддержанию волны давления; иначе она в вязкой жидкости очень скоро могла бы погаснуть. Как только на переднем фронте волны вскроются поры, через них под воздействием электрического притяжения устремляются внутрь ионы натрия; они-то и подпитывают волну. На гребне волны и на обратном фронте ионы натрия выдавливаются обратно. И ещё один вопрос: почему могут бездействовать мышцы животного в состоянии покоя? Можно сослаться, конечно, на пониженный тонус организма, но это — не главное. Нужно учесть ещё то, что процессу напряжения мышцы всегда сопутствует процесс расслабления: положительно заряженные порции управляющей жидкости, поступающие на мышцы, непрерывно нейтрализуются питательной средой. В гидравлической схеме это равносильно утечкам. Сокращение мышц может возникнуть только в том случае, если поток управляющей жидкости превысит нейтрализацию. Таков в общих чертах механизм нервных систем животных и систем, реализующих навыки и условные рефлексы человека; таков же механизм и обучаемых систем управления, хотя некоторые особенности они имеют. Электрическая обучаемая система управления. Выше говорилось, что по виду энергии обучаемые системы могут быть гидравлическими, пневматическими, оптическими и, конечно, электрическими. Последнюю систему, как наиболее характерную, рассмотрим более подробно. На рис.1.8. представлена простейшая аналоговая схема с выходом на один исполнительный орган; при необходимости число выходов может быть увеличено, и при этом структура системы сохранится прежней. Рис.1.8. Принципиальная схема электрической аналоговой обучаемой обучаемой системы управления на один исполнительный орган Основным отличием технической обучаемой системы от нервной системы животных является то, что она должна выдавать на выходе двуполярный сигнал управления, то есть и плюс, и минус, потому что, как правило, все двигатели имеют и прямое, и реверсивное (обратное) движения; в то время как мышцы могут только тянуть и не способны толкать, и поэтому для них достаточно иметь сигнал управления только одного знака. Для реализации двухсторонних движений исполнительных органов и получения двуполярного сигнала управления в систему введены по два столбца матрицы мозга на каждый отдельный исполнительный орган: один столбец формирует положительный сигнал управления, а другой — отрицательный; результирующий сигнал определяется сравнением (вычитанием отрицательного сигнала из положительного). Структура системы (рис. 1.8) представлена в блочном виде; штриховыми линиями выделены блоки: питания, очувствления, усиления, — и блок, представляющий технический мозг. Питание осуществляется от источника постоянного тока неограниченной мощности ( U — напряжение питания): таким образом, рецепторы технической системы, в отличие от рецепторов животных, не иссякают и не нуждаются в подзарядке, то есть во сне. Сами рецепторы представляют собой резисторы; рецепторы спарены: на один рецептор прямого действия, возбуждающийся при внешнем воздействии на него, приходится один рецептор обратного действия, электрическое напряжение на выходе которого растет при снижении внешнего воздействия на первый. Поясним это на примере. Допустим, фоторецептором прямого действия является фоторезистор, сопротивление которого в зависимости от освещённости изменяется в пределах R c = 20...2000 кОм. Сопротивления двух других резисторов рецепторной пары таковы: спаренного резистора R т = 200 кОм и Rст = 2 000 кОм. Тогда при яркой освещённости: R c = 20 кОм; I c =10 I т , где I c — ток, проходящий через фоторезистор, а I т — ток, проходящий через спаренный резистор. При средней освещённости: R c = 200 кОм; I c = I т ; ив темноте: R c = 2000 кОм; I c =0,1 I т . Таким образом, в каждой отдельной паре рецепторов при сильном внешнем воздействии больше стабилизирующего резистора, стоящего на входе пары, возбуждён первый их них, и поэтому его можно считать рецептором прямого действия, а при слабом — второй, и он является рецептором обратного действия. В качестве технических органов чувств, составляющих блок очувствления могут быть фоторезисторы, реагирующие на освещенность, терморезиоторы, реагирующие на теплоту, силарезиоторы, например из токопроводящей резины, реагирующие на усилие нажатия, звукорезисторы, реагирующие на силу звука в узком диапазоне частот и другие. Рецепторы очувствления образуют рецепторные поля, например сетчатку глаза или чувствительную техническую кожу; количество рецепторов в рецепторном поле не ограничено; расположение рецепторов в рецепторном поле — произвольное. Технический мозг представляет собой матрицу, имеющую строчные и столбцовые шины, на пересечении которых установлены аналоговые резисторные элементы — синапсы. К строчным шинам подсоединены выходы рецепторов; столбцовые шины (мотонейроны) спарены: одну из них назовем плюс-столбцом (плюсмотонейроном), а вторую — минус-столбцом (минус-мотонейроном). Аналоговый резисторный элемент мозга — синапс — может представлять собой подстроечный или иной регулируемый вручную резистор. Также в качестве аналоговых резисторных элементов могут использоваться такие регулируемые резисторы, изменение сопротивления которых изменяется автоматически под воздействием общих команд, подаваемых обучателем, и в зависимости от возбуждения соответствующих рецепторов. Такими резисторами могут быть, в частности, аморфные полупроводники, например из халькогенидного отекла. Для того, чтобы исключить появление в матрице технического мозга блуждающих токов, в каждую цепь с аналоговым резисторным элементом встроен диод, пропускавший ток только в одном направлении. Необходимость в диодах отпадает при условии, что соотношение сопротивлений рецепторов очувствления, аналоговых резисторных элементов мозга и прочих резисторов цепи обеспечивает только одно заданное направление тока. Необходимость в них отпадает также и в том случае, если используется ток переменного направления. Блок усиления включает нагрузочные резисторы и усилители; нагрузочные резисторы соединяют столбцовые шины мозга с источником питания; усилители совмещают функции сумматоров-вычитателей и усилителей сигналов управления. Каждая пара столбцов подсоединена к своему усилителю: плюс-столбец подсоединён к неинверсному (+) входу, а минус-столбец — к инверсному (-). Выход усилителя является выходом всей системы на отдельный двигатель, а степень усиления усилителя подбирается такой, чтобы сигнал управления на выходе имел стандартный диапазон. Пользуясь случаем отметим, что в двуполярной обучаемой системе управления, у которой сигнал на выходе может менять свой знак, наблюдается полная 'симметрия: плюс- и минус-столбцы матрицы мозга абсолютно равноправны и равноценны, и обозначение их плюсом и минусом условно; поэтому было бы совершенно несправедливо по отношению к сигналам управления (и, в конце концов, к исполнительным органам) считать, что, например, сигнал E 1 = +5 мВ больше сигнала E 2 = -5 мВ: в данном случае они равны, но противостоят друг другу. Приходится сожалеть, что нет такой символики, кроме (+) и (-), которая обозначала бы противостоящие величины. Работа обучаемой системы управления. В исходном состоянии проводимости всех синапсов мозга равны нулю или, точнее сказать, наименьшие возможные, так что, если и возникает на спаренных столбцовых шинах электрическое напряжение, то оно — одинаковое и на плюс-, и на минус-столбцах, а на выходе усилителя — ноль. В процессе обучения с многократными повторами проводимости синапсов будут изменяться так долго, пока не завершится обучение, и в результате они установятся вполне определёнными и у каждого синапса — своя: матрицы мозга, c — проводимость синапса, связанного с -ым рецептором и с плюс-столбцом c — то же — с минус-столбцом. В обученном рабочем состоянии обучаемая система выдает на выходе такой сигнал управления, который соответствует текущей ситуации. Как это происходит? Любая внешняя j-ая ситуация порождает определенный образ внутреннего очувствления системы; это означает, что в этой ситуации каждый -ый рецептор будет иметь свое конкретное возбуждение b j и с учетом соответствующих ему проводимостей c и c выдаст в плюс-столбец матрицы мозга такую свою рецепторную долю сигнала управления: ej bj c , (1.3) ej bj c , (1.4) а в минус-столбец - такую: В результате суммирования долей (1.3) всех рецепторов на плюс-столбце матрицы определится общий положительный сигнал управления, известный в нейрофизиологии как возбуждение: m Ej 1 m ej 1 bj cj , (1.5) а суммирование долей (1.4) на минус-столбце даст общий отрицательный сигнал управления ( торможение): m Ej 1 m ej 1 bj cj , (1.6) и результирующий сигнал управления системы, вычисляемый сумматором-вычитателем (усилителем, выполняющим функции элемента сравнения) , определится как m Ej E E 1 bj c c . (1.7) Выражения (1.1)...(1.7) отражают работу обучаемых систем управления, а точнее — только одного ее исполнительного органа; однако, согласно принципа независимости, эти выражения в равной степени относятся и к другим органам, Для того, чтобы глубже понять обучаемые системы управления, воспользуемся образным представлением и изобразим действия, связанные с этими системами в виде (1.8) где А — внешняя ситуация; В — образ внутреннего очувствления, то есть образ возбуждений рецепторов; C — образ проводимостей синапсов плюс-мотонейрона; C — то же самое минус-мотонейрона ; D — D — образ рецепторных долей минус-мотонейрона; E , E ; E — скалярные величины сигналов управления, формируемые соответственно на плюс-мотонейроне, образ рецепторных долей плюс-мотонейрона; на минус-мотонейроне и на выходе системы. В качестве примечания отметим, что усиление сигнала управления на выходе преследует цель лишь изменить масштаб сигнала и никак не меняет его зависимость от ситуаций. Дадим некоторые пояснения к выражению (1.8). Система очувствления реализует следующую зависимость B f A , и это можно истолковать как преобразование внешней ситуации во внутренний образ; в этом преобразовании рецепторное поле выступает в качестве преобразующей среды, проходя через которую параллельным потоком, внешняя информация превращается в параллельные потоки внутренней. В результате обучения под воздействием внутреннего образа В формируются образы проводимостей синапсов мозга: при поощрении: C f B, поощрение ; C f B, наказание . при наказании: Образы D и D возникают уже как наложение образа В на образы C и C : D f B C ; D f B C . Если представить образ В в виде зрительного изображения, собранного оптикой, а образы D виде некоторых изображений на диапозитивах, то образы изображений В через указанные диапозитивы. E D ; E D и D C и C в возникнут при пропускании , то есть в примере с пропусканием зрительного изображения через диапозитивы операции суммирования представляют собой определение суммарных световых потоков на выходах из диапозитивов. И, наконец, выполняется простая операция вычитания: E E E . Таков в общих чертах механизм обучаемых систем управления: ее устройство и ее работа. Осталось только пояснить, что такое — возбуждающие и тормозящие рецепторы. Разделение рецепторов на возбуждающие и тормозящие — не врождённое, а происходит в результате обучения. Если окажется после завершения обучения, что C C , то соответствующий рецептор можно считать возбуждающим, так как его доля в общем сигнале управления окажется положительной: e и, наоборот, если окажется, что C b c c 0, C , то соответствующий рецептор можно считать тормозящим, так как его доля окажется отрицательной: e b c c 0. 5. Закон обучения Логика и интуиция. Обучение как способ формирования законов управления в технических системах, отличающийся в корне от математического моделирования, возникло в связи с появлением таких принципиально новых устройств, копирующих работу мозга, как перцептроны, нейронные сети и обучаемые системы управления. В основе обучения — опыт или интуиция, и оба этих направления противостоят друг другу на протяжении нескольких веков; история их противостояния поучительна. Логика, зародившаяся в Греции на заре европейской цивилизации, триумфально прошествовала по всему миру, порождая неслыханный научный и, самое главное, технический прогресс; она буквально перевернула мир. Интуиция, как антипод логики, властвовавшая во всем мире тысячелетиями, начала сдавать свои позиции уже несколько веков назад, а в начале Двадцатого века практически прекратила своё существование как декларируемый метод познания. По крайней мере Анри Пуанкаре (1854-1913), великий французский математик, считал себя последним интуитивистом в науке /1.40/. Отходя от общепринятого толкования логики как науки о способах доказательств, и интуиции как способности постижения истины без логических доказательств, вложим в эти понятия несколько иной, инженерный смысл: согласно ему пусть логика будет принятием решения на основе доказательств, а интуиция — то же самое на основе опыта, приобретенного в процессе обучения. Интересно отметить, что кроме различий оба эти подхода имеют немало общего, что связывает их между собой. Как известно, любое доказательство состоит из аксиом, то есть положений, принимаемых на веру без логических доказательств, и правил вывода, — которые также усваиваются как опыт в результате обучения, — другими словами: и аксиомы, и правила вывода — категория интуиции. Получается так, что логика является как бы дроблёной интуицией: можно принять решение в сложной ситуации на основе опыта, то есть интуитивно, а можно разбить эту ситуацию на элементы, усвоить опытным путём зависимости общего решения от отдельных элементов и с помощью правил вывода, заученных в результате предыдущего обучения, получить то же самое искомое решение. В последнем случае действует логика. Для иллюстрации соотношения логики и интуиции можно привести сравнение иероглифов и алфавита. Иероглиф человек воспринимает как сложный образ; тот же образ можно описать с помощью предложения, составленных из слов, а те — из букв. Для того, что бы человек воспринял тот же образ через буквы, его нужно предварительно обучить воспринимать сами буквы, обучить воспринимать слова из букв и предложения из слов. А результат — почти один и тот же. Кстати, для того, чтобы читать китайские иероглифы, совершенно не обязательно знать китайский язык. Реальный физический мир, и в том числе технический, можно воспринимать интуитивно в целом, а можно — через дробление его на элементы, то есть логически. Пройдя по второму пути, логицисты предложили в качестве элементов — параметры, которые можно понимать как физические величины внешнего по отношению к человеку пространства, имеющие размерности, например масса в килограммах, расстояние в метрах, время в секундах. С появлением параметров мир стал, образно говоря, угловатым: его начали изображать в виде трёхмерного или даже многомерного гранёного пространства, а ситуации — в форме многомерного вектора в том же пространстве. Человек перестал доверять своим глазам, своим ушам и прочим органам чувств: всё вокруг он стал измерять о помощью приборов. Тогда и возникла наука математического моделирования, увязывающая состояния или процессы с параметрами. Выявление параметрических зависимостей в науке и технике приняло в Двадцатом столетии почти стихийный характер: математизировалось всё вокруг; логика торжествовала. Но пришло время, и этот научный подход исчерпал себя; не помогло ему даже появление такого мощного научного инструмента, как электронная вычислительная машина. Кажется, наоборот, эти машины ускорили завершение математизации физического мира. Самым трудным моментом в математическом моделировании оказалось выявление логических зависимостей, формализовать которые человеку практически не удаётся; можно уловить связь состояния или процесса с одним параметром, труднее — с двумя, еще труднее — с тремя, а если число параметров превышает десяток, то решать такие задачи человеку оказывается не под силу. Усложняет дело и то, что в мире кроме параметров есть еще признаки и факторы, не имеющие размерностей: их математика сторонилась всегда. А когда появилась необходимость использовать для принятия решений ещё и образы, зрительные, слуховые и иные, то логика оказалась в еще большем затруднительном положении. Уклоняясь от решения сложных практических задач, наука математического моделирования постепенно сошла на искусство доказательств: логика стала работать сама на себя. Даже тогда, когда было осознано, что многопараметрическую, многопризнаковую, многофакторную и образную информации можно перерабатывать только такими способами, какими оперирует живой мозг, то и тогда наука не сразу взяла на вооружение обучение, а по-прежнему пыталась найти выход в логике. Появилось даже целое направление в науке — теория распознавания образов, которая исходила из того, что мозг живых существ, прежде чем принять решение в любой ситуации, распознает эту ситуацию логическим путем, либо сравнивая её с эталонными ситуациями, хранимыми в своей памяти, либо перерабатывая образную информацию по определённым законам — решающим правилам. Скромные успехи теории распознавания образов вынудили науку искать иные пути переработки сложной информации, а точнее говоря, пришлось вернуться к той самой отвергнутой ранее интуиции, которая применительно к техническим системам представляет собой законы управления, формируемые автоматически в процессе обучения. Достоинство технической интуиции — в простоте её формирования: от человека требуется только поправлять действия обучаемого объекта, оценивая их по внешним признакам. Если, например, обучаемый робот со зрением не научился ещё поиску определённого предмета — не стремится к нему, — то в задачу обучателя входит подталкивать его (буквально подталкивать!) к искомому предмету со всех сторон; делать это не сложно. После многократных повторов робот усвоит обучение и будет стремиться к искомому предмету, где бы тот не находился. При этом полностью исключаются такие логические операции, как анализ и синтез; обучение проводится по факту: каждая ситуация воспринимается как «так есть», а сигналы управления в этой ситуации задает обучатель по принципу «так надо». Согласование того и другого осуществляется в техническом мозгу автоматически. Объём перерабатываемой информации при этом может быть каким угодно большим, и, чем больше он, тем лучше: это, во-первых, не затруднит обучателя, а, во-вторых, ускорит обучение. Ту интуицию, о которой идёт речь, нужно воспринимать сугубо в инженерном толковании; как однозначное принятие решения в конкретной ситуации, но не в бытовом смысле как некоторое неопреде- лённое чувство правильного решения и, тем более, не в научном как способность к постижению. Однозначность — главное свойство интуиции. Более привычны её синонимы: условные рефлексы, рефлекторность, навыки поведения, автоматизм действий, навыки действий и, просто, опыт. Внедряясь в техническую область, интуиция теснит, как говорилось выше, логику, но только такую логику, которая использовалась обычно для определения законов управления; логика же исследований, и в том числе математический аппарат исследований, пока сохраняется и, более того, является единственным средством исследований самой интуиции. Звучит это как парадокс: логика интуиции, — но иного подхода пока не существует, и можно надеяться, что очень скоро оформится целое новое направление в науке — теория интуиции. Обучаемость мозга. К сожалению, нейрофизиология не даёт ответа в настоящее время на вопросы: как физически происходит усвоение навыков действий животными и человеком? Что происходит при этом в нервной системе? Все рассуждения и догадки носят поверхностный неконкретный характер, и на их основе невозможно создать действующую техническую систему управления. Поэтому обратимся снова к той инженерной концепции нервных систем животных, которую мы назвали биогидравлической, и дополним её условиями обучаемости. Согласно этой концепции кора головного мозга представляет собой матрицу со строками и столбцами: строки — нейроны, идущие от рецепторов, а столбцы — мотонейроны, идущие к мышцам; на пересечении тех и других — синапсы; управляющие потоки — гидравлические; синапс — дроссель. В соответствии с принципом независимости нейроны не пересекаются; не пересекаются и мотонейроны; следовательно, каждый в отдельности рецептор имеет независимый выход на отдельный мотонейрон, то есть — отдельный синапс. Раньше мы определили, что синапсы имеют регулируемую гидравлическую проводимость; изменение этой проводимости и есть акт обучения. Теперь надо ответить на вопрос: под действием чего, как и по какому закону изменяется гидравлическая проводимость отдельного синапса? Не усложняя процесс и представляя его предельно простым, допустим, и это самое главное, что изменение проходного сечения синапса производит сам поток управляющей жидкости, проходящий через этот синапс, то есть происходит саморегулирование синапса: чем больше поток, тем сильнее изменяется проводимость. Именно такая аксиома положена в основу обучаемости обучаемых систем управления, и она себя оправдала. Зная, что поток управляющей жидкости, проходящий через синапс, определяется возбуждением соответствующего рецептора, и допуская, что течение жидкости в синапсе ламинарное, получим математическое выражение его обучаемости в виде c где k b , (1.9) c — изменение проводимости -го синапса; k — коэффициент прямой зависимости. Коэффициент k в выражении (1.9) характеризует очень многое в процессе обучения, поэтому нуждается в пояснениях. Прежде всего он может менять свой знак: при положительном его значении будет происходить увеличение проводимости синапса, и, наоборот, при отрицательном его значение будет уменьшаться проводимость синапса. Кроме того величина коэффициента k определяется тонусом обучения или эмоциями; он также характеризует степень устранения ошибки в поведении на данном шаге обучения. И, наконец, ламинарность, которую он отражает, вовсе не обязательна, и об этом будет сказано ниже; тем не менее, выражение (1.9) можно воспринимать как строгое математическое выражение линейной зависимости и как строгий идеальный закон обучения. Рассмотрим процесс изменения проводимости синапса более подробно, и начнем с формирования потока управляющей жидкости отдельного рецептора. Если этот рецептор — прямого действия, то есть рецептор света, то его возбуждение прямо зависит от степени внешнего воздействия на него; если же рецептор — обратного действия, то есть рецептор темноты, то его возбуждение имеет обратную зависимость от того же внешнего воздействия. Считаем, что все рецепторы — парные: на один рецептор света приходится один рецептор темноты. Объяснить образование парности можно, в частности, так: нейроны отходят не только от колбочек рецепторов, но и от пространства между ними, то есть каждое такое замкнутое промежуточное пространство — тоже рецептор. При усилении внешнего воздействия на отдельный участок рецепторного поля колбочковые рецепторы этого участка увеличивают свои выходящие потоки, а промежуточные, следовательно, — уменьшат; и наоборот, при снижении внешнего воздействия колбочковые рецепторы уменьшат свои потоки, а промежуточные — ровно на столько же (или почти) увеличат. На величину возбуждения b влияет тонус обучения; он может быть положительным, стимулирующим увеличение проводимостей синапсов, или отрицательным, вызывающим уменьшение этих проводимостей; первый можно назвать возбуждением, второй — торможением; первый возникает при поощрении действий объекта обучения, второй — при наказании. Физически тонус может реализоваться в форме выделения в поток управляющей жидкости тех или иных медиаторов — стимуляторов: одни из них способствуют увеличению проходных сечений синапсов (размывают их), а другие — , наоборот, уменьшению (заращиванию их). На величину возбуждения рецептора b влияет также изменение местного давления рецепторного поля, возникающее при переключении внимания. Все рецепторы встроены в какую-то среду: одни — в кожу, другие — в мышцы, третьи, например фоторецепторы, — в среду сетчатки глаза. Среда эта может напрягаться и расслабляться; при напряжении давление внутри рецепторов будет увеличиваться, а при расслаблении — уменьшаться; соответственно будут изменяться рецепторные потоки управляющей жидкости. Вся рецепторная среда (или рецепторное поле) разбита на отдельные участки, напряжения в которых могут изменяться независимо друг от друга: если мы сжимаем кулаки, то поднимаем давление только в тех рецепторах, которые оказались в зоне кулаков; если сжали зубы и напрягли кожу лица, то под воздействием оказались рецепторы лица и, может быть, глаз, и т.д. Такое переключение напряжения, как было сказано, необходимо для переключения внимания. Если собака крадется за вороной, то из всего очувствления напряжены у неё более всего сетчатка глаз; если же она прислушивается к подозрительным звукам, то напряжены будут, наверное, уши. У одних животных переключение внимания выражено отчётливо и легко осуществляется — к таким животным можно отнести лошадей, собак, у других — такое переключение выражено слабо, например у кошек. Первые поэтому обучаются значительно легче, чем вторые: или, точнее говоря, первых легче обучить выполнению различных заданий, вторых — с трудом. Отсюда можно сделать вывод о том, что отдельные независимые участки рецепторных сред представляют собой независимые органы управления с исполнителями в виде, например, мышечных волокон кожи и с управляющими мотонейронами, исходящими из коры головного мозга; поэтому их можно обучить переключаться с одной задачи на другую в зависимости от внешней ситуации или по команде. Если рецепторные участки не имеют мотонейронов, исходящих из коры головного мозга, то можно утверждать, что животных с такой особенностью почти невозможно обучить переключаться с задачи на задачу. Обучение с обучателем. Рассматривая наиболее простой вариант обучения — обучения с обучателем, в обязанности которого входит определять ошибки в действиях объекта и подправлять эти действия простым физическим подталкиванием, — отметим, что, если в качестве обучателя выступает человек, то его действия не будут идеально точными ни в определении ошибки и ни в подталкивании. Поэтому выражение (1.9) в общем случае можно представить уже так: c где Ej Ej k Ej bj , E f — погрешность сигнала управления, определяемая как разность между требуемым сигналом в j-ой ситуации E j и фактическим — E f ; k — коэффициент, характеризующий точность обучения. Однако неточность эта не разрушает сам процесс обучения; она лишь приводит к снижению эффективности обучения и затягивает его. Обучение на основе игры. В животном мире в основном распространено самообучение, и одной из его форм является игра, в основе которой лежат несколько (возможно, даже один) безусловных врождённых рефлексов; например, у кошек и собак врожденными являются простейшие действия: стремление поймать, укусить и уклониться. Другим условием возникновения игры является отсутствие у животного целевого сигнала, обязывающего его выполнять те или иные действия, направленные, например, на поиск пищи для своего потомства. Еще одним условием является избыток энергии управления, то есть повышенное давление питания рецепторов системы очувствления, которое может возникнуть в результате увеличения мощности источника, вызванного в основном ростом. В этом случае, несмотря даже на то, что одновременно увеличивается (растет) в объеме сама нейронная сеть, в силу того, что проводимости синапсов вначале ещё малы (они увеличиваются в процессе обучения), рост их пропускной способности или общей проводимости отстаёт от увеличения мощности источника питания, и это порождает рост давления в сети. Сочетание перечисленных условий наиболее вероятно в раннем возрасте, хотя и тогда игра может не состояться, если по какой-либо причине упадёт давление в сети, например от действий, причиняющих боль, или в результате чрезмерно интенсивного обучения, вызывающего резкий рост проводимостей синапсов мозга и, как следствие, вялость в движениях и апатию. В процессе игры те движения, которые не порождают отрицательных эмоций, будут закрепляться в силу естественного поступления в нервную систему медиаторов-стимуляторов увеличения проводимостей синапсов. Те же движения, которые вызывают неприятные ощущения, например боль, будут порождать выделение в систему стимуляторов уменьшения проводимостей: эти движения будут забываться. Может оказаться даже так, что врождённый акт агрессии, например стремление укусить, породивший саму игру и лежащий в основе возникновения всех движений, в процессе игры будет подавлен партнёром, дающим «сдачу» при всякой попытке, укусить его. От акта агрессии может остаться только его внешняя безобидная форма: игра в агрессию, агрессия понарошке. Запаздывающее обучение. При рассмотрении «технической» стороны самообучения возникает вопрос: каков механизм возникновения запаздывающих рефлексов, другими словами — упреждения событий? Согласно принятой концепции обучения, поправка проводимостей синапсов мозга порождается текущим состоянием очувствления, то есть текущей внешней ситуацией. Если, играя, котёнок наткнулся на горячий предмет и получил болевое ощущение , то, казалось бы, будут уменьшены проводимости синапсов только тех рецепторов, которые были возбуждены в момент натыкания; и при повторе движений котёнок сможет удержать себя от неприятностей лишь в самый последний момент, когда коснётся горячего предмета. Но на практике, мы знаем, котёнок будет избегать столкновения намного раньше этого момента, упреждая нежелательное развитие событий. «Техническое» решение упреждения основывается на следующих свойствах рецепторов и системы очувствления в целом, всей нервной системы и самого объекта управления, то есть котёнка. Известно что рецепторы обладают временем последействия, величина которого у различных рецепторов колеблется в широких пределах. Благодаря этому в момент натыкания котёнка на горячий предмет некоторые рецепторы будут возбуждены теми внешними ситуациями, которые предшествовали данной и которые оказались как бы смещенными во времени назад. Кроме того внешние ситуации видоизменяются плавно, они похожи одна на другую; и та из них, которая была в момент натыкания, окажется во многом схожей с предшествующими. Одних только этих особенностей достаточно для того, чтобы возникло упреждение развития событий. И ещё следует учесть то, что разовая поправка проводимостей синапсов при натыкании котёнка на горячит предмет могла оказаться настолько большой, что вызвала перерегулирование проводимостей, в результате чего сигналы управления могли измениться больше того, что требовалось, то есть перескочили нулевую отметку. Следовательно, при повторе движений нулевые значения сигналов управления, останавливающие котёнка, возникнут раньше момента натыкания. Но если принять во внимание инерционность котёнка, то даже при нулевых значениях сигналов управления всеми мышцами движение в сторону горячего предмета будет продолжаться, и не исключено, что котёнок снова наткнётся на него, а это ещё дальше назад сдвинет во времени нулевые позиции. Таков механизм возникновения отставленных и запаздывающих условных рефлексов. Обучение на основе подражания. Другой формой самообучения является подражание, свойственное некоторым животным. Отличительной особенностью нервных систем таких животных является дублирование очувствления. Так положение своего тела животное может фиксировать двояко: зрительно и с помощью внутримышечных и внутрисуставных рецепторов. В процессе обучения устанавливается взаимосвязь между этими группами рецепторов. Если теперь исключить что-то одно, например зрение, то целенаправленные движения тела и конечностей животного будут сохранены, хотя точность их при этом пострадает. (Снижение точности происходит всякий раз, когда отказывают любые рецепторы, и, чем больше отказавших рецепторов, тем больше ошибка в движениях) Следовательно, при наличии дублирования очувствления можно, во-первых, обучить объект подражанию, а, во-вторых, подражание может быть использовано при самообучении. Этот процесс можно наблюдать даже у птиц, например у воробьев; в результате птенцы учатся клевать всё то, что клюют взрослые птицы. Обучение о подражанием выглядит так: взрослый воробей с кормом в клюве дразнит молодого птенца, недавно вывалившегося из своего гнезда, и делает такие движения, как будто желает положить корм на землю; птенец тянется за кормом и вынужден повторять движения родителя. Таким образом у него вырабатывается связь между наклонами взрослого воробья и своими внутримышечными ощущениями; увидев впредь клюющего родителя, а потом и сородича, птенец будет испытывать влечение делать тоже самое. Это и есть подражание. Говоря о самообучении, следует подчеркнуть, что оно возможно лишь тогда, когда положительные действия животного подкрепляются положительными эмоциями, которые заставляют вновь и вновь повторять приятные движения. Возбуждающие и тормозящие рецепторы. Теперь остановимся на таком интересной факте, известном в нейрофизиологии, как деление всех рецепторов на возбуждающие и тормозящие: при усилении внешнего воздействия на первые активность исполнительных мышц усиливается, а при таком же воздействии на другие — ослабляется. Попытаемся разобраться в этом неоспоримом и интересном факте. Примем во внимание парность рецепторов и выберем одну какую-то пару, включающую рецептор света и расположенный рядом с ним рецептор темноты. Возбуждение рецептора света обозначим через bc , а рецептора темноты — через сигнала управления bт ; им соответствуют проводимости синапсов c c , c т и рецепторные доли e c , e т . Парная суммарная рецепторная доля определится как e ec eт bc c c bт c т . (1.10) Допустим, после обучения установится следущее соотношение проводимостей синапсов: c c c т , — и рассмотрим три состояния: среднее внешнее воздействие на рецепторы, усиленное воздействие и ослабленное. В первом случае суммарная парная рецепторная доля сигнала управления пусть будет равна e1 . Тогда во втором случае, когда на рецепторы будет оказано усиленное внешнее воздействие, например e 2 , согласно (1.10), увеличится по сравнению с e1 . В третьем случае — при затемнении рецепторов — парная доля e 3 окажется меньше, чем e 1 . Налицо прямая их осветили ярким светом, парная доля зависимость между внешним воздействием на рецепторы и активностью мышц; такую пару рецепторов можно отнести к возбуждающим. И допустим, что после обучения установится обратное соотношение проводимостей синапсов одной пары рецепторов: c c c т . Тогда, очевидно, при усилении внешнего воздействия на указанную пару рецепторов её рецепторная доля сигнала управления уменьшится, а при ослабленном воздействии — увеличится. Такая пара оказывается тормозящей. Вывод такой: деление рецепторов на возбуждающие и тормозящие легко объяснить при условии, если рассматривать их парами, причем такое деление не врожденное, а возникает в результате обучения. Память с позиции биогидравлической модели. После того, как мы разобрались с механизмом обучения (научения), можно дать соответствующее толкование такому явлению, как память. Нейрофизиологи определяют память как хранение и извлечение информации о прошлом опыте, и считают, что такое определение одинаково применимо как к электронным вычислительным машинам, так и к живим организмам /1.7/. Согласно изложенной выше модели нервных систем, память следует толковать иначе — как способность мозга усваивать навыки поведения и действий, как способность усваивать условные рефлексы: память может быть хорошей или плохой. Представлять мозг в виде пространственного накопителя документальной информации никак нельзя; он — не блок памяти, а активный преобразователь. Его преобразующую функцию можно представить в виде выражения Bj Cn E nj , (1.11) где B j — образ ощущений организма в j-ой ситуации (образ возбуждений рецепторов); C n — состояние синапсов n-го мотонейрона мозга (образ проводимостей синапсов этого мотонейрона); E nj — сигнал управления на соответствующую мышцу в той же ситуации. Из выражения (1.11) следует простое объяснение тех общеизвестных фактов, что в мозгу нет ни энграмм, то есть локализированных следов документальной памяти, ни «бабушкиных» клеток, определяющих отдельные ассоциативные понятия; мозг животных только управляет и только управляет, причём в управлении то есть в формировании каждого отдельного сигнала управления, принимают участие все до единого синапсы соответствующего мотонейрона. Поэтому-то выход из строя отдельного рецептора или отдельного синапса не может привести к отказу в работе мозга и организма в целом: при этом лишь изменяются величины сигналов управления мышцами, то есть искажаются действия организма, и степень этого искажения пропорциональна рецепторной доли вышедшего из строя рецептора или синапса. Физиология делит память на краткосрочную и долговременную; такое деление, согласно представленной выше концепции, необъяснимо. Можно отдельно говорить о последствии рецепторов и о временных характеристиках синапсов. Рецепторы, как известно, имеют определенную инерционность и изменяют свое возбуждение после изменения внешнего на них воздействия не мгновенно, а постепенно (говорят: по экспоненте), и эта задержка может восприниматься как очень кратковременная память: у человека она длится от сотых долей до нескольких секунд. Строго говоря, такое свойство рецепторов сохранять прежнее возбуждение не есть память мозга. К памяти мозга имеют отношение способность органов секреции выделять стимуляторы увеличения или уменьшения проводимостей синапсов и способность синапсов изменять и сохранять свои состояния. Первую способность можно назвать эмоциональностью организма, характеризуемой его положительной и отрицательной реакциями на ситуации. Чем больше выделяется стимуляторов, тем лучше память. При этом нужно иметь в виду, что и стимуляторы увеличения проводимостей, и стимуляторы уменьшения проводимостей способствуют обучению: только при их совместном воздействии правильно формируется проводимость синапсов. Само собой разумеется, что положительные эмоции организма, заставляющие органы секреции выделять стимулятор увеличения проводимости, возникают только при правильных своих действиях, то есть в «хороших» ситуациях, а отрицательные — в «плохих». Следовательно, правильное деление ситуаций на «хорошие» и «плохие» улучшает память; а способность к такому делению в большей степени приобретается в процессе обучения, чем наследуется от рождения. Выходит: обучением память может быть улучшена, а может быть ухудшена. Способность синапсов изменять свою проводимость под воздействием стимуляторов тоже характеризует память. Известно, что в молодости такая способность выше, на старости — хуже, и хорошо, что так: в молодости нужно интенсивно усваивать навыки, а в старости их желательно сохранять. Разбирая процесс изменения проводимости синапса более подробно, можно выделить две составляющие такого изменения: упругую деформацию и пластическую. Если изменение проходного сечения синапса незначительное, то оно может укладываться только в пределы упругой деформации, и такое запоминание будет кратковременным: угасание длится минуты и часы. Пластическая деформация синапсов в принципе могла бы оставаться навсегда, если бы не последующее обучение, изменяющее проводимость синапсов, и не естественное старение. У некоторых животных способность к обучению длится не очень долго, но зато выработанные в раннем возрасте навыки сохраняются на всю жизнь. У других — способность к изменению проводимостей синапсов мозга сохраняется почти до самой смерти, и их навыки постоянно видоизменяются. Говоря об этих двух типах памяти, нельзя делать заключение, что первая лучше, чем вторая, что первая более долговременна, чем вторая — они просто разные. Если деление памяти на краткосрочную и долговременную бессмысленно, то это не значит, что способности к запоминанию, а точнее говоря — к обучению, никак нельзя оценивать. Лучшей с этой точки зрения можно считать такую нервную систему, которая имеет более богатое очувствление (имеет больше рецепторов), которая более эмоциональна (способна обильно выделять стимуляторы изменения проводимостей синапсов) и которая легко переключается с решения одной задачи на другую (имеет большее количество управляемых рецепторных участков). Таким образом, подводя некоторый итог, можно сказать, что обучение животных (иногда говорят — научение) характеризуется тремя особенностями: 1. обучение не выделяется в особый режим; оно дополняет обычное поведение и действия животного; 2. обучение выражается в поощрении действий в одних ситуациях и в наказании — в других; механизм поощрения и наказания есть выделение стимуляторов соответственно увеличения и уменьшения проводимостей синапсов; 3. обучение представляет собой саморегулирование синапсов; проводимость отдельного синапса изменяется под воздействием проходящего через него потока управляющей жидкости: чем больше этот поток, тем больше изменение. Саморегулирование синапсов можно считать основополагающим принципом обучения живых существ, то есть — законом обучения. Математическая модель (алгоритм) обучения. Попытаемся изложенную словесную модель обучения представить в математической форме, постоянно помня о том, что и та, и другая модели отражают действительный процесс в сильно искаженном виде. Однако это сознание не должно нас останавливать: если нам удастся отразить математическим языком основополагающую суть обучения, то есть такую ее плодотворную составляющую, которая позволит обучать аналогичным образом технические системы, то риск математизации будет оправдан. Искажения действительного процесса начинаются с самого начала — с упрощения условий обучения. Будем считать, что обучение объекта — животного — осуществляет обучатель, то есть внешнее по отношению к объекту существо, допустим — человек. Реально трудно из процесса обучения любого животного исключить элемент самообучения, но его тоже можно рассматривать как обучение с обучателем, если под этим понимать тот или иной стимул. Вторым исходным условием примем безошибочность обучения, заключающуюся в том, что в процесс будут включены все только нужные и полноценные ситуации и в каждой из них известно требуемое поведение объекта, а точнее — скорости движения всех исполнительных органов; другими словами: обучатель точно знает, что он хочет. Следующее допущение — четкость ситуаций и четкая реакция объекта на них; это значительно упрощает математику. И, наконец поверим в то, что обучатель способен точно оценивать действия объекта. Кроме отмеченных необходимы и другие допущения, но они будут подразумеваться сами собой. Обучение можно начать с нуля, то есть с такого состояния мозга, при котором все проводимости синапсов равны нулю, — но мы рассмотрим не первый акт, а любой последующий, в котором предъявлена j-ая ситуация. Очевидно, исходные проводимости синапсов в ней не будут нулевыми: после корректировки в предыдущей j 1 ситуации каждый -ый синапс будет иметь c j проводимость. Опираясь на принцип 1, независимости исполнительных органов, рассмотрим действие не всех мышц одновременно, а только одной из них, может быть даже части мышцы — того мышечного волокна, который управляется отдельным мотонейроном. (Природа в целях повышения надежности и плавности регулирования составила мышцы из множества отдельных волокон с независимым управлением.) Оценку действий объекта обучатель пусть делает по скоростям ее исполнительных органов, имея ввиду соответствующие этим скоростям сигналы управления, так что выходным параметром рассматриваемого нами мотонейрона будет сигнал E. Итак, в предъявленной j-ой ситуации фактический сигнал управления E f , определяемый выражением (1.2), будет иметь вид m Ef 1 bj cj 1, , (1.12) где b j — возбуждение -го рецептора в j-ой ситуации; m — количество рецепторов. Считаем, что обучателю известен требуемый в данной ситации сигнал управления E j ; по крайней мере, он может оценить ошибку в действиях рассматриваемого исполнительного органа как Ej Ej Ef . (1.13) Это оценивание может выражаться в той степени воздействия, допустим подталкиванием, которое оказывает обучатель на объект. По отношению к конкретному исполнительному органу воздействие может быть поощряющим, возбуждающим, то есть ускоряющим, когда E j Ef и Ej 0 . Воздействия может и не быть, если действия исполнительного органа устраивают обучателя с учетом допустимого отклонения в данной ситуации j : Ej j . (1.14) И в этом случае корректировка проводимостей синапсов не произойдет — в ней нет никакой необходимости; на очередь будет поставлена следующая ситуация. Если же условие (1.14) не выполняется, то последует корректировка проводимостей всех синапсов, относящихся к выбранному мотонейрону, в соответствии с выражением (1.9): cj k bj . Коэффициент пропорциональности k можно определить из условия идеально точного воздействия обучателя, в результате которого требуемая поправка сигнала управления E j окажется равной сумме поправок рецепторных долей m Ej ej . 1 Отдельно каждую из них на основании выражения (1.1) можно выразить как ej bj cj . Подставляя одно в другое, получим m Ej 1 bj cj . Если теперь в это выражение подставить выражение для определения поправки проводимость -го синапса, соответствующее (1.9), то после несложных преобразований будем иметь k Ej m b 1 , 2 j и полное выражение для определения поправки проводимости -го синапса в j-ой ситуации приобретёт следующий вид Ej bj cj m b 1 (1.15) 2 j E j определит знак поправки c j : при E j 0 , то есть при поощрении действий объекта (конкретного органа), поправки c j будут положительными и проводимости будут нарастать, а при E j 0 , то есть при торможении исполнительного органа, поправка c j окажется отрицательной и Знак погрешности проводимости синапсов уменьшатся. После завершения акта обучения в j-ой ситуации установятся следующие проводимость синапсов cj cj 1, cj , и обучаталь сможет предъявить следующую ситуацию: цикл обучения повторится. (1,16) Таким образом, систему выражений (1.12)...(1.16) можно рассматривать как идеальную математическую модель обучения отдельного исполнительного органа. Выражения (1.15) и (1.16) этой системы известны в математике как алгоритм Качмажа, используемый для итерационного решения систем линейных алгебраических уравнений и говорящий о сходимости решения /1.3/. С формальной точки зрения обучение представляет собой также решение системы линейных алгебраических уравнений, в которой каждое уравнение отражает одну из ситуаций обучаемой выборки. Изображая выражение (1.12) в виде обычного алгебраического уравнения, для всей выборки получим: E1 2-ая ситуация: E 2 1-ая ситуация: b11 c1 b12 c2  b1m c m ; b21 c1 b22 c2  b2 m c m ; ................................................. n-ая ситуация: E n b n1 c1 b n2 c2  b nm c m . В данной системе уравнений неизвестными являются проводимости c ; они-то и определяются алгоритмом Качмажа. Сходимость решения подобных систем, как известно из математики, оговаривается целым рядом условий. В нашем случае условия сходимости сводятся в основном к двум факторам. Вопервых, система управления должна иметь достаточное очувствление, выражающееся в том, что общее количество рецепторов должно превосходить число контроллируемых ситуаций m n . Во-вторых, ситуации, входящие в обучаемую выборку, не должны быть противоречивыми. Поясним последнее условие. Если ситуации одинаковы, то есть возбуждения соответствующих рецепторов в них одинаковы, то и сигналы управления в них должны быть одинаковыми; в противном случае эти ситуации будут противоречивыми. Если ситуации пропорциональны, то есть возбуждения соответствующих рецепторов в k b  , — то сигналы управления в них должны соотноситься в той же них пропорциональны: b j пропорции, так как m Ej 1 m bj c 1 m k b c 1 b c k E , в противном случае эти ситуации будут также противоречивыми. Одинарные и пропорциональные ситуации являются сходными, и, если ситуации обучаемой выборки хотя и не сходны, но близки к этому, то решение, то-бишь обучение, может на практике затянуться настолько, что создастся впечатление зацикленности, и в этом случае укоротит обучение введение допустимых отклонений на сигналы управления . Выражения (1.15) и (1.16) справедливы как для непрерывного процесса обучения, так и для дискретного. При непрерывном обучении погрешность E j следует понижать как постоянное скользящее воздействие обучателя на объект обучения; такими же постоянными будут изменения проводимостей синапсов. А при дискретном обучении и определение погрешности сигнала управления, и корректировка проводимостей синапсов выполняются прерывисто в такт предъявления новых и новых ситуаций; каждый такой такт является очередным шагом обучения. Если обучение носит беспорядочный характер, то каждую последующую ситуацию следует воспринимать как новую вне зависимости от того, встречалась она раньше или нет. При упорядоченном обучении составляется обучаемая выборка из конкретных ситуаций и эти ситуации предъявляют в определённой последовательности одну за другой: на каждом шаге обучения — очередную ситуацию. После предъявления всех ситуаций всё начинают сначала, и таю: повторяют до тех пор, пока не завершится обучение. Математизацию завершим определением числа различимых ситуаций. Термин «различимые» не совсем удачен, и поэтому нуждается в пояснении. Будем считать различимыми такие ситуации, на которые животные реагируют соответствующим образом. (Говоря о животных, мы ни на минуту не должны забывать, что точно также ведут себя объекты с обучаемыми системами управления) Другими словами, если в какой-то ситуации требуется определённый сигнал управления отдельной мышцей и он в результате обучения, как угодно продолжительного, но не до бесконечности, получен, то такая ситуация попадает в число различимых. Чтобы исключить из данного определения случайные совпадения ситуаций, уточним его: ситуация отличима от любой другой в том случае, если в ней можно получить требуемый сигнал управления каким угодно продолжительны обучением, отличающийся от сигнала в сравниваемой ситуации. Конкретизируя определение, мы должны перейти от внешних ситуаций к тем внутренним ощущениям, которые они создают. Это можно сделать, заменив понятие ситуации спектром или набором возбуждении рецепторов в ней, то есть образом ситуации. Представим теперь, что каждый рецептор может иметь только два состояния: либо он возбуждён, либо не возбуждён, — или в виде цифр: 1 и 0; назовем это градацией; в данном случае она равна двум: g=2. Отличительный образ ситуации определится отличительным сочетанием состояний всех рецепторов. Так, например, очувствление всего из четырёх рецепторов с двухступенчатым возбуждением образует следующие сочетания: 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 Каждое такое сочетание представляет отдельную отличительную ситуацию. В результате общее число различимых ситуаций при двоичной градации рецепторов определится как M 0 2 m , где m — количество 4 16 . рецепторов; в данном случае M 0 2 Если же принять во внимание, что рецепторы на самом деле не двоичные и каждый из них имеет свой диапазон непрерывно изменяющихся возбуждении, то, очевидно, число различимых ситуаций будет увеличено. Чтобы его определить, представим плавное изменение возбуждений рецепторов в ступенчатой форме с конкретным чисом градаций. За ступеньку можно принять такое отклонение возбуждения, которое превышает естественный шум рецептора. Допустим, обучаемая система управления оснащена зрением; в качестве фоторецепторов использованы фоторезисторы СФЗ-1 с такими параметрами: темновое сопротивление 30 МОм, рабочее напряжение 15 В, световой ток 750 мкА. Следовательно, общий диапазон возбуждения будет равен: 0,5...750 мкА, что в пересчёте на сопротивление составит ЗО МОм...20 Ком. На сколько ступенек можно разбить весь диапазон? Известно, что в силу ряда обстоятельств даже при неизменном освещении ток фоторезистора будет колебаться, и эти колебания определяют погрешность чувствительного элемента; она обычно задаётся в процентах. За ступень можно принять эту погрешность или несколько больший процент. Приняв в нашем примере за одну ступень изменение тока (или сопротивления) на 50 %, получим такой ряд: 0,5...0,75...1,125 ...1,7...2,5...3,8...5,7 и так далее вплоть до 750 мкА; число градация составит G 0 18 . При удвоении тока на каждой ступени число градаций будет равно G 0 10 . Таким образом, с учётом градаций рецепторов общее число различимых ситуаций определится как M0 G 0m . Полученное выражение дает представление о возможностях нервных систем животных и обучаемых систем управления. Если у последних очувствление будет насчитывать сотни, тысячи рецепторов и даже сотни тысяч, то при любых градациях рецепторов число различимых ситуаций уходит в бесконечность. Такая характеристика делает системы несравнимыми с компьютерами. Если взять, например; по самому минимуму количество рецепторов равным 100, их возбуждение принять двоичным: G 0 2 , то и тогда 100 число различимых ситуаций будет поистине астрономическим: M 0 2 . О возможностях нервных систем животных и человека в этом плане и говорить не приходится; достаточно вспомнить, что только в одном глазу человека насчитывается более 100 млн. рецепторов. Обобщённая модель нервной системы животных, после всех рассуждений можно предложить обобщённую модель устройство, работы и обучения нервной системы животных: 1. В основе функционирования нервной системы лежат гидраравлические процессы. Рецептор очувствления при внешнем воздействии выдавливает в систему порциями управляющую жидкость; каждая такая порция порождает волну давления. Электрический потенциал действия — свидетельство движения волны давления внутри нейрона — необходим для поддержания волны и для воздействия на мышцы положительно заряженной порцией управляющей жидкости. 2. Каналы, по которых управляющая жидкость передается от рецепторов к коре головного мозга и от неё к мышцам, независимы и нигде не пересекаются. Таким каналом может быть микротрубочка или микрофиламента; связанные в пучок они образуют нейрон. 3. Кора головного мозга структурно представляет собой матрицу со строками и столбцами; управляющая жидкость от рецепторов поступает по строчных каналам, а по столбцовым — она уходит к мышцам; соединяет отдельный строчный канал со столбцовым — синапс. 4. Синапс коры головного мозга представляет собой гидравлический дроссель. Проводимость синапса (обратная величина сопротивления) определяет величину проходящего через него потока управляющей жидкости; в сумме потоки всех синапсов (всех рецепторов), выходящих на один столбцовый канал мозга, определяют сигнал управления соответствующей мышцей. 5. Обучение нервной системы сводится к изменению проводимостей синапсов коры головного мозга. 6. Изменение проводимости синапса вызывает проходящий через него поток управляющей жидкости: чем больше поток, тем больше изменение; такое явление можно назвать саморегулированием синапса. 7. Изменение проводимостей синапсов в большую или меньшую сторону определяют химические стимуляторы (медиаторы): стимулятор, вызываемый поощрением, способствует увеличению проходного сечения синапса (назовем его медиатором удовольствия), а стимулятор, вызываемый наказанием, наоборот, способствует уменьшению проходного сечения (его можно назвать медиатором огорчения). 6. Реализация техничесвого мозга Компьютерный мозг. Самой простой реализацией мозга обучаемых систем управления является вычислительный или компьютерный вариант, в основу которого положена математическая модель этих систем. У такого варианта много общего с числовым программным управлением (ЧПУ) станков; отличие состоит лишь в том, что законы управления не определяются логически и не задаются на стадии проектирования или программирования, а вырабатываются автоматически в процессе обучения. Во всем остальном вычислительная обучаемая система управления похожа на системы числового программного управления. Сбор информации осуществляется путём опроса рецепторов, выполняющих функции датчиков. Проводимости синапсов представлены в виде весовых коэффициентов, хранимых в памяти компьютера. Если у объекта управления имеется несколько исполнительных органов, то каждому из них соответствуют свои весовые коэффициенты. Расчёт величин сигналов управления выполняется последовательно для всех приводов по формуле (1.2). Обучение системы производится по алгоритму, заложенному в математической модели обучения. Для этого в каждой ситуации обучаемой выборки обучатель задаёт требуемый сигнал управления E j и назначает его допустимое отклонение. Далее выполняется само обучение: предъявляется очередная ситуация; осуществляется опрос рецепторов; вычисляется фактический сигнал управления но формуле (1,12); определяется погрешность сигнала E j по формуле (1.13); проверяется условие (1.14) и, если оно выполняется, то переходят к следующей ситуации; если же это условие не выполняется, то рассчитывают новые скорректированные значения весовых коэффициентов c j по формулам (1.15) и (1.16). После этого следует очередная ситуация, и так далее. Обучение может производиться в ускоренном варианте; для этого сначала опрашиваются рецепторы не в одной какой-то ситуации, а последовательно во всех, и значения их возбуждении заносятся в память компьютера; далее выполняются все необходимые вычисления по алгоритму обучения, и полученные окончательные значения весовых коэффициентов заносятся в память машины. На этом обучение заканчивается и можно приступить к работе. Как видно из пояснений, вычислительный вариант обучаемой системы управления четко различает режимы обучения и работы: обучение осуществляется по алгоритму, включающему выражения (1.12)...(1.16), а работа — в соответствии с формулой (1.2). Компьютерный вариант имеет свои преимущества и свои недостатки. К преимуществам следует отнести простоту компоновки всего устройства управления на том этапе, когда нет серийно выпускаемых других обучаемых систем управления: система может быть собрана из блоков числового программного управления и легко запрограммирована на обучение и работу. Недостатками компьютерного варианта являются относительные громоздкость, дороговизна и, может быть — самое главное, медлительность в работе. По сравнению, например, с аналоговым вариантом ОСУ2000х12Граф-1991, весящим менее полкилограмма и умещающимся на ладони, компьютерный вариант проигрывает и в размерах, и в цене. Медлительность компьютера, используемого в управлении машинами, общеизвестна и объясняется тем, что все свои операции он выполняет последовательно. Говоря о вычислительном варианте, стоит иметь в виду, что могут бить созданы специальные микропроцессоры под обучаемые системы управления с заложенными в них неизменными программами обучения и работы, стоимость и размеры которых сделали бы их конку-рентноспособными. Они могли бы, может быть, легко осуществлять параллельную обработку рецепторной информации; принципиальных трудностей в реализации этого нет. Указанные микропроцессоры могли быть специализированы по своим функциям: одни из них — только для обучения, а другие — только для работы. Такая специализация желательна в тех случаях, когда редко приходится заниматься переобучением, а иногда в этом нет вообще никакой необходимости, например в случае со сварочным роботом для электродуговой сварки: обученный однажды в заводских условиях он способен работать потом без переобучения и без перепрограммирования. Микропроцессорный вариант обучаемой системы особенно выгоден тогда, когда в дискретном режиме работают и все другие элементы системы Переведя, например, рецепторы с аналогового на частотноимпульсный режим работы, можно существенно повысить надёжность передачи снимаемой с них информации: она не будет искажаться при изменении электрического сопротивления информационных каналов. Технический мозг с синапсами в виде подстроечных транзисторов. Обучение с использованием компьютера производится и тогда, когда в качестве синапсов применяются регулируемые вручную резисторы. На рис. 1.9 представлен фрагмент электрической схемы обучаемой системы управления, синапсы мозга которой выполнены в виде подстроечных резисторов, например потенциометров. Выходы каждого такого резистора подключены к парным столбцам матрицы мозга: один выход — к плюс-столбцу, а второй — к минус-столбцу, — а вход (ползун) соединён с отдельным рецептором. В схеме предусмотрены разъёмы между рецепторами и строчными шинами мозга. Рис.1.9. Фрагмент электрической схемы обучаемой системы управления. Синапсы выполнены в виде подстроечных резисторов (потенциометров) В среднем положении ползуна потенциометра рецепторная доля сигнала управления e делится пополам: e e _ ; при всяком смещении ползуна такое соотношение нарушается, и соответствующий рецептор становится либо возбуждающим e e _ тормозящим e e_ . Обучение системы включает: разработку стратегии обучения, подбор ситуаций в обучаемую выбору, задание сигналов управления и их допустимых отклонений во всех ситуациях; замеры возбуждений рецепторов во всех ситуациях обучаемой выборки; расчёт проводимостей синапсов по математической модели обучения и перерасчет их на сопротивления плеч потенциометров; настройку потенциометров. Рассмотрим конкретный пример обучения. Допустим, обучаемая система управления с техническим зрением установлена на роботе, глаз системы совмещен со охватом; и обучим этот робот поиску заданного предмета, свободно расположенного на столе. Из всех возможных видов поиска выберем наиболее простой — продольно-поперечный, — и определим стратегию поведения робота. Пусть схват с глазом перемещается на определённой высоте вдоль стола; при попадании в его поле зрения искомого предмета схват должен сместиться поперек стола в сторону этого предмете; одновременно с глазом должен поворачиваться вокруг своей оси до достижения произвольно заданной ориентации предмета в поле зрения. Если искомый предмет окажется в центре поля зрения и если при этом он правильно сориентирован, то схват робота должен остановиться. Очевидно, для выполнения поставленной задачи робот должен иметь три привода: продольного перемещения, поперечного перемещения и вращения. Тот его двигатель, который перемещает схват с глазом вдоль стола, должен работать в заданном направлении в тех случаях, когда в поле зрения глаза нет предмета, и должен остановиться, если в центре поля зрения — сориентированный искомый предмет. Двигатель поперечного перемещения должен смещать схват с глазом всегда в сторону предмета и должен остановиться, когда этот предмет окажется в центре поля зрения. Если глаз не видит предмета, двигатель поперечного перемещения должен стоять, Третий двигатель должен вращать охват в ту или другую сторону в зависимости от отклонения условной оси предмета относительно условной оси поля зрения глаза и должен стоять при заданной ориентации искомого предмета. Он должен стоять и в том случае, когда в поле зрения ничего нет. Составим простейший набор ситуаций обучаемой выборки. Двигатель продольного перемещения: 1-ая ситуация: в поле зрения нет предмета; сигнал управления — положительный: E11 0 (первый индекс обозначает двигатель, второй — ситуацию); допустимое отклонение сигнала управления может быть относительно большим, но обязательно меньше абсолютной величины самого сигнала: 11 E11 ; 2-ая ситуация: в поле зрения находится предмет; сигнал управления — больше нуля, но меньше 0 E12 E11 : E11 ; допустимое отклонение также не может быть больше абсолютной величины самого сигнала управления: 12 E12 ; 3-я ситуация: в центре поля зрения находится правильно сориен тированный искомый предмет; сигнал управления равен нулю: E13 0 ; допустимое отклонение 13 должно быть настолько малым, чтобы гарантировать остановку двигателя, то есть оно не должно превышать значения сигнала управления, необходимого для преодоления момента трения двигателя. Третья ситуация является целевой в задаче поиска заданного предметы В общем случае целевых ситуаций для одного предмета может быть несколько с учётом различной его ориентации в поле зрения глаза. Двигатель поперечного перемещения: 1-ая ситуация: в поле зрения нет предмета; сигнал управления E 21 0 ; допустимое отклонение сигнала 21 должно быть достаточно малым, чтобы гарантировать неподвижность этого двигателя; 2-ая ситуация: предмет находятся в поле зрения справа; сигнал управления должен быть согласован с направлением движения); допустимое отклонение 22 3-я ситуация: предмет находится в поле зрения слева; сигнал управления E22 0 (знак сигнала E 22 ; E23 E22 ; допустимое отклонение 23 22 ; 4-ая ситуация: в центре поля зрения находится правильно сориентированный искомый предмет; сигнал управления E24 0 ; допустимое отклонение 24 21 . Четвёртая ситуация является целевой и для двигателя поперечного перемещения, и для робота. Двигатель вращения схвата: 1-ая ситуация: в поле зрения нет предмета; сигнал управления E 31 0 ; допустимое отклонение сигнала 31 должно быть также достаточно малым, чтобы гарантировать неподвижность двигателя вращения схвата; 2-ая ситуация: условная ось предмета отклонена от условной оси поля зрения по часовой стрелке; сигнал управления E32 0 (знак необходимо согласовать с направлением поворота); допустимое отклонение сигнала 32 E 32 ; 3-я ситуация: условная ось предмета отклонена от условной оси поля зрения против часовой стрелки; сигнал управления E 33 E32 ; допустимое отклонение сигнала 33 32 ; 4-ая ситуация: в центре поля зрения находится правильно сориентированный искомый предмет; сигнал управления E 34 0 ; допустимое отклонение 34 31 . Четвёртая ситуация является целевой и для двигателя вращения схвата, и для робота. Произведём замеры возбуждений фоторецепторов во всех ситуациях обучаемой выборки; для этого необходимо отсоединить фоторе-цепторы от мозга, подсоединить их к постоянной нагрузке, электрическое сопротивление которой приблизительно равно сопротивлению резистора нагрузки, соединяющего вход усилителя с источником питания, и замерить напряжения на выходах из рецепторов. Пусть эти напряжения будут равны: в ситуациях двигателя продольного перемещения: в 1-ой: B11: b11,1 ; b11,2 ;  ; b11,m ; во 2-ой: B12 : b12 ,1 ; b12 ,2 ; ; b12 ,m ; в З-ей:; в ситуациях двигателя поперечного перемещения: в 1-ой: B21: b 21,1 ; b 21,2 ; ; b 21,m ; и так далее. Символом B обозначены образы возбуждении; первый индекс обозначает номер двигателя; второй индекс — номер ситуации этого двигателя, а третий после запятой — номер рецептора. Всего ситуаций в обучаемой выборке — одиннадцать, но некоторые из них совпадают, например B11 B21 B31 ; B13 B24 B34 , поэтому отличительных ситуаций — всего семь. Далее производим расчет проводимостей синапсов, используя для этого математическую модель обучения (1.12)...(1.16); для каждого двигателя расчёт выполняется отдельно. Следует иметь в виду, что каждому двигателю в техническом мозгу обучаемой системы управления соответствует своя пара мотонейронов и свой набор синапсов, так что после обучения поучим значения проводимостей синапсов: для 1-го двигателя: c1: c1,1 ; c1,2 ;  ; c1,m ; для 2-го двигателя: c 2 : c 2 ,1 ; c 2 ,2 ; ; c 2 ,m ; для 3-го двигателя: c 3: c 3,1 ; c 3,2 ; ; c 3,m ; Через с обозначены образы проводимостей. Для того, чтобы произвести настройку потенциометров, выполняющих функции синапсов, необходимо пересчитать данные проводимости в сопротивления плеч потенциометров. Любая проводимость синапса может быть представлена состоящей из двух проводимостей: c где c c , c  — проводимость того плеча потенциометра, которое выходит на плюс-мотонейрон; c  — проводимость другого плеча, выходящего на минус-мотонейрон. Если выразить проводимости плеч потенциометра через сопротивления этих плеч как обратные им величины, то после некоторых преобразований получим R где R 2 1 c R 2 4 1 , c 2 R  — сопротивление плече потенциометра, выходящего на плюс-мотонейрон; R  — общее сопротивление потенциометра: R R R ; R — сопротивление плеча потенциометра, выходящего на минус-мотонейрон. Имея численные значения сопротивлений плеч всех потенциометров, можно приступить к настройке мозга, однако задача осложняется тем, что замеры сопротивления отдельного потенциометра можно производить только тогда, когда он изолирован от цепи; иначе говоря, нужно каждый потенциометр извлечь из общей схемы, настроить его и потом уже установить обратно. Процедура настройки, таким образом, при большом количестве потенциометров может оказаться чрезвычайно трудоемкой. Упростить задачу можно введением регулирования не сопротивлений (или проводимостей) синапсов, а рецепторных долей сигнала управления. Для этого необходимо выделить одну из ситуаций в качестве опорной, рассчитать в ней все рецепторные доли и уж потом заняться настройкой. В качестве опорной ситуации желательно выбирать такую, в которой требуется самый точный сигнал управления, например целевую; именно в ней будет окончательно отрегулирован сигнал управления. В качестве опорной может быть принята также дополнительная специальная ситуация, в которой нет нулевых или близких нулю возбуждений рецепторов; и такой ситуацией может быть ровно освещенное поле зрения глаза без предметов и зрительных изображений с тёмными или очень яркими пятнами, Выбор этой ситуации можно объяснить следующим образом: в общем случае рецепторная доля каждого -го рецептора, приходящаяся на  -ый привод в -ой опорной ситуации, будет равна e b c , (1.17) b 0 , — или близким к нулю, и, если в этой ситуация возбуждение рецептора окажется равным нулю: то, какой бы ни была большой проводимость синапсы также равной нулю: e c  , соответствующая ему рецепторная доля окажется 0 . Следовательно, в этом случае при настройке мозга роль указанного синапса будет сведена к нулю, и он окажется практически исключенным из управления Если в качестве опорной будет выбрана дополнительная ситуация, то перед настройкой мозге необходимо замерить в ней возбуждения всех рецепторов к пересчитать их по формуле (1.17) в соответствующие рецепторные доли. Сама настройка производится поочерёдно для каждого двигателя в следующем порядке: предъявляют опорную ситуацию, то есть глаз робота направляют на соответствующую сцену, выход соответствующего усилителя системы управления, например сначала двигателя продольного перемещения, замыкают через амперметр на стандартную нагрузку и смещением ползунов потенциометров добиваются получения расчетной рецепторной доли. Например, расчётная рецепторная доля десятого по порядку ( =10) потенциометра равна +0,15 А; Следовательно, смещая ползун 10-го потенциометра, добиваются увеличения общего сигнала управления на 0,15 А; если расчетная рецепторная доля имела отрицательный знак, то смещение ползуна, очевидно, должно быть в обратную сторону на столько, чтобы сигнал управления уменьшился на ту же величину. Предпочтение целевой ситуации в качестве опорной состоит в том, что именно в ней можно получить требуемый самый точный сигнал, например равным нулю. Всякие отклонения величин сигналов управления, которые возникнут в прочих ситуациях вследствие неточностей замеров, могут уложиться в те расширенные допустимые отклонения, которые выбраны в этих ситуациях. После завершения настройки синапсов первого двигателя переходят ко второму, а затем — к третьему. В качестве опорной ситуации может быть выбрана одна к та же ситуация, но не исключено, что по каким-либо соображениям она будет заменена. После завершения настройки синапсов последнего двигателя необходимо вернуться к двум первым, чтобы проверить их сигналы управления; не исключено, что в результате взаимовлияния настройка синапсов одного двигателя исказит общий сигнал управления другого. Такое искажение можно устранить изменением коэффициента усиления усилителя. Если же искажение существенное и подстройкой усилителя устраняется с трудом, то можно уточнить настройку синапсов, повторив процесс с самого начала. Обратим внимание на то, что, как при первой настройте синапсов, так и при уточнениях последующих необходимо предварительно все потенциометры выставить в среднее положение. Лучше, если сделать это первый раз до установи потенциометров в схему: с помощью приборов выставить ползун каждого потенциометра в такое положение, в котором электрические сопротивления его плеч будут равны между собой, и сделать отметку этого положения. Технический мозг с регулируемыми вручную синапсами, например с потенциометрами, имеет много недостатков: он относительно громоздок, примитивен, отнимает много времени на обучение, требует наличия разъёмов к рецепторах и т.д., — но у него имеются свои преимущества, к самое главное из них — использование его в учебных и научных целях. Обучаемая система управления с таким мозгом представляет собой простую конструкцию, наглядно отражающую устройство, обучение и работу системы. В целях демонстрации подробного обучения можно отказаться от предварительных расчетов проводимостей всех синапсов и их рецепторных долей сигнала управления и произвести натуральные изменения проводимостей непосредственно в процессе обучения. Допустим, необходимо обучить двигатель продольного перемещения робота поиску заданного предмета в рассмотренном выше примере. Начнём с предъявления первой ситуации: замерим в ней потенциалы на выходах всех фоторезисторов и фактический сигнал управления на выходе из усилителя. Далее обучение проводится в соответствии с алгоритмом (1.13) ...(1.17); никакого предварительного расчётного обучения не требуется. Зная потенциалы всех рецепторов b j и фактический сигнал E f , можно определить поправку рецепторной доли конкретного -го рецептора в данной j-ой ситуации как e j c b j Ej Ef m b 1 b 2j . (1.18) 2 j Регулировкой соответствующего потенциометра необходимо добиться изменения общего сигнала управления на полученную величину со своим знаком. Отрегулировав все потенциометры в первой ситуации, нужно перейти ко второй и повторить в ней все те же действия. Затем обучение следует повторить в третьей ситуации. После того, как будут предъявлены все ситуации обучаемой выборки и во всех из них будет проведено обучение синапсов, предъявление повторяют и действуют так до тех пор, пока не удовлетворится условие (1.14) во всех ситуациях. На этом обучение технического мозга для управления двигателем продольного перемещения закончено: во всех трёх ситуациях на выходе будут соответствующие им сигналы управления. Если в дальнейшем величины этих сигналов по какой-либо причине изменятся, их можно поправить настройкой усилителя. Обучение двух других двигателей проводится по той же методике и по тому же алгоритму (1.12). ..(1.16) с использованием того же выражения (1.18), только у каждого из этих двигателей регулируются синапсы соответствующей ему пары мотонейронов мозга и используются соответствующие ситуации обучаемой выборки. Наглядность всего процесса обучения позволяет глубже понять законы обучаемых систем управления и способствует выработке у обучателя опыта обучения; такой метод можно назвать «хирургическим» обучением. Технический мозг с саморегулируемыми синапсами. Основополагающий принцип обучения — саморегулирование синапсов — может быть реализован в прямом смысле, если между электродами строчных и столбцовых шин мозга разместить такую среду, которая была бы способна уменьшать своё электрическое сопротивление под воздействием проходящего через нее тока и сохранять новый уровень проводимости в обесточенном состоянии. Такой средой могут быть органические пленки, стеклянные аморфные полупроводники, электролиты и другие материалы. Рассмотрим электрохимический синапс; он может уменьшать своё омическое сопротивление в результате переноса металла с одного электрода на другой, происходящего под действием управляющего тока. На рис.1.10 представлена одна из схем такого синапса. Металлические (пусть будут медными) электроды — анод и катод — соединены между собой резисторной пластиной, способной проводить ток и имеющей относительно большое омическое сопротивление. Пространство над резистором и между электродами заполнено электролитом, в нашем случае — водным раствором медного купороса. Не трудно догадаться, что электрический ток при подаче на электроды разности потенциалов пойдут как по резистору, так и по электролиту: первый — как следствие электронной проводимости, второй — как ионной. Ионная проводимость, как известно, возникает в электролитах тогда, когда под действием воды происходит распад Cu2 и на , SO 24 — и когда эти ионы устремляются к электродам 2 2 противоположного знака: Cu — к катоду, а SO 4 — к аноду. В результате на катоде начнёт его молекул на ионы: на осаживаться медь; такой процесс называется электролизом. Очевидно, медь будет осаждаться не только на металлическом электроде, но и на прилегающем к нему резисторе, а это приведёт к уменьшению его сопротивления. Со временем металлическое пятно на резисторной пластине будет расширяться и расширяться, проводимость синапса будет увеличиваться и увеличиваться, и в пределе медь может покрыть поверхность резистора полностью, что приведёт к падению электрического сопротивления до нуля. Доводить электролиз до такого состояния нет смысла, поэтому остановимся на промежуточном этапе. Рис.1.10. Электрохимический синапс От чего будет зависеть рост проводимости синапса? Можно перечислить все факторы электролиза, это — ток, время, температура, концентрация раствора и диэлектрическая проницаемость электролита, но главным из них всё же является ток. Итак, чем больше управляющий ток, проходящий между электродами синапса, тем выше скорость электролиза и тем выше скорость роста проводимости; это и есть то саморегулирование синапса, которое отражено в выражении (1.9), если вспомнить, что величина тока определяется возбуждением соответствующего рецептора. Все прочие факторы могут быть использованы для установления желаемой степени зависимости роста проводимости от тока: обучение синапса можно ускорить, если поднять температуру электролита или повысить его проницаемость за счёт увлажнения, и, конечно, обучение можно притормозить, делая всё наоборот. Есть возможность даже совсем приостановить рост проводимости синапса, сделав электролиз невозможным, например удалив электролит. Скорость роста проводимости зависит также от размеров ванны электролита, точнее говоря, от соотношения её длины  и высоты h. Если обозначить через х длину гальванизированного участка резисторной пластины, то, чем больше будет соотношение  x h , тем выше скорость роста проводимости синапса. Значит, с увеличением размеров гальванизированного участка скорость будет снижаться, и это можно расценивать как положительный момент, так как в результате будет отодвинуто во времени короткое замыкание электродов. Подбирая параметры синапса и электролиза, можно добиваться желаемого результата в обучении. Электрохимический синапс удобен тем, что позволяет легко решить задачу воздействия обучателя на процесс обучения. Для этого достаточно в электрическую схему обучаемой системы управления включить дополнительно регулируемые резисторы, выполняющие функции стимуляторов прямого и обратного ходов (рис.1.11). На объекте обучения эти резисторы можно расположить так, что обучатель, подталкивая объект в нужном направлении, будет воздействовать на соответствующий из них. Резисторы-стимуляторы могут быть выполнены в виде силарезисторов, и тогда стимуляция прямого и обратного ходов будет зависеть от усилия нажатия на эти силарезисторы. Поясним сказанное примером. Пусть в качестве объекта обучения будет робот с обучаемой системой управления, имеющий зрение, то есть тот, который мы рассматривали ранее. Робот имеет три привода, обеспечивающих перемещение схвата вдоль, поперёк и вращающих его вокруг своей оси; глаз установлен на самом схвате. Для управления тремя указанными приводами в мозгу обучаемой системы управления выделены три пары мотонейронов; каждый мотонейрон имеет свой силарезистор-стимулятор. Не трудно предположить, на какие точки руки робота будет воздействовать обучатель, подталкивая его в нужном направлении; в эти точки и следует поместить соответствующие силарезисторы. Рис.1.11. Фрагмент электрической схемы обучаемой системы управления с аналоговыми стимуляторами прямого и обратного ходов Пусть перед обучателем стоит прежняя задача обучить робот находить на платформе заданный предмет, зрительно выделяющийся на общем фоне. В данном случае обучение можно вести пассивно и в динамике, то есть в движении без составления обучаемой выборки из ситуаций обучения. Стратегия обучения та же: схват робота с глазом смещается постоянно вдоль платформы, а при попадании в его поле зрения искомого предмета смещается поперёк до совмещения с ним центра поля зрения; одновременно схват с глазом поворачивается вокруг своей оси до произвольно заданной ориентации предмета в поле зрения. Обучение ведётся следующим образом. Так как в исходном состоянии проводимости всех синапсов мозга малы и одинаковы (обучение начинается с нуля), то робот в первый момент будет недвижим. Для того, чтобы заставить его двигаться вдоль платформы, обучатель должен подтолкнуть схват в нужном направлении, нажимая на силарезистор-стимулятор прямого хода перемещения вдоль. Электрическое сопротивление в цепи плюс-мотонейрона этого привода уменьшится; разности потенциалов на всех синапсах данного мотонейрона увеличатся; увеличатся соответственно токи через них. Этого достаточно для того, чтобы увеличились проводимости всех синапсов; увеличение это у каждого синапса — своё, пропорциональное своему току, зависящему от возбуждения соответствующего рецептора. Ток плюсмотонейрона продольного привода увеличится, и схват начнёт смещаться вдоль платформы. Естественной реакцией обучателя на движение робота будет прекращение давления на схват. При попадании искомого предмета в поле зрения глаза робота обучатель должен воздействовать сразу на все три привода с тем, чтобы притормозить продольный привод, заставить поперечный привод двигать схват в сторону предмета и заставить привод поворота поворачивать схват в ту или иную сторону до желаемой ориентации предмета в поле зрения. Если схват оборудован специальным рычажным устройством, позволяющим одновременно воздействовать на силарезисторы всех приводов, то особых затруднений в действиях обучателя не возникнет: они по-прежнему будут подталкивающими. Одновременное воздействие на силарезисторы, стимулирующие обратный ход продольного привода и необходимые, допустим — прямые, ходы поперечного привода и привода поворота, приведёт к тому, что увеличатся проводимости синапсов соответствующих мотонейронов и, как следствие, уменьшится скорость продольного перемещения и появится движение поперёк и вращение схвата. Как только схват приблизится к искомому предмету и повернётся до необходимого положения, обучатель должен остановить схват; останавливая, он надавит на силарезисторы обратных ходов всех трёх приводов, и таким образом увеличит отрицательные составляющие их сигналов управления. Сила нажатия, разумеется, должна быть такой, чтобы схват остановился; в противном случае воздействие будет продолжаться. После успешного завершения первого акта обучения у робота появятся первые признаки навыка поиска: он уже начнёт как-то двигаться. В дальнейшую задачу обучателя будет входить поправлять движения робота. Очевидно, в процесс обучения должны быть включены самые разнообразные ситуации: с различным расположением искомого предмета, с различными скоростями движения и т.п. Повторяя и повторяя обучение поиску, можно добиться того, что робот усвоит навыки находить заданный свободно ориентированный и расположенный в любом месте платформы предмет. К недостаткам электрохимического синапса можно отнести относительно большие его размеры и то, что он может только наращивать свою проводимость. Последний недостаток может быть устранён, если изменить конструкцию самого синапса, сделав катод, например, графитовым, и тогда электролиз в одном направлении приведёт к уменьшению зазора между электродами, а в обратном направлении — к увеличению. Можно предложить также вместо постоянного тока питания рецепторов и мозга использовать переменный; при одинаковых токах с разным направлением электролиз, очевидно, происходить не будет, и проводимости синапсов сохранятся неизменными. Если теперь увеличить ток в одном каком-то направлении (благодаря, например, установленному в цепи силарезистора диоду), то возникающий при этом электролиз может приводить к уменьшению омического электронного сопротивления синапса, а увеличение тока в обратном направлении — к возрастанию сопротивления. Другим типом саморегулируемого синапса является синапс с токопроводящей средой в виде органической плёнки. В исходном состоянии такая плёнка имеет высокое омическое сопротивление и может рассматриваться как диэлектрик. Если предварительно пробить плёнку высоковольтным, но маломощным импульсом, то в ней в результате пробоя, то есть выплавления и выгорания диэлектрических смол, образуется тонкий токопроводящий угольный шнур. В дальнейшем под воздействием проходящего по шнуру тока сечение шнура будет увеличиваться за счёт ещё большего выплавления и выгорания смол, и сопротивление его будет уменьшаться. Это и есть процесс саморегулирования синапса; увеличенная проводимость шнура может сохраняться как угодно долго. Переход на новый более высокий уровень проводимости возможен только в том случае, если увеличится возбуждение соответствующего рецептора (уменьшится его сопротивление) или будет более сильное воздействие обучателя на соответствующий мотонейрон мозга. Отсюда следует такой вывод, что слабые токи синапса не способны увеличить его проводимость, если она была перед этим уже большой. Получается так, что только сильно возбуждённые рецепторы будут способны дообучать свои синапсы, а слабо возбуждённые — не смогут. Чтобы как-то выровнять обучаемость тех и других синапсов, можно предложить вместо аналогового регулирования их проводимостей (схема аналогового регулирования изображена на рис. 1.11) импульсное. Электрическая схема высотно-импульсного регулирования проводимостей синапсов представлена на рис. 1.12. Рис. 1.12. Фрагмент электрической схемы обучаемой системы управления с высотно-импульсным регулированием проводимостей синапсов Она включает двухступенчатый источник питания, прерыватель тока и двусторонний силарезисторстимулятор прямого и обратного ходов. В рабочем режиме по всем электрическим цепям будут идти маломощные, определяемые первой ступенью питания, аналоговые по форме токи, не способные изменить проводимости синапсов. Импульсы, идущие от второй ступени источника питания, будут подавлены большим исходным сопротивлением силарезистора. И только при воздействии обучателя на этот силарезистор, то есть в момент обучения, на один из парных мотонейронов будут поданы чувствительные импульсы тока, способные наращивать проводимости синапсов; чем сильнее воздействие обучателя, тем более мощными будут импульсы обучения. Кроме высотно-импульсного регулирования проводимостей синапсов могут быть еще широтно-импульсное и частотно-импульсное. Все импульсные методы улучшают обучаемость синапсов, но не на столько, чтобы реализовать их самообучение на всём диапазоне предварительной проводимости. Во многом схожи с рассмотренными синапсы, в качестве токопроводящей среды которых используются аморфные полупроводники —халькогенидные стекла. В аморфном состоянии халькогенидное стекло является диэлектриком, но достаточно пропустить через него электрический импульс определённой мощности, как возникает электрический пробой, переводящий стекло из аморфного состояния в кристаллическое, электрическая проводимость которого выше аморфного. Пробой создаёт токопроводящий шнур, сечение которого зависит от мощности импульса; при повторной подаче импульса сечение шнура увеличивается и электрическое сопротивление его уменьшается. Такое свойство стекла позволяет увеличивать проводимость синапса многократно. Средние параметры импульсов обучения для некоторых стекол таковы: напряжение 25 В, ток 5 мА, длительность 10 мс. Возможен и обратный процесс — разрушение токопроводящего шнура, если на синапс подать импульс тока значительно большей мощности: напряжение свыше 25 В, ток 100 мА, — но более короткий по времени: длительность 5 мс. При этом кристаллическое стекло снова переходит в аморфное состояние и электрическое сопротивление резко возрастает. Электрическая схема обучаемой системы управления с частотно-импульсным регулированием проводимостей синапсов, представленная на рис. 1.13, включает частотно-импульсные преобразователи (ЧИП), установленные в цепь каждого рецептора и переводящие аналоговые сигналы в импульсы постоянной величины, но переменной частоты: чем белые аналоговый сигнал, тем выше частота импульсов. Если параметры импульсов укладываются в пределы параметров импульсов обучения, то, стимулируя тот или иной мотонейрон, можно повышать частоту какого рецептора и тем самым ускорять рост проводимостей соответствующих синапсов. На время работы, когда желательно сохранять проводимости неизменными, частотно-импульсные преобразователи можно либо переводить на режим заниженных импульсов, не способных вызывать обучение синапсов, либо отключать совсем. Рис. 1.13. Фрагмент электрической схемы частотно-импульсной обучаемой системы управления Тот недостаток аморфных полупроводников, который выражается в нестабильности прироста их проводимостей при прохождении одинаковых импульсов и который мешает внедрению этих полупроводников в дискретную вычислительную технику, практически безвреден в обучаемых системах управления: в конце концов о реакции объекта на обучение обучатель судит не по росту проводимостей синапсов, а по внешнему поведению объекта. Не столь опасны в техническом мозге и так называемые флуктуации полупроводников, то есть самопроизвольный рост проводимостей в отдельных синапсах: такие флуктуации носят случайный характер и, согласно теории вероятности, распределяются по плюс- и минусмотонейронам равномерно, не приводя в общем случае к изменениям сигналов управления. К несомненным достоинствам халькогенидных синапсов относятся их простота, малые габариты и относительная дешевизна. В качестве синапсов, кроме рассмотренных элементов — электрохимических, органических плёночных и стеклянных халькогенидных — могут применяться гальваномагнитные устройства, приборы с зарядовой связью и другие. Всех их объединяет одна особенность — саморегулирование, — и всем им соответствует математическая модель обучения (1.12 ) ...(1.16 ). Оптический мозг. Обучаемые системы могут быть не только электрическими, но и другими, и тогда технический мозг оказывается также неэлектрическим. Рассмотрим оптическую обучаемую систему с оптическим мозгом (рис. 1.14) /1.26/. Система имеет два оптических канала: плюс- и минус-; в каждом канале установлены: объектив с оптикой, диафрагмой и затвором, диапозитив и фотоэлектрический экран. Электрические сигналы, снимаемые с обоих экранов, сравниваются на усилителе, и выход усилителя является выходом системы на один исполнительный орган. Рис. 1.14. Оптическая обучаемая система управления Мозг системы состоит из двух диапозитивов; плюс-диапозитив, находящийся в оптическом плюс-канале, можно приравнять к набору синапсов плюс-мотонейрона электрической системы, а минус-диапозитив, установленный в оптическом минус-канале, можно приравнять к набору синапсов минус-мотонейрона той же электрической системы. Рисунки диапозитивов формируются в процессе обучения путём наложения видимых техническим глазом изображений одного на другое, поэтому они носят в общем абстрактный характер. Работает система следующим образом. Объективы обоих оптических каналов направляют на одну и ту же сцену. Световые потоки в каналах, собираемые оптиками, проходят через диапозитивы и попадают на фотоэлектрический экраны, преобразующие свет в электрические сигналы. В результате на фотоэлектрическом экране плюс-канала сформируется плюс-сигнал управления внешнего образа A j на образ плюс-диапозитива C : Aj C E j как произведение Ej , а на фотоэлектрическом экране минус-канала сформируется минус-сигнал управления всё того же внешнего образа A j на образ уже минус-диапозитива Aj C E j как произведение C : Ej . Общий сигнал управления E j определится как разность Ej Ej Ej . При неизменных диапозитивах (после завершения обучения) изменение сигналов управления происходит исключительно под воздействием внешних ситуаций — внешних образов. Теперь посмотрим, как формируются в процессе обучения изображения диапозитивов, и разобьем сам процесс на шаги и циклы; под шагом будем понимать всё то же предъявление очередной ситуации обучаемой выборки, а под циклом — повторное предъявление всех этих ситуаций. Обучение соответствует математической модели (1.12)...(1.16) и алгоритму, заложенному в ней. Обучение — статическое (не в движении), и объясняется это тем, что на каждом шаге обучения требуется выполнять много операций, отнимающих много времени. В качестве примера рассмотрим то же самое обучение робота поиску заданного предмета, которое проводилось ранее, и выберем один из трех приводов робота — привод поперечного перемещения. Обучаемая выборка сохраняется прежней, но для удобства ситуации переставим местами: 1-ая ситуация: предмет находится справа в поле зрения робота, сигнал управления пусть будет E 1 = +10 мВ; 2-ая ситуация: предмет находится слева в поле зрения робота, сигнал управления пусть будет E 2 = -10 мВ; 3-я ситуация: в поле зрения нет предметов, сигнал управления E 3 =0; 4-ая ситуация: искомый предмет находится в центре поля зрения, и он правильно сориентирован, сигнал управления E 4 =0. Для получения диапозитивов потребуется большое количество позитивных фотопластинок на прозрачной подложке одинаковой чувствительности. Обучение: На 1-ом шаге 1-го цикла предъявим 1-ую ситуацию, то есть расположим искомый предмет в правой половине поля зрения оптической системы, и будем добиваться на выходе сигнала, равного +10 мВ. Так как в исходном состоянии диапозитивы абсолютно непрозрачны (обучение начинаем с нуля) и одинаковы, то фактический сигнал управления, очевидно, будет равен нулю. Извлечём плюс-диапозитив (откроем канал) и отрегулируем плюс-диафрагму при открытом затворе так, чтобы на выходе получить требуемый сигнал +10 мВ. Установим на место плюс-диапозитива неэкспонированную позитивную фотопластинку и, не изменяя отрегулированное положение плюс-диафрагмы, проэкспонируем её с помощью плюс-затвора; выдержку во времени можно выбрать первый раз произвольно, но нужно иметь в виду, что наложений изображений одного на другое будет много, поэтому нужно избегать сильной засветки. Проявив экспонированную фотопластинку, получим плюс-диапозитив 2-го шага 1-го цикла; очевидно, на нём будет изображен вид первой ситуации. И сразу же полученное изображение перенесём методом контактного экспонирования на другую такую же позитивную фотопластинку, но не будем её проявлять — получим непроявленную копию первого плюс-диапозитива, которая нужна для того, чтобы можно было наложить на неё на последующих шагах другие корректирующие изображения. Так как время экспонирования диапозитива было произвольным (в дальнейшем по мере накопления опыта оно будет выбираться более точным) , то после его получения потребуется уточнение сигнала управления; для этого диапозитив необходимо установить на своё место и в той же первой ситуации при полностью открытой диафрагме отрегулировать усиление усилителя так, чтобы получить требуемые +10 мВ; в дальнейшем выбранное усиление сохраним постоянным. На этом операции 1-го шага 1-го цикла завершены. На 2-ом шаге предъявим 2-ую ситуацию, то есть расположим искомый предмет в левой половине поля зрения, и будем добиваться на выходе системы получение сигнала, равного уже -10 мВ. Для этого, сохранив плюс-диапозитив на месте, извлечём непрозрачный минус-диапозитив и отрегулируем при открытых затворах минус-диафрагму так, чтобы на выходе усилитея получить требуемый сигнал -10 мВ. Установим на место минус-диапозитива новую неэкспонированную позитивную фотопластинку и, не изменяя отрегулированного положения минус-диафрагмы, проэкспонируем её с помощью минус-затвора с той же самой выдержкой, что была на первом шаге обучения. Проявив экспонированную фотопластинку, получим минусдиапозитив 2-го шага 1-го цикла. И так же, как на 1-ом шаге, полученное изображение перенесём методом контактного экспонирования на новую позитивную фотопластинку, и также не будем её проявлять — получим непроявленную копию первого минус-диапозитива. На З-ем шаге предъявим 3-ю ситуацию, то есть в поле зрения робота не должно быть никаких предметов, и будем добиваться на выходе системы нулевого сигнала. Для этого установим на свои места плюс- и минус-диапозитивы, раскроем полностью диафрагмы, откроем оба затвора и замерим фактический сигнал на выходе из усилителя. Если он окажется отрицательным, то займемся плюс-диапозитивом, а если — положительным, то — минус-диапозитивом. Допустим, фактический сигнал оказался отрицательным, тогда извлечём плюс-диапозитив и отрегулируем плюс-диафрагму так, чтобы на выходе из усилителя получить нулевой сигнал. Установим на место плюс-диапозитива не новую фотопластинку, а непроявленную копию первого плюс-диапозитива и, не изменяя отрегулированного положения плюс-диафрагмы, проэкспонируем её с помощью плюс-затвора с прежней выдержкой. Проявив копию, получим плюс-диапозитив 3-го шага 1го цикла. Снова снимем копию с этого плюс-диапозитива методом контактного экспонирования, и опять оставим её непрявленной. На 4-ом шаге предъявим 4-ую ситуацию: расположим искомый предмет в центре поля зрения робота и сориентируем его определённым образом, — и будем добиваться в этой ситуации нулевого сигнала. Для этого установим на свои места последний плюс-диапозитив и первый минус-диапозитив, раскроем полностью диафрагмы, откроем оба затвора и определим фактический сигнал. Допустим, он окажется больше нуля; значит, нужно усилить сигнал минус-канала системы. Извлечём минус-диапозитив и отрегулируем минус-диафрагму так, чтобы на выходе из усилителя получить нулевой сигнал. Установим на место минус-диапозитива непроявленную копию первого минус-диапозитива и проэкспонируем её. Проявив копию, поучим новый минус-диапозитив. Снимем с него копию без проявления. На этом 1-ый цикл обучения закончен. На 2-ом цикле всё повторяется: предъявляем очередную ситуацию, устанавливаем последние диапозитивы, замеряем фактический сигнал на выходе из усилителя, определяем знак погрешности сигнала управления, — извлекаем соответствующий диапозитив, регулируем диафрагму до получения необходимого сигнала, устанавливаем на место извлечённого диапозитива его непроявленную копию, экспонируем её, проявляем её и снимаем с неё новую копию без проявления. Далее процесс повторяется при предъявлении очередной ситуаций. Завершаем обучение тогда, когда во всех ситуациях получим требуемые сигналы управления с выбранными допустимыми отклонениями. На примере оптической обучаемой системы управления хорошо видно, как формируется мозг системы, то есть как формируются изображения диапозитивов, как вырабатываются законы управления, как принимают участие в управлении каждый луч, попадающий в объектив системы, и каждая точка диапозитивов. Оптическая обучаемая система является хорошей иллюстрацией работы и обучения живого мозга. 7. Сложные системы Технические нервные системы. Нервные системы животных являются, без сомнения, очень сложными системами; о их сложности можно судить по поведению животных: иногда оно приводит нас в восхищение. Достигается это за счёт того, что их нервные системы аккумулировали в себе весь предшествующий опыт Природы: ничто не утрачено из того, что успешно опробовано на простейших живых существах, на более развитых насекомых, на примитивных позвоночных; и всё это дополнено совершенной системой выработки навыков у высокоразвитых животных, не уступающих по ловкости и сноровке самому человеку. Копируя Природу, мы обязаны развить и дополнить обучаемые системы управления до такого состояния, когда они смогут сделать технические объекты похожими по поведению на животных; может быть — не совсем, но — близко к этому. На рис. 1.15 представлена развёрнутая схема технической нервной системы, включающая кроме элементов, характерных только для обучаемая систем, ещё другие. Рассмотрим все их по порядку. Блок блокировок 1 предназначен для ограждения объекта от предельных и нежелательных внешних воздействий. Такими воздействиями могут быть сильные удары извне по корпусу объекта (под объектом будем понимать по-прежнему робот), высокотемпературные касания, громкий или определённый (неприятный) звук, чрезмерно яркое или, наоборот, предельно слабое освещение, отклонение напряжения питания за пределы допустимого и многое другое. Сюда же могут относиться механические поломки объекта и функциональные нарушения системы управления. Этот блок устроен предельно просто; он включает только специальные блокировочные рецепторы, соединённые напрямую с исполнительными органами. Функционально он подобен той части нервных систем животных, которая вырабатывает безусловные рефлексы, то есть рефлексы, заложенные самой Природой и не нуждающиеся в обучении. Рис. 1.15. Техническая нервная система Работает эта часть нервной системы по принципу «стимул-ответ»; каждый её рецептор образует так называемую рефлекторную дугу, замыкающуюся непосредственно на исполнительной мышце и не проходящую через мозг. Поэтому на схеме (рис. 1.15) блок 1 изображен изолированным от всей остальной системы, хотя его питание U может быть совмещено с питанием остальной системы; но выходы блокировочных рецепторов не заходят также в технический мозг 4 и сразу же направляются как мотонейроны А к исполнительным двигателям. Блокировочные рецепторы — специализированы: одни из них реагируют на сильные удары, другие — на высокую температуру, третьи — на критический уровень звука определенной частоты, и так далее; очевидно, разновидностей рецепторов должно быть столько, сколько предусмотрено разнотипных блокировок. Количество блокировочных рецепторов диктуется простой необходимостью: прежде всего они должны располагаться по всему механизму объекта, охватывая те его места, на которые наиболее вероятно воздействие соответствующего предельного или нежелательного фактора; и кроме того должно быть предусмотрено гарантирующее многократное дублирование. Синапсов у блокировочных рецепторов может и не быть, если их возбуждение на выходе окажется достаточным, чтобы включать в работу исполнительные двигатели. В противном случае в качестве синапсов должны использоваться компараторы, как усилители слабых рецепторных сигналов. Компараторы удобны тем, что работают по релейному принципу; именно релейным должно быть срабатывание двигателей: от «неприятного» контакта объект должен уклоняться резко и всегда с одинаковой (наибольшей) скоростью. Относя блокировки к безусловным рефлексам, мы, тем самым, причисляем их к логическим функциям и распространяем на них логические методы формирования законов их функционирования; ничего нового в инженерном плане здесь нет. Если объект почувствовал нежелательный контакт слева, то он должен уклониться вправо; если освещение среды снизилось до критического уровня, то должна сработать блокировка, выключающая объект из работы, и так далее. Тем самым определяются связи блокировочных рецепторов с исполнительными двигателями, учитывающие тип блокировки, расположение рецепторов и конкретные двигатели, которые должны обеспечить необходимые действия объекта. К блокировкам необходимо отнести и такую функцию системы, как реагирование объекта на касание при обучении подталкиванием («вождением за руку»); рецепторы касания должны напрямую воздействовать на стимуляторы прямого и обратного действия, встроенные в блок обучения 5; и количество этих рецепторов, и их расположение на объекте должны быть логически согласованы с воздействием на конкретные столбцовые шины мозга 4. Для того, чтобы заставить, например, объект смещаться, влево, обучатель, очевидно, должен подтолкнуть его справа; там, стало быть, и должны располагаться те рецепторы касания, которые должны воздействовать на стимулятор прямого хода привода смещения объекта влево или на стимулятор обратного хода привода вправо (при условии, что приводы — двустороннего действия), или на оба эти стимулятора одновременно. Стимулятор прямого хода привода смещения объекта влево, очевидно, должен быть связан с плюс-столбцом той столбцовой пары мозга, которая управляет указанным приводом, а стимулятор обратного хода привода смещения влево — с минусстолбцом пары этого последнего привода. Мы можем здесь не уточнять, каков механизм действия стимуляторов; он полностью зависит от типа синапсов мозга. Если синапсы — электрохимические, то стимуляторы могут представлять собой регулируемые резисторы, замыкающие выходы от столбцовых шин мозга на массу (на другой полюс источника питания) через диоды; именно такой случай изображен на схеме рис.1.15. Односторонняя направленность дополнительного тока, пропускаемого через стимулятор, будет способствовать изменению проводимости всех синапсов, связанных с соответствующей столбцовой шиной мозга. Всё остальное в технической нервной системе (рис.1.15) так или иначе связано с обучением. Структура обучаемой системы управления рассматривалась выше; на рис. 1.15 она представлена более усложнённой. Начнём с очувствления системы, то есть с блока 2. Оно, очевидно, в первую очередь должно включать зрение. Технический глаз представляет собой фотоэлектрическое устройство, конструктивно похожее на живой глаз. В нём должны присутствовать оптика, собирающая изображение обозреваемой сцены, и сетчатка из фоторецепторов. Оптика (или объектив) должна иметь механизм диафрагмирования, механизм наведения на резкость и механизм сведения глаз (если их двое). Механизм диафрагмирования в общем случае не является обучаемым и может быть причислен по этой причине к блокировочным. Существующее устройство диафрагмирования, применяемое в фотоаппаратах, может быть использовано в технических глазах обучаемых систем без всяких изменений. Сложнее обстоит дело с разработкой механизма наведения на резкость; он может выполняться в двух вариантах. По первому — в основу кладется нелинейная рабочая характеристика фотоэлементов специального экрана, на который проецируется видимое изображение тем же объективом. Регулирование осуществляется по минимуму производимого этим экраном электрического тока. Этот вариант, как видим, не связан с процессом обучения. Более интересным для нас является второй вариант — с обучением; точнее говоря, с особым обучением, или даже — с особым самообучением. Подробно этот вариант будет рассмотрен в следующих главах, а сейчас отметим лишь, что таким же образом регулируется сведение двух глаз на одну точку общего внимания. На схеме (рис. 1.15) управление аккомодацией (так называется автоматическое наведение на резкость) и сведение глаз выделено в отдельный блок 3 с выходами сигналов управления В. Это сделано по той причине, что синапсы блока 3 принципиально отличаются от обычных синапсов мозга (блок 2). Их особенностью является то, что они обучаются, то есть изменяют свою проводимость, с некоторым кратковременным запаздыванием и на очень короткое время; поэтому их обученность всегда соответствует, так сказать, предыдущей ситуации, а воздействие на них осуществляется текущей ситуацией; такое наложение приводит к выработке требуемых сигналов управления как по величине, так и по знаку. Указанная особенность синапсов отражена на схеме (блок 3 рис.1.15) условным обозначением в виде гистерезисных петель саморегулирования. Предполагаем, что таким же образом регулируются живые глаза; поэтому управлений ими также вынесено из общей коры головного мозга и рассосредоточено в голове в разных точках, в то время как зрительная информация самих глаз вся проходит через кору головного мозга, через так называемую стриарную кору, занимающую по площади большую часть мозга в затылочной области. Изучая механизм сведения глаз, нейрофизиологи обнаружили, что рецепторы одного глаза сблокированы с рецепторами другого /1.41/. Уточним: в мозгу имеются такие клетки (их называют бинокулярными), которые связаны как с фоторецепторами одного глаза, так и другого; причём эти фоторецепторы занимают вполне определённые согласованные между собой положения на сетчатках; именно они и связанные с ними клетки мозга ответственны за сведение глаз. Но не все фоторецепторы глаз сблокированы; часть из них сохраняют свою независимость. Очевидно, для того, чтобы реализовать автоматическое сведение глаз технической системы, необходимо обеспечить такое же согласованнее расположение фоторецепторов обоих глаз, какое наблюдается у живых. Этот вывод противоречит тому, что говорилось нами выше в отношении расположения рецепторов в обучаемых системах. Мы утверждали, что рецепторы независимы и могут быть переставлены до начала обучения в произвольном порядке. Теперь мы вынуждены уточнить: прежнее наше утверждение справедливо только в отношении одного глаза. Если же система имеет два глаза, то, по крайней мере, часть рецепторов должна располагаться строго определенно и в строгом соответствии в одной и другой сетчатках. Кроме аккомодации и сведения глаз в технической нервной системе может быть предусмотрено управление поворотом глаз вправо-влево и вверх-вниз. Эти движения в живой природе не являются врожденными, и осваиваются в результате обучения. Действуя по аналогии, можно предложить в технических системах точно такое же решение: управлять поворотом глаз с помощью основного мозга, выделенного на схеме (рис. 1.15) в виде блока 4, то есть использовать для этого часть выходов E . Фоторецепторы глаз выполнены парными; каждая такая пара включает рецептор света с фоточувствительным элементом и рецептор темноты в виде параллельно установленного постоянного резистора. Цель парности рецепторов уже объяснялась: такое решение позволяет глазу выделять как светлое на тёмном, так и тёмное на светлом. Между прочим, другие виды рецепторов системы очувствления в подобной парности не нуждаются; техническая кожа, например, может чувствовать прикосновение, но неприкосновение она не выделяет (также ведёт себя и живая кожа). Из других видов рецепторов блока очувствления 2 можно упомянуть те же рецепторы касания, рецепторы давления, температурные рецепторы холода и тепла и многие другие; ограничений в этом плане никаких нет; даже наоборот, чем больше видов, тем лучше во всех отношениях. Кроме тех рецепторов, которые являются аналогами живых, в техническую нервную систему могут быть введены сугубо технические: рецепторы электрического тока и напряжения, магнитные рецепторы, радиационные и другие. Как и у животных, рецепторы могут быть объединены по органам чувств, таким как зрение, слух, осязание, мышечное чувство, чувство равновесия и даже обоняние. Технические решения могут копировать живые органы. Мозг 4 описан выше и ничем особенным в сложных системах не выделяется. Синапсы мозга в общем случае — саморегулируемые, и можно выбрать такой их тип и такой режим их обучения, что в процессе нормальной работы навыки будут постоянно закрепляться; и аморфные полупроводники в качестве синапсов, и электрохимические синапсы позволяют это сделать без особого труда. Можно также реализовать забывание редко совершаемых действий. Всё это соответствует аналогичным явлениям в живых нервных системах и способствует совершенствованию технических систем. Размерность мозга определяется в общем случае двумя величинами: количеством строчных шин, равным количеству рецепторов, и количеством пар столбцовых шин, равным количеству исполнительных органов, — и эти величины, казалось бы, очень конкретны. Однако, возникает ряд соображений, вносящий существенные коррективы в эти подсчёты. Так, один рецептор может быть подсоединён не к одной, а к нескольким строчным шинам, и, наоборот, несколько рецепторов — к одной шине. Первый случай позволяет повысить надёжность мозга: при появлении в нём дефектов вероятность того, что информация от любого рецептора всё же сохранится, будет увеличена. А если таким же образом разветвляются столбцовые шины мозга, то надёжность окажется ещё выше. Второй случай, когда несколько рецепторов подсоединяются к одной строчной шине мозга, повышает, во-первых, надёжность очувствления; во-вторых, делает его более тоновым, то есть размытым, что способствует выделению мелких внешних воздействии и сглаживанию очень мелких; и, наконец, решает проблему питания столбцовых шин; последнее поясним. Ток, проходящий через рецептор, распределяется по всем столбцовым шинам мозга, и его может не хватить на это; по крайней мере, больше всего тока достанется той столбцовой шине, чей синапс имеет наибольшую проводимость, и может не хватить какой-то другой. Подключение к одной шине нескольких рецепторов практически может снять указанную проблему. Подобное явление наблюдается, естественно, и в живом мозге. Вспомним, хотя бы, как несколько фоторецепторов глаза подсоединяются к одной ганглиозной клетке, в среднем — приблизительно 125. Зачем это сделано? Возможно, для того, чтобы суммировать возбуждения объединённых рецепторов и тем самым обеспечить все столбцы мозга необходимой информационной энергией. А может быть, как мы предположили ранее, ганглиозная клетка просто объединяет все рецепторы для удобства в один пучок, не суфлируя их возбуждения, но в мозгу каждый отдельный рецептор соединяется с одним каким-то отдельным столбцом и не более, что приводит к тому же самому результату. Если это так, то можно косвенно определить общее количество столбцов мозга: оно приблизительно должно быть равным максимальному количеству фоторецепторов, объединённых одной ганглиозной клеткой, то есть — нескольким сотням; столькими исполнительными органами управляет наш мозг; сюда входят не только мышцы, но и управляемые железы. Что же касается мышц, то напомним, что каждая из них состоит из нескольких отдельных пучков волокон с несколькими независимыми мотонейронами; такая параллельность повышает надёжность в работе мыши и благотворно влияет на процессы регулирования. На схеме технической нервной системы (рис.1.15) выделен ещё один блок 6, который обеспечивает очувствление питанием, и который может перераспределять это питание по группам рецепторов; назовем его блоком переключения внимания системы; такое название отвечает его сути. Он состоит из ряда переключателей, соединяющих источник питания с отдельными группами рецепторов; шины, питающие эти группы, соединены между собой через резисторы, и поэтому подключение к источнику питания одной шины означает одновременно некоторое повышение напряжения питания соседних шин. Деление всего очувствления по группам рецепторов может выполняться различными способами: по видам очувствления (зрение, слух, осязание), по сторонам очувствления (спереди, сбоку, сверху) или даже произвольно. Управление одной частью переключателей блока 6 осуществляется извне; на схеме (рис.1.15) внешнее управление показано в виде входов С; это может быть ручное переключение или воздействие внешних систем, работающих в едином комплексе с нашим объектом. Управление другой частью переключателей осуществляется основным мозгом (блоком 4): выходы отдельной группы столбцовых пар мозга используются для. соответствующих коммутаций. Использование мозга в этих целях говорит о том, что переключение внимания системы, то есть выделение повышенным питанием отдельных групп рецепторов, является результатом обучения. Переключение внимания позволяет системе переходить от выполнения одной задачи к другой; при этом решается еще одна задача: изменение сигналов управления в одной и той же ситуации. На этом основании блок переключения внимания 6 можно считать командным блоком. Напряжение на него подаётся от источника шатания U через дополнительный блок 7, осуществляющий общее регулирование напряжения питания. Управляться блок 7 может как путём внешнего воздействия, так и от основного мозга; в последнем случае реализуется обучение. В функциональном смысле блок 7 определяет эмоциональный настрой системы управления: чем больше напряжение питания, тем активнее действия объекта, то есть его состояние становится более возбуждённым; и наоборот, понижение напряжения питания повлечёт за собой замедление в действиях объекта, то есть снижение его тонуса. И блок 6, и блок 7 имеют аналогию в нервных системах животных и человека: блоку 6 соответствует мимическая мускулатура, а блок 7 выражается в эмоциях. Рассмотренная техническая нервная система, схема которой представлена на рис.1.15, является сложной системой и всё же не отражает всего того, что может в неё входить при подробном копировании нервных систем животных. В частности, основной мозг (блок 4) выполнен в виде простой матрицы и не разделяется на составные части, а живой мозг, как известно, делится, по крайней мере, на правую и левую половины со сложными перекрёстными соединениями, смысл которых, к сожалению, до настоящего времени не совсем ясен. Обучаемые экспертные системы. Экспертные системы, как известно, призваны выполнять функции советчика специалиста; это, своего рода, — электронная версия профессиональных справочников. Строятся они, как правило, по информационно-поисковому принципу: самые простые представляют собой специализированную базу данных с удобной системой пользования; более сложные способны интерпретировать хранящуюся в памяти документальную информацию по определённым алгоритмам. Возможен также стохастический вариант экспертных систем, согласно второму решения (советы) принимаются ими с учётом вероятностного фактора. Основной особенностью информационно-поисковых экспертных систем является наличие базы данных, и чем она больше, тем совершеннее система. Но возможен иной принцип работы экспертных систем — принцип, позаимствованный у обучаемых систем управления и основанный на интуитивности. В этих системах база данных и алгоритм её обработки заменяются навыками принятия решений, вырабатываемыми в процессе обучения, то есть блок памяти компьютера с процессорной частью заменяется мозгом. Интуитивные экспертные системы обладают всеми особенностями обучаемых систем, и самой главной из них является, пожалуй, живой опыт: обученные однажды системы могут неограниченно дообучаться в процессе работы или даже переобучаться; все прочие особенности нам хорошо известны. В отличие от обычных информационно-поисковых экспертных систем, документально запоминающих буквенно-цифровую и графическую информации, обучаемые системы требуют иной формы представления входной информации. Так, аналоговые экспертные системы работают исключительно с рецепторами, а системы в компьютерном исполнении — с числами, причём эти числа выступают в роли размерных признаков и не имеют никакого физического эквивалента; каждое такое число кроме своей величины имеет ещё свой порядковый номер. Примером рецепторной экспертной системы может быть «обучаемый советчик врача», предназначенный для диагностирования больных. Вся текущая информация с больного снимается с помощью датчиков-рецепторов, а информация из истории болезни — с помощью специальных рецепторов типа клавиатуры. Вся входящая информация проходит через обученный мозг, и на выходе системы формируются сигналы, которые могут бытъ представлены в любой удобочитаемой форме. Примером экспертной системы в компьютерном исполнении может быть «обучаемый советчик технолога», который может, в частности, выдавать рекомендации по режимам резания с учётом усилий резания, подачи и глубины резания, вибрации, характерных звуков, вида снимаемой стружки и так далее; и вся эта информация представляется в числовой форме, то есть в кодированном виде. Кодирование, разумеется, можно поручить самому компьютеру, а от человека требуется лишь давать ответы в удобной для него форме на вопросы компьютера. Далее каждое число входной информации перемножается на соответствующий весовой коэффициент, полученный в результате обучения, и хранящийся в памяти машины; сумма этих произведений дает число, являющееся, в свою очередь, кодом рекомендуемого решения. Если предусмотреть не один ряд весовых коэффициентов, а несколько (в аналоговой системе этому соответствуют несколько столбцовых пар мозга), то на выходе экспертной системы окажутся несколько чисел, в комбинациях которых могут быть закодированы сложные словесно-числовые советы или решения. Числовые абстрагированные признаки входной информации могут быть двоичными в виде нуля и единицы, или размерными в виде любых чисел. В случае применения размерных чисел нужно учесть то обстоятельство, что влияние на выдаваемое решение окажут в большей степени те признаки-числа, чьи величины больше, и в меньшей степени — малые числа, а признаки, обозначенные нулём, вообще никак не повлияют на решение. Чтобы устранить указанный недостаток, можно порекомендовать ввести парность признаков наподобие парности фоторецепторов глаза. Если, допустим, какой-то признак представлен числом b , то следует ввести ещё один парный ему признак с величиной b b max b и так — для какого признака. Их количество при этом увеличится вдвое, но эффект от такого удвоения очевиден. Заниженное влияние малоразмерных признаков будет компенсировано их парными признаками. Подобная парность хороша ещё тем, что позволяет различать нулевой признак и отсутствующий: если у нулевого его парный признак равен максимальному значению, то у отсутствующего он равен также нулю. В заключение отметим, что обучаемые экспертные системы могут быть использованы на производстве, в банковском деле, в метеорологии, в медицине и во многих других областях. Примеры и задачи Пример 1.1. Распознавание зрительных образов. Исходные данные: На сетчатку глаза, представляющую собой квадрат, разбитый на 25=5х5 равных рецепторных участков, проецируются изображения цифр (рис.1.16). Каждому изображению соответствуют свои возбуждения рецепторов, помеченные числами внутри рецепторных клеточек. В результате обучения с точностью = 0,1 получены следующие проводимости синапсов (весовые коэффициенты): 0,0078641; 0,0304820; 0,0000000; 0,0162155; 0,0079032; 0,0029420; 0,0226055; 0,0416798; 0,0138584; 0,0332139; 0,0066589; 0,0422603; 0,0580597; -0,0082568; 0,0325569; 0,0134413; 0,0358722; 0,0689383; 0,0725336; 0,0244139; 0,0000000; 0,0000000; 0,0000000; 0,0014617; 0,0014617. Расположение проводимостей синапсов соответствует расположению рецепторных участков на сетчатке. Рис.1.16. Сетчатка с изображениями цифр Требуется: Проверить правильность обучения и чувствительность к ошибкам при вводе данных. Выполнение: Фактические результаты распознавания, определяемые выражением (1.2), будут равны: (1а)=0х0,0078641+1х0,0029420+...+0х0,0014617=1,0000786; (16)=0х0,0078641+0х0,0029420+...+0х0,0014617=1,0000787; (2а)=0х0,0078641+9х0,0029420+...+0х0,0014617=1,9999968; (2б)-1х0,0078641+5х0,0029420+...+3.х0,0014617=2,0000268; (3а)=0х0,0078641+7х0,0029420+...+0х0,0014617=3,0000568; (3б)=0х0,0078641+2х0,0029420+...+0х0,0014617=3,0000362. Погрешность распознавания не превышает допустимое отклонение =0,1. Допустим, что при вводе данных возникают некоторые ошибки, и требуется оценить их влияние на результат распознавания. Пусть искажено на единицу в большую сторону возбуждение рецептора, расположенного на пересечении З-ей строки и 2-го столбца сетчатки при проецировании на неё цифры 26. Определив фактический результат распознавания по тому же выражению (1.2): E (2б)=2,0417066, — и сравнив его с полученным выше результатом E (26), получим погрешность E =0,0416798, что составляет 2 % от E (26). Пример 1.2. Обучение принятию решений в двух ситуациях. Таблица 1.1. Возбуждения рецепторов Ситуации А В Исходные данные Требуемые Допустимые погрешности Ej j b1 b2 b3 b4 1 2 2 1 1 2 2 1 1 2 0,1 0,1 Исходные проводимости синапсов равны нулю: c1 0 c2 0 c3 0 c4 0 0 . Требуется: Вычислить проводимости синапсов c методом расчётного обучения по алгоритму (1.12)...(1.16). Выполнение: Цикл 1-ый, шаг 1-ый. Предъявляем А-ситуацию. Вычисляем по формуле (1.12) численное значение фактического решения: E 0, A =1х0+2х0+1х0+2х0. По формуле (1.1З) определяем погрешность численного значения решения: E 0, A =1-0=1. Проверяем условие (1.14): E 0, A . Формула (1.15) позволяет определить поправки проводимостей синапсов: c1 A c3 A 1 1 0,1 ; 10 1 1 0,1 ; 10 c2 A c4 A 1 2 10 1 2 10 0,2 ; 0,2 . И, наконец, по формуле (1.16) вычисляем сами проводимости синапсов: c1 A =0+0,1=0,1; c 2 A =0+0,2=0,2; c 2 A =0+0,1=0,1; c 4 A =0+0,2=0,2. Очевидно: c1 c3 ; c2 c 4 ; c1 c 3 ; Шаг 2-ой. Предъявим B-ситуацию. Численное значение фактического решения: c2 c4 . E A, B =2х0,1+1х0,2+2х0,1+1х0,2=0,8. Погрешность: E A, B =2-0,8=1,2. Условие: 1,2>0,1. Поправки: Проводимости: c1 AB c 3 AB 1,2 10 2 0,24 ; c 2 AB c 4 AB 1,2 10 1 0,12 . c1 AB c 2 AB c 3 AB c 4 AB 0,1 0,24 0,34 ; 0,2 0,12 0,32 . Цикл 2-ой, шаг 1-ый. Предъявим А-ситуацию. E AB, A =1х0,34+2х0,32+1х0,34+2х0,32=1,96; E AB, A =1-1,96= -0,96; c1 ABA = c 3 ABA =(-0,96/10)х1= -0,096; c 2 ABA = c 4 ABA =(-0,96/10)х2= -0,192; c1 ABA = c3 ABA =0,34-0,096=0,244; c 2 ABA = c 4 ABA =0,32-0,192=0,128. Обучение продолжаем до тех пор, пока абсолютное значение погрешностей окажется меньше допустимых отклонений A и B. E j в обеих ситуациях не Результаты обучения сведены в табл. 1.2. Таблица 1.2. Цикл 0 1 2 3 4 5 6 7 8 Шаг 0 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 Погрешность Ej 1,0 1,2 -0,96 0,768 -0,6144 0,49152 -0,393216 0,3147024 -0,2515024 0,2313825 -0,1851062 0,1919472 -0,1165364 0,0932290 -0,0376648 0,0184594 Результаты обучения Проводимость синапсов c1 c3 0 0,1 0,34 0,244 0,3976 0,33616 0,434464 0,3951424 0,4580828 0,4329326 0,4792091 0,4421878 0,4805772 0,4689236 0,4875694 c2 c4 0 0,2 0,32 0,128 0,2048 0,08192 0,131072 0,052364 0,0838342 0,0335338 0,0566721 0,0196508 0,0388455 0,0155383 0,0156315 Изобразим в виде графика изменение абсолютных погрешностей изменение проводимостей синапсов по тем же циклам (рис.1.18). E j по циклам обучения (рис.1.17) и Рис. 1.17. Изменение погрешностей численных значений решений в процессе обучения Рис. 1.18. Изменение проводимостей синапсов в процессе обучения Пример.1.3. Принятие решения — выбор токарного автомата. Таблица 1.3. № вар. 1 2 3 4 5 6 7 8 9 Форма прутка Круг Круг Круг Круг 6-гран. 6-гран. 6-гран. 6-гран. 4-гран. Исходные данные Входная информация Решение Диаметр МатеДиаметр Длина выбор прутка, риал резьбы, детали, станка размер мм мм под ключ, мм 12 Сталь 8 60 1Б112 18 Сталь 10 60 1Б118 24 Сталь 18 90 1А124 36 Сталь 22 90 1Б136 9 Цв.мет. 10 60 1Б112 14 Цв.мет. 12 60 1Б118 20 Цв.мет. 22 90 1А124 30 Цв.мет. 27 90 1Б136 7 Сталь 8 60 1Б112 10 11 12 4-гран. 4-гран. 4-гран. 10 17 29 Сталь Сталь Сталь 10 18 22 60 90 90 1Б118 1А124 1Б136 Требуется: представить всю информацию (табл.1.3.) в признаковом виде, рассчитать весовые коэффициенты признаков для следующих номеров вариантов: 3, 4, 7, 8, 11, 12 и получить алгебраическое выражение для принятия решения. Выполнение: Представим выходную информацию в виде двадцати пяти двоичных признаков (0; 1). Для этого сначала обозначим содержание каждого признака (см. табл.1.4.). Табл. 1.4. Содержание признаков Номер Форма Диаметр Материал Диаметр Длина призпрутка прутка, резьбы, детали, нака размер под мм мм ключ, мм 1 Круг 2 6-гранник 3 4-гранник 4 7 5 9 6 10 7 12 8 14 9 17 10 18 11 20 12 24 13 29 14 30 15 36 16 Сталь 17 Цв. мет. 18 8 19 10 20 12 21 18 22 22 23 27 24 до 60 25 до 90 Присвоим станкам следующие коды: Станок Код 1Б112 1 1Б118 2 1А124 3 1Б136 4 Сведем в таблицу 1.5. всю информацию по вариантам №3, 4, 7, 8, 11, 12 в признаковой форме, отмечая наличие признака цифрой 1, а отсутствие — цифрой 0. Табл. 1.5. Наличие признаков по вариантам Приз№ варианта наки 3 4 7 8 11 12 Наличие 1 1 1 0 0 0 0 2 0 0 1 1 0 0 3 0 0 0 0 1 1 4 0 0 0 0 0 0 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 1 И произведём расчётное обучение по алгоритму (1.12)...(1.16), считая признаки — возбуждениями рецепторов, коды станков — принимаемыми решениями, а номера вариантов — ситуациями. В результате обучения получим следующие значения весовых коэффициентов c (построчная последовательность коэффициентов соответствует нумерации рецепторов): 0,4726935; 0,5294120; 0,4726854; 0,0000000; 0,0000000; 0,0000000; 0,0000010; 0,0000000; 0,0357079; 0,0000000; -0,2037814; 0,0357226; 0,4369774; 0,7331934; 0,4369708; 0,9453789; 0,5294120; 0,0000000; 0,0000000; 0,0000000; 0,0714306; 0,6701868; 0,7331934; 0,0000000; 1,4747913. Таким образом, получена зависимость принимаемых решений от признаков ситуаций (выражение для выбора токарного автомата) в виде: E f =0,4726935 b 1 j +0,5294120 b 2 j +...+1,4747913 b 25 j , где b j — признаки. Если теперь в полученное выражение подставить значения признаков одного из учтенных вариантов, то получим численное значение соответствующего принимаемого решения, то есть код станка. Например, требуется выбрать токарный автомат для изготовления детали с диаметром резьбы не более 22 мм и длиною не более 90 мм из шестигранника цветного металла с размером под ключ не более 20 мм (вариант 7). Подставляя эту исходную информацию в полученное выражение в виде двоичных признаков в последовательности, определяемой табл. 1.5, будем иметь E 7 =0,4726935-0 + 0,5294120 1+...+1,4747913 1=3,0. Полученное численное значение кода 3,0 соответствует выбору токарного автомата 1А124. Для варианта №4 (табл. 1.5), которому соответствует деталь с теми же размерами, но изготовленная из круглого стального прутка диаметром 36 мм, получим: E 4 =0,4726935 1 + 0,5294120 0+...+1,4747913 1=4,0. Полученное численное значение кода соответствует выбору токарного автомата 1Б136. Задача 1.1 Расчётное обучение в трёх ситуациях. Таблица 1.6. СитуаЦии А В С Исходные данные Сигнал Допуст. погреш. Возбуждения рецепторов b1 b 2 b 3 b 4 b 5 b 6 b 7 b 8 b 9 Ej 3 2 1 1 2 3 2 1 3 3 2 1 2 1 3 1 3 3 2 1 3 3 2 1 2 1 3 3 2 1 j 0,1 0,1 0,1 Исходные проводимости синапсов равны нулю. Требуется: Расчётным обучением вычислить проводимости синапсов. Задача 1.2. Обучение робота с глазом поиску круглого предмета на сером поле. Исходные данные: Имеются два привода робота продольного (слева — направо) и поперечного (дальше — ближе) перемещений. Обучаемая выборка включает четыре ситуации (рис. 1.19). Численный индекс требуемых сигналов управления Е и скоростей V обозначает номер привода: 1 — продольного, 2 — поперечного. Требуется: 1. Провести расчётное обучение обоих приводов и определить проводимости синапсов 1-го и 2-го приводов. 2. Приняв за опорную — ситуацию D, рассчитать в ней по формуле (1.1) рецепторные доли обоих приводов. 3. Провести расчетный поиск предмета: задавая в качестве исходной — ситуацию B, рассчитать фактические сигналы управления обоих приводов; пропорционально им сдвинуть предмет на некоторое расстояние и повторять эти операции до тех пор, пока приводы робота не остановятся. Задача 1.3. Обучение экспертной системы по выбору токарного автомата. Исходные данные: см. табл.1.3. Требуется: представить всю информацию (табл.1.3.) в признаковом виде, рассчитать весовые коэффициенты признаков для всех вариантов и определить алгебраическое выражение для выбора токарного автомата. Литература 1.1. Павлов И.П. Лекции о работе больших полушарий головного мозга//Полн. собр. тр., М.-Л., 1947. 1.2. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. - М.: Наука, - 1974. 1.3. Райбман Н.С., Чадеев В.М. Построение моделей процессов производства. - М.: Энергия, -1975. 1.4. Антонов В.М., Кавыгин В.В. Рецепторный датчик положения обучаемой системы управления // Авт. св. СССР 1352456, G 05 В 19/08, заявл. 04.11.1985, опубл. 15.11.1987, бюл. №42. 1.5. Антонов В.М. Обучаемые системы управления// Тез. докл. обл. н.-пр. конф. Автоматизация и механизация производственных процессов. 6 дек. 1985 г.- Липецк, 1985.- С.50. 1.6. Антонов В.М., Кавыгин В.В., Буков А.А. Программируемая обучаемая система автоматической диагностики// Приложение 1 отчёта НИР закл. «Исследование работы гидропривода в системах автоматического управления и регулирования широкополосных станов с целью получения исходных данных для проектирования стана 2500», инвент. 1 02870048066/ Липецкий политехн. ин-т, Липецк, 1986. 1.7. Шеперд Г. Нейробиология: В 2-х т. Пер. с англ.- М.: Мир, 1987. 1.8. Антонов В.М., Буков А.А. Обучаемая система управления РТК// Тез. докл. зон. сем. «Состояние, опыт и направление работ по комплексной автоматизации на основе ГАП, РТК и ПР», 20-21 апр. 1987 г.Пенза, 1987. 1.9. Антонов В.М. Обучаемое распознавание по отличительным признакам/ Липецкий политехн. ин-т.Липецк, 1987.- Деп. в ВНИИТЭМР 25.05.87, №252-мш87. 1.10. Антонов В.М. Обучаемое моделирование процессов принятия решений/ Липецкий политехн. ин-т.Липецк, 1987.- Дел. в ВНИИТЭМР 25.05.87, №253-мш87« 1.11. Антонов В.М. Датчик перемещения для обучаемой системы управления//Авт. св. СССР 1788469, G01 Р 3/36, заявл. 08.07.87, опубл. 15.01.93, бюл. №2. 1.12. Антонов В.М., Буков А.А., Губина Л.Ф. Модель робота с обучаемой системой управления// Тез. докл. 17 Всесоюзн. конф./ Автоматизация поискового конструирования и подготовка инженерных кадров, 810 сент. 1987 г.- Волгоград, 1987, т.2, с.149-151, 1.13. Буков А.А., Губина Л.Ф. Обучаемая система управления робота// Тез. докл. межвуз. конф. мол. учёных, 26-27 нояб. 1987.-Липецк, 1987.- с.77. 1.14. Антонов В.М., Буков А.А. Возможности обучаемых систем управления// Тез. докл. обл. н.-пр. конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г.- Липецк, 1987.- С. 46-47. 1.15. Антонов В.М., Буков А.А. Вычислительная модель обучаемой системы управления// Тез. докл. обл. н.-пр. конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г.- Липецк, 1987.- с. 48-49. 1.16. Антонов В.М., Буков А.А. Кризис кибернетики и обучаемые системы управления// Тез. докл. обл. н.-пр. конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г.- Липецк, 1987.- с. 60-61. 1.17. Антонов В.М., Буков А.А. Признаковое представление информации в обучаемых системах управления// тез. докл. обл. н.-про конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г.Липецк, 1987.- С. 62-65. 1.18. Антонов В.М., Буков А.А. Обучение поиску одного предмета среди нескольких// Тез докл, обл. н.пр. конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г.- Липецк, 1987.-С. 66-70. 1.19. Морозова Б.П., Антонов В.М. Обучаемые САПР и экспертные системы// Тез. докл. обл. н.-пр. конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г.-Липецк, 1987.- С. 73-74. 1.20. Антонов В.М., Буков А.А. Обучаемые системы управления// Тез. докл. У11 Всесоюзн. совещ. мол. учёных Современные проблемы автоматического управления, Пущино, 7-11 дек. 1987 г. Москва, 1987.- С. 16. 1.21. Блум Ф., Лейзерсон А., Хофстедтер Л. Мозг, разум и поведение: Пер. с англ..-М.: Мир, 1988. 1.22. Коган А.Б. Основы физиологии высшей нервной деятельности. -М.: Высш. шк., 1988. 1.23. Антонов В.М., Буков А.А. Надёжность обучаемых систем управления// Тез. докл. Всесоюзн. н.-т. конф. Конструктивно-технологические методы повышения надёжности и их стандартизация, 23-25 мая 1988 г.- Тула, 1988.- С. 40, ч. 1. 1.24. Антонов В.М., Буков А.А. Обучаемая диагностика сложного оборудования// Тез. докл. III Всесоюзн. н.-т. конф. Динамика станочных систем гибких автоматизированных производств, 24-26 мая 1988 г.- Тольятти, 1988.- С. 224-226. 1.25. Антонов В.М, Обучаемые нейрокибернетические системы и моделирование// Материалы н. конф. Мвтематичеокое и машинное моделирование, 1988 г.- БПИ, Воронеж, 1988.- С. 33-34, ч.1. 1.26. Антонов В.М., Буков А.А. Обучаемое оптическое устройство управления элементом перемещения//Авт. св. СССР 1647604, G06 К 9/00, заявл. 09.11.88, опубл. 07.05.91, бюл. №17. 1.27. Антонов В.М., Буков А.А. Сборочный робот с обучаемой системой управления// Тез. докл. зон. н.-т. конф. Автоматизация сборки и пути повышения качества цилиндрических и конических соединений, 5-6 дек. 1988 г.- Пенза, 1988.- С. 11-13. 1.28. Антонов В.М., Буков А.А., Морозова В.II. Обучение принятию решений в сложных ситуациях (распознавание образов)// Метод. указ. к лаб. раб. ЛипПИ.- Липецк, 1989. 1.29. Антонов В.М., Буков А.А. Возможности промышленного робота с обучаемой системой технического зрения// Тез. докл. зон. сем. Состояние, опыт и направление работ по комплексной автоматизации на основе ГАП, РТК и ПР, 26-27 окт. 1989 г.- Пенза, 1989.- С. 32-34. 1.30. Антонов В.М,, Буков А.А. Обучаемые системы управления и нейронные сети// Тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 14-15 дек. 1989 г.- Липецк, 1989.- С. 65-66. 1.31. Антонов ВЛ. Нейронные сети и распознавание образов// тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 14-15 дек. 1989 г.Липецк, 1989.- С. 67-68. 1.32. Антонов В.М., Буков А.А., Кавыгин В.В. Робот с обучаемым глазом// Тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 14-15 дек. 1989 г.Липецк, 1989.- С. 69-70. 1.33. Петров И.М., Гузнов А.А., Меньшов О.Б., Лобанев Е.В. Аналоговые элементы памяти на основе ХСП// Тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 1^15 дек. 1989 г.- Липецк, 1989.- С. 77-78. 1.34. Багров Б.М., Антонов В.М., Буков А.А. Как работают обучаемые системы управления// Тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 14-15 дек. 1989 г. - Липецк, 1989. - С. 81-83. 1.35. Антонов В.М., Буков А.А. Самообучение на основе игры// Тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 14-15 дек. 1989 г.Липецк, 1989.- С. 83-85. 1.36. Антонов В.М. Самообучение на основе подражания// Тез. докл. рег. н.-т. конф. Автоматизированное проектирование и автоматизация производственных процессов, 14-15 дек. 1989 г.Липецк, 1989.- С. 87. 1.37. Антонов В.М., Буков А.А. Обучаемое устройство управления//Пат. РФ 2030780, G05 В 19/00, заявл. 31.01.90, опубл. 10.03.95, бюл. №7. 1.38. Антонов В.М., Буков А.А. Обучаемая система управления// Авт. св. СССР 1824625, № 05 В 19/08, заявл. 23.04.90, опубл. 30.06.93, бюл. № 24. 1.39. Антонов В.М., Буков А.А. Обучаемая система управления// Пат. РФ 2068575, 6G05 В 19/08, заявл. 28.06.90, опубл. 27.10.93, бюл. №30. 1.40. Пуанкаре А. 0 науке: Пер. с фр./Под ред. Л.С.Понтрягина.-2-е изд. Стер.-М.: Наука, Гл. ред. физ.мат. лит. 1990. 1.41. Хьюбел Д. Глаз, мозг, зрение: Пер. с англ.-М.: Мир, 1990. 1.42. Антонов В.М., Буков А.А. Обучение робота с обучаемой системой управления//Метод, указ. к лаб. раб., ЛипПИ.-Липецк, 1990. 1.43. Антонов В.М., Буков А.А., Морозова В.П. Расчёт весовых коэффициентов признаков образов// Программное средство 50890001099, Информ. бюл. "Алгоритмы и программы", №5, 1990. Г.- С. 8, ВНТИЦентр, 1.44. Антонов В.М., Буков А.А., Кавыгин В.В. Обучаемые системы управления и экология// Сб. н. тр. Технология машиностроения. Декабрь 1993, ЛипПИ, Липецк, 1994.- С. 122-125. 1.45. Антонов В.М., Буков А.А. Обучаемая система управления// Пат. РФ 2069053, G05 В 19/08, заявл. 27.04.94, опубл. 10.11.96, бюл. № 31. 1.46. Антонов В.М. Технические нервные системы //Тр. Всеросс. н.-т. конф. Новые технологии управления робототехническими и автотранспортными объектами. Ставропольский ГТУ, 27-29 ноября 1997 г. – Ставрополь, 1998. – с. 115-116. Часть II. Начальные основы теории обучаемых систем управления 1. Теория образов в обучаемых системах управления 1.1. Рельефное представление образов. Что такое образ? В простом человеческом понимании образом может быть фотография, картина или то, что мы видим, слышим, осязаем, то есть любая сложная информация. Всё это, вроде бы, понятно, но инженера такое толкование не устраивает, и не устраивает, по крайней мере, по двум причинам: во-первых, в нём не определено понятие сложности, а во-вторых, не указана физическая форма информации. Чтобы выйти на чисто инженерное определение образа, построим наши рассуждения так, чтобы постепенно уточнять физическую сторону образа. Для простоты возьмём техническую систему с очувствлением и выделим из всего рецепторного поля только сетчатку глаза; спроецируем на неё с помощью объектива изображение обозреваемой сцены и представим себе, что каждый её фоторецептор освещен по-своему. Это означает, что на выходе каждого из них будет своё электрическое напряжение, именуемое нами возбуждением. Фактическое распределение рецепторных возбуждений по сетчатке глаза, очевидно, и есть рецепторный образ видимой сцены. Такое физически конкретное определение образа в частном случае — легко воспринимается, но всё-таки нуждается в дополнительном уточнении. Что такое — фактическое распределение возбуждений? Выделим один какой-то рецептор сетчатки и определим его размерность. Так как он занимает вполне конкретное место на общем поле, то его положение может быть определено двумя координатами этого поля. А дополнив двумерное положение рецептора величиной его возбуждения, получим трёхмерную величину; такова размерность рецептора. Её — эту размерность — можно представить в виде вектора, перпендикулярного к полю очувствления, расположенного в конкретной точке этого поля и имеющего длину, равную возбуждению. Если теперь представить таким образом все другие рецепторы, то вершины их векторов сформируют сложную кривую поверхность, напоминающую рельеф; этот рельеф даёт нам представление о фактическом распределении возбуждений рецепторов по всему полю. Он же является действительным рецепторным образом видимой сцены или, в общем случае, текущей ситуации. Так мы определили образ. Остаётся только договориться о том, что удобнее представлять рецепторное поле плоским (это не искажает информативность образа), а рельеф, — имеющим плоское основание. Рельефные образы в оптических системах. Такими же рельефными можно считать образы в оптической обучаемой системе: и световой поток изображения, и диапозитивы, и даже распределение электрических потенциалов по фотоэлектрическому экрану можно представить в виде рельефа. Начнём со светового потока изображения. Допустим, оптика собрала отражённые лучи обозреваемой сцены и направила их в виде светового потока с параллельными лучами по световому каналу оптической системы. Плотность светового потока по всему сечению канала окажется различной и будет соответствовать передаваемому тоновому изображению. Если мысленно пересечь световой поток перпендикулярной плоскостью и отложить от неё в каждой её точке по направлению света в виде векторов плотность светового потока, приходящегося на эту точку, то вершины векторов создадут рельеф, который можно рассматривать как образ обозреваемой сцены. Если же взять вместо мысленной секущей плоскости обычное матовое стекло и направить на него световой поток, то получим на нём видимое цветовое изображение, различная освещённость которого может быть воспринята как рельеф. Отсюда следует, что любую фотографию, как образ, можно представить в виде рельефа, если считать, что белый цвет на ней выступает над чёрным (для черно-белых фотографий). Точно также в виде рельефа можно представлять диапозитивные образы, то есть фотопозитивы на прозрачной подложке, только в этом случае рельеф образует не белый свет, а прозрачность; такое изображение можно назвать прозрачностным. Диапозитивы хороши тем, что позволяют оперировать с ними в сложных комбинациях различных образов (чуть ниже мы это покажем); поэтому лучше даже видимую глазом сцену представлять также в виде диапозитива; при этом упрощаются преобразования светового потока в оптическом канале обучаемой системы. Покажем это на примере, допустим, глаз обозревает какуюто сиену, освещенную рассеянным светом; оптика глаза собирает отражённый свет и направляет его в виде изображения по оптическому каналу. Это и есть действительный образ обозреваемой сцены. Точно такой же образ можно получить, используя диапозитив этой сцены: пропуская через него равномерный световой поток с параллельными лучами, получим на выходе такое же световое изображение; разницы в образах но будет, но второй случай более удобен для физического представления; изобразим его в следующих символах: U A B, где U — равномерный световой поток с параллельными лучами; стрелка ( ) показывает направление потока света; A — диапозитив обозреваемой сцены; B — световой поток с изображением на выходе из диапозитива. Эту же символику мы применим на последующих ступенях преобразования входного изображения в оптическом канале системы, а пока охарактеризуем U, A и B. Все они — образы, но у каждого есть своя особенность. Поток U можно представить в виде рельефа, самого простейшего по форме — как плоскогорье; это следует из того условия, что свет на входе принят равномерным по всему сечению потока. Он, благодаря такой своей особенности, проходя через диапозитив A, создаёт на выходе световой поток с изображением B, идентичным A. Поэтому можно считать, что B и A, как образы, одинаковы; различие их — в том, что B — реальный световой поток, имеющий энергию и способный производить воздействие, допустим, на фотоэлектрический экран, в то время как A - пассивный образ, не располагающий энергией и не способный в чём-либо себя проявить. Пропустим световой поток B через диапозитив мозга C и получим на выходе сложный световой поток Д: B C Д. И С, и Д — тоже образы, но, опять же, C — пассивный образ, а Д — можно сказать, — активный. Парность таких образов, очевидно, является закономерностью: диапозитив работает только тогда, когда через него проходит свет. Дальше в оптическом канале обучаемой системы поток Д попадает на фотоэлектрический экран; обозначим этот экран через F и будем считать, что он подобен диапозитиву, только на выходе у него не свет, а электричество. Как образ сам по себе, фотоэлектрический экран F в нормальном состоянии представляют собой такой же простейший рельеф, как U, то есть плоскогорье; и только физические дефекты на нем способны исказить этот вид. Образ F — пассивный, поэтому: Д F G, где G — распределение электрических потенциалов на фотоэлектрическом экране, возникших под воздействием потока света Д; G — последний образ в цепочке преобразований в оптическом канале обучаемой системы; он также может быть представлен как рельеф, но уже не оптический, а электрический. За ним следует последняя операция — суммирование всех потенциалов фотоэлектрического экрана; эта сумма и есть тот сигнал управления E, который обучаемая система выдаёт на исполнительный привод; изобразим суммирование такой символикой: G E. Всю последовательность фотоэлектрических преобразований в оптическом канале обучаемой системы управления можно представить в виде следующей цепочки: U A B C D F G E. (2.1) Символическая запись (2.1) отражает работу оптической системы, впрочем не только оптической, — такое же или почти такое образное представление может быть распространено и на электрические, и на гидравлические, и на любые иные системы. Изобразим принятой символикой процесс обучения оптической системы; он, как известно, сводится к итерационному видоизменению диапозитива мозга C. Пусть на очередном шаге обучения при предъявлении очередной j-ой ситуации (точнее: её диапозитива A j ) возникает фактический сигнал управления E f . Погрешность сигнала будет равна: Ej где Ej Ef , E f — требуемый сигнал в данной j-ой ситуации. Далее следует такая процедура: при извлечённом диапозитиве мозга C направляют световое изображение ситуации B j непосредственно на фотоэлектрический экран F и, регулируя диафрагму объектива, добиваются на выходе сигнала управления, равного погрешности представления получим: kj U Aj k j Bj F k jG Ej , E j ; в символах образного где E j — степень открытия диафрагмы объектива в очередной j-ой ситуации; эта степень является скалярной величиной и изменяется в пределах 0 k 1. Сохраняя полученное положение диафрагмы, корректируют диапозитив мозга C j 1 , сформулированный в предыдущей ситуации: kj U Aj k j Bj Cj 1) Cj . Символическая запись образа предыдущей проводимости с обратной скобкой C j 1 ) говорит о том, что корректирующий поток света k j B j как бы застревает в диапозитиве C j 1 , увеличивая его прозрачность до C j . К сожалению, такой процесс, действительно, приводит лишь к наращиванию прозрачности диапозитива мозга, хотя нормальное обучение требует также и её уменьшения. Эта однонаправленность вынуждает прибегать к раздвоению общего светового потока на плюс- и на минус-потоки, из которых первый формирует положительный сигнал управления, а второй — отрицательный, но а результирующий сигнал определяется их разностью. Если погрешность сигнала управления E j положительная, то наращивается прозрачность диапозитива мозга плюс-канала, а если — отрицательная, то — минус-канала. До сих пор мы рассматривали цепочку чередующихся активных и пассивных образов: потоки света перемежались диапозитивами, — но в принципе это не обязательно. Потоки света могут складываться и вычитаться сами по себе, а диапозитивы могут собираться в пакет или дробиться на составные части. Примером наложения световых потоков может быть соединение трёх разных цветных изображений на экране телевизора; можно объединить световые потоки от двух проекторов, или использовать для этих целей призматическую оптику. Разделять световые потоки с оптическими изображениями сложнее, но и это можно делать с помощью, например, цветных светофильтров. Таким же путём можно дробить на части диапозитивы (имеются в виду составные части), а что касается собирания их в пакеты, то в этом нет никаких трудностей. Собирание пассивных образов в пакет может быть условным; покажем это на примере последовательности фотоэлектрических преобразований (2.1), представив ее в следующем виде: U AC Д F ACF G G E или даже так: U E. Арифметика и алгебра рельефных образов. Использованная символическая запись отражает только физическую суть Фотоэлектрических процессов к никак не определяет размерные отношения образов. Введём арифметику и алгебру образов, имея в виду при этом, что оперировать придется не числами, а рельефами; и сохраним принятие обозначения. Пусть образы U, B и Д представляют собой рельеф световых потоков, образы A и C — рельефы прозрачностей диапозитивов, образ F — рельеф, своего рода, прозрачности фотоэлектрического экрана, преобразующей свет в электричество, а образ G — рельеф электрических потенциалов на экране. Уточним, что такое — прозрачность диапозитивов. Представим диапозитив состоящим из абсолютно прозрачных и абсолютно непрозрачных точек; через прозрачные точки лучи света проникают без потерь, а на непрозрачных точках полностью исчезают. Следовательно, соотношение прошедшего через диапозитив светового потока и потока, падающего на него, определится соотношением количества прозрачных точек и общим их количеством; последнее соотношение и есть прозрачность диапозитива; она может изменяться от нуля до единицы. У сложного диапозитива прозрачность по всему полю неодинаковая и может быть представлена, как мы условились, рельефом. Ограничение прозрачности единицей говорит о том, что диапозитив мотет только ослабить падающий на него поток света, но усилить его не может. Это условие нужно воспринимать с оговоркой, что рассматриваемые нами диапозитивы являются пассивными и не имеют своей энергии на усиление входного потока; в принципе же усиление возможно. Определив прозрачность как степень пропускания света, установим соотношение потоков до и после диапозитива: очевидно, поток света на выходе будет определяться произведением входного потока на прозрачность диапозитива; в рельефном представлении образов это выразится в перемножении соответствующих рельефов. Таким образом, последовательность фотоэлектрических преобразований (2.1) можно изобразить в виде системы следующих простых алгебраических выражений: U A B; B C Д; (2.2) Д F G; G E. В системе (2.2) первые два выражения отражают перемножения рельефов оптических образов; третье выражение преобразует свет в электричество и — тоже в такой же форме, а последнее выражение отображает собирание или суммирование электрических потенциалов фотоэлектрического экрана. Необычная форма записи, в которой знак суммирования стоит после G, говорит о том, что происходит собирание рельефного образа с превращением его в скалярную величину (если бы знак стоял перед G, то мы должны были бы воспринять это как сумму рельефов). Физически суммирование электрических потенциалов может быть осуществлено обычным сумматором на базе операционного усилителя. Кстати, оптический поток собирают, как известно, выпуклой линзой. Перемножение рельефов, предложенное в системе выражений (2.2), нуждается в некотором уточнении. Прежде всего должны полностью совпадать контуры оснований перемножаемых рельефов. Под основанием рельефа светового потока будем понимать то сечение потока, которое образуется условной перпендикулярной плоскостью, а за основание рельефа прозрачности диапозитива примем плоскость самого диапозитива. Другими словами, должно выдерживаться полное соответствие расположения диапозитива относительно светового потока: не допустимы смещения, повороты или какое-либо несогласованное изменение масштабов рельефов. Практически перемножение рельефов можно осуществить двумя способами: физическим, путём натурного пропускания светового изображения через пакет перемножаемых диапозитивов, и расчётным, матричным — о нём разговор — далее; и в том, и в другом случаях полное соответствие рельефов обязательно. Результат перемножения двух рельефов — тоже рельеф, но отличающийся от сомножительных. Если в перемножении один из рельефов плоский, то он не изменяет форму своего сомножительного рельефа, а лишь пропорционально его увеличивает или уменьшает, то есть выступает в качестве обычной скалярной величины. А единичный плоский рельеф вообще не изменяет свой сомножитель; поэтому при условии, что рельефы U и F являются единичными, рельеф A можно приравнять к рельефу B, а рельеф Д — к рельефу G. Перемножать можно не только рельефные образы разной модальности, то есть активные с пассивными, но и одной —, например рельефы прозрачностей двух и более диапозитивов между собой. Так результирующий рельеф пакета (AC) определится как произведение рельефов A и C, а, перемножив рельефы образов A, C и F, получим рельеф (ACF): A C F ACF . В результате система выражений (2.2) примет вид: U ACF G ; G E. Такой переход через результирующий сомножитель называется конкатенацией. Если составление диапозитивов в пакет на языке арифметики означает перемножение их рельефов, то удаление из пакета отдельного диапозитива нужно рассматривать, очевидно, как деление рельефа пакета на рельеф удалённого диапозитива, так что: AC : C A. Интересно отметить, что при перемножении рельефов диапозитивов их выпуклость (кривизна) будет уменьшаться, а при делении, наоборот, — увеличиваться. В самом деле, в пакет можно набрать столько диапозитивов, что их результирующая прозрачность может оказаться близкой к нулевой; а удаляя диапозитивы, мы будем просветлять пакет. Из четырёх арифметических действий над рельефами мы рассмотрели только два: умножение и деление, — рассмотрим остальные — сложение и вычитание. Складывать можно, как уже отмечалось выше, световые потоки, например разноцветные для получения цветного изображения, а вычитать можно из того же общего цветного отдельные монохроматические. В последнем случае вычитание физически сведется к разделению цветного изображения на составляющие монохроматические. В оптической обучаемой системе такое разделение может потребоваться в том случае, если будут использованы фотоэлектрические экраны с избирательной по длинам световых волн чувствительностью. Сложение и вычитание рельефов никаких особых условий не требуют, кроме, опять же, строгого совпадения оснований, и не имеют, пожалуй, никаких ограничений, если не возражать против возможного перехода в обратный рельеф. Что это такое? Обратным рельефом, например, по отношению к штампу является отштампованная деталь, по отношению к позитиву — негатив. Получается он путём вычитания заданного рельефа из так называемого плоского нулевого. В оптической обучаемой системе он может потребоваться в случае применения фотоэлектрического экрана обратной полярности, то есть с постоянным электростатическим зарядом, который устраняется светом. Тогда, прежде чем направить световой поток Д на экран, его нужно превратить в обратный; символика перехода в обратный рельеф образа Д такова: 0 Д Д . Если же переход в обратный рельеф нереализуем или недопустим, то нужно иметь в виду, что при вычитании рельефы могут упереться в своё нулевое положение, которое является для них предельным. Предельное положение может возникнуть и при сложении, когда максимальный уровень рельефа упрётся в свой потолок. Такое явление характерно не только для арифметики рельефов: предельность, как ограничение изменения параметров, в технике хорошо известна, и с нею научились считаться. Регулируемое электрическое напряжение может увеличиваться только до своего наибольшего значения, определяемого потенциалом источника питания, а давление гидросистемы может изменяться до давления настройки предохранительного клапана сверху и до атмосферного давления снизу, — и в этом нет ничего неожиданного, хотя линейное математическое моделирование чувствует себя в этих случаях неуютно. Рельефные образы в электрических системах. О рельефном представлении очувствления электрических обучаемых систем уже упоминалось; рассмотрим теперь с этих позиций прохождение информационных потоков по всей системе. Начнём с того же очувствления. Рецепторное поле в нашем представлении — плоскость, на которой в определённом порядке расположены рецепторы. Этим полем может быть сетчатка глаза с фоторецепторами. В каждой конкретной ситуации рецепторы испытывают определённое внешнее воздействие; рисунок этого воздействия по всему рецепторному полю может быть каким угодно сложным; это — образ A; представим его в виде рельефа с основанием в форме самого рецепторного поля. Считаем, что все рецепторы по своей физической природе являются резисторами и нуждаются в электрическом питании. Можно было бы взять для них единый источник питания, создающий одинаковое напряжение на всех рецепторах, и тогда образ этого питания представлял бы собой плоский рельеф. На самом деле всё рецепторное поле разбито на несколько рецепторных участков, и каждый участок имеет своё напряжение питания; следовательно, рельеф образа питающего напряжения — обозначим его через U — выглядит в виде ступенчатого рельефа. Накладывая образ U на образ A, получим образ B: U A B. Он характеризует возбуждения рецепторов; о нём уже говорилось — он представляет собой также рельеф. Уточним его размерность. В электрических цепях принято согласовывать между собой напряжение и ток через сопротивление; но можно согласовывать потенциалы (те же напряжения) в разных точках через проводимость элемента, стоящего между ними. Сделать это можно в том случае, если в электрической цепи, кроме указанного элемента, есть ещё резисторная нагрузка, превосходящая сопротивление элемента. В электрических обучаемых системах такая нагрузка есть: она замыкает столбцовые шины мозга на другой полюс источника питания (на массу). Очевидно, электрическое напряжение на выходе рецепторного резистора может изменяться в зависимости от его проводимости в пределах: от величины наибольшего напряжения источника питания до нуля; если проводимость рецепторного резистора окажется равной единице, то есть наибольшей, то напряжения до него и после него окажутся одинаковыми; если же проводимость рецепторного резистора будет равна нулю, то напряжение на выходе рецептора окажется также равным нулю. Получается так, что возбуждение рецептора, то есть тот физический параметр, который возникает у него на выходе, есть то же самое электрическое напряжение, измеряемое в вольтах. Следовательно, проводимость рецепторов, формирующая образ A — величина безразмерная, не изменяющая размерность силового параметра (в нашем случав — напряжения), воздействующего на них. В смысле размерности рецепторы подобны диапозитивам оптических систем: проводимость идентична прозрачности. За рельефом B следует рельеф C, как образ проводимостей синапсов, выходящих на отдельную столбцовую пару мозга и через неё на отдельный исполнительный орган. На самом деле рельеф C не один; их столько, сколько всего столбцовых пар. Следовательно, рельеф B одновременно должен воздействовать на них всех (можно было бы в связи с этим спросить: а хватит ли мощности на это у него? — но оставим пока этот вопрос без ответа); происходит как бы разветвление рельефных последовательностей на несколько ветвей, но, так как они все подобны, рассмотрим сначала только одну из них. Рельеф B, воздействуя на рельеф C, породит рельеф Д: B C Д. Последний представляет собой образ рецепторных долей сигнала управления. Размерность Д можно сохранить такой же, как у рельефа B, то есть как напряжение в вольтах, но, может быть, удобнее представлять её как электрический ток в амперах; и то, и другое допустимо в рамках электрических законов; пусть будет второе. Тогда, собирая (суммируя) все токи рецепторных долей, получим сигнал управления E: Д E. На этом последовательность рельефных преобразований заканчивается; в собранном виде она представляется такой: U A B C Д E. (2.3) Как мы видим, она очень похожа на последовательность (2.2), но короче её на один шаг. Здесь, как и там, не отражена столбцовая парность мозга, делящая каналы на плюсовые и минусовые, но она подразумевается. С учётом разветвления последовательности (2.3) на все исполнительные органы получим: U A c1 Д 1 E1 c2 Д 2 E2 . B ................... cn Д n En (2.4) Ещё раз расшифруем смысловое значение входящих в (2.4) обозначений: U — образ электрического питания, распределённого по всему рецепторному полю; A — образ внешнего воздействия на рецепторное поле или, что одно и то же, образ проводимости этого поля; B — образ возбуждения рецепторного поля; c1 , c 2 , ..., c n — образы синаптических проводимостей различных столбцовых пар мозга; Д 1 , Д 2 , ..., Д n — образы рецепторных составляющих (долей) сигналов управления различных исполнительных органов; E 1 , E 2 , ..., E n — сигналы управления отдельных исполнительных органов. Из всех величин выражения (2.4) только сигналы управления E являются; скалярными, а остальные представляют собой рельефы. Однако, если рассматривать сигналы управления как единое целое и учитывать, что каждый из них действует на своём конкретном месте, то можно их семейство представлять тоже как образ и тоже как рельеф. Такой подход позволяет свести последовательность (2.4) к виду (2.3), но при этом трёхмерные рельефы C и Д мы должны воспринимать уже как четырёхмерные, что несомненно усложнит наше понимание процессов. Символическая запись (2.3) отражает работу электрической обучаемой системы управления, но с помощью этих же символов можно показать также процесс обучения. Рассмотрим один из методов обучения, наиболее привлекательный по своему виду, — обучение подталкиванием. Суть его заключается в том, что обучатель (человек-оператор), подталкивая объект, например робот, в нужном направлении, воздействует на регуляторы (силарезисторы) дополнительного питания отдельных столбцовых шин мозга, вызывая увеличение проводимостей синапсов, связанных с этими шинами. Он, очевидно, будет воздействовать рефлекторно с таким усилием и так долго, пока не добьётся от объекта желаемых действий. Такой процесс обучения протекает непрерывно, но мы его рассмотрим в дискретной форме. Прежде чем подталкивать объект в очередной j-ой ситуации, обучатель, очевидно, должен выявить сначала его фактические действия, а если говорить только об одном исполнительном органе, то — его действительную скорость или, иными словами, его сигнал управления. Преобразования определятся последовательностью (2.3): U где c j 1 Aj Bj cj 1 Дf Ef , — образ проводимостей синапсов, сложившийся в предыдущей (j-1)-ой ситуации; фактические образ рецепторных долей и скаляр сигнала управления. Имея в виду желаемые действия объекта E j , и сравнивая их с фактическими погрешность сигнала управления Ej: Ej Ej Ef . Дf и Ef — E f , обучатель определяет В действительности он будет поступать сугубо рефлекторно, подталкивая объект с нужной стороны, но величина такого подталкивания будет явно пропорциональна указанной погрешности. С другой стороны усилие подталкивания (или E j ) определит величину дополнительного столбцового напряжения питания: Uj где ku k u — коэффициент согласования. Так как величины E j и k u — скалярные, то и Ej , U j — скаляр, но для того, чтобы им можно было воздействовать в качестве активного образа на пассивный рельеф A j , его следует превратить также в рельеф. Превращение скаляра в рельеф — процедура несложная, но при условии, что последний должен быть плоским. (В принципе скаляр можно превратить и в сложный рельеф, но для этого нужно задавать правила перехода в аналитической форме или в виде программы.) Дополнительное напряжение U j , в форме плоского рельефа вызовет изменение образа проводимостей синапсов c j 1 , сформированного в c j , представляющую собой также рельеф: предыдущей ситуации, на величину Uj Aj Bj c j 1) cj . Символическое изображение образа проводимостей синапсов со скобкой c j 1 ) , как уже говорилось, означает, что активное воздействие образа дополнительного возбуждения B j уходит всё на изменение образа c j 1 . Результирующий рельефный образ проводимостей синапсов c j определится пакетом рельефов c j 1 и c j: c j 1, c j cj . При точной корректировке (при правильном подталкивании) изменение проводимостей синапсов на величину c j должно привести к изменению сигнала управления на величину E j : U Aj Bj cj Д Ej или, что одно и то же, к сформированию на выходе требуемого сигнала управления E j после изменения проводимостей синапсов до величины c j : U Aj Bj cj Дj Ej . В следующей ситуации процесс обучения с корректировкой образа проводимостей синапсов будет повторяться. Постепенно по мере усвоения объектом тех навыков, которым его учили, подталкивания, очевидно, будут ослабевать и, наконец, прекратятся совсем, когда действия объекта устроят обучателя полностью. Рельефность образов в выражениях (2.3) и (2.4) позволяет зримо представить изменение в поведении объекта при так называемом переключении внимания системы управления, когда перераспределяется напряжение питания по рецепторным участкам. Такое перераспределение, очевидно, изменяет форму рельефа образа U, а он уже изменяет всю последовательность дальнейших преобразований. В одной и той же ситуации A при одном распределении напряжения питания U1 сигнал управления будет одним: U1 а при другом распределении A B1 C Д1 E1 , C Д2 E2 . U2 — будет вторым: U2 A B2 Как видно из этих преобразований, достаточно изменить только один образ — образ питающего напряжения, и можно получить на выходе системы иной сигнал управления, величина которого определится обучением. Из рассмотренных преобразований рельефных образов, отражающих процесс обучения, не ясно, почему дополнительное напряжение U изменяет образ проводимости С, а основное напряжение U — не изменяет. Такое возможно, очевидно, только при условии, что образы U и U имеют различную физическую форму; одна из них способна изменять проводимость синапсов, а другая — нет. В электрохимическом синапсе, например, постоянное питание U представляет собой гармонический электрический ток с симметричной амплитудой и определённой частотой — такой ток не способен вызывать электролиз, а дополнительное корректирующее питание U — тот же ток с той же частотой, но однонаправленный, со срезанной амплитудой — он порождает электролиз. Хотя эти токи в общем-то складываются (или вычитаются), но на схемах рельефных преобразований лучше этого не делать, чтобы не вызывать сомнения в нормальности процесса обучения. Система алгебраических выражений, отражающая работу электрической системы и её обучение подталкиванием (или вождением за руку) в образной форме имеет следующий вид: * образные действия: U A j Bj ; Bj * cj 1 переход от образа к скаляру: Дf * Ef ; скалярное действие: Ej * Ef Ej; переход от скаляра к образу в форме плоского рельефа: E j ku * * Дf ; Uj ; образное действие: Uj Aj Bj ; Bj kc cj , умножение образа на скаляр: где k c — коэффициент согласования изменения проводимости синапса с дополнительным возбуждением рецептора; * образное действие: cj * 1 cj. Завершают систему контрольные операции: образное действие: Bj * cj cj Дj; переход от образа к скаляру: Дj Ej . Те же действия в режиме конкатенации будут выглядеть так: Aj cj 1 U Aj, cj 1 Дf Ej ku Aj Ej Aj, cj 1 ; kc Ef cj 1 Дf ; Ef ; Ej; k u , A j, k c , c j 1 ; ku , A j , kc , c j 1 cj . Скобками обозначены рельефные образы, полученные в результате перемножения рельефов и скаляров, входящих в конкатенационные пакеты. Матричное (табличное) представление образов. Рельефы удобны для воображаемого представления (чтобы разобраться, например, в том, как трансформируется видимая сцена в сигнал управления) и даже иногда для оперирования ими (с помощью световых потоков изображений и диапозитивов можно определять отношения образов), но не удобны для вычислений. Вообще-то в электрических системах рельеф не является первородным: он составляется условно из возбуждений отдельных рецепторов, — и проще было бы в них оперировать трехмерными величинами самих рецепторов, но сложность состоит в том, что очень трудно (точнее, трудоёмко) определять местоположение каждого из них. Даже в сетчатке глаза, не говоря уж о другом очувствлении, с плотно уложенными фоторецепторами, когда их общее количество измеряется тысячами, а может быть даже — сотнями тысяч, практически невозможно проследить за каждым рецептором в отдельности: сколько же нужно иметь контролируемых выходов для этого? и как проследить, с какой точкой сетчатки связан каждый их них? И вызывает в связи с этим удивление, как решает эту задачу Природа, соединяя вместе в мозгу нейроны, идущие от фоторецепторов, расположенных в конкретных местах сетчаток обоих глаз. Для чего это делается — нам понятно: для согласованного сведения глаз, — но как это делается — нейрофизиологам неизвестно; а ведь в человеческом глазу, по крайней мере, — миллион выходов. И всё-таки разбираться в этом рано или поздно придется. А пока можно пойти на некоторое упрощение — оно касается именно расположения рецепторов: расположим их строго геометрически, например в соответствии с прямоугольной сеткой, составленной из прямых строк и столбцов; такое расположение называется матричным или табличным. Оно позволяет заменить координаты точек номерами строк и столбцов; эти номера лишь отчасти указывают на местоположение рецептора, а могут быть вообще не связаны с этим. Но упрощение при этом очевидно. Итак, считаем, что все рецепторы уложены в виде матрицы, и каждый из них характеризуется тремя величинами (размерность, как видим, сохраняется): номером строки расположения j, номером столбца и возбуждением b. И пусть принятая матричность распространяется по всей системе в неизменном виде, так что и подвод питания к конкретному рецептору, и внешнее воздействие на него, и синапс, связанный с ним, и его рецепторная доля сигнала управления имеют те же номера строки и столбца, какие имеет он. Отсюда следует, что размерности матриц по всей системе одинаковы. Осталось только договориться, что матрицы должны быть квадратными, с равными числами строк и столбцов; такая форма, будем считать, ближе всего в общем случае к любому рецепторному полю; впрочем, квадратность — не обязательна. Переход от рельефного рецепторного образа к матричному не столь уж радикальный, — рельеф в принципе остаётся, только основание его вместо параметрического стало признаковым (номер строки или столбца не есть параметр, а — признак, так как может обозначаться не только цифрами, но и буквами, символами и любым другим признаковым способом). Сложнее обстоит дело с переходом к матрично-табличному виду рельефных оптических образов, которые по природе своей не дискретны и нуждаются в условном дроблении. Возьмём, например, прямоугольный диапозитив; для того, чтобы представить его состоящим из прямоугольных кусочков, необходимо разделить его поле на определённое количество горизонтальных и вертикальных полос; и диапозитив тогда предстанет собранным из этих кусочков. Прозрачность в пределах каждого кусочка при тоновом изображении диапозитива не будет постоянной, но её можно считать неизменной с некоторой долей погрешности. Разумеется, чем мельче размеры кусочков, тем эта погрешность будет меньше. Каждый такой условный кусочек диапозитива может быть охарактеризован, как к рецептор, тремя величинами: номером строки (горизонтальной полосы), номером столбца (вертикальной полосы) и усреднённой прозрачностью. Если дробить по такому же правилу рельеф образа того же диапозитива, то в результате он распадётся на отдельные столбики, высота которых будет отражать прозрачность соответствующего участка диапозитива; назовем такой столбик пикселем. Усреднённая прозрачность каждого пикселя выразится в том, что его вершина (макушка столбика) будет плоской; и рельеф, собранный из пикселей, будет напоминать окультуренные террасами холмы. Матричное (табличное) представление образов в оптических системах может быть распространено, как и в электрических, на все фотоэлектрические преобразования от входа до выхода системы; только при этом следует строго соблюдать соответствие пикселей на разных переходах. Если в электрических системах сквозная нумерация прослеживается по ходу отдельной рецепторной электрической цепи, то в оптических каналах такой опорной линии нет, и нужно каждый раз отталкиваться от краев изображений или от оптически выделенных элементов изображений. Вычисления, ради которых рельефные образа заменены нами на матричные, могут производиться теперь в виде операций над числами, причём вычисления могут выполняться фронтально в табличной форме с постепенным переходом от одного образа к другому или одиночным сквозным путём пиксельных (рецепторных) цепочек. Начнём со второго способа. Представим пиксели всех образов оптической обучаемой системы управления в виде основного параметра с нумерацией строк и столбцов расположения в матрице: U j — световой поток пикселя j-ой строки и -го столбца образа U; a j — прозрачность соответствующего пикселя образа A; b j — световой поток соответствующего пикселя образа B; c j — прозрачность соответствующего пикселя образа С; d j — световой поток соответствующего пикселя образа Д; f j — коэффициент превращения света в электрический потенциал соответствующего пикселя образа F; gj — электрический потенциал соответствующего пикселя образа G. Последовательность преобразований соответствующих пикселей в виде отдельной цепочки в оптическом канале системы в соответствии с (2.1) примет вид Uj Электрический потенциал g j aj bj cj dj fj gj . есть пиксельная доля сигнала управления (ранее мы называли её рецепторной); сумма потенциалов всех пикселей образует сам сигнал управления: m gj E, где m — общее количество пикселей. Изобразим последовательность преобразований пикселей в алгебраической форме в соответствии с выражениями (2.2): Uj a j bj ; bj cj dj ; gj ; d j fj m gj E. При принятых условиях усреднённости основных параметров пикселей (плоская макушка столбиков рельефов) полученные выражения представляют собой обычные арифметические действия над обычными числами. Объединяя их воедино, получим: m Uj a j cj fj E. Все промежуточные образы можно восстановить по пикселям этих образов, собирая их вместе в виде матриц. Последовательность пиксельных преобразований в электрических системах (напомним: пиксель соответствует в них рецептору) в принципе такая же, только вместо оптических операций в них происходят электрические, и содержание пикселей в них, соответственно другое: U j — напряжение питания рецептора j-ой строки и -го столбца; a j — внешнее воздействие на тот же рецептор; b j — возбуждение (напряжение на выходе) того же рецептора; c j — проводимость соответствующего синапса; d j — доля сигнала управления обозначенного рецептора. Формально алгебраические выражения последовательности преобразований сохранятся такими же, что и у оптической системы, только переход через f j , а объединённое выражение примет вид m Uj a j cj E. (2.5) Фронтальный метод расчета выполняете поэтапно согласно переходам преобразований от образа к образу. Первый переход: U A B ; матрицы образов U и A имеют вид a11 , a12 ,  , a1y U11 , U12 ,  , U1y U U 21 , U 22 ,  , U 2 y ...................... U x1 , U x 2 ,  , U xy ; A a 21 , a 22 ,  , a 2 y .................... a x1 , a x 2 ,  , a xy . Перемножение этих матриц сводится к перемножению пикселей, соответствующих друг другу по расположению, например U11 a11 b11 ; U12 a12 b12 , и так далее. В результате получим матрицу образа B: b11 , b12 ,  , b1y B b 21 , b 22 ,  , b 2 y .................... b x1 , b x 2 ,  , b xy . И так далее от образа к образу. Следует иметь в виду, что рассматриваемые здесь перемножения не имеют ничего общего с перемножением матриц в том разделе математики, который именуется матричным исчислением. В этом смысле наше матричное представление образов можно было бы назвать просто табличным. Пикселирование образов или рецепторно-табличное представление информации позволяет прийти к известному выражению (1.2), принятому нами за математическую модель работы обучаемой системы управления. Заменим в выражении (2.5) произведение Uj a j на соответствующее возбуждение b j и получим m bj cj E, где m — ещё раз напомним: общее количество рецепторов-пикселей. Полученное выражение напоминает (1.2) и отличается от него только тем, что рецепторы-пиксели имеют двойную индексацию, определяющую их расположение в информационном канале. Матричное (табличное) и, тем более, рельефное представление образов позволяет, прежде всего, упростить понимание обучаемых систем управления. Если в логических системах законы управления задаются решающими правилами, передаточными функциями или алгоритмами переключений, то в обучаемых системах они выглядят как сложные образы (рельефы), формируемые в результате многократного наложения образов ситуаций друг на друга. Каждый в отдельности рецептор есть часть образа и как элемент образа принимает участие в формировании общего сигнала управления, и каждый синапс — тоже самое, и делают это они наравне со всеми; поэтому, чем больше рецепторов в системе очувствления, тем богаче образ и тем лучше управление; и порча отдельных из них не сильно исказит образ и также мало скажется на сигнале управления. Кроме того оперирование рельефами позволяет определять численные отношения образов и выявлять влияние этих отношений на процесс обучения. Но самым главным моментом в рельефно-образном представлении информации является, пожалуй, то, что оно способствует выработке у человека (не у технических систем, а у человека, занимающегося этими системами) образного мышления, так необходимого и при системном анализе, и при принятии решений по законам нечёткой логики. 1.2. Профильное представление образов Рельефный образ ситуации в прямоугольной системе координат трёхмерен и поэтому не очень удобен для математических операций с ним. Образ можно упростить, если воспользоваться таким важнейшим принципом обучаемых систем управления, как независимость информационных каналов. Именно эта независимость позволяет определять отдельный сигнал управления системы как обычную алгебраическую сумму произведений возбуждении рецепторов на проводимости соответствующих синапсов. А в обычной алгебраической сумме, как известно, слагаемые располагаются в ряд и могут меняться местами (вспомним школьное правило: от перемены мест слагаемых сумма не меняется). Таким образом, рецепторное поле можно представить в виде рецепторного ряда, то есть рецепторы можно расположить в одну цепочку вдоль некоторой номерной оси, а их возбуждения — перпендикулярно к этой оси; и тогда кривая, огибающая возбуждения рецепторов, будет выглядеть уже как профиль. В результате нам удалось рельефный образ ситуации заменить на равноценный ему профильный, имеющий только две координаты в прямоугольной системе координат: расположение на оси или номер и возбуждение b. Профильный образ ситуации может быть представлен огибающей кривой или, что значительно проще, цепочной чисел, каждое из которых является возбуждением определённого рецептора. Такое представление, как последовательный ряд возбуждений рецепторов, примем окончательно за образ ситуации, так что j-ю ситуацию можно изобразить в виде b j1 , b j2 , ..., b j , ..., b jm , где b — возбуждение рецептора; индексы 1, 2, ..., ,..., m — номера рецепторов; всего рецепторов m. Отметим некоторые свойства образа ситуации: * образ есть последовательность чисел, отражающих возбуждения рецепторов; * количество чисел образа может быть каким угодно, но не менее двух: m 2 ; одно число — число, два числа — уже образ; * каждое число (каждый рецептор) имеет свой номер; номера чисел не должны совпадать; * расположение чисел в образе (нумерация чисел) — произвольное; числа в образе можно переставлять, убирать или дополнять, но делать это можно только до начала обучения; * числа образа (возбуждения рецепторов) могут быть только положительными. Образ, у которого все числа равны единице, является особым образом с особыми свойствами; назовем его единичным. Если рассматривать всё рецепторное поле в целом, то можно выделить на нём характерные участки, которые можно назвать элементами образа. Рассмотрим эти элементы на примере сетчатки глаза: элементами зрительного образа являются пятна, границы или контуры пятен, линии, точки и полутоновые участки. Пятно есть участок рецепторного поля с равными возбуждениями рецепторов, причём при смещении изображения в любую сторону на величину не более, чем на один рецептор, возбуждения рецепторов сохраняются неизменными. Пятна можно характеризовать как яркие, тёмные или серые. Граница пятна или контур включает только те рецепторы, возбуждение которых изменяется при смещении изображения на один рецептор. Линия есть тот же контур, но без пятна; при смещении изображения поперёк линии на один рецептор возбуждения всех рецепторов изменяются. Точка охватывает только один или несколько компактно расположенных рецепторов, и при смещении изображения в любом направлении на величину одного рецептора возбуждения их изменяются. Полутоновые участии характерны тем, что рецепторы их хотя и слабо, но изменяют свои возбуждения при любом смещении изображения; полутоновой участок можно представить как широкую линию или большую точку. Параметры образов. Параметры образов делятся на параметры, характеризующие отдельные образы, и на параметры, характеризующие соотношения двух и более образов. К первым относятся: * сумма возбуждений рецепторов: m Sj 1 bj ; (2.6) * сумма квадратов возбуждений рецепторов: m Sкв , j * b 2j ; 1 (2.7) удельное возбуждение -го рецептора: bj bj bj ; m Sкв , j b 1 * (2.8) 2 j отношение суммы возбуждений S j к сумме квадратов возбуждений Sкв , j : m Sj S jeq 1 m Sкв , j bj . b 1 (2.9) 2 j К первой группе параметров относится также сигнал управления E j , определяемый в соответствии с (1.2) как сумма произведений возбуждений рецепторов на проводимости соответствующих синапсов. Этот параметр можно рассматривать и как определяющий соотношение двух образов, если за первый образ принять возбуждения рецепторов, а за второй — проводимости соответствующих синапсов. Другие параметры характеризуют соотношения образов и выявляются в ходе теоретического обучения. К ним относятся: * сумма произведений возбуждении однономерных рецепторов двух образов, например A и B: m Sп р,AB 1 bA b B ; (2.10) * отношение суммы произведений возбуждений однономерных рецепторов двух образов A и B к сумме квадратов возбуждений рецепторов одного из этих образов, например A: m SAB Sп р,AB bA bB 1 . m Sкв ,A b 1 (2.11) 2 A По своему смыслу данное отношение характеризует переход от образа A к образу B, поэтому назовем его коэффициентом приведения образа A к образу B; * отношение квадрата суммы произведений возбуждений однономерных рецепторов двух образов, например A и B, к произведению сумм квадратов возбуждений рецепторов этих образов: 2 m SABA S2п р,AB Sкв ,A Sкв ,B 1 m bA b B b 1 . m 2 A b 1 (2.12) 2 B Это отношение по смыслу характеризует сходство двух образов, поэтому договоримся называть его степенью сходства двух образов A и B. Степень сходства трёх и более образов выражается аналогично (2.12); так для образов A, B, C будем иметь m m 1 SABCA bA b B m b B bC 1 m m b 1 2 A bC bA m b 1 1 2 B b 1 . (2.13) 2 C Коэффициент приведения одного образа к другому. Прежде поясним, почему отношение (2.11) мы назвали коэффициентом приведения. Для этого проведём краткое теоретическое обучение системы в соответствии с порядком обучения (1.12)...(1.16). Пусть первой ситуацией, в которой мы намерены провести обучение, будет ситуация A, отражённая образом возбуждений рецепторов: bA1 , b A 2 , ..., b Am ; и пусть требуемый сигнал управления в этой ситуации E A . Исходное состояние системы — нулевое; это означает, что обобщённые проводимости всех синапсов рассматриваемой пары столбцов матрицы мозга равны нулю: C 0 0 . Поэтому до обучения фактический сигнал управления E A , определяемый выражением (1.12), окажется равным нулю: m EA 1 bA C 0 0. Погрешность сигнала управления согласно (1.13) составит EA EA EA EA . В результате обучения поправка проводимости каждого -го синапса, соответствующего j-му рецептору, определится согласно (1.15) как c A E A bA EA bA , а сами проводимости после обучения в ситуации A выразятся в соответствии с (1.16) в виде c A c 0 c A EA bA . На этом обучение в ситуации A завершается. И если после этого предъявить какую-то другую ситуацию, допустим ситуацию B с образом очувствления: b B1 , b B2 , ..., b Bm , — фактический сигнал управления в ней определится согласно (1.12) как m E A, B 1 m bB c A EA 1 bA b B . А так как согласно (2.8) и (2.11) m 1 bA b B SAB , то получим E A, B EA SAB . Вывод таков: после обучения системы в первой ситуации фактический сигнал управления в любой другой j-ой ситуации будет определяться коэффициентом приведения образа первой ситуации к образу j-ой ситуации: E A, j E A SAj . (2.14) Такая закономерность говорит о том, что название коэффициента SAj соответствует его сути, т.е. он приводит в соответствие сигналы управления в двух ситуациях. Важность коэффициента приведения одного образа к другому, определяемого формулой (2.14), подтверждается тем, что все теоретические исследования обучаемых систем управления базируются на этих коэффициентах. Из выражения (2.14) следует, что после обучения в первой ситуации A его (обучение) можно прекратить, если выполняется условие Ej E A, j j, Ej E SAj j, или где E j — требуемый сигнал управления в любой j-ой ситуации; j — допустимое отклонение сигнала управления в этой ситуации. В идеальном случае обучение завершается в первой A-ситуации и завершается без погрешностей, если Ej EA SAj . Рассмотрим некоторые свойства коэффициентов приведения; эти свойства вытекают из анализа выражения (2.11) и подтверждаются физическим содержанием; рассмотрим их по порядку. 1) Если договориться, что возбуждения рецепторов могут быть только положительными, то согласно (2.11) коэффициенты приведения будут также только положительными: SAB 0 . Это означает, что два набора возбуждений рецепторов соотносятся простыми положительными числами, не переводящими один образ по отношению к другому в противоположное по знаку пространство. 2) В общем случае коэффициенты приведения могут иметь значения от нуля и больше единицы: 0 SAB 1 . Коэффициент приведения образа A к образу B будет равен нулю в том случае, если m Sп р,AB 1 bA b B 0, а это физически означает то, что каждому значащему возбуждению рецептора одного образа соответствует нулевое возбуждение рецептора другого образа, например: образ A: 1 0 1 0 1 0 1 0 1 0; образ B: 0 1 0 1 0 1 0 1 0 1. Наиболее характерными значениями коэффициентов приведения являются значения, лежащие в пределах от нуля до единицы. Больше единицы коэффициент становится только тогда, когда второй образ более ярок, чем первый, т.е. в среднем во второй ситуации рецепторы возбуждены больше, чем в первой. При этом обратный (встречный) коэффициент SBA , отражающий приведение второго образа к первому будет, разумеется, меньше единицы. Если образы соизмеримы, то коэффициент приведения может оказаться равным единице, например, если образ A: 5 4 3 2 1; образ B: 4 5 3 2 2, S AB но обратный коэффициент значение: 5 4 4 5 3 3 2 2 1 2 52 4 2 32 2 2 12 1, SBA — коэффициент приведения образа B к образу A — будет иметь иное S BA 5 4 4 5 3 3 2 2 1 2 4 2 52 32 2 2 2 2 55 58 причём он в таких случаях никогда не может быть больше единицы. Из (2.11) следует, что SAB =1 также в том случае, если Sп р,AB Sкв ,A , т.е. 1, m 1 m bA b B b 2A , 1 а такое возможно, в частности, при выровненных возбуждениях образа A: b A const и при SA = S B . Физическим примером рассматриваемого случая может быть сравнение изображений на сетчатке глаза при изменении резкости изображения: образ A — при нулевой резкости, а образ B — при любой другой. 3) Прямой коэффициент приведения SAB в общем случае не равен обратному коэффициенту S BA ; исключение составляют образы, у которых S кв ,A = S кв ,B т.е. m m b 1 2 A 1 b 2B , и тогда SAB = S BA и оба этих коэффициента не могут быть больше единицы. 4) Отношение прямого коэффициента приведения к обратному (встречному) равно отношению суммы квадратов возбуждений второго образа к сумме квадратов первого: m Sкв ,B Sкв ,A SAB SBA 1 m b 2B . b 1 Отсюда следует, что отношение 2 A SAB / S BA больше единицы в том случае, когда Sкв ,A > S кв ,B , а это означает, что образ B выглядит более контрастным, чем образ A. 5) Если образы A и B пропорциональны, т.е. B k A или bB k bA , где k — коэффициент пропорциональности, то, подставлял это соотношение возбуждений в выражение (2.11), получим m 1 SAB bA k bA k, m b 1 2 A а обратный коэффициент приведения определится как m SBA 1 1 b b k B B m 1 b 2B 1 . k Пропорциональные образы могут возникнуть в двух случаях: во-первых, в одной и той же ситуации, но при разных напряжениях питания рецепторов, и, во-вторых, когда одна и та же обозреваемая сцена освещена в одной ситуации ярче, чем в другой. Таким образом, после обучения только в одной первой Aситуации при предъявлении этой же ситуации, естественно, требуемый сигнал E A : E A, A EA , но, если изменить напряжение питания в k раз или изменить освещение сцены во столько же раз, то сигнал управления на выходе системы в этой измененной j-ой ситуации согласно (2.14) изменится во столько же раз: E A, j k EA . Если даже система обучена окончательно, на это ушло Т циклов обучения и в ситуации А фактический сигнал управления в соответствии с формулой (2.12) оказался равным m E T, A 1 bA c T , то в B-ситуации с пропорциональным образом сигнал управления определится как m E T, B 1 k bA c T k E T, A . Изменение сигнала на выходе системы при изменении напряжения питания рецепторов или при изменении освещённости сцены вовсе не говорит о том, что в целом поведение объекта будет другим; наоборот, пропорциональность сигналов управления в пропорциональных ситуациях подтверждает неизменность поведения объекта — изменяется лишь в той же пропорции скорости движения: и при повышении напряжения питания, и при усилении освещения сцены действия объекта станут лишь энергичнее. 6) Произведение прямого SAB и обратного S BA коэффициентов приведения двух образов даёт степень сходства этих образов: SABA SAB SBA , 7) Коэффициент приведения любого «нормального» образа к единичному, у которого все возбуждения рецепторов равны единице: b eq =1, — равен отношению суммы возбуждений «нормального» образа к сумме квадратов тех же возбуждений: SAeq SA Sкв ,A , и чем контрастней образ А, тем меньше коэффициент приведения. Стало быть, коэффициент приведения любого образа к единичному характеризует не отношение образов, а сам приводимый образ. Встречный коэффициент приведения единичного образа к любому образу А есть среднее арифметическое возбуждение рецепторов образа А: SeqA b Acp . Степень сходства образов. Сначала рассмотрим степень сходства двух образов, и для примера возьмём образы A и B с такими десятью возбуждениями: образ А: 1 1 1 1 1 1 1 1 1 1; образ B: 1 0 0 0 0 0 0 0 0 0. Степень сходства этих образов, вычисляемая по формуле (2.12), определится как 2 SABA 1 1 1 0 ... 1 0 2 1 12 ... 12 12 02 ... 02 1 , 10 т.е. при совпадении только одного возбуждения из десяти степень сходства образов равна одной десятой : SABA = 0,1. Увеличим число совпадающих возбуждений рецепторов до двух из десяти и получим степень сходства образов A и B равной двум десятым: SABA = 0,2. Если же увеличить число совпадающих возбуждений до девяти: образ А: 1 1 1 1 1 1 1 1 1 1; образ B:1 1 1 1 1 1 1 1 1 0, то степень сходства образов A и B увеличится до 0,9. Примеры о двоичными (1;0) возбуждениями очень наглядно характеризуют тот параметр сравнения образов, который определяется выражением (2.12) и который нами справедливо был назван степенью сходства двух образов. В случае с размерными возбуждениями содержание рассматриваемого параметра не изменяется если размерные возбуждения представить ступенчатыми, то картина предстанет приблизительно такая же, как и о двоичными возбуждениями. На основе пустого анализа выражения (2.12) можно получить некоторые свойства степени сходства образов. 1) Степень сходства двух образов равна произведению прямого и обратного (встречного) коэффициентов приведения: Другими словами: степень сходства двух образов есть приведение одного образа к самому себе через другой образ, причём перемена мест образов не изменяет степень сходства: SBAB SBA SAB SABA . 2) Степень сходства, как явствует из выражения (2.12), не может быть меньше нуля и больше единицы: 1; при SABA = 0 образы абсолютно различны, например: образ А: 1 0 1 0 1 0 1 0 1 0; образ B: 0 1 0 1 0 1 0 1 0 1, а при SABA = 1 — образы абсолютно схожи, т.е. ничем не отличаются. Нетрудно предположить, что, чем меньше степень сходства образов ситуаций, тем быстрее будет происходить обучение системы, и, наоборот, чем больше степень сходства, тем труднее обучение. В пределе, когда степень сходства образов ситуаций равна единице, но в этих ситуациях требуются различные сигналы управления, то обучение и теоретически, и практически не возможно: такие ситуации назовем противоречивыми. Действительно, нельзя требовать от системы различных действий в одних и тех же ситуациях. 3) Интересно отношение степени сходства к образам, состоящим всего из одного числа. Пусть образ A — представлен одним числом b A а образ B — числом b B и пусть эти числа не равны между собой. Вычисляя степень сходства таких образов по формуле (2.12), получим 0 SABA SABA bA b B b2A b2B 2 1. Это значит, что обучаемые системы управления не различают подобные образы, или, другими словами, обучаемые системы не признают отдельное число за образ; образ для них возникает только тогда, когда он содержит не менее двух чисел, когда на практике система очувствления включает, по крайней мере, не менее двух рецепторов. Интересно и то, что верхнего предела количества рецепторов у обучаемых систем управления нет. По этому поводу уместно напомнить, что общее количество рецепторов у человека насчитывает больше 100 миллионов, и каких-либо затруднений в связи с этим человек не испытывает, скорее — наоборот: трудности возникают у него тогда, когда сокращается количество рецепторов. 4) Не менее интересно отношение степени сходства к пропорциональным образам, которые упоминались при рассмотрении коэффициентов приведения и которые характеризуются соотношением B k A , где k — коэффициент пропорциональности. Коэффициенты приведения таких образов равны: SAB k , SBA 1 k . Следовательно, степень сходства пропорциональных образов, определяемая как произведение коэффициентов приведения будет равна единице: SABA SAB SBA k k 1 . Эти образы, как оказывается, обучаемые системы управления также не различают. Такое отношение обучаемых систем к пропорциональным образам на первый взгляд кажется загадкой: действительно, как можно не различать такие, например, образы: образ А: 2 4 1 3; образ B: 4 8 2 6? Тем не менее — это так: обучаемые системы их не различают, так как SABA = 1. Эту загадку можно воспринять как должное, если вспомнить, что животные и человек пропорциональные образы также не различают. Каждый человек очень легко может убедиться в этом сам. Что такое — пропорциональный образ? Это — образ, в котором все возбуждения пропорционально изменены, например увеличены в два раза, как в рассмотренном выше числовом примере. На практике это означает, например, изменение освещённости обозреваемой сцены. И разве человек при этом по иному воспринимает видимое? Нисколько. Следовательно, восприятие пропорциональных образов роднит обучаемые системы управления с нервными системами животных и человека. К слову, компьютеры, оснащенные техническим зрением и предназначенные для распознавания образов, очень чувствительны к изменению освещённости обозреваемой сцены. Они не способны воспринимать пропорциональные образы как одинаковые и нуждаются в дополнительных решающих правилах для того, чтобы правильно распознавать их. 5) Степень сходства трёх и более образов определяется как произведение всех коэффициентов приведения, включая замыкающий коэффициент приведения последнего образа к первому: SABC...NA SAB SBC  SN 1,N SNA . (2.15) И в этом случае, какими бы ни были по величине коэффициенты приведения, степень сходства будет лежать в пределах 0 SABCNA 1 . В заключение следует оказать, что соотношение образов, определяемое степенью их сходства, выражается простым числом и поэтому очень удобно для пользования им в обучении и изучении обучаемых систем управления. 1.3 Определение коэффищентов приведения образов Знание численных значений коэффициентов приведения образов ситуаций обучаемой выборки необходимо или желательно по многим соображениям. На основании соотношения коэффициентов приведения образов можно оценить ситуации, подобранные в обучаемую выборку, и при необходимости пересмотреть саму выборку, исключая из неё схожие ситуации и включая наиболее различимые. С помощью коэффициентов приведения можно выбрать наилучшую с точки зрения продолжительности обучения очерёдность предъявления ситуаций и тем самым значительно сократить время обучения и затраты на обучение. В общем случае коэффициенты приведения образов позволяют оценить очувствление в целом, определить его возможности и предела и выбрать усиление сигналов на выходе системы управления. В случае необходимости очувствление может быть изменено или дополнено, и снова в качестве оценочных параметров можно использовать коэффициенты приведения образов. Особо следует выделить необходимость определения коэффициентов приведения в случае стандартизации оценок очувствления и в целом — обучаемых систем управления. В принципе достаточно предъявить две специально подобранные стандартные ситуации и определить численные значения коэффициентов приведения образов этих ситуаций, чтобы по ним дать оценку всей системе. Расчётное определение коэффициентов приведения образов. Расчётным путём коэффициенты приведения можно определить лишь в том случае, когда есть возможность замерить возбуждения всех рецепторов. Для этого должны быть отсоединены все технические органы чувств от технического мозга и произведены замеры напряжений (или тока) на выходах всех рецепторов при подсоединении их к определённой постоянной омической нагрузке в сравниваемых ситуациях. Не составляет особого труда расчетное определение коэффициентов приведения образов в компьютерных обучаемых системах управления с цифровой видеоаппаратурой в качестве технического зрения и со считыванием цифровых показаний с других органов чувств. Напомним, что коэффициент приведения SAB образа А к образу B определяется по формуле (2.10), т.е. как отношение суммы произведений возбуждений однономерных рецепторов обоих образов Sп р,AB к сумме квадратов возбуждений первого образа А; встречный коэффициент приведения SBA образа B к образу А есть отношение той же суммы произведений Sп р,AB к сумме квадратов возбуждений уже второго образа B: SAB Sп р,AB Sкв ,A , S BA Sп р,AB Sкв ,B . В свою очередь сумма произведений возбуждений двух образов Sп р,AB определяется по формуле (2.10), а сумма квадратов возбуждений S кв ,A или S кв ,B — по формуле (2.7) . При большом количестве рецепторов (тысячи, десятки тысяч и даже сотни тысяч) расчётное вычисление может превратиться в трудоёмкую операцию; осложняется работа ещё и тем, что при вычислении сумм произведений возбуждений парных образов необходимо строго соблюдать соответствие номеров рецепторов; так, например, возбуждение какого-то 12345-го рецептора в одной ситуации можно перемножить только о возбуждением того же 12345го рецептора в другой ситуации. Сбиться о требуемого номера рецептора при большом их количестве очень легко, а результат при этом может оказаться совершенно негодным. Без использования компьютерной техники при вычислении коэффициентов приведения, очевидно, не обойтись. Экспериментальное определение коэффициентов приведения оптических образов. Для обоснования экспериментального определения коэффициентов приведения оптических образов воспользуемся их рельефным представлением. Обратимся ещё раз к следующему выражению фотоэлектрических преобразований образов в —оптической системе: U AC Д AC F G AC E AC . В скобках представлен пакет диапозитивов (АС), один из которых А — обозреваемая сцена (образ оптической ситуации), а другой С —образ оптического мозга. На выходе системы — сигнал управления EAC , определяемый этими двумя образами. Тот же сигнал управления EAC в той же ситуации в пиксельной (рецепторной) форме определится как m E AC b c . 1 Заменим в выражении преобразований образов диапозитив А на А1 а диапозитив С на А2, получим: U A1, A2 Д12 F G12 E12 . E12 изобразится как В пиксельной форме этот сигнал управления m E 12 b1 c 2 . 1 А теперь говорим, что образы А1 и А2 — это диапозитивы двух оптических ситуаций; следовательно, E12 есть просто сумма произведений возбуждении однономерных пикселей в ситуациях А1 и А2. Продолжим подстановки диапозитивов в разной их комбинации: установим в пакет два одинаковых диапозитива А1; преобразования образов примут вид: U A1, A2 Д11 F G11 E11 . или — в пиксельной форме: m E11 m b1 b1 1 1 b12 . Величину E11 можно охарактеризовать как сумму квадратов воз-буждений пикселей в ситуации А1. То же самое сделаем с диапозитивом А2: U A2, A2 Д22 m E 22 F G22 E22 ; m b2 b2 1 1 b 22 . Величина E22 представляет собой также сумму квадратов возбуждений пикселей, но уже в ситуации А2. Произведённых подстановок диапозитивов достаточно для того, чтобы определить коэффициенты приведения образов ситуаций А1 и А2: прямой S12 и встречный S21 , — а также степень сходства оптических образов этих ситуаций. По определению (2.11) коэффициент приведения одного образа к другому есть отношение суммы произведений возбуждений однономерных пикселей обоих образов к сумме квадратов возбуждений пикселей первого образа. Следовательно, в нашем случае коэффициент приведения S12 образа ситуации А1 к образу ситуации А2 определится как m S12 1 b1 b1 m 1 Встречный коэффициент приведения определить следующим образом: b12 E 12 . E 11 S21 образа ситуации А2 к образу ситуации А1 по подобию можно m 1 S21 b1 b 2 E12 . E 22 m 1 b 22 Степень сходства образов этих оптических ситуаций в соответствии с выражением (2.12) определится как 2 m S121 b1 b 2 1 m m b 1 2 1 1 b 22 2 E12 . E11 E 22 Полученные выражения позволяют определить коэффициенты приведения и степень сходства образов двух оптических ситуаций экспериментальным путём с использованием оптической обучаемой системы. Порядок выполнения работ следующий: 1) изготавливаем диапозитив А1 первой ситуации; 2) изготавливаем диапозитив А2 второй ситуации; 3) устанавливаем на оптическую обучаемую систему вместо диапозитива мозга С диапозитив А1; 4) направляем оптическую обучаемую систему на сцену первой ситуации и определяем на выходе сигнал E11 ; 5) направляем оптическую обучаемую систему на сцену второй ситуации и определяем на выходе сигнал E21 ; 6) устанавливаем на оптическую обучаемую систему вместо диапозитива мозга С диапозитив А2; 7) направляем оптическую обучаемую систему на сцену первой ситуации и определяем на выходе сигнал E12 ; 8) направляем оптическую обучаемую систему на сцену второй ситуации и определяем на выходе сигнал E22 . На этом эксперименты заканчиваются; проконтролировать точность экспериментов можно путём сравнения сигналов E12 и E 21 : они должны быть равны между собой; разность ( E12 - E 21 ) отражает погрешность проведённых работ. Коэффициент приведения образа первой ситуации к образу второй определится как отношение сигналов E12 / E11 ; встречный коэффициент приведения S21 определится как отношение сигналов E12 / E22 , а S121 этих двух ситуаций определится как отношение квадрата сигнала E12 к произведению сигналов E11 и E 22 или как произведение полученных коэффициентов приведения: степень сходства образов S121 S12 S21 . При отсутствии специальных устройств оптических обучаемых систем указанные эксперименты можно проводить с использованием подручных средств, например обычного диапроектора. Только в этом случае нужно устанавливать в него не один диапозитив, а по два; очевидно для этого нужно иметь дубли диапозитивов А1 и А2. Оценку величины светового потока на выходе из диапроектора можно производить с помощью фотоэкспонометра, который применяется в оптических системах для измерения освещённости. Можно использовать также обычный фоторезистор, направляя на него исходящий из диапроектора свет с помощью собирающей выпуклой линзы. Выражение коэффициентов приведения через оптические образы позволяет уяснить физическую суть этих коэффициентов. Представим их условно в таком виде: S12 U U A1, A2 A1, A2 B12 ; B11 S21 U U A1, A2 A1, A2 B12 , B22 где скобками указаны пакеты диапозитивов. Пакеты из спаренных дубль-диапозитивов (А1, А1) и (А2, А2) можно рассматривать почти как одиночные диапозитивы с повышенной контрастностью: их прозрачные места при наложении сохранятся почти такими же прозрачными, а тёмные — , накладываясь друг на друга, станут ещё более тёмными; в результате проходящие через: пакеты этих дубль-диапозитивов потоки света B11 и B22 уменьшатся совсем незначительно. Другое дело, когда спаренными окажутся разные диапозитивы (А1, А2); тут прозрачные места одного могут наложиться на тёмные места другого и, наоборот, тёмные места первого — на прозрачные места второго ( так оно, собственно, и произойдёт, если диапозитивы действительно окажутся различными). Указанное перекрытие приведёт к уменьшении результирующей прозрачности пакета диапозитивов и к уменьшению проходящего через него потока света; и, очевидно, чем больше будет несхожесть оптических образов диапозитивов А1 и А2, тем меньшей окажется их парная прозрачность и тем слабее будет поток света B12 , проходящий через них. А так как этот поток света B12 в представленных выше выражениях для определения коэффициентов приведения располагается в числителе, то, очевидно, именно он будет определять их величины: чем больше окажутся несхожими по расположению светлых и тёмных пятен диапозитивы двух разных оптических ситуаций, тем меньшим окажется числитель. Таков общий вывод; но он не охватывает все варианты необычного сочетания диапозитивов. Рассмотрим, в частности, один такой случай. Пусть диапозитив А1 будет очень прозрачным по всему своему полю, а диапозитив А2, наоборот, — затемнённым. Общая прозрачность пакета (А1, А2) будет близка прозрачности одного диапозитива А2, прозрачность пакета (А1, А1) будет близка прозрачности диапозитива А1, то есть сохранится большой, а прозрачность пакета (А2, А2) окажется, очевидно, близкой нулю. Такое сочетание даст следующий результат: U U U S12 S21 U A2 B2 1; A1 B1 A 2 B2 1. A 2, A 2 B22 Но, что касается степени сходства S121 образов этих диапозитивов, то она, как уже говорилось, в любом случае не превышает единицу. Отвлекаясь от частных случаев отметим, что результирующая прозрачность пакета из двух различных диапозитивов будет определяться совпадением их светлых пятен и в том числе даже самых мелких, отражающих мелкие детали видимых сцен. Экспериментальное определение, коэффициентов приведения образов с обнулением проводимостей синапсов. Следует ещё раз напомнить о том, что электрические обучаемые системы управления работают не с внешней информацией (не с внешними параметрами), а с внутренней, т.е. о теми фактическими возбуждениями рецепторов, которые возникают в данной ситуации. Следовательно, коэффициенты приведения образов не могут быть определены на основе только ситуаций обучаемой выборки, они — коэффициенты — привязаны к конкретной обучаемой системе управления и могут быть определены исключительно по показаниям конкретных технических органов чувств этой системы. Поэтому возникает необходимость экспериментального, т.е. натурного, определения коэффициентов приведения образов. Выберем сначала такие обучаемые системы, технический мозг которых способен обнуляться, т,е, проводимости синапсов могут не только наращиваться во время обучения, но и уменьшаться (стираться) до нуля для переобучения. В качестве сравниваемых образов примем образы ситуаций обучаемой выборки, количество которых вполне определенно. В основу экспериментального определения коэффициентов приведения положим хорошо известную нам зависимость (2.14), согласно которой после обучения системы только в первой ситуации, например в ситуации А, фактический сигнал управления коэффициентом приведения S A, j S A, j в любой другой j-ой ситуации будет определяться образа первой А-ситуации к образу j-ой ситуации. Приведём выражение (2.14) к виду SAj E A, j , E A, A (2.16) где Е(А,А) — фактический сигнал управления в А-ситуации системы, обученной предварительно в этой же ситуации. Порядок экспериментального определения коэффициентов приведения таков: 1) обнуляем технический мозг; 2) выбираем в качестве первой базовой ситуации ситуацию А и предъявляем её системе; замеряем фактический сигнал управления Е(0,А) — он должен быть равен нулю; отклонение от нуля не должно превышать допустимого, выбранного нами заранее; 3) задаем требуемый сигнал E A ; он не должен быть очень малым, близким нулю — в противном случае деление на него в соответствии с выражением (2.16) было бы невозможным; обучаем систему; после обучения производим контрольную проверку: замеряем фактический сигнал управления Е(А,А) в той же Аситуации — он не должен отличаться от требуемого сигнала E A более чем на допустимое отклонение; 4) предъявляем по очереди вое прочие ситуации обучаемой выборки; в каждой из них замеряем фактический сигнал управления Е(А,j) и по формуле (2.16) рассчитываем коэффициент приведения SAj образа А-ситуации к образу соответствующей j-ситуации; 5) обнуляем технический мозг; 6) выбираем в качестве второй базовой любую ситуацию обучаемой выборки кроме А-ситуации, например В-ситуацию; повторяем операции 2), 3), 4) данного алгоритма и получаем коэффициенты приведения S Bj образа В-ситуации к образам прочих j-ситуаций; 7) эксперимент повторяем с поочередным выбором в качестве базовой всех прочих ситуаций обучаемой выборки. Так можно определить все коэффициенты приведения образов, включая встречные, и общее число их определится как N n n 1 , где n — число ситуаций в обучаемой выборке. Экспериментальное определение коэффициентов приведения образов в процессе непрерывного обучения. Предлагаемый способ определения коэффициентов приведения образов не требует обнуления технического мозга. Прежде чем составить алгоритм (порядок) эксперимента, получим необходимые аналитические выражения. Вначале рассмотрим обучаемую выборку, состоящую всего из двух ситуаций А и В, в которых заданы сигналы управления соответственно E A и E B . Для определения коэффициента при- SAB мы можем воспользоваться формулой (2,16) и рассмотренным выше порядком эксперимента, но для определения встречного коэффициента приведения SBA этого недостаточно. ведения Воспользуемся теоретическим обучением в двух ситуациях, выполненным ранее, и выпишем из него выражение для фактического сигнала управления Е(АВ,А) на 1-ом шаге 2-го цикла; оно выглядит так: E AB, A EA EB E A, B SBA . Из него можно получить: SBA E AB, A E A . E B E A, B (2.17) Выражения (2.16) и (2.17) позволяют определить оба — прямой и встречный — коэффициента приведения. Порядок эксперимента таков: 1) убеждаемся, что исходное состояние технического мозга — нулевое; для этого в обеих ситуациях А и В замеряем фактический сигнал управления на выходе системы — он должен равняться нулю с точностью допустимых отклонений A и B ; 2) предъявляем ситуацию А; в качестве первой ситуации желательно выбрать такую из двух имеющихся, в которой требуемый сигнал E A не доложен быть равным нулю или близким к нему; проводим обучение; проверяем фактический сигнал управления Е(А,А) в той же А-ситуации; 3) предъявляем ситуацию В; замеряем фактический сигнал управления Е(А,В), по формуле (2.16) вычисляем коэффициент SAB ; 4) дообучаем в ситуации В; проверяем правильность обучения: замеряем фактический сигнал управления Е(АВ,В) и убеждаемся, что он равен сигналу E B ; 5) предъявляем ситуацию А и замеряем фактический сигнал Е(АВ,В); по формуле (2.17) вычисляем коэффициент SBA . На этом определение коэффициентов приведения образов двух ситуаций завершено, но обучение может быть продолжено. Рассмотрим теперь обучаемую выборку, состоящую из трёх ситуаций А, В, С с заданными сигналами управления соответственно E A , E B , E C . И снова для выведения необходимых формул обратимся к теоретическое обучению, проведённому ранее. На З-ем шаге 1-го цикла хода обучения в трёх ситуациях, т.е. при предъявлении С-ситуации, фактический сигнал управления был определён как E AB, C E A SAC EB E A, B SBC . Из этого выражения можно получить SBC E AB, C E A SAC . E B E A, B (2.18) Если после теоретического обучения на З-ем шаге 1-го цикла предъявить снова ситуацию А, то фактический сигнал управления Е(АВС,А), очевидно, будет таким: E ABC, A EA EB E A, B SBA EC E AB, C SCA . Откуда: SCA E ABC, A EA EC EB E A, B SBA . E AB, C (2.19) Если же предъявить вместо ситуации А ситуацию В, то получим фактический сигнал управления Е(АВС,В): E ABC, A E A SAB EB E A, B Из этого выражения выведем формулу для определения SCB EC E AB, C SCB . SCB : E ABC, B E A SAB E B E C E AB, C E A, B . (2.20) После получения необходимых формул можно приступить к экспериментальному определению коэффициентов приведения (начало действий будет совпадать с первыми шагами предыдущего алгоритма): 1) убеждаемся, что исходные проводимости технического мозга — нулевые; 2) предъявляем ситуацию А; проводим обучение; 3) предъявляем ситуацию В; замеряем фактический сигнал Е(А,В); по формуле (2.16) вычисляем коэффициент SAB ; 4) предъявляем ситуацию С; замеряем фактический сигнал Е(А,С); по формуле (2.16) вычисляем коэффициент SAC ; 5) предъявляем ситуацию В; дообучаем систему; 6) предъявляем ситуацию С; замеряем фактический сигнал управления Е(АВ,С); по формуле (2.18) вычисляем коэффициент SBC ; 7) предъявляем снова ситуацию А; замеряем фактический сигнал Е(АВ,А); по формуле (2.17) вычисляем коэффициент SBA ; 8) предъявляем ситуацию С; дообучаем систему; 9) предъявляем ситуацию А; замеряем фактический сигнал Е(АВС,А); по формуле (2.19) вычисляем коэффициент SCA ; 10) предъявляем ситуацию В; замеряем фактический сигнал Е(АВС,В); по формуле (2.20) вычисляем коэффициент SCB . На этом экспериментальное определение коэффициентов приведения образов трёх ситуаций завершается. По аналогии могут быть определены коэффициенты приведения и в тех случаях, когда число ситуаций в обучаемой выборке окажется больше трёх. 2. Теоретическое обучение обучаемых систем управления Положим в основу теоретического обучения математическую модель (1.12)...(1.16). Целью обучения пусть будет выявление закономерностей обучения. При этом, может быть — самое главное, мы будем формировать у себя интуитивное восприятие обучаемых систем управления: глубина понимания систем зависит от навыков общения с ними, в данном случае — от навыков теоретического обучения. Начнём о самых простых случаев. 2.1. Обучение в двух ситуациях Пусть обучаемая выборка состоит всего из двух ситуаций А и В, в которых образы очувствления представляют собой наборы возбуждений рецепторов: образ А: bA1 , b A 2 , ..., b Am ; образ В: b B1 , b B2 , ..., b Bm , и пусть требуемые сигналы управления имеют следующие значения: в ситуации А — E A , в ситуации В EB . Разобьем весь процесс обучения на шаги и циклы. Примем исходное состояние мозга нулевым, т.е. все 0. исходные проводимости синапсов равны нулю: c 0 — Ход обучения в двух ситуациях. Проведём теоретическое обучение в двух ситуациях, повторив начало обучения, проведённое ранее. 1.1. (Цикл 1-ый, шаг 1-ый) Предъявим ситуацию А и определим не обучая фактический сигнал управления в ней в соответствии с выражением (1.12) (не трудно сообразить, что он будет равен нулю): m E 0, A 1 bA c 0 0. Погрешность сигнала управления согласно (1.13) составит E 0, A EA E 0, A EA . (И этот результат должен быть нам понятен.) Теперь начнём систему обучать, т.е. будем изменять проводимость синапсов по закону обучения, отражённому в выражении (1.9). Если при этом принять, что на каждом шаге обучения удаётся свести выявленную погрешность к нулю, то поправки проводимостей, как было раньше доказано, будут изменяться по формуле (1.15). В нашем случае поправка проводимости каждого -го синапса определится как c A где E 0, A bA EA bA , bA — удельное возбуждение -го рецептора в А-ситуации, определяемое выражением (2.8). Сами проводимости после обучения на 1-ом шаге 1-го цикла можно выразить для каждого -го синапса в соответствии с выражением (1.16) в виде c A c 0 c A EA bA ; На этом первый шаг обучения завершен. 1.2. (Цикл 1-ый, шаг 2-ой) Предъявим ситуацию В. Повторяя прежний ход обучения получим: Фактический сигнал управления (после обучения в ситуации А и последующего предъявления ситуации В): m E A, B 1 m bB c A EA 1 b B bA E A SAB , где SAB — коэффициент приведения образа А к образу В, определяемый выражением (2.11); погрешность сигнала управления: E A, B EB E A, B EB EA SAB ; поправки проводимостей синапсов (после дополнительного обучения в ситуации В): c A, B bB E A, B EB m b 1 где E A SAB bB , 2 B bB — удельное возбуждение -го рецептора в В-ситуации, определяемое выражением (2.8); проводимости синапсов: c A, B c A c AB E A bA EB E A SAB bB . На этом первый цикл обучения завершен. 2.1. (Цикл 2-ой, шаг 1-ый) m E AB, A 1 где b A c AB EA EB E A SAB SBA , SBA — коэффициент приведения образа В к образу А, определяемый выражением (2.11) E AB, A EB c ABA c ABA E A bA E A SAB SBA ; EB E A SAB SBA bA ; EB E A SAB bB SBA bA . 2.2. (Цикл 2-ой, шаг 2-ой). E ABA, B где E A SAB EB E A SAB 1 SABA , SABA — степень сходства образов А и В, определяемая выражением (2.12). E ABA, A EB c ABAB EB E A SAB SABA ; E A SAB SABA b B ; c ABAB EB E A SAB EA bA 1 SABA b B S BA b A . 3.1. E ABAB, A E ABAB, A c ABABA EA EB EB EB E A SAB SBA SABA ; E A SAB SBA SABA ; E A SAB SBA SABA bA ; c ABABA E A bA EB 1 SABA b B E A SAB SBA bA . 3.2. E ABABA, A E A SAB E ABABA, A 1 SABA 2 E A SAB SABA bB ; EB c ABABAB 2 ; E A SAB SABA EB c ABABAB 2 ; E A SAB 1 SABA EB E A bA 2 SABA bB EB S BA E A SAB S BA SABA bA . 4.1. E ABABAB, A EA E ABABAB, A c ABABABA c ABABABA 1 SABA E A SAB S BA S2ABA ; EB E A SAB SBA S2ABA ; EB E A SAB SBA S2ABA bA ; EB E A bA EB S2ABA b B E A SAB S BA bA . 4.2. E ABABABA, A EB 3 ; E A SAB 1 SABA EB 3 E A SAB SABA ; EA E ABABABA, A c ABABABAB 3 E A SAB SABA bB ; EB c ABABABAB E A bA S2ABA 1 SABA 1 SABA EB 3 SABA E A SAB bB S2ABA SAB b A . 5.1. E ABABABAB, A EA EB E A SAB SBA S3ABA . И так далее. Уточним обозначения: Е(АВАВАВАВ,А) — означает фактический сигнал системы, обученной в четырёх циклах (АВАВАВАВ), при предъявлении очередной ситуации А; c ABABABAB — означает проводимость -го синапса после обучения в четырёх циклах. Закономерности обучения в двух ситуациях. Как видно из проведённого теоретического обучения, этих циклов достаточно для того, чтобы выявить вое закономерности обучения. Начнём с того, что погрешность сигнала управления в каждом последующем цикле обучения E T определяется как погрешность в предыдущем цикле E T 1 , умноженная на степень сходства образов SABA : ET — такое соотношение называется функцией последования. E T 1 SABA , (2.21) А так как степень сходства двух образов SABA всегда меньше единицы, то выражение (2.21) свидетельствует о сходимости процесса обучения: каждая последующая погрешность будет меньше предыдущей. Исключение составляют только те образы, степень сходства которых равна единице, а такие образы (и их ситуации) мы уже охарактеризовали как противоречивые. Действительно, процесс обучения будет нескончаемым и бессмысленным, если обучатель будет требовать от обучаемых систем управления в одинаковых ситуациях разных сигналов управления. Из выражения (2.21) следует и то, что, чем меньше степень сходства тем стремительнее будет SABA , уменьшаться тем успешнее будет погрешности по на графике функции отложена E T 1 , а по оси погрешность сигнала управления E и проходить обучение. Изменение ходу обучения можно продемонстрировать последования (рис.2.1), где по оси абсцисс погрешность предыдущего цикла ординат — погрешность на последующем цикле E T . Обучение погрешность сигнала отклонения Если обучаемая и В то после Т проводимости завершается, очевидно, тогда, когда управления окажется меньше допустимого : E . выборка включает только две ситуации А циклов обучения установятся следующие синапсов: Рис. 2.1. Зависимость погрешности сигнала управления на последующем цикле обучения E T от погрешности на предыдущем цикле ET 1 c T E A bA E A SAB 1 S2ABA  STABA bB 1 SABA 1 SABA EB (2.22) 1 S2ABA  STABA SBA bA . Последние поправки проводимостей после завершающего обучения в последующей ситуации В составят c T 1 E A SAB STABA bB . EB (2.23) Фактический сигнал управления после Т циклов обучения и последующего предъявления ситуации А определится выражением E T, A EA 1 E A SAB SBA STABA , EB (2.24) а погрешность сигнала управления в этой же ситуации составит E T, A EB 1 E A SAB SBA STABA . (2.25) Выражения (2.24) и (2.25) получены на основании анализа теоретического обучения, но их можно получить также путем подстановки выражения (2.14) в формулы (1.12) и (1.13): m E T, A 1 bA c T ; m E T, A Так как: EA 1 bA c T . m m 1 bA b A 1; m 1 bB b B 1; bB bA S BA ; 1 m bA b B SAB ; 1 SAB SBA SABA , то результат окажется один и тот же. Путём такой же подстановки можно определить фактический сигнал при предъявлении ситуации В: Погрешность сигнала управления в этом случае оказывается равной нулю m E T, B bB c T 1 m EA bA b B EB E A SAB 1 m ( 1 SABA 1 S2ABA  STABA bB b B 1 2 S2ABA  STABA S BA 1 SABA m bA b B ) EB. 1 В таком результате нет ничего удивительного, если вспомнить, что теоретическое обучение строится по принципу полного устранения погрешности сигнала управления на каждом шаге обучения. Это свойство может быть использовано при теоретическом обучении для самоконтроля: после завершения обучения в любой ситуации, т.е. после корректировки проводимостей синапсов в этой ситуации, при предъявлении этой же ситуации погрешность сигнала управления должна обязательно равняться нулю, а сам фактический сигнал — ничем не отличаться от требуемого. Если обучение продолжить после Т циклов ещё на один шаг о предъявлением ситуации А, то после обучения в ней установятся следующие проводимости синапсов: c T, A 1 SABA E A bA EB E A SAB 1 S2ABA  STABA bB S BA bA . (2.26) Поправки проводимостей в этом случае будут такими: c TA EB 1 E A SAB SBA STABA bA . (2.27) При последующем предъявлении ситуации В фактический сигнал управления в ней и погрешность этого сигнала определятся как E TA, B E A SAB E TA, B EB EB E A SAB 1 STABA ; (2.28) E A SAB STABA . (2.29) Выражения (2.21)...(2.29) отражают закономерности обучения, если обучаемая выборка состоит всего из двух ситуаций. Продолжительность обучения в двух ситуациях. Обучение системы управления осуществляет обучатель; он прекращает обучение тогда, когда действия обучаемого объекта удовлетворят его требованиям точности. В каких-то ситуациях, например в целевых, эти требования будут очень высокими, в других — не очень, а в некоторых — совсем незначительные. Тот же самый подход осуществляется и при самообучении системы, когда она руководствуется критериями «хорошо» и «плохо»: если действия объекта не «хороши», а «плохи», но допустимы, то обучение приостанавливается. Требуемую точность можно выразить через допустимые отклонения сигналов управления. Обозначим в рассматриваемом обучении с двумя ситуациями через A , допустимое отклонение в ситуации А, а через B допустимое отклонение в ситуации В. Для простоты условимся считать, что оба допустимых отклонения сигналов управления A и B симметричны относительно номинала, т.е. плюс- и минусотклонения равны между собой, и все величины представлены только в абсолютных значениях, без учёта их знака. Из хода теоретического обучения следует, что обучение будет завершено за один шаг (с обучением только в ситуации А), если выполнятся условия E A, B E B EA SAB B; B; за один цикл ( с обучением последовательно в ситуациях А и В), если E AB, A E A SAB A; E B SAB A ; за три шага (с обучением последовательно в ситуациях А, В и А), если E ABA, B EB B; E A SAB SABA B; за два цикла (с обучением последовательно в ситуациях А, В, А и В), если E ABAB, A E A SAB A ; E B SAB SABA A ; и так далее. E В каждом представленном частном случае рассматривалась погрешность сигнала управления только при предъявлении одной какой-то ситуации; при предъявлении другой, той, в которой завершилось обучение, как было показано выше, погрешность будет равна нулю, например E ABAB, B всегда меньше допустимого отклонения B , так как она равна нулю. В общем случае обучение можно считать завершенным, если выполняется условие E T, A A . (2.30) После подстановки в это условие выражения (2.25) и некоторых преобразований получим выражение для определения числа циклов обучения lg TA A E A SABA E B SBA lg SABA 1. (2.31) Если после Т циклов проведено ещё обучение в ситуации А, то условием завершения обучения будет E TA, B а число полных циклов обучения определится как B, (2.32) lg TB B E B E A SAB . lg SABA (2.33) Так как каждый цикл состоит из двух шагов, то полное число шагов обучения в первом случае составит 2TA , а во втором с учётом дополнительного обучения в ситуации А будет равно t B 2TB 1 . Порядок предъявления двух ситуаций. Порядок предъявления ситуаций существенно влияет на скорость обучения обучаемых систем управления; в этом легко убедиться на любом численном примере. В общем на скорость обучения влияют многие факторы: подбор ситуаций, соотношение сигналов управления, выразительность, яркость и контрастность образов, соотношение образов между собой и др. Разобраться с влиянием на обучение всех этих факторов можно двояко: на основе опыта или путём выявления логики связи обучения с учитываемыми факторами. Первый путь требует времени общения с «живым» объектом, оснащенным обучаемой системой управления, второй упирается в теоретическое обучение. Рассмотрим влияние на скорость обучения порядка предъявления двух ситуаций А и В. Задача эта не может рассматриваться в качестве характерной, так как последовательность только двух ситуаций всегда одна и та же: после предъявления ситуации А следует предъявление ситуации В, а после неё — снова А; других вариантов нет. Говорить можно лишь о предпочтении в выборе первой и последней ситуаций. Лучшей оценкой сходимости процесса обучения является зависимость величины погрешности сигнала управления от числа циклов обучения, отражённая в выражениях (2.25) и (2.29). Первая зависимость получена при условии, что обучение начинается с ситуации А, а заканчивается в ситуации В. Вторая зависимость получена при другом условии: обучение начинается о той же ситуации А, и заканчивается в той же ситуации. Если же теперь переставить ситуации местами, т.е. начать не с ситуации А, а с ситуации В, то соответствующие погрешности сигналов управления после тех же Т циклов обучения определятся уже так: tA E T, B EA E TB, A A Пусть первая последовательность скорости обучения, чем вторая B A B B A EA 1 E B SAB SAB STABA ; (2.34) E B SBA STABA . (2.35)  будет более продуктивной с точки зрения  , т.е. E T, A E TA, B E T, B ; (2.36) E TB, A . (2.37) Примем знаки требуемых сигналов управления E A и E B одинаковыми и избавимся в условиях (2.35) и (2.37) от оговаривания их абсолютных значений. После подстановки в условия (2.36) и (2.37) выражений (2.25), (2.29), (2.34) и (2.35) получим соответственно EB EA SABA SABA EA EB SAB ; SBA 1 S BA . 1 SAB (2.38) (2.39) Согласно условия (2.38) при предъявлении ситуации А первой — обучение будет более успешным в том случае, если E B > E A , а SAB < SBA . Условие же (2.39) при той же начальной ситуации А требует совершенно противоположного: E A > E B . Другими словами, условия (2.38) и (2.39) — несовместимы. Вывод может быть только один: выбор в качестве первой — ситуации А или ситуации В на скорости обучения никак не оказывается. Другое дело — какая из ситуаций предъявлена последней. Условие (2.38), соответствующее условию (2.36), отдаёт предпочтение в качестве последней — ситуации А, а условие (2.39) соответствующее условию (2.37), — ситуации В. Итак, если последней предъявляется ситуация А, то желательно согласно условию E A был меньше, чем E B , но коэффициент SBA должен быть больше (2.38), чтобы требуемый сигнал в ней SAB . Не противоречит этому и условие (2.39). Согласно ему лучше предъявлять последней — ситуацию В, если E A > E B , а SBA < SAB . Рассмотрим в связи с этим более подробно соотношение коэффициентов SAB и SBA . Если подставить в условие ( SAB > SBA ) выражения в соответствии с (2.11), то это условие приобретёт вид коэффициента m m b 1 2 B 1 b 2A . Такое соотношение может возникнуть тогда, когда, во-первых, образ В более ярок, чем образ А. Это может быть в том случае, если напряжение питания рецепторов по какой-то причине в ситуации В больше, чем в ситуации А или когда в образе В больше светлых пятен, если говорить о зрительных ситуациях. Вовторых, такое может быть в том случае, если образ В более контрастен, чем образ А. Изменение контрастности образа может произойти от изменения освещённости сцены: чем ярче освещение, тем контрастнее образ, если фоторецепторы глаза парны. Снижение контрастности может произойти, в частности, и в том случае, если зрительная сцена смещена оптикой в сторону меньшей резкости. И, наконец, в-третьих, указанное соотношение может возникнуть при появлении в образе В яркого пятна, которого не было в образе А. Остаётся уяснить, насколько справедливы вышеприведённые рассуждения, если требуемые сигналы управления E A и E B имеют противоположные знаки. Известно, что обучаемые системы управления абсолютно симметричны с точки зрения знаков сигналов управления. Поэтому нет смысла уточнять, какой из сигналов управления E A или E B положительный, а какой — отрицательный. Подход к порядку предъявления ситуаций остаётся прежним. Если допустимые отклонения сигналов управления A и B , точнее говоря — их абсолютные значения, не равны между собой, то первой желательно предъявлять ситуацию, в которой допустимое отклонение больше, а последней —, в которой допустимое отклонение меньше. Если же A = B то последней ситуацией в процессе обучения следует выбирать ту, в которой абсолютное значение требуемого сигнала управления наибольшее. Условия (2.38) и (2.39) можно получить путём сравнения чисел циклов обучения с использованием выражений (2.31) и (2.33), но ничего нового такое сравнение не даёт. 2.2. Обучение в трёх ситуациях Пусть обучаемая выборка состоит из трёх ситуаций А, В, С, — в которых образы очувствления представляют собой наборы возбуждений рецепторов: образ А: bA1 , b A 2 , ..., b Am ; b B1 , b B2 , ..., b Bm ; образ С: b C1 , bC2 , ..., b Cm , образ В: и пусть требуемые сигналы управления имеют следующие значения: в ситуации А — E A , в ситуации В — E B , в ситуации С — E C . Разобьем опять весь процесс обучения на шаги и циклы. Примем, как прежде, исходное состояние мозга 0. нулевым, т.е. все исходные проводимости синапсов равны нулю: c 0 Ход обучения в трёх ситуациях. На первых двух шагах (1.1 и 1.2) с поочередным предъявлением ситуаций А и В обучение будет таким же, как и с двумя ситуациями в обучаемой выборке. Начнем рассмотрение с 3-го шага 1-го цикла. 1.3. (Цикл 1-ый, шаг 3-ий) m E AB, C 1 b c c AB E AB, C EC c ABC E A SAC EC E A SAC EC EB EA SAC EB E A SAB SBC ; E AB, C E A SAB S BC ; EB EA SAB SBC bc ; c ABC EC E A bA E A SAC EB EB E A SAB bB E A SAB SBC bc . Очевидно, что при обучении в трех ситуациях все выражения становятся громоздкими. Поэтому перейдем от абсолютных параметров обучения к относительным. Для этого продолжим обучение не на 2-ом цикле, а спустя Т циклов обучения. Т+1, 1. (Цикл Т+1, шаг 1-ый, ситуация А): m E T, A 1 E T, A EA c TA c TA bA c T ; E T, A ; E T, A bA ; c T E T, A bA . Т+1, 2. (Цикл Т+1, шаг 2-ой, ситуация В): m E TA, B 1 bB c T E T, A SAB ; m E TA, B EB 1 bB c T c TAB c TAB c T E T, A SAB ; E TA, B bB ; E T, A bA E TA, B bB . Т+1, 3. (Цикл Т+1, шаг 3-ий, ситуация С): m E TAB, C bc c T 1 E TAB, C E T, A SAC EC bc c T E TA , B S BC ; E T, A SAC E TA, B SBC ; c TABC c TABC c T E TAB, C bc ; E T, A bA E TA, B bB E TAB, C bc . Т+2, 1. (Цикл Т+2, шаг 1-ый, ситуация А): m E TABC, A 1 bA c T E T, A E TA, B SBA E TAB, C SCA ; m E TABC, A EA E TA, B SBA После подстановки в это выражение 1 bA c T E T, A E TAB, C SCA . E T, A из предыдущего цикла первого шага получим E TABC, A E TA, B SBA c TABCA c TABCA E TAB, C SCA ; E TABC, A bA ; c TABC E TABC, A bA . Т+2, 2. (Цикл Т+2, шаг 2-ой, ситуация В): m E TABCA, A b B c TABC 1 E TABC, A SAB ; m E TABCA, A EB E TA, B Подставим сюда 1 b B c TABC E TAB, C SCB E T, A SAB E TABC, A SAB . E TA, B из предыдущего цикла 2-го шага, получим E TABCA, B E TAB, C SCB c TABCAB c TABCAB E TABC, A SAB ; E TABCA, B bB ; c TABCA E TABCA, B bB . Т+2, 3. (Цикл Т+2, шаг 3-ий, ситуация С): m E TABCAB, C 1 b c c TABCA E TABCAB, C E TABCA, B SBC ; E TABC, A SAC E TABCA , B S BC ; c TABCABC c TABCABC E TABCAB, C bc ; c TABCAB E TABCAB, C bc . На этом обучение можно прекратить, так как выявились все основные закономерности. Закономерности обучения в трёх ситуациях. Если ситуации в каждом цикле предъявляются в строгой B C , то после (Т+1) циклов обучения на (Т+2)-ом цикле в последовательности, а именно: A ситуации А фактический сигнал управления, как следует из анализа хода обучения, определится в виде m E T 1, A bA c T E T, A (2.40) 1 E TA , B S BA E TAB, C SCA . Погрешность сигнала управления в этом случае выразится как E T 1, A E TA, B SBA E TAB, C SCA . (2.41) Проводимости синапсов после завершения обучения в (Т+1) циклах сформируются такими c T 1 c T E T, A bA E TAB, C bc . E TA, B bB (2.42) E TAB, C — погрешность сигнала управления после обучения в Т циклах, последующего обучения в ситуациях А и В и при предъявлении ситуации С; bc — Ещё раз расшифруем обозначения, в частности: удельное возбуждение -го рецептора в С-ситуации, определяемое выражением (2.9). Простой анализ выражения (2.40) показывает, что фактический сигнал управления слагается из фактического сигнала, полученного циклом ранее, и добавок на каждом шаге последнего цикла, каждая из которых определяется произведением погрешности сигнала этого шага на коэффициент приведения образа соответствующей ситуации к последней предъявленной. Отсутствие коэффициента приведения в первой добавке E T, A объясняется тем, что она соответствует предъявлению ситуации А и приведение осуществляется также к ситуации А; а так как коэффициент приведения образа к самому себе (в данном случае — SAA ) всегда равен единице, то этот коэффициент в выражении (2.40) опущен. Похоже формируются проводимости синапсов — выражение (2.42). Проводимость каждого -го синапса наращивается в течение всего последнего цикла на каждом шаге в полном соответствии с законом обучения, согласно которому изменение проводимости на любом шаге обучения определяется произведением погрешности сигнала управления на соответствующее удельное возбуждение рецептора. Что касается величины погрешности сигнала управления E — выражение (2.41), — то она зависит только от последних двух шагов обучения и имеет два соответствующих слагаемых, каждое из которых определяется погрешностью E данного шага, умноженной на коэффициент приведения образа ситуации этого шага к образу последней ситуации. Особо следует подчеркнуть то, что в принципе погрешность сигнала управления меняет свой знак на каждом последующем шаге обучения, так что фактически она не складывается из погрешностей последних двух шагов обучения, а вычитается. Отсюда следует, что на каждом последующем цикле обучения абсолютная величина погрешности сигнала управления будет меньше предыдущей; и здесь нет исключений, если не принимать в расчёт противоречивые ситуации. Обратим внимание на то, что все параметры обучения зависят только от погрешностей сигналов управления, а те, в свою очередь, — от коэффициентов приведения образов вовлечённых в обучение ситуаций и от требуемых сигналов управления. (Зависимость от требуемых сигналов выявляется при скольжении по процессу обучения назад вплоть до первого цикла.) Таким образом, обучение обучаемых систем управления определяют два фактора: требуемые сигналы управления и коэффициенты взаимного приведения образов используемых ситуаций, — и если отнести требуемые сигналы управления в субъективным факторам, то остаётся лишь одна зависимость хода обучения — зависимость от коэффициентов приведения. Тем самым мы подтвердили значимость в общей теории обучаемых систем управления теории образов. Если после завершения обучения в (Т+1) циклах о принятой последовательностью A B C A предъявить ситуацию В, то фактический сигнал управления определится как m E T 1, B 1 bB c t E TA, B E T, A SAB E TAB, C SCB . E TA, B , определённой в предыдущем После подстановки в полученное выражение погрешности цикле, получим E T 1, B EB E TAB, C SCB , (2.43) а погрешность сигнала управления в этой же ситуации примет вид E T 1, B E TAB, C SCB . (2.44) Что же касается параметров E T 1, C и E T 1, C , то их можно предсказать без выводов: если обучение на (Т+1)-ом цикле завершилось в ситуации С, то при последующем предъявлении этой же ситуации фактический сигнал управления будет равен естественно, будет равна нулю: E C : E T 1, C EC , — а его погрешность, E T 1, C . Это следует из того, что в основе обучения лежит идеальный закон, согласно которому, повторим, погрешность E на каждом шаге обучения устраняется полностью. Можно в качестве самопроверки доказать это в данном конкретном случае. Фактический сигнал управления после завершения обучения в (Т+1)-ом цикле, последней в котором была ситуация С, при предъявлении этой же ситуации определится как m E T 1, C 1 bc c t E TA, B SBC E T, A SAC E TAB, C . E TAB, C из предыдущего цикла, получим Подставив в это выражение погрешность E T 1, C EC , и погрешность E T 1, C , разумеется, будет равна нулю. Выражение (2.41) можно представить в более общей форме, если ввести вместо циклов шаги по нарастающей: 1-ый шаг 2-го цикла считать 4-ым шагом, 2-ой шаг 2-го цикла — 5-ым шагом и т.д. Сохраняя, по-прежнему, строгую последовательность предъявления ситуаций, можно закон изменения погрешности сигнала управления при включении в обучаемую выборку трёх ситуаций представить в виде Et где t — номер шага обучения; S t образу текущей; S t 2,t 1,t E t 1 St E t 2 St 1,t 2 ,t , (2.45) — коэффициент приведения образа ситуации предыдущего шага к —коэффициент приведения образа ситуации, предъявленной двумя шагами раньше, к образу текущей ситуации. Выражение (2.45) даёт некоторую свободу в выборе последней ситуации обучения, которой может быть B C , закончить не только последняя ситуация цикла: приняв последовательность ситуаций A обучение можно на любой из них. Выражение (2.45) подтверждает, что погрешность сигнала управления на последнем шаге обучения определяется погрешностями двух предыдущих шагов и соответствующими коэффициентами приведения. Приведём выражение (2.45) к такому виду, когда погрешность будет зависеть от самой себя в той же ситуации, но циклом ранее; для этого сместим зависимость (2.45) на один шаг назад: Et 1 Подставляя полученное значение E t 2 St E t 3 St ,t 1 . 2,t 1 E t 1 в выражение (2.45), получим Et E t 3 S t ,t St где S t ,t 1,t 2 ,t St 2 ,t 1 Et 2 1,t St 1,t (2.45а) , — степень сходства образов предыдущей и текущей ситуаций; S t 2 ,t 1 — коэффициент приведения образа ситуации, предъявленной двумя шагами раньше, к образу предыдущей ситуации. Для наглядности изобразим выражение (2.45,а) применительно к каким-либо конкретным ситуациям, например: E TABC, A E T, A SACA E TA, B SBA SBC SCA . Полученное выражение похоже на подобную зависимость в двух ситуациях (2.21) тем, что погрешность сигнала управления в каждом последующем цикле обучения определяется погрешностью в той же ситуации предыдущего цикла, умноженной на степень сходства образов текущей и предыдущей ситуаций, и отличается тем, что учитывается влияние третьей ситуации. В общем случае это влияние выражается в увеличении погрешности E и удлинении процесса обучения, но может быть и наоборот. Поясним сказанное. Коэффициенты приведения нормальных образов чаще всего бывают по величине близкими единице, так что произведение SBC SCA вероятнее всего, меньше величины SBA , а разность SBA SBC SCA имеет очень малое значение; отсюда влияние погрешности в третьей ситуации, в нашем случае — погрешность E TA, B , незначительно. Что же касается знака указанного влияния: уменьшает ли оно E T, A или увеличивает, — то выясним его путём анализа ситуаций. Доли требуемый сигнал в ситуации А меньше, чем в ситуации всего, погрешности EA E TA, B и B EA E B , но они имеют одинаковый знак, то, скорее E T, A находятся в одной знаковой полуплоскости; если же EB или они имеют разные знаки, то и указанные погрешности — разного знака. При одинаковости знаков третья ситуация (ситуация В) будет способствовать уменьшению погрешности на каждом цикле и ускорению процесса обучения; при разных знаках — всё будет наоборот. Исходя из сказанного, можно утверждать, что сохранение каждой погрешностью своего знака при смещении на цикл наиболее вероятно, и только когда E TA, B SBA SBC SCA E T, A SACA погрешность в окажется больше, чем ситуации А при смещении на цикл изменит свой знак, но это почти невероятно; последнее может возникнуть, в частности, при очень малом значении степени сходства SACA . Таким образом, выражения (2.40)...(2.45) отражают закономерности обучения, если обучаемая выборка состоит из трёх ситуаций. Продолжительность обучения в трех ситуациях. Обозначим, по-прежнему, через A , B , C — допустимые отклонения сигналов управления соответственно в ситуациях А, В, С; примем, что все допустимые отклонения симметричны относительно номинала и будем рассматривать все величины как абсолютные, без учёта их знака, памятуя о том, что разные знаки свидетельствуют лишь о противостоянии, но не о соотношении. Очевидно, обучение может завершиться за один шаг в ситуации А, если при последующих предъявлениях других ситуаций В и С погрешности сигналов управления в них не будут превышать допустимых отклонений: E A, B Погрешность E A, C B; C. E A, B была определена на 2-ом шаге 1-го цикла при обучении в двух ситуациях: погрешность E A, C может быть представлена в таком же виде с заменой ситуации В на ситуацию С; в результате получим: EB EC EA SAB EA SAC B; C . Уточним: обучение может быть прекращено, если выполняются оба условия. В этих условиях главными параметрами, по-прежнему, являются коэффициенты приведения образов ситуаций SAB и SAC , определяющие соотношения образа А с образами В и С. Обучение может быть прекращено за два шага, если будут выполнены следующие условия: E AB, C Погрешность C; E AB, A A . E AB, C была определена на 3-ем шаге 1-го цикла при обучении в трёх ситуациях; погрешность E AB, A была определена на 1-ом шаге 2-го никла при обучении в двух ситуациях; после уточнения получим условия прекращения обучения: EC E A SAC SAB SBC E B SBC EA SABA EB SBA A. C; И, наконец, обучение завершается за (Т+1) цикл, если будут выполнены условия E T 1, A A; E T 1, B B. Подставляя в эти условия выражения (2.41) и (2.44), получим: E TA, B SBA E TAB, C SCA E TAB, C SCB B A ; (2.46) . В более общем виде с использованием выражения (2.45), в котором циклы Т заменены на шаги t по нарастающей, условия прекращения обучения (2.46) примут вид E t, t 1 t 1; E t, t 2 t 2, 2 St E t 1, t St ,t или Et 2, t 2 ,t 1 E t 1, t St ,t 2 t 2 1 t 1 ; , (2.47) где t 2 и t 1 — допустимые отклонения сигналов управления в ситуациях, которые должны быть предъявлены по порядку соответственно на (t+2)-ом и на (t+1)-ом шагах. Так как E t , t =0 то допустимое отклонение t не имеет никакого значения. Полученные условия (2.46) и (2.47) определяют не количественные, а качественные соотношения, говорящие о том, что о учётом коэффициентов приведения последние погрешности сигналов управления формируются на последнем предшествующем цикле обучения; это лишний раз подчёркивает глубокую закономерность обучения. Напомним ещё раз, что все величины условий приведены в абсолютных значениях без учёта их знака. Порядок предъявления трёх ситуаций. Сохраним прежнее обозначение ситуаций — А, В, С. Число вариантов порядка предъявления их равно числу перестановок, т.е. шести; вот эти варианты: АВС, ВСА, САВ, АСВ, СВА, ВАС; однако в непрерывной череде предъявлений ситуаций выделяются уже только два порядка: АВСАВСАВСА ...; АСВАСВАСВА ..., (2.48) (2.49) которые включают в себя все прежние шесть вариантов. Попробуем выявить зависимость скорости обучения от порядка предъявления ситуаций (2.48) или (2.49). Определим с использованием выражения (2.43) погрешность сигнала управления на том шаге обучения, на котором предъявляется ситуация А; и в первом порядке предъявлений (2.48), и во втором — (2.49) это будет кроме первого — четвёртый, седьмой, десятый и т.д. шаги обучения. Но сами выражения для определения погрешностей E в разных порядках предъявлений будут разными; так в порядке (2.48): E t, A Et 2 SBA E t 1 SCA , (2.50) а в порядке (2.49) — несколько иначе: E t, A Et 2 SCA E t 1 SBA . (2.51) Будем считать, что порядок (2.48) более эффективен с точки зрения скорости обучения, чем порядок (2.49), т.е.: E t, A E t, A . Прежде чем подставить в это условие выражения (2.50) и (2.51), уточним знаки слагаемых в этих выражениях. Мы уже говорили о том, что в общем случае знак погрешности E на каждом последующем шаге обучения изменяется на обратный; и если он на t-ом шаге определён отрицательным, следовательно, на (t-1)-ом шаге он будет положительным, а на (t-2)-ом шаге снова отрицательным. (В действительности знак погрешности будет зависеть от соотношения величин слагаемых, но примем, что погрешность предыдущего шага больше погрешности последующего, хотя это иногда может не выполняться.) Тогда последнее условие можно представить в виде Et 2 SBA Et E t 1 SCA 2 SCA E t 1 SBA . Пренебрегая некоторой неточностью, получим: SBA > SCA , — а это означает, что порядок предъявления ситуаций (2.48) более предпочтителен, чем — (2.49) при условии, что коэффициент приведения образа В к образу А больше коэффициента приведения образа С к тому же образу А. Такое соотношение будет при Sкв ,C > S кв ,B т.е. когда образ С более яркий и более контрастный, чем образ В, или когда в образе С присутствуют светлые пятна, которых нет в образе В. Следовательно, последней из двух последних в цикле обучения целесообразно ставить такую ситуацию, в которой зрительная сцена ярче освещена, а видимые предметы находятся в зоне наибольшей оптической резкости. Интересно выявить также предпочтения в выборе в цикле первой ситуации. В порядке (2.48) такой ситуацией является А. Оставляя порядок предъявления ситуаций прежним, примем за начальную — ситуацию В. На основании выражения (2.45) при предъявлении на любом очередном цикле ситуации В получим E t, B Et 2 SCB E t 1 SAB . И пусть будет E t, A E t, B . После раскрытия содержания составляющих этого условия с учётом принятого сочетания знаков слагаемых погрешностей получим Et 2 Et 1 SCB SBA SAB . SCB Сосредоточим своё внимание на правой части полученного неравенства: чем оно меньше, тем предпочтительнее в качестве первой ситуации цикла выбирать ситуацию А. Раскрывая содержание коэффициентов приведения и вводя некоторые допущения, получим условие: S кв ,A > S кв ,B . Значит, первой из двух начальных ситуаций в цикле обучения целесообразно ставить такую ситуацию, в которой зрительная сцена ярко освещена, а видимые предметы находятся в зоне наибольшей оптической резкости. Это условие похоже на условие выбора последней ситуации в цикле. Из этих двух условий извлекается один общий вывод о том, что средней ситуацией в трёхситуационном цикле лучше выбирать самую неяркую ситуацию. Что же касается того, какую из двух оставшихся ситуаций ставить первой, а какую — последней, то ответ на этот вопрос лучше искать не по соотношению образов, а по требуемым сигналам управления или, ещё лучше, по допустимым отклонениям этих сигналов. Разумеется, ситуацию с самым точным сигналом управления, имеющим наименьшее допустимое отклонение, лучше ставить в цикле последней, и на ней лучше завершать обучение. 2.3. Обучение с числом ситуаций более трёх Рассмотренные выше примеры обучения робота поиску заданных предметов показали, что число ситуаций в обучаемой выборке может быть крайне малым: две, три, четыре, — но при усложнении задач число ситуаций, очевидно будет возрастать. Конечно, опытный обучатель и в таких случаях сумеет обойтись самым малым числом ситуаций, но неопытный вынужден будет использовать чуть ли не все возможные ситуации. Поэтому необходимо продолжить начатое нами теоретическое обучение для большого количества ситуаций в обучаемой выборке. Беспорядочное обучение. Беспорядочное обучение не предусматривает ни строгой очередности предъявления ситуаций, ни вообще набора определенных ситуаций в обучаемой выборке. По существу, может отсутствовать и сама предварительно составленная обучаемая выборка. На очередном шаге обучения рассматривают ту ситуацию, которая возникла в данный момент. Такое беспорядочное обучение похоже на обучение методом вождения «за руку» или «под уздцы» в реальной обстановке. При этом некоторые ситуации, разумеется, будут повторяться, но каждый раз такие ситуации должны восприниматься как новые, схожие с предыдущими и требующие таких же сигналов управления. Рассмотрим беспорядочное обучение более подробно. Если даже процесс обучения будет происходить гладко, без ступенек, под которыми мы подразумеваем определенные ситуации, например при плавном вождении «за руку», то и в этом случае договоримся выделять ситуации, дискретизируя процесс либо по времени, либо по различимости ситуаций. И пусть непрерывная череда ситуаций выглядит как A B C Д Что касается теоретического обучения в последовательно предъявляемых ситуациях А, В и С, то оно уже было нами проведено ранее, и мы воспользуемся его результатами. Проследим сначала за изменением погрешностей сигналов управления в этих ситуациях и для наглядности выпишем их еще раз: * из первого шага цикла с двумя ситуациями: E 0, A * из второго шага первого цикла с теми же двумя ситуациями: E A, B * EA ; EB EA SAB ; из третьего шага первого цикла с тремя ситуациями: E AB, C EC E A SAC EB E A SAB SBC . Закономерности беспорядочного обучения. Нас интересуют взаимозависимости погрешностей сигналов управления, т.е. как последующие погрешности зависят от предыдущих, поэтому подставим в выражения погрешностей последующих шагов погрешности предыдущих; получим: E 0, A E A, B E AB, C EC EB EA ; E 0, A SBC ; E 0, A SAC E A, B SBC . Закономерность здесь настолько очевидна, что без боязни ошибиться можно предложить выражение для погрешности сигнала управления в следующей Д-ситуации: E ABC, Д EД E 0, A SAД E A, B SBД E AB, C SСД . Рис. 2.2. Формирование сигналов управления и их погрешностей при беспорядочном обучении И так далее. Изобразим процесс формирования погрешностей сигналов управления графически (рис.2.2). Из графика видно, что составляющими частями фактического сигнала управления E t на любом t-ом шаге обучения перед дообучением являются погрешности сигналов управления E всех предыдущих шагов, приведённые к данному шагу с помощью коэффициентов приведения. Так, если погрешность E возникла, например, на р-ом шаге обучения, то она войдёт составляющей в фактический сигнал управления на любом последующем t-ом шаге обучения, помноженной на коэффициент приведения образа р-ой ситуации к образу t-ой ситуации: Et E p Spt . (2.52) Зависимость (2.52) похожа на зависимость (2.14) фактического сигнала управления в любой j-ой ситуации после обучения только в первой А-ситуации от соответствующего коэффициента приведения Отметим, что простота графика (рис. 2.2) и очевидность, которую он демонстрирует, были бы значительно нарушены, если бы были иными по величине требуемые сигналы управления E A , E B , E C , E Д , например меньше или даже некоторые из них противоположного знака, но это нисколько не изменило бы выявленную математическую закономерность, которую можно характеризовать как E p , входящая на своём р-ом шаге, создаёт суперпозицию и согласно которой каждая погрешность составляющую фактической выходной величины E t независимо от наличия и характера других величин. В результате можно предложить выражения для определения параметров обучения на любом t-ом шаге при беспорядочном обучении: * фактический сигнал управления: Et * E 1 S1t E 2 S2t  E t 1 St 1,t ; (2.53) 1,t . (2.54) погрешность сигнала управления: Et Et E 1 S1t E 2 S2t  E t 1 St В выражениях (2.53) и (2.54) буквенные обозначения ситуаций заменены числовыми, отражающими последовательные шаги обучения. Посмотрим теперь, как будут формироваться проводимости синапсов при беспорядочном обучении. Для этого проследим за ходом обучения в ситуациях А, В, С и выпишем выражения для c : c A EA bA ; c AB E A bA EB E A SAB bB ; c ABC E A bA EB E A S AB bB EC E A S AC EB E A S AB S BC b c . Заменим в этих выражениях требуемые сигналы управления погрешностями c A c AB c ABC E 0, A bA ; E 0, A bA E 0, A bA E: E A, B bB ; E A, B b B E AB, C bc . После обучения в следующей Д-ситуации проводимость -го синапса определится, очевидно, как: c ABCД E 0, A bA E AB, C bc E A, B bB E ABC, Д bД . Рис. 2.3. Формирование проводимости синапса при беспорядочном обучении Теоретическое формирование проводимости можно продолжать, таким образом, сколько угодно долго. Представим этот процесс в виде графика (рис.2.3). График отчетливо отражает идеальный закон обучения синапсов технического мозга обучаемых систем управления; поправка проводимости определяется двумя факторами: возбуждением самого рецептора и воздействием обучателя. Воздействие обучателя, равное погрешности сигнала управления в конкретной ситуации, очевидно, будет с каждым шагом уменьшаться; следовательно, также будет уменьшаться поправка проводимости. Такое предельно простое представление изменения проводимостей синапсов необходимо нам для уяснения процессов обучения, хотя на самом деле всё несколько сложнее. Так при погрешностях обратного знака проводимости, очевидно, будут не наращиваться, а уменьшаться. Может оказаться даже так, что проводимость изменит свой первоначальный знак и будет выглядеть на графике совсем по иному, но это в принципе не изменяет выявленную математическую закономерность формирования проводимостей синапсов при беспорядочном обучении. Закономерность эту можно представить в виде c t E 1 b1 E 2 b2  E t bt . (2.55) В этом выражении буквенные обозначения ситуаций заменены также числовыми, отражающими последовательные шаги обучения. Продолжительность беспорядочного обучения. До сих пор правило прекращения обучения звучало так: если в каждой ситуации обучаемой выборки погрешность сигнала управления меньше допустимого отклонения или равняется ему, то обучение прекращается. При беспорядочном обучении нет обучаемой выборки, т.е. нет конкретных ситуаций, в которых проводится обучение, поэтому данное правило не срабатывает. Нужны иные критерии прекращения обучения. Нетрудно себе представить, как будет проходить беспорядочное обучение на самом деле; скорее всего обучатель не будет оговаривать окончание обучения вообще, т.е. он всегда зарезервирует за собой право вмешиваться в работу обучаемого объекта в тех случаях, когда его действия покажутся ему не совсем соответствующими требованиям и ситуациям; благо, что в принципе обучаемые системы управления позволяют дообучать их во время работы. Поэтому можно утверждать, что чёткого конца обучения не будет; завершение обучения будет убывающим, но не окончательным. Решение о каком-то разовом вмешательстве в работу объекта с целью его дообучения принимает обучатель на основе своего субъективного мнения. Тем не менее оно, это мнение, будет базироваться на некоторых чётких положениях; выявим их. Все движения объекта можно разделить на движения общего направления и на целевые. Движением общего направления, например робота при поиске, является продольное перемещение схвата с глазом, т.е. перемещение вдоль некоторой платформы; у стационарного поворачивающегося робота — поворот либо в одну сторону, либо в другую. Эти движения не связаны о целью, в данном случае — с искомым предметом. Целевыми движениями в этом же примере являются поперечные движения, смещающие схват с глазом в сторону попавшего в поле зрения глаза искомого предмета; у поворачивающегося робота — приближение или удаление схвата. Очевидно, движения общего направления не нуждаются в задании определённой скорости; главное для них — направление: вперёд-назад, вправо-влево, вверх-вниз и т.д. Поэтому скорости движений общего направления (точнее говоря: сигналы управления) можно в принципе не ограничивать допустимыми отклонениями, удовлетворяясь требованиями «больше нуля» или «меньше нуля», но можно и несколько конкретизировать: скорость малая, средняя или большая. Целевые движения требуют уже согласования скоростей; скорость перемещения, допустим, в одном направлении должна быть больше (меньше), чем в другом. Такое согласование возможно только при задании не только величин самих скоростей, но и их допустимых отклонений. Если требуется, чтобы одна скорость была больше другой, то, естественно, наименьшее значение первой должно быть больше наибольшего значения второй. Поэтому обучатель вынужден будет следить за этим. Соотношение скоростей может быть задано пропорцией, кратностью или своими предельными значениями: одна — наибольшая, другая — наименьшая, — и т.д. Особым должно быть отношение обучателя к позициям, т.е. ситуациям; их можно также разделить на безразличные и на целевые. Примером безразличной ситуации может быть выход схвата с глазом при поиске на посторонний предмет. Очевидно, схват в этой позиции не должен останавливаться, и робот должен продолжить поиск, должен продолжить свои движения. Значит, и скорости, и их допустимые отклонения должны быть такими, чтобы исключить полную остановку схвата; требования к обучению, таким образом, ужесточаются. И совсем высокими они должны быть в целевых позициях. Если схват о глазом вышел на искомый предмет, то он обязан остановиться в любом случае; скорости всех приводов робота должны быть равными нулю; это понятно, но — с какой точностью? Прежде чем ответить на этот вопрос, выявим факторы, мешающие достижению цели; ими являются: * разброс сходства искомых предметов; внешне искомые предметы могут быть несколько непохожими друг на друга, и, тем не менее, их нужно все «узнавать»; * похожие на искомые посторонние предметы; их нужно отсеивать; * трения приводов, которые могут привести к ложным остановкам при наличии сигналов управления; * несоответствие зева схвата конфигурации и относительному положению искомого предмета. Обучатель должен, очевидно, задавать допустимые отклонения на скорости приводов объекта такими, чтобы в примере с роботом, осуществляющим поиск, обеспечить полную остановку при выходе на искомые предметы и хотя бы слабое «сползание» при выходе на посторонние. Всё внимание обучателя должно быть сосредоточено именно на этом; и обучение он прекратит тогда, когда оговорённые условия будут выполняться. Добиваясь этого, он вынужден будет раз за разом повторять те движения и остановы, которые связаны с целевыми ситуациями и позициями. Цикловое обучение. В упорядоченном обучении ситуации предъявляют в строго определённой последовательности, и количество всех ситуаций в обучаемой выборке вполне определенно. Цикловым условимся называть такое упорядоченное обучение, при котором предъявление вех ситуаций выборки многократно повторяется с сохранением принятой последовательности. Цикл — это предъявление всех ситуаций обучаемой выборки; шаг — предъявление очередной ситуации; в цикле, следовательно, столько шагов, сколько ситуаций в обучаемой выборке. Ход циклового обучения. В принципе цикловое обучение можно считать тем же беспорядочным, если каждую повторную ситуацию расценивать как новую, образ которой схож о образом прежней. Поэтому общие закономерности процесса обучения, выявленные в беспорядочном обучении, сохраняются в полной мере в цикловом. Продемонстрируем это, продолжив проведённое обучение в четырёх ситуациях, приняв их за цикловую обучаемую выборку, так что в качестве очередной пятой ситуации рассмотрим снова первую. Цикл 2-ой, шаг 5-ый (по нарастающей), ситуация А: E ABCД, A и погрешность Определим фактический сигнал проводимости c ABCДA после дообучения: E ABCД, A E 0, A SAA E AB, C SCA E ABCД, A c ABCДA E A, B SBA E ABC, Д SДA ; EA E ABCД, A ; c ABCД Принимая во внимание, что коэффициент приведения — и что E ABCД, A перед дообучением и E ABCД, A bA . SAA образа самого к себе равен единице: SAA =1, E 0, A = E A , получим E ABCД, A EA E A, B SBA E AB, C SCA E ABC, Д SДA ; E ABCД , A ( E A, B SBA E AB, C SCA E ABC, Д SДA ); c ABCДA bA E 0, A bB bc E AB, C E A, B E ABCД , A bД E ABC, Д . Цикл 2-ой, шаг 6-ой, ситуация В: E ABCД , B E 0, A SAB E A , B S BB E ABC, Д SДB E ABCДAB c ABCДAB Учитывая, что SBB =1, а E A, B E ABCДA, B E ABCД , A SAB ; EB E ABCДA, B ; c ABCДA EB EB E AB, C SCB E ABCДA, B bB . EA SAB , получим: E AB, C SCB E ABC, Д SДB E ABCД, A SAB ; E ABCДA, B E AB, C SCB E ABC, Д SДB E ABCД, A SAB ; c ABCДAB bA E 0, A E ABCД , A bc E AB, C bД bB E A, B E ABC, Д . На этом теоретическое обучение можно прекратить, так как все закономерности обозначились полностью. Закономерности и продолжительность циклового обучения. Как видно из проведённого обучения, принцип суперпозиции, отражённый на графике (рис.2.2) и выражением (2.5З), сохраняется при цикловом обучении. Отличие от беспорядочного обучения состоит лишь в том, что составляющие фактического сигнала управления формируются только на последних шагах при предъявлении ситуаций одного цикла. Заменив буквенное обозначение последовательно предъявляемых ситуаций шагами по нарастающей и обозначив через n — число шагов в цикле, получим выражения для определения фактического сигнала управления E (t-1)-ом шаге: t 1, t и его погрешности E t 1, t на любом t-ом цикле после завершения обучения на Et Et Et n 2 St Et Et Et n 2 ,t ( Et n 2 St n 1 St  E t 1 St n 1 St n 2 ,t  n 1,t ; (2.56) ). (2.57) 1,t n 1,t E t 1 St 1,t Проводимость -го синапса после Т циклов обучения определится как c T b1 ( E 0,1 E Tn,1 ) E 2 n 1,2  E n,1 b 2 ( E 1,2 E 2 n,1  E n 1,2 E Tn 1,2 )  b n ( E n 1, n E 2 n 1, n  (2.58) E Tn 1, n ). E обозначены с указанием последнего шага, на котором было завершено обучение, и того шага, на котором эта погрешность определена. Например, E 2n 12 , обозначает погрешность E , определённую при предъявлении ситуации второго шага второго цикла после В выражении (2.58) погрешности завершения обучения на (2n+1)-ом шаге, т.е. на первом шаге этого же цикла. Продолжительность циклового обучения будет определяться условием (1.14) во всех ситуациях обучаемой выборки. Если обучение закончено на t-ом шаге и на нём же проведены последние корректировки проводимостей синапсов, то, очевидно, погрешность на этом шаге при предъявлении E t, t =0, — поэтому необходимо проверить условие (1.14) только ситуации t-го шага будет равна нулю: в прочих ситуациях выборки: E t, t 1 ... ; Раскрывая содержание погрешностей E t, t 2 1; E t, t n 1 2 ; ... n 1. E , получим: E t, t 1 Et n 3 St E t, t Et 2 n 4 St ( Et n 3,1  ( Et n 4 ,2  n 2 St n 2 ,1 E t 1 St n 3 St 1,1 ) 1 ; ) 2 n 3, 2 E t 1 St 1, 2 ; (2.59) . . . . . . . . . . . . . . . . . E t, t n 1 E t 1 St 1,n 1 n 1 . Порядок предъявления ситуаций при цикловом и беспорядочном обучении. Напомним, что в принципе возможны два типа технического мозга: а) с саморегулированием синапсов и б) с ручной настройкой их. В первом случае обучение ведётся методом «вождения за руку»; во втором случае проводимости синапсов определяют расчётом, и для этого предварительно замеряют возбуждения всех рецепторов во всех ситуациях выборки. Учитывая, что и замеры возбуждении рецепторов, и расчёты проводимостей синапсов, и даже сама настройка синапсов могут быть частично или полностью автоматизированы, будем считать, что оба типа мозга равновероятны, и поэтому, говоря о выборе последовательности предъявления ситуаций, будем иметь в виду все те методы обучения, которые соответствуют обоим указанным типам мозга. Начнём с назначения последней ситуации; ею должна стать та, в которой требуется самый точный сигнал управления; такую ситуацию мы называем целевой; в ней сигнал управления имеет наименьшее допустимое отклонение. Такой критерий выбора последней ситуации диктуется тем, что после обучения в ней погрешность сигнала управления теоретически сводится к нулю. Другим критерием выбора последней ситуации может быть её важность, хотя понятие это субъективное и не очень конкретное. При ручной настройке мозга последняя ситуация является в то же время опорной, т.е. той, в которой производится регулировка синапсов. В связи с этим возникает ещё одно обстоятельство, которое нельзя не учитывать. Регулировка, как правило, сводится не к установке расчётных проводимостей синапсов (для этого пришлось бы извлекать, выпаивать элементы из технического мозга), а к получению на выходе соответствующей расчётной добавки к сигналу управления, так называемой рецепторной доли сигнала управления, которая определяется как eo c bo , b o — возбуждение -го рецептора в опорной ситуации. Так вот, какой бы ни была проводимость синапса c , но, если возбуждение b o ничтожно мало, то и 0 . Получается, что практически указанный синапс рецепторная доля окажется также неуловимой: e o где отрегулировать по изменению сигнала управления невозможно: как бы мы не изменяли проводимость синапса, сигнал Е на выходе системы изменяться не будет. Выход из положения в этом случае видится в назначении в качестве последней и опорной ситуации такой, в которой все рецепторы должны быть возбуждены выше некоторого порога, т.е. образ этой ситуации не должен иметь тёмных пятен или, говоря про обозреваемую сцену: в ней не должны присутствовать тёмные предметы и не должен быть тёмным фон. Если даже рецепторы парны, т.е. на один рецептор «света» приходится один рецептор «темноты», то и тогда указанное требование сохраняется и даже расширяется: образ ситуации не должен иметь ни слишком тёмных, ни слишком светлых пятен. Остаётся только один вариант — «серый» образ, когда рецепторы полувозбуждены. Новая «серая» опорная ситуация (а такой ситуацией может быть обозреваемый серый фон без линий и пятен) не является целевой и не требует высокой точности действий, поэтому она должна быть заполнена одной или несколькими контрольными ситуациями, в качестве которых, очевидно, должны быть использованы целевые. В контрольных ситуациях уточняются рецепторные доли сигнала управления и, самое главное, достигаются целевые сигналы управления о допустимыми отклонениями. Определив последнюю ситуацию, перейдём к исследованию критериев выбора первой ситуации. С самого начала исключаем из претендентов ситуации с нулевыми сигналами управления: они не дадут никакого изменения проводимостей синапсов — первый шаг обучения оказался бы безрезультатным. Дальнейшие рассуждения могут быть построены в зависимости от типа синапсов. Выделим два из них: 1) регулируемые в обе стороны на повышение и на понижение проводимости; 2) с постоянно растущей проводимостью. К первому типу синапса относится, в частности, регулируемый резистор с одним входом и двумя выходами, например, потенциометр; при увеличении проводимости одного плеча резистора проводимость другого будет уменьшаться. Ко второму типу синапса относится, например, резистор из аморфного полупроводник проводимость которого в процессе обучения может только наращиваться; сброс проводимости если и осуществляется, то только до нуля. Поэтому во втором случае всегда существует опасность «загнать» проводимость синапса до предела, после которого дальнейшее регулирование его, а значит и обучение, невозможны. Выбор первой ситуации для системы о регулируемыми в обе стороны синапсами предельно прост: требуемый сигнал управления в этой ситуации должен быть самым большим; знак сигнала при этой не имеет никакого значения. После первого же шага обучения проводимости синапсов сильно возрастут; этим самым процессу обучения задаётся мощный первый толчок. Сложнее обстоит дело с выбором первой ситуации в системе с постоянно растущими проводимостями синапсов. Можно, конечно, предложить ситуацию с большим требуемым сигналом управления, но только при условии, что эта ситуация является наиболее похожей на вое другие. Выделить её можно не только по видимой сцене, но и теоретически по степени сходства о другими ситуациями: степень сходства образов похожих ситуаций близка единице. Ещё нужно учесть при этом и то, чтобы не было в выборке ситуаций с требуемыми сигналами противоположного знака. В общем случае остаётся вариант выбора в качестве первой ситуации заурядной, похожей на другие, ситуации о умеренным требуемым сигналом управления. Исключительные ситуации с непохожими образы на роль первой не годятся. На этом выбор первой ситуации закончим. Попытаемся теперь разобраться в последовательности предъявлений ситуаций в процессе обучения. Наибольшая скорость обучения будет, очевидно, тогда, когда наибольшими будут коррекции проводимостей синапсов c , а они, как известно, всегда прямо пропорциональны погрешности E j . Если выбирать вторую ситуацию загодя, до начала обучения, то можно воспользоваться выражением для погрешности на втором шаге обучения наибольшее её значение: EB E A, B E A SAB > E j EB EA SAB , и перебором ситуаций выявить E A S1 j индексом j обозначена любая прочая ситуация. Скорее всего у второй ситуации окажется противоположный знак требуемого сигнала управления, и E A, B в таком случае будет тем больше, чем больше коэффициент приведения SAB . Если же знаки сигналов управления одинаковы и E 2 > E 1 , то коэффициент SAB должен абсолютная величина погрешности быть наименьшим. При практическом обучении методом «вождения за руку» погрешность E A, B может быть определена простым замером. Третью ситуацию лучше выбирать после обучения во второй, когда можно определить погрешность E AB, C EC EA SAC E A, B SBC . Эта погрешность должна быть наибольшей из всех возможных. Соблюдая тот же принцип — по максимуму погрешности — можно поочерёдно расположить в желаемой последовательности все прочие ситуации обучаемой выборки. На повторных циклах обучения выявленную последовательность можно сохранить, и тогда обучение превратится в цикловое. Если же продолжать при повторных предъявлениях подбирать ситуации по наибольшей погрешности E , то обучение будет носить беспорядочный характер, но при этом скорость обучения будет наивысшей. Такой подход легко реализуется также при компьютерных расчетах процесса обучения. Из всего сказанного можно сделать выводы в отношении оценок ситуаций. Если ситуации похожи и приблизительно равны между собой сигналы управления в них, то обучение будет очень лёгким, т.е. быстрым. Относительно лёгким будет обучение и в том случае, если ситуации будут сильно отличаться и различными будут в них требуемые сигналы управления. Сложнее обучение будет при различных ситуациях, но одинаковых сигналах. И совсем тяжёлым —продолжительным и не всегда успешным — будет обучение в том случае, когда ситуации окажутся очень похожими, а требуемые сигналы управления в них — совершенно различными; такие ситуации можно назвать частично противоречивыми. Напомним, что полностью противоречивыми являются абсолютно схожие ситуации с различными сигналами управления. 3. Динамика образов В реальной обстановке ситуация, с которыми приходится иметь дело обучаемым системам управления, постоянно изменяются; также постоянно видоизменяются, следовательно, образы их очувствления; эти изменения, как правило, носят непрерывный, плавный характер. Поставим перед собой задачу предложить способы оценки динамики образов для того, чтобы можно было судить о характере изменений ситуаций. Эти же способы можно было бы использовать для оценки и сравнения систем очувствления. Оказывается, что коэффициенты приведения образов и степени их сходства могут характеризовать динамику любого образа, если сравнивать его сам с собой при изменении ситуации. При таком подходе сравниваются предыдущий образ с последующим, причём смещение их может быть во времени, по положению или в зависимости от внешних факторов. Рассмотрим некоторые случаи. 3.1. Динамика пропорционально изменяющегося образа. О пропорциональных образах говорилось выше; они определяются соотношением A k A , где A — пусть будет предыдущий образ, а A — последующий, это соотношение определяет возбуждения однономерных рецепторов: b A k b A . Коэффициенты приведения равны: SAA k ; SA A 1 k , — степень сходства пропорциональных образов всегда равна единице. Пропорциональные образы, как известно, отражают пропорциональные ситуации, а те, в свою очередь, возникают, в частности, при изменении напряжения питания рецепторов (у человека это — эмоции или тонус) или при изменении освещённости обозреваем сцены. В отношении изменения освещённости необходимы некоторые уточнения и допущения. Прямая пропорциональная зависимость возбуждений рецепторов от изменения освещённости видимой сцены может быть только в том случае, если рецепторы не парны, т.е. среди них нет рецепторов «темноты», возбуждающихся при отсутствии внешнего воздействия на них. И ещё: считаем, что рабочие харакa , где a — освещённость чувствительного окна теристики фоторецепторов — линейные: b рецептора; - коэффициент пропорциональности, — и эта линейность сохраняется на всём диапазоне освещения. В действительности, мы знаем, эта зависимость — логарифмическая или экспоненциальная. Представляя коэффициент k в общем как степень пропорционального изменения образа, динамику этого образа можно изобразить в виде графика (рис.2.4), на котором в логарифмическом масштабе представлены как сам коэффициент k, так и характеризующие динамику образа коэффициент SAA Рис.2.4. Динамика пропорционально изменяющегося образа приведения предыдущего образа A к последующему A , встречный коэффициент приведения SA A и степень сходства этих образов SAA A . Пропорционально изменяющиеся образы характерны тем, что их коэффициенты приведения, прямой и встречный, соотносятся по величине как обратные: SAA 1 SA A а это означает, что сигнал управления в последующей ситуации с пропорционально изменяющимся образом всегда однозначно определяется коэффициентом приведения SAA : E посл или E посл k E п ред . SAA E п р ед , (2.60) Выражение (2.60) имеет расширенную область применимости по сравнению с выражением (2.14); оно справедливо не только после первого шага обучения, но и после любого уровня обучения, включая полное его завершение. Последующий фактический сигнал управления E посл однозначно определяется предыдущим сигналом E п р ед и коэффициентом пропорциональности образов k; других вариантов нет: не может быть никаких надежд на то, что можно получить иной последующий сигнал управления, и не поможет здесь никакое дообучение. Лишним подтверждением такого вывода является равенство единице степени сходства пропорциональных образов. Если потребовать в последующей ситуации с пропорциональным образом иной сигнал управления, то обучение окажется полностью безрезультатным, и об этом говорит зависимость E п р ед , — (2.21), отражающая связь последующей погрешности E с предыдущей: E посл SAA A SAA A =1 сохраняется неизменной, и процесс обучения стопорится полностью. Графики зависимостей коэффициентов приведения SAA , SA A и степени сходства SAA A погрешность при пропорциональных образов от коэффициента пропорциональности k (рис. 2.4) свидетельствуют о неизменности этих зависимостей при любом изменении k; практически такого быть не может. Очевидно, при сильном увеличении напряжения питания рецепторов и при большом увеличении освещения обозреваемой сцены часть рецепторов выйдет на предел своего возбуждения и дальше изменяться не будет, а это приведёт к существенному изменению образов. При малых изменениях напряжения питания и освещённости закономерности графика (рис. 2.4) сохранятся неизменными. Выше говорилось, что в ситуациях с пропорциональными образами поведение объекта в целом не изменяется; изменяются лишь скорости его исполнительных органов. Действительно, выражение (2.60) оказывается справедливым для любой столбцовой пары технического мозга обучаемой системы управления, т.е. для каждого исполнительного органа, причем коэффициент пропорциональности k сохраняется для них для всех одинаковым. Поэтому фактически сигналы управления приводов объекта выразятся как E1,посл k E1,п ред ; E 2 ,посл k E 2 ,п р ед ; .................. E N ,посл k E N ,п р ед , где индексы 1, 2, ..., N - определяют номера приводов. Если силовое управление приводами построено на регулировании скоростей: V1,посл k V1,п р ед ; V2 ,посл k V2 ,п р ед ; V f E , — то получим: .................. VN ,посл k VN ,п р ед . Скорость любого привода V определяет величину скорости и направление перемещения (вектор) исполнительного органа; поэтому скаляры V1 , V2 , ..., VN приводов можно заменить векторами    исполнительных органов V1 , V2 , ..., VN , так что:  V1,посл  V2,посл  k V1,пред ;  k V2,п ред ; ..................  VN ,посл  k VN ,п ред . Связь скалярной скорости привода с векторной скоростью исполнительного органа хорошо иллюстрируется на примере робота; так знак и частота вращения привода поворота определяют свой вектор скорости схвата; независимо от этого знак и частота вращения привода выдвижения руки робота определяют свой вектор скорости схвата, и т.д. Сумма всех векторов исполнительных органов определит конечное, результирующее движение объекта; так что в предыдущей и последующей ситуациях будем иметь  Vрез,пред  Vрез ,посл  V1,пред  V1,посл   V2,пред  VN,пред ;   V2,посл  VN ,посл . По одному только результирующему вектору скорости  Vрез можно судить о поведении объекта (робота) вообще. Учитывая отражённую выше связь векторов последующих скоростей от векторов предыдущих и вынося коэффициент k за скобки, получим  Vрез,посл  k V1,пред   V2,посл  VN,пред , или  Vрез,посл  k Vрез,пред . (2.61) Выражение (2.61) говорит о том, что результирующий вектор в последующей ситуации коллинеарен с результирующим вектором в предыдущей, если образы этих ситуаций пропорциональны. Таким образом мы доказали, что целевое поведение объекта при изменении напряжения питания рецепторов или при изменении освещённости обозреваемой сцены сохраняется в общем неизменным; изменяется лишь подвижность объекта: при k>1 объект становится более подвижным, а при k<1 - менее подвижным. О неизменности целевого поведения говорит также и то, что степень сходства образов предыдущей и последующей ситуаций равна единице. Если рассматривать образы не ситуаций, а фактических сигналов управления в них: образ E п р ед : E1,п р ед ; E 2,п р ед ; ...; E N ,п р ед ; образ E посл : E1,посл ; E 2,посл ; ...; E N ,посл , то степень их сходства, определяемая выражением (2.12), оказывается также равна единице, т.е. образы эти неразличимы; иначе говоря, целевое поведение объекта сохраняется неизменным. Кстати, степень сходства образов фактических сигналов управления может, оказывается, в общем случае характеризовать изменение поведение объекта, так как она выражает косинус угла между результирующими векторами. Если степень сходства равна единице, то векторы коллинеарны, и поведение неизменно; если степень сходства равна нулю, то векторы перпендикулярны, и поведение в сравниваемых ситуациях абсолютно не схоже; и, наконец, если степень сходства имеет промежуточное значение между единицей и нулём, то результирующие векторы будут иметь некоторую сонаправленность, выражаемую косинусом угла между ними, т.е. поведение будет изменяться пропорционально косинусу. 3.2. Динамика образа с изменяющейся контрастностью Если рецепторы обучаемой системы управления парные, то при изменении внешнего воздействия на них, образы очувствления будут изменяться иначе, чем пропорциональные. Так при усилении освещённости обозреваемой сцены возбуждения одних рецепторов технического глаза — рецепторов света — увеличатся, а возбуждения других — рецепторов темноты — уменьшатся; при затемнении всё произойдёт наоборот. Такая реакция рецепторов похожа на изменение контрастности зрительного образа. Заметим, что парными могут быть не только зрительные рецепторы, но и все другие, поэтому понятие контрастности приложимо ко воем образам очувствления. Зададимся вопросами: как отразится изменение внешнего воздействия, например освещения, на образах? и как в связи с этим изменится поведение объекта? Ответы будем искать с помощью коэффициентов приведения и степени сходства образов. Пусть внешнее воздействие на рецепторы изменилось на величину a . Пренебрегая различием рабочих характеристик рецепторов, можем утверждать, что возбуждение каждого рецептора изменилось при этом на соответствующую величину b . Обозначив исходные, предыдущие возбуждения рецепторов света и темноты -ой пары соответственно через b c и b T получим новые, последующие возбуждения в виде bc Коэффициент приведения предыдущего образа определится как bc b; bT bT b. (2.62) A к последующему A в соответствии с (2.11) m 1 SAA bc bc bT bT , m b 1 2 c b 2 T где m — количество пар рецепторов. После подстановки в полученное выражение зависимостей (2.62) и некоторых преобразований подучим: SAA B C 1 b, (2.62) где m B 1 Встречный коэффициент приведения m bc bT ; C b 2c 1 b 2T . SA A , определённый таким же образом, будет иметь вид SA A 1 B C b, где m B 1 m bc bT ; C 1 bc2 b T2 . И, наконец, степень сходства образов двух ситуаций — предыдущей и последующей — определится в соответствии с (2.12) как SAA A SAA SA A 1 B C Если рассматривать динамику образа когда величина B = B , C = C ; и тогда: B C b BB CC b2 . b относительно мала, то можно допустить, что SA A SAA A 1 1 B C B2 C2 b; (2.64) b2 . (2.65) От коэффициента приведения SAA прямо зависит изменение фактического сигнала управления при переходе из предыдущей ситуации в последующую. Если в пропорциональных ситуациях такая зависимость строго пропорциональная (2.60), то в прочих, и, в частности, при изменении контрастности образов, она близка к этой пропорции. Поэтому по изменению коэффициента SAA можно судить об изменении фактических сигналов управления приводов и об изменении поведения объекта в целом. Из выражения (2.63) следует, что коэффициент приведения SAA во многом зависит от величины В, которая отражает яркость исходного образа или, что одно и то же, освещённость обозреваемой сцены. На рис. 2.5 изображены некоторые зависимости коэффициента приведения SAA от изменения возбуждений рецепторов b . Рассмотрим характерные случаи. Допустим в исходном состоянии В=0; это означает, что в среднем возбуждения рецепторов света равны возбуждениям рецепторов темноты; такое может быть в том случае, когда обозреваемая сцена освещена нормально. Как следует из выражения для определения В (2.63) Рис.2.5. Динамика образа при и как видно из граизменении его контрастности фика (рис. 2.5), в данном случае коэффициент приведения образа исходной ситуации к образу последующей, вызванной изменением внешнего воздействия на величину a , будет равен единице. Следовательно, можно утверждать, что изменение освещённости нормально освещенной сцены никак не отразится на поведении объекта: фактические сигналы управления сохранятся неизменными. (Напомним, что при подобном изменении освещения в предыдущем случае с непарными рецепторами сигналы управления изменялись пропорционально освещению.) О неизменности поведения говорит и то, что степень сходства SAA A определяемая выражением (2.65), при В=0 также равна единице. Несколько по-иному реагирует обучаемая система управления на изменение контрастности образа в случае, когда в исходном состоянии этот образ был «ярче» нормального: когда В>0. Если судить даже только по степени сходства SAA A , то она в рассматриваемом случае становится меньше единицы; а это говорит о том, что исходная ситуация меняется, и последующую ситуацию система воспринимает уже как новую, отличной от предыдущей; чем больше В, тем больше это отличие. При этом зависимость прямого коэффициента приведения SAA от изменения контрастности b становится пропорциональной: чем больше b , тем больше SAA . Это означает, что фактические сигналы управления приводами при усилении внешнего воздействия увеличиваются, а при ослаблении — уменьшаются. Другими словами: увеличение освещённости будет способствовать активизации движений объекта, а затемнение — снижению скоростей. К такое поведение объекта, оснащенного обучаемой системой управления, кажется нам обычным. Более неожиданные результаты даёт анализ выражений (2.63) и (2.65) при В<0, когда в исходном состоянии образ «темнее» нормального. Так же, как и в рассмотренном выше случае, степень сходства предыдущего и последующего образов при изменении внешнего воздействия становится меньше единицы, т.е. обучаемая систем воспринимает последующую ситуацию непохожей на предыдущую. Но коэффициент приведения SAA , определяющий изменение сигналов управления, меняет свою зависимость от b на обратную: чем больше b , тем меньше SAA . Следовательно, активизация движений объекта произойдёт не при усилении освещения сцены, а, наоборот, — при уменьшении. На первый взгляд такой вывод кажется несколько странным; мы привыкли считать, что наша активность напрямую связана со светом: чем его больше, тем энергичнее действует человек. Тем не менее полученный вывод трудно оспаривать. Некоторым подтверждением ему может быть замирание ночных животных при ярком свете; так внезапно включенный свет, как известно, буквально парализует крысу, орудовавшую до того в темноте с невероятной активностью. Вполне возможно, что останавливает её не выявленная нами зависимость, а что-то иное — крыса всё-таки необычное животное, — но приблизительно также ведут себя при внезапном освещении примитивные существа — ночные насекомые. И можно даже отыскать некоторую логику в их таком странном поведении, если опираться на теорию обучаемых систем управления. Со дня своего рождения ночные животные действовали , а значит — и учились, в сумерках и темноте; следовательно, «обучались» при этом у них в основном синапсы рецепторов темноты, а синапсы рецепторов света вынуждены были оставаться со слабой своей проводимостью, для действий в темноте всего этого достаточно; но стоит только той же крысе оказаться на свету, как её «принимающие решение» рецепторы темноты оказываются слабо возбуждёнными к не способными «управлять»; что же касается усиления при этом возбуждений рецепторов света, то оно оказывается практически без последствий, так как синапсы этих рецепторов «не обучены». Усугубляет беспомощность ночных животных на свету к то, что оптика их глаз не имеет того совершенного механизма регулирования размеров зрачки, какой имеется у дневных животных. Со всеми этими рассуждениями можно согласиться, но касаются они только ночных животных, в то время как выявленная зависимость характерна для всех, и в том числе — для дневных. И если при этом обратить ещё внимание на то, что при отклонении b в отрицательную сторону коэффициент SAA становится больше единицы, то тогда наши выводы покажутся ещё более неожиданными. Получается, вроде, так, что, чем темнее обстановка, тем активнее действия объекта. Так можно договориться до того, что в абсолютной темноте активность объекта окажется наивысшей. Однако такой крайний случай едва ли стоит рассматривать в рамках выявленной зависимости. В абсолютной темноте, как, впрочем, и при необычайно ярком свете, начинают действовать другие законы: одни рецепторы при этом оказываются совершенно невозбуждёнными, а остальные — парные — возбуждёнными до предела; ни те, ни другие не могут принимать по этой причине участия в выработке сигналов управления; активность должна замирать. Рассматриваемая нами динамика образов касается не только и но столько их ступенчатого изменения, но и плавного, бесступенчатого, причём плавное изменение образа является наиболее характерным в оценке его динамики. А при плавном видоизменении сравниваются близко расположенные, мало смещенные образы; и тогда повышение активности объекта или, наоборот, её снижение не будут такими вызывающими, чтобы обращать на них внимание. 3.3. Динамика зрительного образа при аккомодации Аккомодация есть автоматическое наведение оптики глаза на резкость изображения на сетчатке; автоматизм этого действия настолько ярко выражен, что, например, у человека, он даже практически неподвластен разуму и воле; сигналы, идущие от цилиарной мышцы, осуществляющей изменение округлости хрусталика глаза и тем самым — изменение его фокусного расстояния, не осознаются. Замечено, что аккомодация обнаруживается у животных (и у человека тоже) в самом раннем возрасте, и поэтому едва ли она в основе своей связана с процессом обучения. Рассмотрим динамику зрительного образа при наведении глаза на резкость и попытаемся объяснить таким образом механизм аккомодации. Будем считать, что при наведении глаза на резкость поток света, проходящий через его оптику, сохраняется постоянным; и допустим, что сохраняется неизменной сумма возбуждений фоторецепторов сетчатки: SA =const. В действительности в силу нелинейностей рабочих характеристик рецепторов будет некоторое несоответствие между изменением суммарного потока света и изменением суммарного возбуждения рецепторов. Это несоответствие будет тем больше, чем ближе к предельным окажутся сами возбуждения. Однако, если рассматривать динамику зрительного образа вблизи исходного состояния, то погрешности будут несущественными. За основу примем среднеарифметическое возбуждение рецепторов: b с р SA m , которое, согласно принятым допущениям, сохраняется в процессе наведения на резкость постоянным; и введём следующую зависимость преследующего возбуждения -го рецептора b от предыдущего (исходного) b : b bс р kb bс р , (2.66) где k — коэффициент изменения резкости изображения на сетчатке глаза. При k=1 возбуждения рецепторов сохраняются неизменными: b = b ; при k=0 изображение на сетчатке глаза становится полностью размытым, — и все возбуждения выравниваются: b = b ср ; при k>1 возбуждения возбуждённых выше среднего рецепторов усилятся, а возбуждения возбуждённых ниже среднего — ещё более ослабнут. Принятая зависимость (2.66) не является единственной — возможны и другие, — но мы остановимся на ней, так как она удовлетворяет нашим требованиям. Наведение на резкость будем оценивать по соотношению образов двух ситуаций: предыдущей и последующей; при этом совершенно не определено, какой образ из этих двух более резкий: первый или второю. Коэффициент приведения образа предыдущей ситуации A к образу последующей A будет равен m b b SAA 1 . m b 1 С учётом зависимости (2.66) получим: 2 m b SAA k 1 k bср 1 m . b (2.67) 2 1 Выражая сумму возбуждений SA через среднеарифметическое b ср , можно представить (2.67) в виде SAA 1 k m b2с р Sкв,A . k А если использовать сравнение образа исходной ситуации с единичным образом, в частности — коэффициент приведения образа к единичному: SAeq SA Sкв ,A , — и встречный коэффициент: SAeq = b ср , — то выражение (2.67) примет вид SAA k 1 k SAeq SeqA , или SAA k 1 k SAeqA , где SAeqA — степень сходства образа А с единичным образом. Встречный коэффициент приведения последующего образа A определится как SA A 1 k 1 к предыдущему 1 k A с учетом (2.66) m b 2с р Sкв ,A , (2.68) или SA A 1 k 1 1 k SA eqA . Коэффициент приведения любого из рассматриваемых образов — предыдущего или последующего — к самому себе через другой, т.е. степень сходства этих образов, равен произведению коэффициентов SAA и SA A : SAA A k 1 k SAeqA SAA SA A 1 k 1 1 k SA eqA . (2.69) Полученные зависимости (2.67), (2.68) и (2.69) отображены на рис. 2.6. Коэффициент приведения образа предыдущей ситуации к образу последующей SAA имеет линейную зависимость от изменения резкости изображения, характеризуемого коэффициентом k, причём при Рис.2.6. Динамика зрительного образа при наведении глаза на резкость возрастании резкости изображения (k>1) указанный коэффициент приведения становится больше единицы, а при снижении резкости изображения (k<1) — меньше единицы; такая особенность может быть положена в основу объяснения аккомодации, но об этом — чуть позже. Зависимость встречного коэффициента SA A от изменения резкости изображения — более сложная. В некотором смысле этот коэффициент как бы обратный по отношению к первому: при возрастании резкости (k>1) он — меньше единицы, а при снижении (k<1) — больше. Но при полностью размытом (нерезком) изображении на сетчатке глаза в последующей ситуации, когда k стремится к нулю, коэффициент приведения SA A приближается к единице, т.е. размытый образ как будто не имеет лица и в приведении не участвует Кривая степени сходства образов предыдущей и последующей ситуаций SAA A располагается на графике (рис.2.6) всегда ниже уровня единицы, и, чем дальше расходятся образы по изменению резкости изображения, тем меньше становится эта степень, однако до нуля она не доходит: некоторое сходство ситуаций (точнее — их образов) всё же сохраняется. Если образ последующей ситуации полностью размыт (k=0) , то степень сходства становится равной коэффициенту приведения SAA . Можно ещё отметить то, что в зоне большей резкости (k>1) кривая степени сходства более пологая; это означает, что при увеличении резкости изображения образ изменяется меньше, чем при снижении её. А теперь вернёмся к объяснению аккомодации; это объяснение необходимо нам для того, чтобы можно было найти техническое решение автоматического наведения на резкость технического глаза обучаемой системы управления. Можно, разумеется, обойтись без объяснений, если подходить к задаче создания механизма аккомодации логическим путём, впрочем, такие механизмы уже созданы, и применяются они для автоматического наведения на резкость фотоаппаратов. В основе их работы, как правило, лежит использование нелинейностей рабочих характеристик фотодатчиков. Изображение проецируется на экран, состоящий из множества фотодатчиков. При наведении изображения на резкость освещение одних датчиков усиливается, а других — ослабевает; сигналы первых увеличиваются, а других уменьшаются. Принимая во внимание, что рабочие характеристики датчиков нелинейные, а точнее: при усилении освещения сигналы на их выходах изменяются логарифмически (или экспоненциально), т.е. стремятся к своему пределу, то увеличение суммарного — сигнала первых фотодатчиков, тех, освещение которых усиливается, будет не столь большим, как уменьшение других; в результате суммарный сигнал фоточувствительного экрана при наведении на резкость будет уменьшаться, а при размывании изображения, наоборот, — увеличиваться. Далее известными средствами автоматики решается задача минимизации сигнала управления. Попытаемся предложить иной принцип работы механизма аккомодации, опираясь на динамику образов при наведении на резкость. Но прежде отметим, что едва ли аккомодации можно обучить: просто нет таких ситуаций, которые характеризовали бы резкость изображения; а коли нет характерных ситуаций, нет и никаких надежд на обучение. Впрочем, классическая нейрофизиология однозначно считает аккомодацию врождённым рефлексом [17]. Но ведь и у врождённого рефлекса должен быть свой принцип действия: каков он? на чём он основывается? Можно даже уточнять вопрос: каким образом рефлекс, т.е. система управления, оценивает резкость изображения на сетчатке глаза? Ответ будем искать, как условились, в динамике образов. Прежде всего отметим, что при любом изменении резкости образы возбуждений рецепторов будут отличаться друг от друга, о чём свидетельствует степень сходства SAA A (рис.2.6). Этого уже достаточно для того, чтобы утверждать, что, если есть отличие образов, то можно это отличие использовать для управления механизмом аккомодации. Более конкретно о принципе управления можно говорить, основываясь на зависимости коэффициента приведения предыдущего образа к последующему SAA от изменения резкости изображения k. То, что этот коэффициент больше единицы при усилении резкости и меньше — при снижении её ( рис.2.6), можно воспринять как ключ к разгадке секрета аккомодации. Осталось только дополнить наши рассуждения тем, что указанный коэффициент приведения определяет соотношение фактических сигналов управления в двух следующих одна за другою ситуациях при условии, что проводимости синапсов формируются в предыдущей из них; об этом говорит выражение (2.14). Стыкуя то и другое, получим, что при росте резкости (k>1) коэффициент приведения SAA будет больше единицы ( SAA >1), и, если реализовать EA окажется больше и EA > E A . И наоборот, при k<1 получим SAA >1 и EA > зависимость (2.14), то фактический сигнал управления в последующей ситуации сигнала E A в предыдущей: EA EA SAA E A . Другими словами: при усилении резкости изображения сигнал управления будет увеличиваться, а при снижении — уменьшаться. Напомним, что указанная связь между сигналами управления и образами возникает при выполнения двух важнейших условий: во-первых, необходимо постоянное изменение образа, т.е. необходимо постоянное движение механизма наведения на резкость; стоит только остановиться ему, и та динамика образа, которая лежит в основе принципа действия, потеряет свою силу; во-вторых, мы должны признать, что аккомодация как рефлекс всё же нуждается в обучении, но не в обычном обучении, а как бы в скользящем, когда оно всякий раз осуществляется в предыдущей ситуации; только при этом условии оказывается справедливой зависимость, отражённая в выражении (2.14). Приняв оба эти условия, мы должны подумать о том, как они реализуются на самом деле. Непрерывное движение механизма наведения на резкость легко обеспечивается нестабильностью системы регулирования. Из теории автоматического управления известно, что любая система с отрицательной обратной связью склонна к колебаниям по своей природе, тем более, если этому способствуют её параметры, в частности такой, как запаздывание обратной связи. В нашем случае датчиками обратной связи являются рецептор сетчатки, а они, как известно, срабатывают, т.е. выдают на выходе сигнал, не мгновенно; способствовать неустойчивости могут и другие параметры системы, например инерционность. Так или иначе, но неустойчивость, о которой мы ведём речь, не только может быть, но и есть в действительности, о чём свидетельствуют исследования в области офтальмологии [21]. Что же касается скользящего обучения системы управления, то объяснить его можно только с учётом особого режима, в котором есть забывание, но нет запоминания. Вспомним в связи с этим ещё раз наше толкование процесса обучения мозга животных; этот процесс состоит из трёх элементов: 1) увеличение проходных сечений синапсов под воздействием проходящих через них своих управляющих потоков — так называемое саморегулирование; 2) запоминание, т.е. стимуляция роста проводимостей синапсов и фиксация этих проводимостей с помощью особых медиаторов-стимуляторов запоминания и, наконец, 3) забывание, т.е. зарастание проходных сечений синапсов под воздействием других медиаторов-стимуляторов забывания. Если исключить из процесса обучения второй элемент, то есть подкрепление увеличения проходных сечений синапсов путём воздействия медиаторов запоминания, то память окажется кратковременной, определяемой своего рода упругой деформацией синапсов. Ранее мы договорились считать, что стимуляторы запоминания выделяются в нейронах при положительных эмоциях, т.е. при одобрении определённых действий, но, как известно из нейробиологии, действия цилиарной мышцы человеком никак не ощущаются и поэтому никак не оцениваются; а это значит, что одобрить её действия выделением стимуляторов запоминания человек бессилен. Остаётся согласиться с тем, что синапсы управления наведением на резкость, увеличивающие свои проводимости под воздействием протекающих через них управляющих потоков, способны сохранить эти проводимости на очень короткое время, определяемое последействием синапсов или, что одно и то же, скоростью забывания. Конечно, время полного забывания у всех синапсов различное, но его можно осреднить и считать одинаковым; пусть это время будет равно t : именно это время t разделяет предыдущую и последующую ситуации. На рис. 2.7 представлена схема одной из возможных систем управления аккомодацией о явлением постоянного забывания. Объяснение можно начать с любой текущей ситуации, в которой возбуждение -го k b, рецептора равно b . Это возбуждение формирует проводимость соответствующего синапса: c где k — коэффициент пропорциональности обучения. Спустя время t возбуждение того же рецептора изменится и станет равным b , но проводимость соответствующего синапса в силу своего последействия c . Рецепторная доля сигнала управления e , определяемая возбуждением b и прежней проводимостью c , будет равна: e b c . Постепенно возбуждения b изменят проводимость синапса и сделают её равной c , так что, спустя очередной отрезок времени t возбуждение рассматриваемого рецептора уже b c , и так далее. Если теперь просуммировать предыдущие доли станет равным b , а его доля — e e : сохранится предыдущим, то есть равным m m E e 1 b c , 1 - а затем просуммировать те же доли в последующей ситуации: m E m e 1 b c , 1 то, вычитая одну сумму из другой, получим разность E E E как текущий сигнал управления механизма наведения на резкость. Эта разность будет положительной при наведении на резкость и отрицательной при уходе с резкости, при размывании изображения на сетчатке. После объяснения принципов построения системы регулирования механизма наведения на резкость рассмотрим его работу. Цилиарная мышца представляет собой привод одностороннего действия; она делает хрусталик глаза более выпуклым. Хрусталик ведёт себя при этом как пружина; обратной мышцы или как её ещё называют — антагонистической у цилиарной нет. В исходном состоянии, когда нет сигнала управления и мышца не действует, хрусталик полностью распущен, уплощён, то есть наведён на резкость в бесконечности; такую форму он приобретает сам в силу своей упругости. После включения в работу на цилиарную мышцу подаётся сигнал управления и она начинает сокращаться, делая хрусталик более выпуклым. Пока будет обостряться резкость изображения сигнал управления, согласно нашим выводам, будет больше нуля и мышца будет продолжать сокращаться. При выходе на наивысшую резкость сигнал должен был бы уменьшиться до нуля, но этого не произойдёт по той простой причине, что и рецепторы, и синапсы действуют с запаздыванием. Сигнал управления уменьшится до нуля спустя время запаздывания; и только тогда цилиарная мышца отключится и расслабится. Упруго напряжённый хрусталик начнёт деформироваться в обратную сторону, уменьшая свою кривизну. Допустим, что отключение цилиарной мышцы продолжается всегда на одно и то же время, достаточное для того, чтобы хрусталик перескочил в обратную сторону через точку наивысшей резкости; и когда она снова подключится, её сигнал окажется положительным, снова она начнёт сжимать хрусталик, и снова изображение начнёт увеличивать свою резкость. Движение повторится и будет повторяться постоянно раз за разом пока глаз смотрит на объект. Таков в общих чертах механизм аккомодации глаза, точное говоря — один из возможных вариантов механизма; и по такому принципу может действовать реальный механизм наведения на резкость, встроенный в обучаемую систему управления. Рис.2.7. Схема автоматической системы управления механизма наведения на резкость Элемент сравнения, на котором происходит вычитание предыдущего сигнала управления из последующего (рис.2.7), может отсутствовать при условии, что есть утечка сигнала управления; при этом условии сигнал управления появляется тогда, когда сигнал на выходе из сумматора будет иметь величину, большую чем утечки. В заключение приведём параметры аккомодации человеческого глаза; если расстояние до объекта соответствует 1,0 диоптрию, а диаметр зрачка равен 7 мм, то колебания совершаются с частотой 1... 3 Гц и амплитудой 0,2...0,3 диоптрия. При уменьшении диаметра зрачка, то есть при увеличении глубины резкости, и при удалении объекта наблюдения колебания уменьшают свою амплитуду. 3.4. Динамика смещающегося образа При смещении взора и при изменении положения объекта образ его очувствления видоизменяется. При плавном смещении изменение образа будет также плавным, а плавное изменение образа вызывает в общем случае плавное изменение сигналов управления. Этим можно объяснить округление острых углов пешеходных тропок: для живых существ указанное округление имеет силу закона. Зависимость изменения образа от величины смещения у различных образов различная, и определяется она характером самого образа, а точнее — соотношением таких его элементов, как пятна, контуры, полутоновые участки, линии и точки. Пусть из общего количества рецепторов m пятнами охвачены p рецепторов, контурами — k рецепторов, а линиями и точками —  рецепторов, так что m p k  . Полутоновые участки с плавно изменяющимися возбуждениями рецепторов причислим к контурам. И приведём все смещения органов очувствления, имеющие различные размерности и масштабы, к смещению возбуждений рецепторов рецепторного поля; проще говоря — к смещению образа. В этом случае за единицу смещения можно принять сам рецептор. При смещении образа на x рецепторов (в общем случае — без указания направления) контуры и полутоновые участки, очевидно, начнут расширяться, охватывая всё большее количество рецепторов: k k f x , где f — коэффициент пропорциональности, отражающий расположение рецепторов и направление перемещения образа, — а размеры пятен будут соответственно уменьшаться: p p f x . Останутся неизменными в количественном отношении только линии и точки:  =  =const. Динамику образа будем оценивать по-прежнему с помощью коэффициента приведения этого образа к самому себе при смещении его на x рецепторов, т.е. с помощью коэффициента приведения предыдущего образа к последующему SAA , и с помощью степени сходства этих образов SAA A . В общем виде указанный коэффициент приведения будет таким: p k b  2 A bA bA SAA bA bA , m b 1 (2.70) 2 A а степень сходства изобразится как p k b SAA A bA bA p m b 1 2  2 A 2 A bA bA k b 2 A .  b 2 A b (2.71) 2 A Начнём с самого простого образа, представляющего собой одно сплошное пятно; тогда  =0, k =0, p = m. Само собой разумеется, что такой образ при смещении никак измениться не сможет, значит: SAA =1; SAA A =1. Примером такого образа может быть зрительное поле в виде равномерно освещенного фона. Усложним образ и наложим на сплошное пятно линии и точки; рецепторы распределятся так: k =0;  + p = m. При смещении образа более чем на один рецептор в каждый момент времени изменять свои возбуждения будут только рецепторы линий и точек, общее количество которых будет всегда одно и то же:  =  =const; следовательно, выражения (2.70) и (2.711) в данном случае будут иметь вид p  b SAA 2 A bA bA ; m b 1 2 A p b SAA A 2  2 A bA bA p m b 1 ,  2 A b 2 A b 2 A а это значит, что и коэффициент приведения SAA , и степень сходства SAA A будут иметь постоянные значения на всём диапазоне смещения независимо от величины смещения, причем чем большее количество рецепторов будет охвачено линиями и точками, тем больше коэффициент SAA и степень SAA A будут отклоняться от единицы. Общий случай, когда в образе присутствуют все элементы, характерен тем, что коэффициент приведения SAA и степень сходства SAA A сильно зависят от величины смещения образа. Именно такому случаю соответствуют выражения (2.70) и (2.71). Более подробно рассмотрим динамику образа, состоящего из пятен (с контурами), но без линий и точек. Идеальным случаем возникновения такого образа может быть обзор глазом шахматного поля, у которого абсолютно белые квадратные по форме клетки перемещаются с такими же по форме абсолютно чёрными Рис.2.8. Идеальный «шахматный» образ клетками. Если иметь в виду, что рецепторы парны: на один рецептор света приходится один рецептор темноты, — и предположить, что рецепторы имеют идеальные рабочие характеристики, согласно которым освещенные рецепторы света и затемнённые рецепторы темноты максимально возбуждены, а затемнённые рецепторы света и освещенные рецепторы темноты имеют нулевые возбуждения, то получим идеальный «шахматный» образ (рис.2.8), у которого клеткам шахматного поля будут соответствовать его пятна. Контуры пятен (границы клеток) при смещении образа будут расширяться и всегда будут равны смещению образа x. Рецепторы контуров при смещении образа будут менять свои возбуждения на обратные: если прежде возбуждение какого-то рецептора было наибольшим, то, попадая в зону контура, оно становится нулевым, и наоборот. Поэтому при смещении образа на величину x в пределах от 0 до размера пятна а часть рецепторов, а именно: k m x a — поменяет свои возбуждения на обратные. Коэффициент приведения исходного образа к последующему, смещенному определится как p k b 2A SAA bA bA . m b 1 Произведение возбуждении bA bA 2 A тех рецепторов, что расположены в зоне контуров в силу опрокидывания возбуждений на обратные, очевидно, всегда будет равно нулю, поэтому коэффициент приведения SAA будет иметь вид p b 2A SAA . m b 1 2 A Если числом m обозначить общее количество пар рецепторов и если по-прежнему считать, что в каждой паре один рецептор возбужден максимально, а другой — нулевой, то, определяя общее количество пар рецепторов, охваченных пятнами в последующем образе как выражение для коэффициента приведения m k m m x a , получим SAA , справедливое в интервале x = 0...2a: m m x a b 2A m b 2A SAA Встречный коэффициент приведения p 1 x . a (2.72) SA A определится как p b 2A SA A . m b 1 2 A А так как возбуждения каждой пары рецепторов в обоих сравниваемых образах одинаковы (они лишь поменялись местами), то встречный коэффициент SA A оказывается равным прямому коэффициенту SAA : SA A SAA 1 x . a Степень сходства предыдущего и последующего образов определится в том же интервале x = 0...2a как SAA A SAA SA A x 1 2 a x2 . a2 (2.73) Зависимости коэффициентов приведения SAA , SA A (2.72) и сходства SAA A (2.73) от смещения образа x представлены на рис. 2.9. В исходном Рис.2.9. Динамика смещающегося шахматного образа состоянии, когда x = 0 , и при смещении на x =2a коэффициенты приведения SAA , SA A и степень сходства образов SAA A равны единице. При увеличении смещения образа в интервале x = 0...a коэффициенты приведения и степень сходства уменьшаются вплоть до нуля при x = a, а затем при дальнейшем смещении в интервале x = a...2a, снова возрастают до единицы в положении x = 2a. Далее всё повторяется. «Шахматный» образ является сугубо искусственным, но он хорош тем, что позволяет оценивать очувствление обучаемой системы управления; по этой причине к нему можно прибегать для сравнения систем. Если обучить обучаемую систему только в исходной ситуации А и получить в ней сигнал управления E A с допустимым отклонением сигнал A , то при смещении образа в ситуации A степени управления согласно (2.14) должен быть равен EA E A SAA . На графике (рис.2.10) полученный теоретический сигнал управления повторяет EA зависимость SAA f x ; при нулевом смешении x=0 сигнал управления равен EA ; а при x = a он Рис.2.10. Сравнение фактического уменьшается до сигнала управления E f с нуля. теоретическим EA Действительный (фактический) сигнал управления E f при смещении «шахматного» образа будет изменяться как-то иначе: у каждой системы он будет изменяться по-своему. Очевидно, чем совершенней очувствление системы, тем ближе будет действительный сигнал управления E f к теоретическому EA и тем меньше будет разность между ними E EA E f , то есть погреш- ность. Эта погрешность, как видно из графика, постоянно изменяется, но ее можно осреднить, если замерить площадь между кривыми (заштрихованную площадь) и поделить её на смещение а: Eср P EA ; Ef . a E ср можно судить о качестве очувствления обучаемой Таким образом, по средней погрешности системы. Из графика (рис.2.10) можно определить также другие показатели, например точность позиционирования x и темновой сигнал управления E т . Точность позиционирования или, точнее, нечувствительность системы определяется как смещение образа на такую величину x в окрестностях x=0 и x = a, при которой фактический сигнал управления изменяется на величину не больше допустимого отклонения A . Темновой сигнал управления E т определяется как тактический сигнал в позиции x = a, когда теоретический сигнал EA равен, нулю. 3.5. Динамика изменяющегося во времени образа Изменение образа во времени прежде всего связано о запаздыванием срабатывания рецепторов. В общем случае рецептор можно считать апериодическим (инерционным) звеном первого порядка; его работа описывается дифференциальным уравнением первого порядка; передаточная функция рецептора имеет следующий вид: W b a k , Tp S 1 где a — внешнее воздействие на рецептор; b — возбуждение рецептора; Tp — постоянная времени рецептора; k — коэффициент передачи. При ступенчатом внешнем воздействии, а точнее — при единичном воздействии рецептора будет изменяться по экспоненциальному закону bA t bA bA bA a 1 e 1 t , возбуждение t Tp , (2.74) bA t — изменение возбуждения рецептора во времени; bA — окончательное возбуждение рецептора в последующей ситуации A ; b A — возбуждение рецептора в предыдущей ситуации A ; t — текущее где время. Выясним, как будет изменяться во времени коэффициент приведения образа предыдущей ситуации A к образу последующей — A , и допустим, что быстродействие у всех рецепторов одинаковое: Tp =const. Тогда получим: m bA bA t 1 SAA t , m b 1 2 A и после подстановки сюда выражения (2.74) и некоторых преобразований будем иметь SAA t SAA SAA 1 e t Tp , (2.75) SAA — окончательный коэффициент приведения, который сформируется по завершению переходного SAA процесса, т.е. при t 34Tp , а точнее; при t , так что SAA . На рис 2.11 представлен график зависимости коэффициента приведения SAA от времени t. Она носит где такой же экспоненциальный характер, как и возбуждение во времени рецепторов (2.74). Экспонента всегда начинается с единицы и изменяется (увеличивается или уменьшается) во времени до значения SAA . Определяющим параметром зависимости является постоянная времени рецепторов Tp . Теперь рассмотрим случай, когда рецепторы по своему быстроРис.2.11. Изменение коэффициента приведения образов во времени действию делятся на две группы с постоянными времени Tp1 и Tp2 . Пусть количество рецепторов в обеих группах будет одинаковым, тогда коэффициент приведения m SAA t SAA во времени определится как m 2 1 bA bA t m bA bA t 2 1 . m b 1 2 A Используя выражение (2.74), окончательно получим: SAA t m 2 bA bA b 2 A e SAA t Tp m m 1 m b 1 2 A bA bA 2 1 b 2 A e t Tp . Допуская некоторую неточность, полученное выражение можно привести к виду SAA t SAA 1 S 2 AA t Tp 1 1 e t Tp 2 e  e t Tpn , где n — число групп рецепторов, одинаковых по числу рецепторов в них. Все полученные зависимости говорят о том, что коэффициент приведения SAA изменяется в любом случае по экспоненте, только параметры этой экспоненты определяются всякий раз временными характеристиками действительных рецепторов. Запаздывание возбуждении рецепторов можно использовать для получения такого нового качества обучаемой системы управления, как выделение движения образов. Представим очувствление системы в виде двух рядов рецепторов о различными постоянными времени: T1 , T2 , причём T1 < T2 . К пусть на эти ряды оказывается внешнее воздействие, например пучком света, с апертурой в форме прямоугольника (рис. 2.12). Если внешнее воздействие неподвижно (ситуация А), то возбуждённые рецепторы (на рис.2.12 они заштрихованы) будут определяться точно апертурой. Если внешнее воздействие смещается вправо (ситуация В), то форма возбуждённых рецепторов не будет соответствовать апертуре: рецепторы второго ряда будут отставать со своим возбуждением, — и у апертуры появится «хвост» возбуждённых рецепторов слева. При движении внешнего воздействия влево (ситуация С), «хвост» возбуждённых Рис.2.12. Возбуждения рецепторов при движениях внешних воздействий рецепторов окажется справа. А коли образы во всех трёх ситуациях различны, то обучаемая система управления будет воспринимать их по-разному: предварительно обученная она способна будет различать движения. Определим соотношение параметров очувствления, необходимое для выделения движения на всем его диапазоне. Если рассматривать крайний случай возбуждений рецепторов, когда в исходном состоянии это возбуждение равно нулю, то экспонента роста возбуждения будет иметь вид bt b max 1 e t Tp . Действительную позицию внешнего воздействия выделяют самые быстродействующие рецепторы, в нашем случае — 1-ый ряд рецепторов, у которых постоянная времени T1 . Они должны успевать b min , превышающего возбудиться по крайней мере, до своего минимального регистрируемого уровня t min , определяемое шагом расположения рецепторов h1 при самой большой скорости перемещения внешнего воздействия Vmax , с учётом всего этого экспонента примет вид уровень шума, за время b min b max 1 e h1 T1Vmax . Произведя преобразования с помощью натурального логарифмирования, получим условие регистрации текущей позиции внешнего воздействия: T1 h1 Vmax ln 1 b min b max . (2.76) Рецепторы 2-го ряда, наоборот, должны иметь такую большую постоянную времени T2 , то есть такое большое запаздывание, при котором они обеспечивали бы сдвиг возбуждений на самой малой скорости перемещения внешнего воздействия Vmin . Условие невозбуждения рецептора 2-го ряда в начале внешнего воздействия на него, определённое по аналогии, примет вид h2 Vmin T2 ln 1 b min b max , (2.77) где h2 — шаг расположения рецепторов 2-го ряда. Что же касается запаздывания сброса возбуждения рецепторов 2-го ряда после того, как прекратилось внешнее воздействие на него (образование «хвоста»), то условие такого запаздывания выявляется, в свою очередь, из условия спадания возбуждений рецепторов по экспоненте с прежней постоянной времени T2 ; эта экспонента выглядит так: bt b max e t T2 . Отсюда следует, что «хвост» у пятна возбуждения образуется, очевидно, тогда, когда h2 b ln min . Vmin b max T2 (2.78) Условия (2.76), (2.77) и (2.78) гарантируют то, что обученная обучаемая система управления способна в принципе различать движения внешнего воздействия. В качестве примера можно проследить за реакцией зрячего робота при появлении в его поле зрения движущегося объекта, например человека. Если человек будет неподвижно стоять, то действия обученного робота будут одними, а если человек начнёт двигаться, то — другими; какими именно — определит обучение; главное: в первом и во втором случаях робот будет воспринимать зрительно человека по-разному. Следует уточнить и то, что с увеличением скорости смещения внешнего воздействия будет увеличиваться (удлиняться) «хвост» пятна возбуждения, а это значит, что в примере со зрячим роботом он способен различать спешащих и медленно идущих людей. Примеры и задачи Пример 2.1. Вычисление коэффициентов приведения и степени сходства. Исходные данные: Образ А: 2 1 2 1 3 1 2 1 2; Образ В: 1 3 1 3 3 3 1 3 1. Требуется: Вычислить коэффициент приведения SAB образа А к образу В, встречный коэффициент приведения SBA образа В к образу А и степень сходства SABA образов А и В. Выполнение: По формуле (2.10) вычислим сумму произведений одномерных чисел образов Sп р,AB : Sп р,AB 2 1 1 3 2 1 1 3 3 3 1 3 2 1 1 3 2 1 29. По формуле (2.7) вычислим суммы квадратов чисел отдельно для образов А и В: Sкв,A 22 12 22 12 32 12 22 12 22 29 ; Sкв,B 12 32 12 32 32 32 12 32 12 49 . По формуле (2.11) вычисляем коэффициент приведения SAB и встречный коэффициент SBA : SAB 29 29 1; По формуле (2.12) вычислим степень сходства SBA 29 49 0,59 . SABA : 292 29 49 SABA 0,59 . Пример 2.2. Определение продолжительности обучения в двух ситуациях. Таблица 1 Ситуации А: В: Исходные данные Требуемые Допустимые сигналы погрешности управления Возбуждения рецепторов b1 b2 b3 b4 E 1 2 2 1 1 2 2 1 1 2 0,1 0,1 Требуется: Определить продолжительность обучения в циклах. Выполнение: По формуле (2.11) вычисляем коэффициент приведения коэффициент приведения SAB образа А к образу В и встречный SBA образа В к образу А: SAB S BA 1 2 2 12 1 2 2 22 По формуле (2.12) вычислим степень сходства 1 1 2 2 1 0,8 ; 2 12 2 2 1 1 2 2 1 0,8 . 2 1 2 2 12 2 SABA образов А и В: 2 SABA 1 2 2 1 1 2 2 1 2 1 2 2 12 2 2 2 2 12 2 2 12 0,64 . По формуле (2.31) определим продолжительность обучения в циклах: lg TA Округляя до целого большего, получим 0,1 1 0,64 2 0,8 lg 0,64 1 6,06 . TA = 7 циклов. Пример 2.3. Аккомодация (наведение на резкость) глаза. Исходные данные: b1 b 2 b 3 b 4 b5 b 6 b 7 b8 b 9 b10 Зрительный образ А: 3 7 3 7 7 7 3 7 3 3 Требуется: Определить изменение сигнала управления механизма аккомодации при наведении изображения (зрительного образа) на резкость и при снижении резкости и сделать вывод о работе механизма. Выполнение: Определим проводимости синапсов, формирующиеся под действием возбуждений рецепторов образа А, принимая исходные проводимости равными нулю: c = 0, — и сигнал управления равным единице: E A = 1: c1 c2 1 2 2 3 7 32 72 2 7 7 2 32 7 2 0,0103448; c1 c3 c7 c9 c10 ; 1 2 2 2 3 7 7 7 2 32 7 2 0,0241379; c 2 c 4 c5 c 6 c8 . 3 7 2 2 32 32 32 32 3 7 Изменим резкость изображения в соответствии с выражением (2.56). Среднеарифметическое возбуждение рецепторов образа А равно b с р SA m 50 10 5 . Каждое новое возбуждение определится как b 5 kb 5 . Сначала примем k = 1,5, то есть усилим резкость изображения, и тогда новый образ A примет вид: образ A : 2 8 2 8 8 8 2 8 2 2. Определим сигнал управления, сохраняя проводимости синапсов прежними: EA . 5 2 0,0103448 5 8 0,0241379 1068964 , Изменение сигнала управления составит: EA EA EA 0,068964 . Затем примем k = 0,5, то есть ослабим резкость изображения, и тогда получим новый образ A : образ A : 4 6 4 6 6 6 4 6 4 4. Если идти от образа A к образу A , то сигнал управления определится уже как: EA 5 4 0,0103448 5 6 0,0241379 0,931033 . Изменение сигнала управления составит: EA EA EA 0,068967 . Вывод: принимая привод механизма аккомодации действующим только в одну сторону и реагирующим только на положительное изменение сигнала управления, убеждаемся, что движение будет только в сторону усиления резкости ( EA >0) и не будет в обратном направлении ( E A <0). Тот же результат можно получить, используя приведение образов. Для этого определим коэффициент приведения SAA образа A к образу A и коэффициент приведения SAA образа A к образу A : SAA (3 2 7 8 3 2 7 8 7 8 7 8 3 2 7 8 3 2 3 2) / (32 SAA 72 32 72 72 72 32 7 2 32 32 ) 1,068965; (3 4 7 6 3 4 7 6 7 6 7 6 3 4 7 6 3 4 3 4) / (32 32 72 32 72 32 ) 32 72 72 0,931034. Сигналы управления определятся как EA EA EA SAA EA SAA ; 1 1068965 , 1068965 , 1 0,931034 0,931034 . 72 Пример 2.4. Определение параметров технического глаза обучаемой системы управления. Исходные данные: Система обучена в ситуации А, когда глаз обозревал шахматное поле с Рис.2.13. Изменение фактического сигнала управления при смещении взора по шахматном мелкими клетками. При смещении взора (фактический сигнал управления E f изменялся по закону, отраженному на рис. 2.13. Требуется: Охарактеризовать очувствление глаза и определить точность его позиционирования Выполнение: С учётом зависимостей (2.15) и (2.72) теоретический сигнал управления x. EA при смещении взора должен изменяться по наклонной от E A при х = 0 до нуля при х = а, где а — размер шахматной клетки; х — смещение взора. Форма изменения фактического сигнала управления E f (рис.2.13) говорит о частном случае, когда на каждую клетку шахматного поля приходится по одному рецептору сетчатки глаза с точечной чувствительностью. Следовательно, сетчатка глаза насчитывает столько рецепторов, сколько шахматных клеточек в поле зрения глаза. Точность позиционирования глаза x определяется из рис. 2.13 и равна: x a 2. График (рис.2.13) позволяет определить также среднюю погрешность сигнала управления E ср , как результат деления заштрихованной площади на величину а: Eср a E A 4a EA 4 . Задача 2.1. Определить продолжительность обучения в двух ситуациях А и В графическим способом (рис.2.1), если степень сходства образов этих ситуаций SABA равна 0,1, требуемые сигналы управления равны: E A =1; E B =2, — допустимые отклонения этих сигналов равны: определение продолжительности для степеней сходства образов: 0,5; 0,64; 0,8. A = B =0,1. Повторить Задача 2.2. Определить погрешность сигнала управления при предъявлении ситуации А, если обучение проводится в трёх ситуациях А, В, С, погрешность в предыдущем цикле после обучения в ситуации А и при предъявлении ситуации В равна -0,5, а после обучения в ситуации В и при предъявлении ситуации С равна +0,3 и если коэффициенты приведения образов ситуаций равны: SBA =0,8; SCA =0,9. Задача 2.3. Определить сигнал управления образом: 3 1 2 1 З — он равен E B в ситуации В с образом: 6 2 4 2 6, — если в ситуации А с E A =1. SAA образа предыдущей ситуации А: 1 9 7 3 5 5 4 6 2 8, — к образу последующей — A , возникающей при изменении контрастности образа ситуации A на величину b =2 в случаях: Задача 2.4. Определить коэффициенты приведения 1) рецепторы света — чётные, а рецепторы темноты — нечётные; 2) наоборот, рецепторы света — нечётные, а рецепторы темноты — чётные. Задача 2.5. Сетчатка глаза включает фоторезисторы СФЗ-4Б с постоянной времени T1 = 0,008 с и СФ2-8 T2 = 0,03 с. Определить шаги расположения h1 и h2 тех и других фоторецепторов при условии, что обученная система способна различать движущиеся объекты в диапазоне скоростей Vmax = 1 000 мм/с и Vmin = 100 мм/с. Гарантированный пороговый уровень возбуждения фоторезисторов — 50 % от максимального значения, то есть b min b max =0,5. с постоянной времени Литература 1. Аветисов Э. С., Розенблюм Ю. З. Вопросы офтальмологии в кибернетическом освещении. — М.: Медицина, 1973. 2. Антонов В. М., Буков А. А. Влияние порядка предъявления образов на скорость обучения ОСУ выработке сигналов управления исполнительным органом робота // Тез. докл. обл. н.-пр. конф. Промышленные роботы в механообработке, 3 дек. 1986 г.Липецк, 1986. — С.20-23. 3. Антонов В. М., Буков А. А. Обучение определению кодов двух образов // Тез. докл. обл. н.-пр, конф. Промышленные роботы в механообработке, 3 дек. 1986 г. — Липецк, 1986. — С. 26-28. 4. Антонов В. М., Буков А. А., Морозова В. П. Влияние отличительности и заданной точности на продолжительность обучения определению кодов двух образов // Тез. докл. обл. н.-пр. конф. Промышленные роботы в механообработке, 3 дек. 1986 г. — Липецк, 1986. — С. 29-31. 5. Антонов В. М., Буков А. А. Обучение определению кодов двух образов с бинарным представлением признаков / Липецкий полит. ин-т.- Липецк, 1987: Деп. в ЦНКИТЭИприборостроения 09.04.1987, №3729-пр. 6. Антонов В. М., Буков А. А. Выбор ситуаций при обучении робота / Липецкий политехн. ин-т.- Липецк, 1987.- Деп. в ВНИИТЭМР 25.05.1987, №248-мш87. 7. Антонов В. М., Буков А. А. Выбор ситуаций при обучении робота // Автореферат статьи деп в ВНИИТЭМР 25.05.1987, №248-мш87/ РЖ 37 Промышленные роботы и манипуляторы, №10, 1987 г. — ВИНИТИ, - С.31. 8. Антонов В. М. Датчик перемещения для обучаемой системы управления // А.с. СССР 1788469 G01 Р 336, заявл. 08.07.1987. Опубл. 15.01.1993. Бюл. №2. 3. Морозова Р. П. Обучение определению кодов трёх образов // Тез. докл. обл. н.-пр. конф. Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области, ЛипПИ, 8-9 дек. 1987 г. - Липецк, 1987.- С.71-72. 10. Буков А. А. Обучение системы управления при последовательном предъявлении образов / Липецкий политехн. ин-т.- Липецк, 1988.- Деп. в ВНИИТЭМР 19.07.1988, №248-мш88. 11. Антонов В. М., Буков А. А., Морозова В. П. Расчёт весовых коэффициентов признаков образов // Программное средство ОФАП ГИВЦ Минвуза РСФСР/ Липецкий политехн. ин-т.- Липецк, 1989, инв.№72.3000 056 (ГосФАП СССР инв.№50890001099). 12. Буков А А. Оптимизация процесса обучения системы управления // Тез. докл. н.-т. конф. Молодежь и научно-технический прогресс, 12-13 окт. 1989 г. — Липецк, 1989. - С .43-46. 13. Антонов В. М., Буков А. А. Использование обобщённых ситуаций при формировании памяти робота с обучаемой системой управления // Сб. науч. тр. Теория и техника автоматического управления, УНПК «Кибернетика» Томского политехн. ин-та, Томок, 1990.- С.172-181.: Деп. в ВИНИТИ 15.02.1991, №775-В91. 14. Антонов В. М. Определение коэффициентов приведения образов в обучаемых системах управления // Сб. Научн. тр. Технология машиностроения. Январь 1996 г., ЛипГТУ, Липецк, 1996.-С.34-41. Часть III. Теоретические исследования обучаемых систем управления 1. Нелинейности обучаемых систем управления Линейная форма выражения для определения сигнала управления (1.12), согласно которому он равен сумме произведений возбуждений рецепторов на проводимости соответствующих синапсов, может ввести в заблуждение относительно применения обучаемых систем управления, если подходить к этому выражению формально. Получается, якобы, так, что обучаемые системы относятся к классу линейных, пригодных только для простейших случаев, в то время как любое реальное управления, мало-мальски отвечающее средним требованиям, без сомнения может быть только нелинейным. На самом деле это не так; формальный подход в данном случае недопустим. Прежде чем говорить о линейности-нелинейности обучаемых систем управления, рассмотрим этот критерий применительно к обычным логическим системам управления, например к тем, которые действуют в автоматическом режиме на базе компьютеров. К ним относятся, в частности, системы управления металлорежущими станками, прокатными станами и другие. Программированию таких систем предшествует разработка так называемого математического обеспечения, или другими словами: разработка законов управления, то есть математической модели процессов. Что это такое? Математическая модель процесса управления определяет однозначную логическую зависимость сигнала управления от различных влияющих на процесс управления параметров, таких как перемещение узлов и инструментов, скорость этого перемещения, масса перемещаемых грузов, температура в зоне обработки и прочих. Все эти параметры по отношению к системе управления (по отношению к компьютеру) являются внешними; они характеризуют состояние объекта управления, то есть ситуацию. Разработчик математической модели сначала умозрительно вникает в физический процесс управления, а потом в меру своего понимания его излагает этот процесс языком математических символов, получая таким образом требуемую модель с той или иной мерой соответствия реальному процессу. При этом он оперирует понятиями параметров почти как зримыми, ощущаемыми вещами. На самом же деле их в природе нет; ощутимыми станут потом их проявления в виде электрических и иных сигналов соответствующих датчиков. Весь процесс управления разбивается на несколько шагов. Определяющей является ситуация. Но её, эту ситуацию, необходимо как-то представить; и одной из возможных форм представления в логических системах используется параметрическое пространство, в котором ситуация приобретает вид параметрического образа, характеризуемого параметрическим вектором состояния. Далее параметрический образ преобразуется в набор показаний датчиков. Под показаниями следует понимать электрические и иные сигналы этих датчиков. Перед тем, как поступить в процессорную часть системы управления, где выполняются математические действия, сигналы датчиков преобразуются в цифровую форму, и только в таком виде они перерабатываются системой управления в строгом соответствии с математикой закона управления. При этом система воспринимает цифровые сигналы датчиков не только как сами сигналы, но и как те параметры, которые были зафиксированы датчиками. Иногда первичные преобразования датчиков совмещают с цифровым преобразованием, но это не меняет сути дела. Результатами вычислений являются численные значения сигналов управления по всем приводам; их в равной степени можно воспринимать как соответствующие параметры управления. После преобразования из цифровой формы в требуемую сигналы управления поступают непосредственно к приводам. Но на этом процесс управления, как правило, не заканчивается. Результат действий приводов фиксируется снова датчиками, их сигналы переводятся в цифровую форму, в таком виде они поступают в процессор, и тот, сравнивая показания датчиков с выданными ранее сигналами, определяет поправки в действиях приводов. Такое подробное описание работы существующих логических систем управления потребовалось только для того, чтобы подчеркнуть, что в них постоянно осуществляется переход от параметров к сигналам датчиков и, наоборот, от сигналов датчиков к параметрам, и при этом подразумевается их полная эквивалентность; в противном случае оказалась бы непригодной основа основ логических систем управления — их математический аппарат. Отсюда возникает требование строгой линейности датчиков, согласно которой сигнал датчика b всегда пропорционален внешнему воздействию: a: b k a , где k — коэффициент пропорциональности. Можно даже считать, что сигнал есть внешнее воздействие в некотором масштабе. Отклонение от линейности рабочих характеристик датчиков строго контролируется и называется классом точности. В принципе можно было бы отказаться от линейности датчиков вообще, но тогда разработчику математического закона управления пришлось бы иметь дело с фактическими экспериментальными рабочими характеристиками датчиков а они, надо полагать, были бы все разными, и разработка математической модели зашла бы в тупик. Следовательно, критерий линейности-нелинейности возникает только и только тогда, когда создаётся математическая модель управления: есть модель — нужен критерий, нет модели — и критерий не нужен. После таких рассуждений обратимся снова к обучаемым системам управления. В отличие от логических систем они не базируются на математике и не требуют от человека разработки математического обеспечения — они основываются исключительно на фактах: факт очувствления согласовывается в процессе обучения с фактом поведения. И всё; здесь нет места той теории, в которой присутствовали бы элементы и понятия математических преобразований, в частности критерий линейности-нелинейности; он не нужен. Математика, как таковая, может иметь некоторое отношение к обучаемым системам, но -не внутри них, а как бы параллельно: системы — сами собой, математика этих систем — сама собой. Нелинейность очувствления. После сделанных выводов начинать разговор о линейности-нелинейности очувствления обучаемых систем управления вроде бы ни к чему, но позволим себе это сделать, как было сказано, параллельным курсом. Если взять отдельный рецептор и исследовать его рабочую характеристику, то есть зависимость сигнала на выходе (возбуждения) от внешнего воздействия: b f a , — то вне связи с обучаемой системой управления эту характеристику можно было бы признать либо линейной, либо нелинейной. Какой же она должна быть у рецепторов? Ответ можно дать очень простой: она может быть любой; если она линейная, то хорошо, если же — нелинейная, то нисколько не хуже. Впрочем, на всём диапазоне изменения зависимости линейность может рассматриваться как частный случай, а наиболее общий случай — нелинейность; пределом нелинейности, наверное, можно считать двоичность (бинарность) рецептора, когда он имеет всего два состояния: покоя и возбуждения со ступенчатым переходом от одного к другому. И такая крайняя форма нелинейности также приемлема. Правда, у зависимости, близкой к линейной, информативность больше, чем у двоичной, но этот недостаток двоичных рецепторов может быть легко компенсирован увеличением количества самих рецепторов. Снимая всякие ограничения с рабочих характеристик с точки зрения линейности, нельзя в то же время допустить их нестабильность: какой бы ни была рабочая характеристика отдельного рецептора, но она должна оставаться неизменной после завершения обучения системы. Требование стабильности является важнейшим, и оно должно оговариваться допустимым отклонением. Очевидно, допустимая нестабильность не должна выходить за пределы общего «шума» и не должна порождать отклонения сигналов управления системы, выходящие за пределы допустимого. Вторым обязательным условием работоспособности очувствления является его достаточность. Словесно это условие выражается так: очувствление обучаемой системы управления должно быть таким, чтобы каждой отличительной ситуации, требующей отличительный сигнал управления, соответствовал отличительный образ очувствле-ния. Другими словами: если в любых двух ситуациях сигналы управления должны быть различными, то и образы этих ситуаций, состоящие из возбуждений рецепторов, должны различаться. Среди прочих особенностей рецепторов упомянем о такой, которую можно отнести к категории требований и, в равной степени, к категории нетребовательности; речь идёт о желательном разбросе рабочих характеристик рецепторов, в частности о различном их быстродействии, которые расширяют функциональные возможности системы в целом; об этом говорилось выше. Критерий линейности-нелинейности можно с некоторой натяжкой применить и к образам очувствления. Представим его в виде вопроса: можно ли при плавном изменении ситуации добиться резкого изменения сигнала управления на выходе системы? Поясним вопрос: плавное изменение ситуации при большом количестве рецепторов может порождать только плавное изменение образа очувствления и, в результате, — плавное изменение сигнала управления; это понятно, но можно ли при необходимости получить, например, ступенчатое изменение сигнала управления? Если рассуждать чисто теоретически, то обучаемые системы управления не имеют никаких ограничений в этом плане: они могут как угодно резко изменять сигнал на выходе, — но при этом проводимости отдельных наиболее весомых синапсов должны возрасти до очень высоких значений. Ступенчатое изменение сигнала управления, например, при плавном изменении образа очувствления потребовало бы поднять некоторые проводимости чуть ли не до бесконечности. Реально ли это? нет, не реально. Поэтому, если применить обучаемые системы управления, допустим, токарным станком, то при обработке ступенчатого вала все резкие переходы окажутся скруглёнными, сами собой появятся галтели и скруглённые фаски. Для сравнения: логические системы числового программного управления те же округления сделают только в том случае, если их специально запрограммировать. Не станем давать на этом основании сравнительные оценки тем и другим системам; подчеркнем лишь, что отмеченная особенность обучаемых систем управления свидетельствует о некоторой линейности связи её выходных сигналов с образами очувствления, точнее говоря — о свойстве, похожем на линейность. В то же время можно отметить определённую нелинейность указанной связи, если обратить внимание на то, что продолжительным обучением можно довольно существенно увеличивать резкость изменения выходного сигнала. Что же касается его ступенчатого изменения, то тут обучаемые системы должны быть дополнены такими конструктивными изменениями, которые позволили бы переключать её внимание и о которых пойдёт речь ниже. Достигается ступенчатое изменение сигнала управления в два хода: сначала система переключает себя с решения одной задачи на другую, то есть переключает своё внимание, а затем уж выдаёт любой отличный от предыдущего сигнал. Нелинейность работы. Представим, что зависимость сигнал управления от возбуждений рецепторов, определённая ранее выражением (1.12), нелинейная. Как отразится эта нелинейность на работе системы и не приведёт ли она к нарушению нормального процесса управления? Рассмотрим частный случай, когда рецепторная доля сигнала управления e имеет квадратичную зависимость от возбуждения своего рецептора: m 2 j ej Ej c b ; c b2j . 1 (3.1) В электрических обучаемых системах управления с синапсами в виде обычных резисторов такого быть не может: там всегда сохраняется линейность. Но если предположить, что синапсы могут представлять собой не только резисторы, но и более сложные схемы, то, допустим, там такое может быть. Квадратичная зависимость (3.1) появится и тогда, когда мозг обучаемой системы будет не электрическим, а пневматическим или гидравлическим (принципиальных возражений против этого нет). Определим в связи с указанной нелинейностью закон коррекции проводимостей синапсов, сохранив f bj , — прежнюю линейную зависимость поправки проводимости c от возбуждения рецептора: c E j устраняется на каждом шаге одним актом и соблюдая условие, что погрешность сигнала управления обучения: m Ej c b 2j . 1 Решая совместно эти уравнения, получим: Ej c bj . m b 1 (3.2) 3 j Выявим влияние квадратичной зависимости (3.1) и закона коррекции проводимостей синапсов (3.2) на ход обучения в двух ситуациях А и В. Цикл 1-ый, шаг 1-ый, ситуация А: E 0, A 0 ; E 0, A EA ; c A EA bA m b 1 c A . 3 A Шаг 2-ой, ситуация В: m E A, B 1 c A b 2B E A SAB , где m SAB 1 b A b 2B ; m b 1 E A, B EB EA SAB ; 3 A (3.3) E A, B c A, B b 1 c AB EA b 3 B E A, B bA m 1 bB ; m bB . m 2 A b 1 3 B Цикл 2-ой, шаг 1-ый, ситуация А: E AB, A EA E A, B SBA , где m 1 SBA b 2A b B ; m b 1 E AB, A E A, B SBA ; E AB, A c ABA m b 1 c ABA EA (3.4) 3 B E AB, A bA ; 3 A bA b 1 bB E A, B m . m 3 A b 1 3 B Шаг 2-ой, ситуация В: E ABA, B EA E AB, A E ABA, B SAB E A, B ; E A, B SABA , где m SABA 1 m b A b 2B m b 1 3 A 1 m b 2A b B . b 1 (3.5) 3 B На этом обучение можно закончить, так как определились все закономерности; все они сохранились такими же, какими были при обучении по линейному алгоритму; изменились лишь несколько выражения для определения коэффициентов приведения и степени сходства. Коэффициент приведения первого образа ко второму SAB (3.3) стал более чувствительным к контрастности второго образа, а встречный коэффициент SBA (3.4), наоборот, стал более чувствительным к контрастности первого образа. Степень сходства SABA (3.5) вместо квадратичной стала кубической и её численное значение уменьшилось. Это говорит о том, что обучение будет более стремительным, чем прежде; так что переход от линейной зависимости (1.1) к нелинейной квадратичной (3.1) ускоряет обучение. Нетрудно сообразить, что усугубление нелинейности (переход к кубической и так далее) ещё больше ускорит процесс обучения. Такое заключение, однако, нельзя воспринимать как рекомендацию к отказу от линейности работы. Да, теоретическое обучение подтверждает, что степенная нелинейность работы не только не разрушает обучаемые системы управления и даже не ухудшает их, а, можно сказать, улучшает, имея в виду ускорение обучения. Но вникнем в суть этого ускоренного обучения: оно происходит потому, что проводимости синапсов растут не столь значительно, как при линейном законе, и в обученном состоянии остаются на пониженном уровне; заниженные величины проводимостей компенсируются увеличенными (квадратичными) возбуждениями рецепторов. Следовательно, весомость проводимостей синапсов возрастает, а это приводит к тому, что даже небольшие погрешности проводимостей, возникающие как неизбежность в реальной обстановке, могут привести к существенным искажениям сигналов управления. Поэтому нет смысла стремиться переходить с линейного (1.1) закона работы обучаемых систем управления на нелинейные (3.1), тем более что на практике в электрическом варианте мозга не так-то легко реализовать любую нелинейность. Нелинейность обучения. Нелинейность обучения, напротив, может возникать сама собой. Если иметь в виду пробойные синапсы, например из халькогенидного стекла, то есть те, у которых проходящий через них ток увеличивает сечение токопроводящего шнура, то, скорее всего, при слабых токах рост шнура будет отсутствовать, а при очень сильном токе возможен полный пробой. Трудно обеспечить линейное нарастание проводимостей синапсов и в других конструкциях. Примем квадратичную зависимость саморегулирования синапса, выражающегося в увеличении проводимостей синапсов, от возбуждений соответствующих рецепторов: f b2j . c (3.6) При идеальном обучении, когда на каждом шаге погрешность сигнала управления устраняется полностью: m Ej 1 c bj , — закон коррекции проводимостей синапсов примет вид Ej c b 2j . m b 1 (3.7) 3 j Теоретическое обучение в двух ситуациях А и В будет происходить следующим образом. Цикл 1-ый, шаг 1-ый, ситуация А: E 0, A EA ; c A 0 ; E 0, A EA b 2A m b 1 c A . 3 A Шаг 2-ой, ситуация В: m E A, B 1 c A bB E A SAB , где m SAB 1 b 2A b B ; m b 1 3 A (3.8) E A, B EB EA SAB ; E A, B c A, B b 3B 1 c A, B EA E A, B b 2A m 1 b 2B ; m b 2B . m b 3A 1 b 3B Цикл 2-ой, шаг 1-ый, ситуация А: E AB, A EA E A, B SBA , где m b A b 2B 1 SBA ; m b 1 E AB, A E A, B SBA ; E AB, A c ABA m 1 c ABA EA (3.9) 2 B b 2A ; b 3A b 2A E AB, A E A, B m b 1 b 2B . m 3 A b 1 3 B Шаг 2-ой, ситуация В: E ABA, B EA E ABA, B E AB, A SAB E A, B ; E A, B SABA , где m SABA 1 m b 2A b B m b 1 3 A 1 m b A b 2B . b 1 (3.10) 3 B Ход обучения, как показали первые два цикла, в принципе сохраняется неизменным; по-прежнему определяющими являются коэффициенты приведения и степень сходства, хотя сами они несколько видоизменились. Так коэффициент приведения SAB образа первой ситуации к образу второй, определяемый выражением (3.8), оказывается таким же, как коэффициент приведения SBA образа второй ситуации к SBA при квадратичной коррекции проводимостей синапсов (3.6) является одинаковым с коэффициентом SAB , при образу первой при квадратичной зависимости (3.1), и, наоборот, встречный коэффициент зависимости (3.1). Такое перекрёстное равенство коэффициентов приведения приводит к тому, что степени сходства SABA и при зависимости (3.1), и при зависимости (3.6) оказываются одинаковыми и имеющими меньшее численное значение, чем в линейных случаях. Это говорит о том, что обучение при нелинейной квадратичной зависимости (З.6) будет происходить более ускоренно, чем при линейной. Очевидно, такая связь будет при любой другой степенной зависимости коррекции проводимости синапса от возбуждения своего рецептора. Выявленное ускоренное обучение не нарушает работу обучаемой системы управления, поэтому нет смысла бояться нелинейной коррекции синапсов, если она возникнет сама собой. Если же ставить вопрос: вводить или не вводить такую нелинейную коррекцию? — то следует учесть ускоренный рост проводимостей тех синапсов, чьи рецепторы оказываются сильно возбуждёнными. Может оказаться так, что некоторые из них выйдут на свой предел раньше завершения обучения и снизят эффективность дальнейшего обучения. Нелинейность работы и обучения. Допустим, нелинейный характер распространяется одновременно на работу и на обучение; в частности, работа системы определяется квадратичной зависимостью (3.1), а обучение — квадратичной зависимостью (3.6). Будет ли система обучаться и нормально работать? Для ответа снова проведём теоретическое обучение, но сначала определим закон коррекции проводимости синапса; он при прежних условиях примет вид Ej c b 2j . m b 1 (3.11) 4 j Цикл 1-ый, шаг 1-ый, ситуация А: E 0, A EA EA ; c A 0 ; E 0, A b 2A m b 1 c A . 4 A Шаг 2-ой, ситуация В: m E A, B 1 c A b 2B E A S AB , где m SAB 1 b 2A b 2B ; m b 1 E A, B c AB EB E A, B EA m 1 Цикл 2-ой, шаг 1-ый, ситуация А: b 4A b 2B ; m 1 c AB EA SAB ; b 2A b 4B E A, B m 1 b 4B b 2B . 4 A (3.12) E AB, A EA E A, B SBA , где m 1 SBA b 2A b 2B ; m b 1 E AB, A E A, B SBA ; E AB, A c ABA m 1 c ABA EA (3.13) 4 B E AB, A b 2A ; b 4A b 2A E A, B m b 1 b 2B . m 4 A b 1 4 B Шаг 2-ой, ситуация В: E ABA, B EA E ABA, A E AB, A SAB E A, B ; E A, B SABA , где 2 m b SABA 1 m b 2 B . m b 1 2 A 4 A b 1 (3.14) 4 B Проведенное теоретическое обучение не выявило ничего принципиально нового в действиях системы; несколько изменились лишь снова выражения для определения коэффициентов приведения (3.12) и (3.13) и степени сходства (3.14). И снова они свидетельствуют об ускорении процесса обучения. Подводя итог, можно сказать, что те нелинейности, которые могут появляться в обучаемых системах управления, никоим образом не нарушают работу и не уменьшают их функциональных возможностей — это главный вывод. Ускорение хода обучения, вызываемое нелинейностями внутренних процессов, можно расценить как положительный момент, стремиться к которому, правда, не обязательно. И, наконец, законы управления обучаемых систем формируются автоматически по факту очувствления и по требуемым сигналам управления и не нуждаются в параметрическом представлении с анализом их линейностинелинейности. Если даже подходить к обучаемым системам управления как сугубо линейным, имея в виду зависимость (1.12), то и тогда нет оснований сомневаться в том, что они справятся с любыми задачами управления без исключений. В тех же случаях, когда обучаемые системы всё-таки откажутся обучаться (обучение безрезультатное), причиной может быть либо недостаточность очувствления, либо противоречивость ситуаций обучаемой выборки. В противоречивости ситуаций обучаемые системы не виноваты: их подбирал обучатель. Что же касается недостаточности очувствления, то она должна устраняться простым наращиванием рецепторов. При этом, правда, может возникнуть сомнение такого плана: сколько ни наращивай рецепторов, всегда теоретически можно найти тот случай, когда снова возникнет не- достаточность очувствления. Такую бесконечность рассуждений можно прервать введением понятия конечности обучаемых систем. Конечность означает то, что, с одной стороны, число контролируемых ситуаций в обучаемой выборке конечно и прочие рассматривать ни к чему, а, с другой стороны, точность сигналов управления, выдаваемых системой, тоже конечна и определяется допустимыми отклонениями сигналов управления. 2. Жёсткость обучения обучаемых систем управления Идеальный закон обучения предполагает, что на каждом шаге обучения суммарная поправка проводимостей всех синапсов технического мозга должна приводить к полному устранению возникшей к данному шагу погрешности сигнала управления E . Это требование, очень простое и удобное с теоретической точки зрения, не очень простое и не очень выполнимое по практическим соображениям. Возьмём для примера только одно свойство объекта управления, которое является неотъемлемым для него — инерционность. В силу инерционности любая попытка обучателя воздействовать физически на объект с целью уточнения его движений в процессе обучения методом «вождения за руку» или подталкиванием будет приводить к перерегулированию поправок проводимостей синапсов, так как объект будет реагировать на обучателя с некоторым опозданием. Другими словами, обучатель, воздействуя на объект желаемым образом с целью изменить его движения и не получая в силу инерционности желаемый отклик (объект не способен менять мгновенно скорости своих приводов), вынужден бессознательно, рефлекторно увеличить своё физическое воздействие на объект, а это уже вызовет чрезмерную поправку (перерегулирование) проводимостей синапсов. В результате после акта обучения на каждом шаге возникнет некоторая погрешность сигнала управления отдельным приводом, имеющая обратный знак по отношению к той, которая была до того. Возможен и такой случай, когда обучатель по той или иной причине будет «не дожимать» объект, и тогда погрешность сигнала управления на каждом шаге обучения не сможет уменьшаться до нуля и будет в своей остаточной величине сохранять прежний знак. Одной из таких причин может быть индивидуальная особенность обучателя. Так или иначе в реальной обстановке, очевидно, всегда будет наблюдаться некоторое отклонение от идеального теоретического закона обучения, выражающееся в характерном для конкретного случая или для данного обучателя изменении пошаговой погрешности E . И если иметь в виду только индивидуальные особенности обучателей, то более энергичные и нетерпеливые люди будут «дёргать» объект жестко и энергично, а флегматичны и осторожные — мягко и не торопясь; у первых поправки сигналов управления будут, скорее всего, чрезмерными, а у вторых — недостаточными; иначе говоря, разные люди будут подходить к обучению с разной жёсткостью. Ранее погрешность E j мы определяли как разность между требуемым сигналом управления E j и фактическим E f : E j Ej E f , — и считали, что поправка сигнала управления Ef , реализуемая актом обучения, равнялась погрешности. Теперь же мы предполагаем, что они не равны и что Ef Ej , (3.15) где — перерегулирование, характеризующее жёсткость обучения. В общем случае перерегулирование может иметь как положительный знак (настоящее перерегулирование), так и отрицательный (своего рода — недорегулирование); может быть постоянной: =const или переменной: =var. 2.1. Общая закономерность жёсткого обучения в двух ситуациях Для выявления влияния жёсткости обучения на ход обучения проведём теоретическое обучение в двух ситуациях, но прежде уточним выражение для коррекции проводимостей синапсов. Сохраняя принцип саморегулирования и его линейный закон (1.9), изменим главное условие обучения: представим его с учётом (3.15) в виде: m Ef Ej Решая это выражение совместно с (1.19), получим 1 c bj . c Ej bj . (3.16) Обозначим в выбранных двух ситуациях А и В требуемые сигналы управления соответственно как EA и E B и проведем теоретическое обучение на первых шагах. Цикл 1-ый, шаг 1-ый, ситуация А: E 0, A 0; E 0, A EA . Поправки проводимостей синапсов в соответствии с выражением (3.16) определятся как c A EA bA , и таким же будут сами проводимости, так как их исходное состояние было нулевым: c A EA bA . Проведем контрольную проверку: после обучения в ситуации А предъявим снова ситуацию А и определим в ней фактический сигнал: m E A, A 1 c A bA EA . (3.17а) . (3.17б) Цикл 1-ый, шаг 2-ой, ситуация В: E A, B EA SAB ; c AB EB EA bA c AB E A, B EA EB EA SAB EB SAB ; bB ; EA SAB bB . И снова проведем контрольную проверку: m E AB, B 1 c AB b B EB Выражения (3.17а) и (3.17б) позволяют сделать такой предварительный вывод: если после обучения в какой-то ситуации предъявить снова эту же ситуацию, то фактический сигнал управления E f в ней определится как требуемый E j плюс перерегулирование . Дальнейшее теоретическое обучение продолжим спустя Т циклов. Предъявим ситуацию А: m E T, A 1 m c T bA ; c TA c TA Предъявим ситуацию В: c T E T, A E T, A E T, A EA 1 c T bA ; bA ; bA . m E TA, B 1 c T bB E T, A SAB . С учетом (3.17б) получим: E TA, B EB E T, A SAB E TA, B E T, A SAB c TAB SAB E TA , B c T S AB bB ; E T, A E T, A SAB ; bB E T, A SAB c TAB SAB ; bA SAB bB . Предъявим снова ситуацию А: m E TAB, A c T bA 1 E T, A SAB E T, A SAB SBA ; m E TAB, A EA 1 c T bA E T, A SABA E T, A SABA . E T, A предыдущего цикла, получим: Преобразуя с использованием выражения для погрешности E TAB, A E T, A SABA SABA bA ; (3.18а) Выражение (3.18а) отражает закономерность изменения погрешности E по циклам обучения при предъявлении ситуации А. Для подтверждения этой закономерности при предъявлении ситуации В завершим теоретическое обучение на предыдущем шаге и продолжим его на последующем: c TABA c TABA E T, A SABA c T SABA ( E T, A SABA ) bA bA ; E T, A SABA E T, A SAB SAB bB . Предъявим ситуацию В: m E TABA , B 1 E T, A SABA c T bB SABA ) SAB E TABA, B После несложных преобразований получим EB ( E T, A E T, A SAB E TABA, B . SAB ; E TABA, B E TA, B SABA 1 SABA . (3.186) Выражение (3.186) отражает закономерность изменения погрешности E по циклам обучения при предъявлении ситуации В; оно полностью соответствует выражения (3.18а). Это даёт нам право утверждать, что любая погрешность сигнала управления последующего цикла соотносится с погрешностью предыдущего как ET E T 1 SABA 1 SABA . (3.19) Выражение (3.19) является функцией последования и отличается от полученного ранее (2.11) тем, что учитывает влияние перерегулирования . Жёсткое обучение с постоянным перерегулированием. Представим такое положение, что обучатель имеет обыкновение усиливать своё физическое воздействие на объект обучения, вызывая тем самым положительное перерегулирование . Охарактеризуем такое обучение как жёсткое и выявим его влияние на ход обучения. Анализируя функцию последования (3.19), можно утверждать, что при любом положительном значении и при SABA 1 погрешность E T последующего цикла будет убывать более стремительно, чем без . Обеспечивается это за счёт вычета величины 1 SABA . Продемонстрируем процесс обучения с помощью точечных преобразований графика функции последования (рис. 3.1), но прежде определим порядок построения этого графика. Рис. 3.1. График функции последования при жёстком обучении с постоянным перерегулированием По оси абсцисс откладываем погрешность сигнала управления предыдущего цикла E T 1 , а по оси ординат — ту же погрешность на последующем цикле E T . Имеется в виду, что обе погрешности — и предыдущая, и последующая — возникают при предъявлении одной и той же ситуации. Координатную плоскость разделяет биссектриса координатного угла 1(45 ), с помощью которой можно переводить последующую погрешность E T в предыдущую E T 1 . Через начало координат проведена ещё одна прямая, обозначенная как перерегулирования SABA , определяющая зависимость ET E T 1 SABA без учёта ( SABA — степень сходства образов ситуаций А и В). Вычет 1 SABA отразим в виде ещё одной наклонной прямой (на графике — штриховая линия); местоположение её определяется следующим образом. Отложим на оси предыдущей погрешности E T 1 величину перерегулирования и восстановим из точки перпендикуляр к оси до пересечения с биссектрисой координатного угла 1(45°). Очевидно, отрезок отрезок a определит проекцию величины перерегулирования a b — проекцию на ту же ось величины параллельную линии на ось ET ,а 1 SABA . Если теперь провести линию, SABA и смещенную в отрицательном направлении оси ET на величину 1 SABA , то есть проходящую через точку с, то получим как раз ту штриховую прямую вычета: a b b c . Ход обучения отразится на графике функции последования (рис. 3.1) следующим образом. Допустим, что исходная предыдущая погрешность сигнала управления E T 1 определяется точкой d. Восстановим из этой точки перпендикуляр к оси E T 1 SABA в проекции на ось получим величину E T 1 SABA E T 1 до линии SABA — поучим величину E T вернёмся назад до штриховой линии вычета (до точки е) — 1 SABA в проекции на ту же ось согласно функции последования (3.19) величина последующей погрешности E T ; это и есть E T . Спроецируем точку е E T — получим точку d , ордината которой соответствует абсциссе точки d. На этом один цикл обучения завершен; в результате предыдущая погрешность E T 1 определяемая абсциссой точки превратилась в последующую погрешность E T , определяемую ординатой точки d . Для того, чтобы на ось превратить последующую погрешность в предыдущую, воспользуемся биссектрисой координатного угла: вернёмся от точки d по линии d e до пересечения с биссектрисой и опустим перпендикуляр на ось E T 1 — пересечение с осью определит новое положение предыдущей погрешности. Далее построение повторяется. В результате, отбрасывая вспомогательные движения изображающей точки, получим ступенчатую траекторию, стремящуюся к началу координат по коридору, ограниченному двумя линиями: биссектрисой координатного угла и штриховой линией вычета. Ступенчатая траектория, выделенная на графике функции последования (рис. 3.1) жирной ломаной линией и стремящаяся к началу координат, отражает процесс обучения. Обучение будет завершено, очевидно, тогда, когда погрешность сигнала управления окажется меньше наперёд заданного допустимого отклонения . График функции последования (рис. 3.1) даёт наглядное представление о процессе обучения; из него видно, что жёсткость ускоряет обучение; особенно она эффективна тогда, когда степень сходства образов ситуаций велика и приближается к единице; без ужесточения обучения процесс затянулся бы надолго. Однако злоупотреблять жёсткостью обучения нельзя: ступенчатая траектория точечных преобразований на графике (рис. 3.1) может легко перескочить в область погрешностей E обратного знака. Впрочем, это не так уж и страшно, имея в виду, что человек как обучатель, фиксируя не то направление движения объекта обучения, способен вернуть его в желаемое обратным по знаку воздействием. Такую обратную коррекцию можно отразить на графике последования (рис. 3.1) введя в левой полуплоскости дополнительную линию вычета, смещенную относительно линии SABA в другую сторону. Ступенчатая траектория процесса обучения в левой полуплоскости также стремительно приближается к началу координат. Анализ графика последования (рис. 3.1) даёт основание утверждать, что обучение может быть завершено за один шаг, если величину перерегулирования выбрать в конкретном случае такой, чтобы штриховая линия вычета проходила как раз через ту точку на оси абсцисс, которая определяет предыдущую погрешность E T 1 , то есть: 1 SABA E T 1 SABA . Отсюда можно определить величину перерегулирования: ET 1 SABA . 1 SABA С учётом такого перерегулирования выражение для коррекции проводимостей синапсов (3.16) примет вид: c ET 1 1 SABA 1 SABA bj . (3.20) Более подробно случай одношагового обучения будет рассмотрен ниже. Предельные циклы функции последования при жёстком обучении. Самым неприятным явлением при жёстком обучении может оказаться зацикливание процесса; на графике последования это выражается в так E в полуплоскость называемых предельных циклах. Допустим, при перескоке погрешности противоположного знака знак перерегулирования сохраняется прежним. Такое едва ли возможно в том случае, когда действия объекта корректирует человек: видя, что движения объекта сменили направления, он, скорее всего, изменит направление подталкивания на обратное. Но если в качестве обучателя выступает не человек, а какая-то специальная техническая система, то несогласованность знака погрешности с направлением коррекции может возникать. Как это отразится на процессе обучения? На рис. 3.2 представлен график последования как раз такого случая. Рис. 3.2. Предельные циклы при жёстком обучении с постоянным перерегулированием Ступенчатая траектория изображающей точки из правой положительной полуплоскости переходит в левую отрицательную и заканчивается в точке, где пересекаются биссектриса координатного угла 1(45 ) и штриховая линия вычета. Если рассматривать процесс левее этой точки, то ступенчатая траектория меняет своё направление и устремляется уже вправо до той же точки пересечения. Таким образом, эта точка определяет предельный цикл; предельным он называется потому, что является пределом изменения погрешности, когда последующая погрешность E T 1 становится равной предыдущей E T и никакого продвижения в обучении не наблюдается. Координаты предельного цикла можно определить из выражения (3.19), если приравнять в нём обе погрешности: E T E T 1 ; в результате получим: ET 1 . Если рассматривать процесс обучения в области противоположного знака, то есть в другой полуплоскости, то будет наблюдаться простая симметрия относительно начала координат; предельный цикл сместится уже в положительную сторону и его координатой будет + . Оба предельных цикла можно считать простыми, так как в каждом их них предыдущая погрешность порождает равную себе последующую, и никаких других переходов нет. Усложнение точечных преобразований возникает тогда, когда приходится рассматривать процессы положительной и отрицательной полуплоскостей совместно. При обычном обучении в двух ситуациях, начиная со 2-го цикла, погрешности сигналов управления в этих ситуациях расходятся в разные полуплоскости по знаку, ступенчатые траектории устремляются с разных сторон к началу координат, а точнее говоря — к своим предельным циклам; причём продвижение траекторий к центру неодинаковое: погрешность сигнала управления в одной ситуации может оказаться в одном и том де цикле сильно отличающейся по величине от погрешности в другой ситуации. Поэтому даже тогда, когда погрешность в одной ситуации стала меньше допустимого отклонения, обучение должно быть продолжено, если в другой она ещё больше. И может оказаться так, что такое продолжение обучения, необходимое для уменьшения погрешности во второй ситуации, породит перескакивание погрешности в первой ситуации через ось в другую полуплоскость за пределы допустимого отклонения. Получается так, что, когда погрешность в одной ситуации уменьшается, погрешность в другой в абсолютном значении увеличивается; потом при изменении знаков погрешностей всё происходит наоборот; и нет конца обучению. Такое явление иногда наблюдается при компьютерном расчёте проводимостей синапсов, когда точность расчёта задаётся достаточно высокой, приближающейся к точности, которую может обеспечить компьютер. В этом случае погрешность расчёта выступает в качестве перерегулирования . Предельный цикл может возникнуть и тогда, когда коррекцию обучения задаёт человек, только этот предельный цикл будет несколько сложнее. Разберем этот случай; допустим, что обучатель правильно реагирует на изменение направления движения объекта и правильно задаёт коррекции. На графике функции последования это выразится в том, что штриховые линии вычета закончатся на оси ординат (рис. 3.3). Рис. 3.3. Сложный предельный цикл Если при этом ступенчатая траектория перескакивает в противоположную полуплоскость по знаку, то на следующем цикле обучения перерегулирование будет уже направлено в противоположную сторону, так как штриховая линия вычета окажется с другой стороны. Обратный переход ступенчатой траектории в первоначальную полуплоскость может оказаться таким, что она приблизится к самой себе предыдущего цикла. В конце концов может возникнуть замкнутая петля ступенчатой траектории (рис. 3.3), представляющая собой сложный предельный цикл. Определим условия образования такого никла. Первое условие: в предельном цикле предыдущая погрешность сигнала управления равна последующей: Eп р T 1 Eп р T . Второе условие вытекает из геометрии предельного цикла (см. рис.3.3): E п р T 1 SABA Eпр T 1 SABA . Объединив оба условия в одно, получим: Eпр T 1 E пр T 1 SABA . 1 SABA (3.21) Предельные циклы, и данный в том числе, характерны тем, что ступенчатые траектории точечных преобразований сползают к ним и заканчиваются ими, с какой бы стороны к ним не подходить. Начав движение ступенчатой траектории с больших значений погрешности E T 1 мы обязательно упрёмся в предельный цикл; но, если даже начать движение с малых значений погрешностей: ET 1 Eпр T 1 , — то ступенчатая траектория всё равно приведёт нас к тому же предельному циклу (рис. 3.3). Получается, таким образом, что предельный цикл является неизбежным, а это говорит о том, что обучение в нём становится бесконечным и безрезультатным. Избавиться от предельного цикла можно только одним способом — свести его амплитуду к нулю; для этого, как следует из выражения (3.21), необходимо принять перерегулирование равным нулю. Но едва ли это возможно в реальной обстановке: чувствительность человека, выступающего в роли обучателя, не столь высока, чтобы улавливать малозаметные отклонения в движениях объекта управления и воздействовать на него строго соответствующим образом; к тому же, как говорилось выше, инерционность объекта будет непрестанно мешать обучателю в его тонкой работе. Амплитуда предельного цикла окажется равной нулю и в том случае, если ситуации А и В будут абсолютно несхожи: SABA 0 , — но это, вопервых, совершенно невероятно, а во-вторых, никак не зависит от обучателя. Выход из того положения, когда обучение может зациклиться и стать бесконечным, надо искать в соотношении амплитуды предельного цикла и допустимых отклонений сигнала управления. Если предельный цикл загнать в зону допустимых отклонений (рис. 3.3), то он становится безопасным; для этого необходимо выдержать условие: E пр , которое с учётом выражения (3.20) изобразится как 1 SABA 1 SABA . (3.22) Зная приблизительно степень сходства образов возможных парных ситуаций, можно порекомендовать выбирать перерегулирование в соответствии с условием (3.22). Жёсткое обучение с переменным перерегулированием. Говоря о предельных циклах и относясь к ним явно недоброжелательно, мы должны в то же время помнить, что они представляют собой всего лишь сопутствующий фактор в общем-то очень желательного явления — ускорения обучения в результате введения положительного перерегулирования . Если даже мы имели бы возможность обучать систему строго в соответствии о идеальным алгоритмом и, в частности, с выражением (1.15), то и тогда имело бы смысл искусственно ввести перерегулирование : уж очень выразителен эффект ускорения обучения. Остаётся только выбрать такую форму жёсткого обучения, которая не отягощалась бы возникновением предельных циклов. Такая форма есть, это — жёсткое обучение с переменным перерегулированием, пропорционально зависящим от погрешности сигнала управления: h E j, (3.23) где h — жёсткость обучения. При таком перерегулировании выражение для коррекции проводимостей синапсов примет вид c E j 1 h bj , (3.24) а функция последования (3.19) изобразится как ET E T 1 SABA h ET 1 1 SABA . (3.25) Полученное выражение можно привести к более компактному виду ET ET 1 SABA h h SABA . Представим функцию последования (3.25) в виде графика точечных преобразований (рис. 3.4). Построение этого графика похоже на построение графика функции последования с постоянным перерегулированием (рис. 3.1) с той лишь разницей, что вычет теперь определяется выражением h E T 1 1 SABA . Для того, чтобы выделить этот вычет вдоль всей оси E T 1 , определим сначала его величину в точке d. Отрезок (a-b) в принятом масштабе осей графика равен величине E T 1 1 SABA ; если теперь перемножить эту величину на жёсткость обучения h, то получим вычет h величине E T 1 1 SABA , предъявленный на графике отрезком (b-c). Отрезок (b-d) равен E T 1 SABA , так что отрезок (c-d), определяемый разностью отрезков (b-d) и (b-c), E T . Проведённая через точку с и начало координат штриховая линия определит вычет вдоль всей оси E T 1 . составит в соответствии с выражением (3.25) последующую погрешность Рис. 3.4. График функции последования жесткого обучения с переменным перерегулированием Ступенчатая траектория, выделенная на графике рис. 3.4 жирной ломаной линией и располагающаяся в коридоре между биссектрисой координатного угла 1(45°) и штриховой линией вычета, и будет отражением точечных преобразований функции последования (3.25). Мы видим, что эта траектория устремляется к началу координат, и начало координат является для неё теоретическим пределом, то есть конечной точкой. На самом деле обучение завершается несколько раньше, а именно тогда, когда погрешность E окажется меньше допустимого отклонения сигнала управления . То, что предлагаемое переменное перерегулирование ускоряет процесс обучения, видно из сравнения полученной ступенчатой траектории с нормальной без перерегулирования, изображённой на графике рис. З.4 тонкой линией, расположенной в коридоре между биссектрисой 1(45°) и линией SABA : число циклов обучения нормальной ступенчатой траектории значительно больше. К тому же предлагаемое перерегулирование, пропорциональное текущей погрешности, не порождает и не может породить в принципе предельный цикл, если не считать таковым замыкание ступенчатой изображающей траектории на начале координат. Отмечая в общем сильное влияние на процесс обучения переменного перерегулирования, и в частности жёсткости h, не мешало бы выявить количественную связь между ними. Начнём с того, что определим границу между жёстким и мягким обучением; очевидно, при h 0 не будет ни того, ни другого, так как выражение (3.25) превращается в (2.11), характеризующее нормальное обучение; при положительных значениях h: h 0 — будет наблюдаться жёсткое обучение, а при отрицательных значениях h: h 0 — мягкое. Мягкое обучение рассмотрим ниже, а сейчас сосредоточим своё внимание на жёстком с пропорциональным погрешности E перерегулированием. Выражение (3.25) даёт основание утверждать, что с ростом жёсткости h последующая погрешность E T будет уменьшаться; но насколько? можно ли уменьшить эту погрешность сразу до нуля? Указанное выражение не препятствует этому, поэтому допустим такое; приравняв в выражении (3.25) погрешности ET 1 E T , получим значение жёсткости h, при котором обучение должно завершиться за один шаг: h SABA . 1 SABA (3.26) При этом выражение для коррекции проводимостей синапсов примет точно такой же вид (3.20), как при одношаговом жёстком обучении с постоянным перерегулированием. На графике функции последования штриховая линия вычета при условии (3.26) совместится с осью абсцисс E T 1 и ступенчатая траектория изображающей точки совершит только один шаг, то есть одну ступеньку, и сразу же окажется в начале координат. В такое трудно поверить, но это действительно так с небольшими поправками. Выражение (3.25) ведёт отсчёт от произвольной предыдущей погрешности сигнала управления, то есть от любого шага обучения, но это не значит, что отсчёт можно вести от первого шага первого цикла. Исследования показывают, что на первом цикле обучения только-только формируются начальные погрешности, и у них еще нет предыдущих значений. Поэтому вводить жесткое обучение на первом цикле не имеет смысла — там должен происходить нормальный процесс. И только с первого шага второго цикла и далее можно ужесточать обучение, а при условии (3.26) достаточно только одного первого шага второго цикла. Не может быть задействовано пропорциональное перерегулирование и в конце обучения, на последнем шаге. Это объясняется тем, что любой акт жесткого обучения оставляет после себя некоторую погрешность сигнала управления, о чем свидетельствуют выражения (3.17а) и (3.17б). И только нормальное обучение без перерегулирования сводит погрешность к нулю. Следовательно, на последнем шаге (или на нескольких последних) ни жесткое обучение и ни мягкое недопустимы. Получается так, что самое короткое обучение должно состоять, по крайней мере, из двух циклов. Но то, что за эти два цикла можно обучить систему, — это не должно вызывать сомнения. В подтверждение сказанного приведем конкретный пример с двумя ситуациями. Таблица 1. Исходные данные Ситуации Образ Требуемый сигнал управления E j b1 b2 А В 1 2 2 1 1 2 Простейшие образы, состоящие всего из двух чисел, не должны нас смущать: это никак не влияет на ход обучения. 1-ый цикл, нормальное обучение: 1-ый шаг, ситуация А: E 0, A Поправки проводимостей c1 A 1 1 5 c1 A 0,2 ; 0; E 0, A 1. c определяем по выражению (1.15): 0,2 ; c2 A 1 2 5 c 2 A 0,4 . 0,4 ; 2-ой шаг, ситуация В: E A, B 0,2 2 0,4 1 0,8 ; E A, B 2 0,8 12 , ; c1 AB 1,2 2 5 0,48 ; c 2 AB 1,2 1 5 0,24 ; c1 AB 0,2 0,48 0,68 ; c 2 AB 0,4 0,24 0,64 . 2-ой цикл, жесткое обучение: Степень сходства образов А и В: 2 1 2 2 1 2 1 22 2 2 12 SABA 0,64 . Жесткость h, обеспечивающая одношаговое обучение в соответствии с условием (3.26): h 0,64 1 0,64 1,77 1-ый шаг, ситуация А: E AB, A 0,68 1 0,64 2 196 , ; E AB, A Поправки проводимостей c определим по выражению (3.23): c1 ABA 0,96 1 177 ,  15 c2 ABA 0,96 1 1,77  25 0,533; 1,066; 1 196 , 0,96 ; c1 ABA c 2 ABA 0,68 0,533 0,1466 ; 0,64 1,066 0,4266 2-ой шаг, ситуация В: E ABA, B E ABA, A 0,1466 2 0,4266 1 0,133; 2 0,133 2,133 Поправки проводимостей c определим снова по выражению (1.15), то есть в нормальном режиме: c1 ABAB 2,133 2 5 0,8533 ; c 2 ABAB 2,133 1 5 0,4266 ; c1 ABAB 0,1466 0,8533 1,0 ; c 2 ABAB 0,4266 0,4266 0,0 . * На этом обучение завершено. Проведём проверку: в ситуации А: E ABAB, A * 10 , 1 0,0 2 10 , ; в ситуации В: E ABAB, A 1,0 2 0,0 1 2,0 . Система обучена окончательно. Для сравнения можно сказать, что при нормальном обучении без ужесточения потребовалось бы, по крайней мере, семь полных циклов обучения, чтобы погрешность сигнала управления уложилась в 0,1; более точное обучение потребовало бы ещё большего числа циклов. Что касается численных значений жёсткости h, приводящей к одношаговому обучению, то согласно выражения (3.26) оно полностью зависит от степени сходства образов SABA : если ситуации абсолютно несхожи ( SABA = 0 ), то h = 0, и нет нужды проводить жёсткое обучение — и без него обучение будет завершено за один цикл; если ситуации схожи, допустим, наполовину ( SABA = 0,5), то h = 1; и наконец, если ситуации абсолютно схожи ( SABA = 1), то h = а это означает, что невозможно реализовать необходимую жёсткость при обучении; впрочем, в этом случае бессмысленно какое-то бы ни было обучение, так как ситуации противоречивы. Получается так, что жёсткость обучения h можно изменять от нуля до какого-то определённого значения, дозволительного физически. Мы рассмотрели случаи, когда разобраться с обучением при h h SABA 1 SABA и когда h SABA 1 SABA ; осталось SABA 1 SABA , то есть при сравнительно больших значениях жёсткости, отклоняющей линию вычета на графике функции доследования ниже оси абсцисс. Такое возможно, если в выражении (3.25) вычет h E T 1 1 SABA окажется больше величины E T 1 SABA , в результате чего меняется на обратный знак последующей погрешности ET . Изменение знака последующей погрешности сигнала управления хорошо демонстрируется на графике (рис. 3.5); такое изменение происходит на каждом шаге обучения. Несмотря на чрезмерное перерегулирование, заложенное в данном случае, ступенчатая траектория изображающей точки стремится к началу координат, а это говорит о том, что процесс обучения — сходящийся. Конечно, нельзя утверждать, что чрезмерное перерегулирование, какое рассматривается в данном случае, — благо, но никакого особого ущерба обучению оно не наносит. Рис. 3.5. График функции последования жёсткого обучения с чрезмерным перерегулированием Мягкое обучение в двух ситуациях. Рассмотрим теперь такое положение, когда обучатель «не дожимает» E сохраняет свой прежний знак; объект и когда остаточная после акта обучения погрешность перерегулирование имеет в этом случае отрицательное значение и может характеризоваться как недорегулирование. Функция последова-ния (3.19) несколько изменит свой вид: ET В ней составляющая 1 SABA E T 1 SABA 1 SABA . (3.27) представляет уже теперь не вычет, а добавку. Как и при жёстком обучении изменение воздействия обучателя (в данном случае — недорегулирование) может быть постоянным или переменным. Постоянное недорегулирование отразится на графике функции исследования (рис. 3.6) штриховой линией добавки, смещенной относительно линии SABA в положительную сторону оси E T . Точное положение штриховой линии добавки определяется следующим образом. Отложим на оси E T 1 величину, равную недорегулированию, и восстановим из точки перпендикуляр к оси до пересечения с биссектрисой координатного угла 1(45°). Очевидно, отрезок ( bмасштабе осей графика величину ) будет определять в SABA , а отрезок (a-b) — в том же масштабе величину 1 SABA . Следовательно, если провести через точку прямую, параллельную линии SABA (на графике рис. 3.6 — штриховая), то получим линию, определяющую добавку диапазоне изменения предыдущей погрешности ET 1. Рис. 3.6. График функции последования при мягком обучении с постоянным недорегулированием 1 SABA на всём Ступенчатые траектории, отражающие процесс обучения и расположенные в коридоре между биссектрисой 1(45°) и штриховой линией добавки, имеющие малую исходную погрешность E T 1 и большую, устремляются, как видно из графика рис. 3.6, с обеих сторон к точке а. Таким образом, эта точка определяет предельный цикл, говорящий о том, что, какой бы ни была исходная предыдущая погрешность сигнала управления E T 1 , результате обучения установится окончательная погрешность, равная величине недорегулирования . Если окажется меньше допустимого отклонения , то обучение будет иметь конец; если — больше, то обучение станет безуспешным; и наконец, если величина недорегулирования будет значительно превосходить и исходные погрешности E T 1 , то процесс обучения окажется расходящимся. Главным выводом из анализа графика функции исследования (рис. З.6) является то, что мягкое обучение, даже если оно заканчивается благополучно, затягивает процесс обучения (для сравнения на графике показана ступенчатая траектория нормального обучения, расположенная между линией SABA и биссектрисой координатного угла); никаких видимых преимуществ мягкое обучение не создаёт. То же самое наблюдается и при переменном недорегулировании, в частности пропорционально зависящем от погрешности сигнала управления, отражённом выражением (3.23). Функция последования (3.25), очевидно, изменит свой вид: ET E T 1 SABA h ET 1 1 SABA , (3.28) а выражение для коррекции проводимостей синапсов (3.24) изобразится уже как: c E j 1 h bj . (3.29) Представим функцию наследования (3.28) в виде графиков точечных преобразований (рис. 3.7). График а) соответствует ослабленному, недостаточному физическому воздействию обучателя на объект обучения, когда 0 < h < 1; график б) отражает обратное, ошибочное воздействие обучателя, когда h > 1. Если жёсткость h равна нулю, то это означает, что воздействие обучателя строго соответствует погрешности E j , и процесс обучения имеет нормальный вид. Промежуточное положение, когда h = 1, говорит о том, что нет никакого воздействия обучателя и нет никакого обучения; подставив это значение жёсткости h в выражение (3.28), получим E T ET 1. Рис. 3.7. Графики функции доследования при мягком обучении с переменным не дерегулированием Из графика (рис. 3.7,а) видно, что обучение с введением недоре-гулирования (- ) затягивается; для сравнения приведена ступенчатая траектория точечных преобразований нормального обучения, располагающаяся между биссектрисой координатного угла и линией SABA — число циклов у неё всегда меньше. Что же касается графика рис. 3.7,б, то он свидетельствует о расходящемся процессе обучения. В действительности воздействия обучателя могут принимать различные формы, но все они с некоторой долей приближения при мягком обучении будут соответствовать рассмотренным случаям, и всегда мягкое обучение пойдет во вред; поэтому рекомендовать его никак нельзя. 2.2. Жёсткое обучение в трёх ситуациях Покажем, что общая закономерность ускоренного жёсткого обучения распространяется не только на две ситуации, но и на большее их число. Для этого проведём теоретическое обучение в трёх ситуациях А, В и С с отмеченным ранее перерегулированием . Допустим, что до начала теоретического жёсткого обучения уже проведено нормальное обучение в Т циклах, в результате чего сформировались проводимости синапсов c T . После очередного предъявления ситуации А будем иметь: m E T, A EA c T bA . 1 Корректируя проводимости синапсов в соответствии с выражением (3.15), получим: c TA c TA E T, A c T bA ; E T, A bA . После завершения обучения в ситуации А предъявим ситуацию В: m E TA, B c TAB EB c T 1 c T bB E T, A E T, A bA SAB ; E TA, B В ситуации С: m E TAB, C E T, A c TABC EC 1 SAC E TA , B c T E TA, B (c T bC SBC ; E T, A bB bA E TAB, C bC . Снова предъявим ситуацию А: m E TABC, A EA E TA , B Подставляя в полученное выражение 1 c T bA SBA E TAB, C SCA . E T, A , получим: E TABC, A E TA, B E TAB, C Такой же вид погрешность E T, A SCA SBA . E приобретает и при дальнейшем обучении: E TABCA, B E TAB, C E TABC, A SAB SCB ; bB . E TABCAB, C E TABC, A E TABCA, B SAC SBC . В общем виде выражение для погрешности сигнала управления изобразится как Et E t 1 St 1 St Et 1,t 1,t St 2 ,t 2 St 2 ,t (3.30) , где t — очередной шаг обучения. Сравним полученное выражение с выражением (2.35), характеризующим нормальное обучение в тех же трёх ситуациях; оно отличается величиной 1 St 1,t St 2 ,t . Для того, чтобы выяснить: уменьшает ли эта величина абсолютное значение погрешности сигнала управления или увеличивает, — воспользуемся анализом выражения (2.35а), проведённое ранее. Согласно нему погрешность в любой ситуации при смещении на цикл вероятнее всего сохраняет свой знак; а если это так, то указанная величина будет вычитаться и уменьшать результирующую погрешность E t , ускоряя тем самым обучение. Правда, может возникнуть такое положение, когда вычитаемая величина окажется больше основной, но и в этом случае наиболее вероятно уменьшение абсолютного значения результирующей погрешности E t , хотя и со сменой знака. И только когда по стечению обстоятельств погрешность E при нормальном обучении в одной и той же ситуации при смещении на цикл изменяет свой знак, только тогда перерегулирование , если его ввести, будет притормаживать обучение; не такое положение маловероятно. Таким образом, ужесточение обучения введением перерегулирования , как и в случае с двумя ситуациями, ускорит обучение, и, наоборот, мягкое обучение ( < 0) замедлит его. Ускорение обучения может достичь, как и при двух ситуациях, таких пределов, что достаточным окажется один цикл, а точнее говоря — только два шага одного цикла; условие такого предельного ускоренного обучения можно получить из выражения (3.30) с учётом (2.35а), если принять, что результирующая погрешность E t равна нулю: Et 3 S t ,t 1,t Et 1 St 2 1,t St St St 2 ,t 2 ,t . 2 ,t 1 St 1,t (3.31) В левой части условия (3.31) находится соответствующая погрешность предыдущего цикла, умноженная на степень сходства образов текущей и предыдущей ситуаций; чем больше указанная степень сходства, тем более эффективно введение перерегулирования , то есть жёсткости обучения. Не трудно предположить, что ужесточение обучения будет благотворно влиять на ход обучения при четырёх и более ситуациях в обучаемой выборке, а смягчение — будет приводить, как правило, к затягиванию обучения. 3. Переключение и сосредоточение внимания Даже самое беглое знакомство с нервными системами животных и, тем более, их скрупулёзное изучение убеждают нас в том, что они представляют собой очень и очень сложные структуры; и когда мы говорим, что обучаемые системы управления похожи на них, то должны осознавать, что эта схожесть — не большая, чем между проводником в магнитном поле из школьного учебника по физике и реальным двигателем постоянного тока, работающим на современном станке. Обучаемые системы в том виде, в котором они представлены выше, отражают лишь принципиальную суть, самую-самую первооснову нервных систем, и в том числе мозга; и такое представление необходимо было нам для начального понимания с тем, чтобы целенаправленно развивать эти системы шаг за шагом, ступень за ступенью в нужном направлении. Одним из таких первых шагов является некоторое структурное изменение, решающее задачу переключения и сосредоточения внимания; это изменение выражается в расчленении всего рецепторного поля очувствлвния системы на отдельные участки с независимым питанием /1.37/. Пока мы не уточняем ни количество таких участков, ни их принципиальное различие; говорим только о существовании таких групп рецепторов, напряжение питания каждой из которых независимо и может изменяться ситуацией. Пусть будет так, что, например, рецепторы глаза образуют одну группу, рецепторы слуха — другую, рецепторы кожи — третью, и так далее; или допустим более мелкое дробление: например, сетчатка глаза разбита на центральный участок и четыре периферийных (справа, слева, вверху и внизу), кожа — на участки, ориентированные по сторонам, суставное очувствление — по суставам, и тому подобное. Указанное структурное изменение обучаемой системы управления позволяет решать не только задачи переключения и сосредоточения внимания, но и многие другие; только переключение и сосредоточение внимания — наиболее характерные из них и легко воспринимаются. Представим себе, что в какой-то ситуации произошло, например, такое перераспределение питания между участками очувст-вления, что рецепторы глаза оказались под наибольшим напряжением; в результате сигналы управления исполнительными органами будут формироваться в большей степени именно зрением, чем другими органами, а это означает, что обучаемая система сосредоточила своё внимание на том, что видит. Если же теперь в какой-то последующей ситуации напряжение питания рецепторов глаза уменьшить, а рецепторов, например, уха увеличить, то такое перераспределение можно расценить уже как переключение внимания со зрения на слух. Изменение напряжения питания рецепторных участков позволяет переключать обучаемую систему управления с решения одной задачи на другую. Рассмотрим это на примере сборочного робота. Положим, в поле его зрения находятся все необходимые для сборки детали; какую из них выбрать? Разумеется, очередную: если перед этим на узел была установлена деталь №1, то теперь нужно выбрать №2, после него — №3, и так далее. Таким образом, после завершения работ по установке на узел одной детали робот должен переключиться на установку следующей; такое переключение можно осуществить путём перераспределения питания по рецепторным участкам. Разделением рецепторного поля очувствления на участии обучаемые системы управления копируют нервные системы животных и человека. Каждому из нас знакомо напряжение зрения, или слуха, или какогото другого органа очувствления; и возникает оно также при необходимости переключить или сосредоточить своё внимание. Кто сидел за рулём автомобиля, то знает, что в движении, особенно в сложной дорожной обстановке, всё внимание сосредотачивается на дороге, то есть напрягается зрение. Но представим себе, что обстановка разрядилась — вы выехали за город на неоживлённое шоссе, — и в двигателе вашего автомобиля вдруг появились странные звуки; тут же вы сосредоточите своё внимание на них даже в ущерб зрительному контролю за дорогой: напряжённым окажется слух. Можно отметить и более мелкое дробление внимания. Глядя рассеянным взглядом прямо перед собой, каждый из нас способен обострить боковое зрение и различать довольно мелкие детали на периферии поля зрения. У девушек такая способность в силу известных причин развита более выражение, чем у мужской части. Говоря о переключении и сосредоточении внимания человека, мы должны учитывать, что оно имеет два слагаемых, и только первое из них — за счёт изменения напряжения участков очувствления; второе слагаемое возникает в результате обговаривания на своём внутреннем языке того, что воспринимается; это — интересное явление, и его стоит пояснить. Из всего того, что видит человек, что слышит, что он осязает, воспринимается им малая-малая часть, и воспринимается только то, на что он обратил внимание; а это означает, что в момент восприятия человек действиями своих мышц или реакциями лимбической системы — назовём это внутренним языком — отметил некоторые детали ситуации; указанные действия и реакции породили соответствующие изменения проводимостей синапсов мозга; эти изменения остались как памятный след. Если теперь человека спросить, что он воспринял в той ситуации? — он может ответить на внешнем языке, на языке общения только то, что сохранили синапсы, то есть именно те детали ситуации, которые были обговорены в момент восприятия. Переключение и сосредоточение внимания легко обнаруживается и у животных. Возьмём, например, собаку; часто можно видеть, как она подняла голову и внимательно смотрит вдаль; очевидно, напряжено у неё в этот момент зрение. В другой раз мы видим, как собака, принюхиваясь, петляет по какому-то невидимому следу; в этот момент у неё обострено обоняние. Бывает и так, что она всем видом своим показывает, что прислушивается к звукам, исходящим, допустим, из-за стены; наверное, она сосредоточилась при этом на слухе. Нейрофизиология переключения и сосредоточения внимания. У обучаемых систем управления изменение напряжения питания отдельных групп рецепторов (рецепторных участков) может осуществляться тремя способами: 1) вручную человеком; 2) внешними системами, например станком, в паре с которым работает очувствлённый робот, и 3) самой обучаемой системой, если она этому обучена. В живой природе переключение и сосредоточение внимания осуществляется в основном только третьим способом, то есть самопереключением. Как это происходит, рассмотрим чуть позже, а сначала уточним работу отдельного живого рецептора. Ранее мы говорили, что обычный рецептор в рамках нейробио-гидравлической модели представляет собой колбочку, заполненную жидкостью и выдавливающую её при внешнем воздействии —раздражении; усреднённое избыточное давление жидкости на выходе из рецептора было названо возбуждением. Говорилось также, что возбуждение рецептора может быть усилено или ослаблено эмоциями, проявляющимися в виде изменения напряжения той среды, в которой располагается данный рецептор. Представим теперь, что рецептор в виде той же колбочки зажат рецепторной средой так, что в нём постоянно поддерживается некоторое избыточное давление. Внешнее воздействие, например свет, управляет выходом рецептора, открывая или закрывая его; в результате величина выдавливаемого потока (или порции) управляющей жидкости b будет определяться двумя параметрами: напряжением рецепторной среды (обозначим его через u ) и внешним воздействием a ; в математической форме это выглядит как b где kua , (3.32) k — масштабирующий и размерный коэффициент. Обратим внимание на то, что энергия выдавливания управляющей жидкости порождается напряжением среды, а внешнее воздействие лишь управляет этой энергией; потому-то рецепторы реагируют даже на самые слабые воздействия: фоторецептор, например, способен среагировать при попадании на него всего лишь одного фотона света. И ещё: одни рецепторы возбуждаются, то есть открываются, при наличии внешнего воздействия, а другие, наоборот, при отсутствии. Рассмотрение самопереключения начнём с уяснения понятия рецепторной среды. Ею может быть кожа, мышцы и вообще все мягкие ткани, но принципиальной особенностью среды является то, что она может напрягаться. Если это — мышца, то её напряжение — обычное явление; если же — кожа, то, оказывается, она напрягается с помощью специальных кожных мышц; некоторые ткани, в которых располагаются рецепторы, напрягаются при воздействии на них выделяемых специальными железами химических медиаторов. И мышцы среды, и железы являются, своего рода, исполнительными органами системы переключения и сосредоточения внимания; когда они срабатывают, поведение животного изменяется. Срабатывание некоторых из них проявляется внешне: у собаки в момент агрессии шерсть на загривке встаёт дыбом, а пасть оскаляется; у птиц взъерошиваются перья; у примитивных змей оттопыриваются чешуйки. При более внимательном рассмотрении можно заметить не одно такое проявление и не два, а десятки. Особенно богато оно у человека и больше всего проявляется на лице, и называется это мимикой. Управляет мимикой мимическая мускулатура, включающая лобную мышцу, мышцу, сморщивающую бровь, круговую мышцу глаза, мышцу гордецов на переносице, медиальную и латеральную мышцы, поднимающие верхнюю губу, скуловую мышцу, мышцу, опускающую угол рта и подбородочную мышцу. Всякое изменение в состоянии этих мышц призвано перераспределять напряжение рецепторных сред лица с тем, чтобы переключать иди сосредотачивать на чём-либо наше внимание, и это первично. В то же время мимика является средством выражения эмоций, но это уже вторично. Улыбка человека не потому приятна другим, что складывается определённым образом на лице, а потому что говорит о изменившемся в хорошую сторону состоянии человека. Если бы такое состояние сопровождалось иным выражением, например грустным, то именно эту мимику окружающие воспринимали бы за улыбку; и такое бывает при частичной парализации лица. Выше говорилось о том, что человек способен сосредотачивать своё внимание на боковом зрении; стало быть, среда, в которой располагаются фоторецепторы: палочки и колбочки, — также может напрягаться; и создают местные напряжения, скорее всего, мышцы, но что они из себя представляют — неизвестно. Возможно, что они располагаются в склере — наружной оболочке глазного яблока — и сдавливают палочки и колбочки через пигментный слой; этим можно объяснить необычное, перевёрнутое расположение фоторецепторов в сетчатке глаза и особенно то, что при отслаивании сетчатки, когда контакт между пигментом и рецепторами исчезает, световосприятие становится невозможным; но, может быть, напряжения среды создают по совместительству глазодвигательные мышцы, прикреплённые к той же склере. Ясно одно, и каждый может убедиться в этом сам, что градация смещения бокового зрения достаточно мелкая. Примером напряжения среды под воздействием химических медиаторов может быть покраснение кожи лица при смущении или при сильном возбуждении; у некоторых людей в ярости лицо, наоборот, бледнеет. Изменение цвета кожи в отличие от действия отдельных мимических мышц распространяется на всё лицо, хотя у некоторых людей покраснение может охватить только шею или идти по лицу пятнами. Мускулатура и железы рецепторных участков очень тонко регулируются; подтверждением этого служит то, что им в мозгу соответствуют обширные зоны. Трудно сказать, в какой степени это регулирование заложено от рождения, но несомненно то, что оно совершенствуется процессом обучения. После всего сказанного можно определить, что такое рецепторный участок и где его границы. Очевидно, отдельным участком является такая часть рецепторного поля, которая имеет отдельную мышцу или отдельную железу для напряжения среды, управляемую отдельным мотонейроном. Сколько таких участков всего — не известно, но ясно, что у человека их гораздо больше, чем у животных, о чём говорит хотя бы богатая мимика лица. Структура нервной системы, у которой очувствление разбито на участки, представлена на рис. 3.8. Она включает три блока: мозг, очувствление и мускулатуру рецепторных участков. Каждый участок имеет свою независимую мышцу, управляемую отдельным мотонейроном. То, что мотонейроны мускулатуры рецепторных участков идут из мозга, говорит о том, что управление ею (мускулатурой) формируется в процессе обучения. Хорошей иллюстрацией такой обучаемости может быть дрессировка животных. Специально обученная собака способна выполнять десятки команд, и переход от выполнения одной команды к другой — ярко выраженный; учёную собаку легко выделить среди других. Иное дело — необученная дворняга; если и можно отметить у неё переход от одних действий к другим, то назвать этот переход отчётливо ступенчатым никак нельзя. Рис.3.8. Структура нервной системы, у которой очувствление разбито на участки То же самое различие можно наблюдать и у людей. В силу обстоятельств некоторые из них натренировали себя на лёгкое, резкое переключение своего внимания с объекта на объект, с одной задачи на другую; они способны почти без каких-либо задержек переходить от одной работы к другой; к ним можно отнести руководителей всех рангов. Нетренированный человек так быстро переключаться не может. Возможно, на эти способности накладывают свой отпечаток природные данные, но несомненно, что они могут быть развиты жизненным опытом. Особенно ярко проявляются изменения напряжения рецепторных участков у спортсменов; в момент наивысшего напряжения физических сил, например в толчке у прыгуна, мимика лица становится настолько выразительной, что за нею охотятся фотографы. Спрашивается, если у того же прыгуна в момент толчка должны быть максимально напряжены мышцы ног, рук и туловища, то зачем ещё было задействовать мускулатуру лица? Оказывается, таким образом, напрягая рецепторную среду, спортсмен посылает к толчковым мышцам максимально возможные сигналы управления. Здесь происходит не перераспределение напряжения с участка на участок, а повышение напряжения на всех них; такое состояние называется эмоциональным. Попробуем отобразить влияние напряжённости сред рецепторных участков на сигналы управления в математической форме. Выражение для сигнала управления отдельной мышцей двигательной мускулатуры (рис. 3.8) с учётом (3.32) определится как p  Ej u1 1 ej u2 m e j  un  1 ej , (3.33) r 1 u1 , u 2 , ..., u n — напряжения сред рецепторных участков; n — количество участков; e j — рецепторные доли сигнала управления;  — количество рецепторов в первом участке; p — количество где рецепторов в первых двух участках; r — последний номер рецептора предпоследнего участка; m — полное количество рецепторов. Напряжения u1 , u 2 , ..., u n могут иметь самые разные значения; они могут различаться, но и быть одинаковыми. В последнем случае они определяют общее эмоциональное состояние: * при u1 = u 2 = ... = u n =1 состояние нормальное; * при u1 = u 2 = ...= u n >1 состояние можно назвать возбуждённым; при u1 = u 2 = ...= u n >1 состояние выглядит как угнетённое. Если напряжения хотя бы части участков равны нулю, то это уже сон, а если все напряжения равны нулю, то это — глубокий сон. Сосредоточение внимания определяется повышенным напряжением сред соответствующих рецепторных участков; например u 2 >1 говорит о том, что сосредоточено внимание на рецепторах второго участка, точнее говоря, на той информации, которая воспринимается этим участком. Если в какой-то момент напряжение u 2 пришло в нормальное состояние ( u 2 =1), а возросло и стало больше единицы напряжение * u3 , то это означает, что произошло переключение внимания со второго участка на третий. Но и сосредоточение внимания, и его переключение не являются самоцелью; всё это делается для перехода от одних действий к другим, и здесь возникает один особый момент. Как правило, новая работа требует ступенчатого изменения сигналов управления двигательной мускулатуры; иногда это должно происходить даже при незначительном изменении внешней ситуации. Казалось бы, слабое изменение ситуации может породить только слабую коррекцию сигналов управления; как же возникает ступенчатый переход? Допустим, спокойно лежащая собака, у которой мышцы бездействовали, заметила, как хозяин бросил ей крохотную кость; она тут же встаёт и направляется к лакомству. В общем потоке воспринимаемой собакой информации: зрительной и обонятельной — брошенная кость составляет малый процент, тем не менее она вызывает резкое изменение в поведении собаки: её мышцы заработали. Ступенчатость сигналов управления возникает в два этапа: сначала слабо изменившаяся ситуация порождает слабое перераспределение напряжений рецепторных участков, а затем уже происходит в соответствии с (3.33) умножение рецепторных долей e j на соответствующие коэффициенты. Чем больше рецепторных участков, то есть рецепторов, будет затронуто изменением напряжений u, тем более выраженной будет ступенчатость сигналов управления. Теория переключения и сосредоточения внимания. Разбиение рецепторного поля на участии с независимым и регулируемым питанием позволяет избавиться от противоречивости любых двух ситуаций. Рассмотрим систему уравнений: b11 c1 b21 c2  bm1 c m E1 ; b12 c1 b22 c2  b m2 c m E2 . b 1 = b 2 , но E1 E 2 , уравнения противоречат друг другу, то есть становятся несовместными. (Заметим, что обратное соотношение, когда b 1 b 2 , но E 1 = E 2 никаких возражений не вызывает) Равенство b 1 = b 2 , возникает в двух случаях: во-первых, когда ситуации недостаточно различны При условии, что и их образы практически схожи, а во-вторых, когда обе ситуации неразличимы. Превратить данное равенство в неравенство b 1 b 2 и тем самым исключить нежелательную противоречивость можно путём введения переменных коэффициентов u, как это сделано в выражениях (З.32) и (3.33), но при этом возникает целый ряд вопросов, на которые нужно дать конкретные ответы. В частности, нужно выяснить, какое наименьшее отличие образов ситуаций допустимо? на сколько рецепторных участков можно и нужно разбить всё рецепторное поле? какими должны быть коэффициенты u, определяющие напряжения сред рецепторных участков или, проще говоря, напряжение питания? какое соотношение между количеством выделенных участков и числом отдельно решаемых задач? каков эффект от усиления и от ослабления напряжения питания? и другие. Сначала разобьём рецепторное поле только на два участка, и пусть каждый из участков в какой-то ситуации имеет своё напряжение питания, определяемое своим коэффициентом u; будем считать эту ситуацию предыдущей. Возьмём ещё одну ситуацию — последующую — и изменим в ней коэффициенты u, то есть переключим внимание. Образы обеих ситуаций условно представим в виде: 1-ый: u11B11 u 21B21 ; 2-ой: u12 B12 u 22 B22 , (3.34) B11 и B12 — нормальные образы соответственно предыдущей и последующей ситуаций первого участка; B21 и B22 — то же самое второго участка; нормальность — при u=1. где Допустим, выбранные ситуации противоречивы, то есть внешнее воздействие в них — одно и то же; тогда B11 = B12 = B1 , а B21 = B22 = B2 . Выясним, в какой степени введение индивидуальных коэффициентов u исключает указанную противоречивость, то есть в какой степени эти коэффициенты делают B1 и B2 как два отдельных рецептора с эквивалентным возбуждением и вычислим степень сходства S121 образов (3.34) в соответствии с образы ситуаций (3.34) несхожими. Для этого представим участки выражением (2.7): u11 u12 B12 S121 2 u11 B12 2 u 21 u 22 B22 2 u 221 B22 u12 B12 . u 222 B22 (3.35) Если все коэффициенты u окажутся равными единице, то степень сходства образов также становится равной единице, то есть образы становятся неразличимыми. Во всех других случаях степень сходства S121 будет меньше единицы. Коэффициенты приведения первого образа ко второму S12 и второго к первому S21 из (3.34) изобразятся в виде S12 u11 u12 B12 2 u11 B12 u 21 u 22 B22 ; u 221 B22 S21 u11 u12 B12 2 u12 B12 u 21 u 22 B22 . u 222 B22 (3.36) Эти коэффициенты в нормальных условиях, когда напряжения сред нормальные, становятся равными единице; в других случаях они могут изменяться в обе стороны от единицы. Выделим напряжением только один участок; пусть им будет первый участок в последующей ситуации; тогда u11 = u 21 = u 22 =1 и только u12 1. При этом степень сходства S121 из вида (3.35) преобразится в вид S121 4 2 u12 B1 B2 4 2 u12 B1 B2 2u12 B1 B2 2 u12 2 1 B1 B2 1 2 1 , (3.37) а коэффициенты приведения изобразятся как u12 B1 B2 S12 B1 B2 2 2 1 1 ; S21 u12 B1 B2 2 u12 B1 B2 2 2 1 1 . (3.38) Сначала проанализируем коэффициенты приведения. Если u12 >1, то S12 >1, S21 <1 и S12 S21 <1. Это понятно: в результате увеличения напряжения части рецепторной среды в последующей ситуации её образ будет более ярким или, точнее, будет иметь более яркие места. При понижении напряжения u12 u12 <1 коэффициенты как бы поменяются местами: S12 <1, S21 >1, но по-прежнему S21 <1. Если принять, что оба участка одинаковы по величине: B1 = B2 , — то выражения (3.38) относительно нормы: S12 приобретут следующий вид S12 u12 1 ; 2 S21 u12 2 u12 1 . 1 (3.39) S12 и S21 расходятся в разные стороны, и c 1 S21 или, наоборот, S21 с 1 S12 , то есть как Из этих выражений отчётливо видно, что коэффициенты сравнивать между собой лучше не S12 и S21 , a S12 обратные величины. Их обратная зависимость хорошо подтверждается следующим выражением , полученным из совместного решения системы (3.39) при исключении коэффициента u12 : S21 2 12 2S S12 2S12 1 ; оно имеет гиперболический вид. Искажение гиперболы говорит о величине различия образов (3.34) и об отклонении ситуаций от состояния противоречивости. Величину искажения гиперболы можно характеризовать отношением коэффициентов приведения, один из которых представлен в виде обратной величины, допустим: S12 :1 S21 , но это отношение приводит нас к степени сходства образов, то есть к S121 S12 S21 ; поэтому лучше оценивать влияние коэффициентов напряжения рецепторной среды на уход системы от противоречивости не по коэффициентам приведения сравниваемых образов, а по их степени сходства. Вернёмся к выражению (3.37), и проведём его предварительный анализ. Прежде всего обратим внимание на то, что, как и в других выражениях, соотношение рецепторных участков B1 и B2 , представлено квадратом: 2 B1 B2 ; это говорит о значимости соотношения. Отметим также, что числитель и знаменатель выражения (3.37) различаются совсем незначительно, тем не менее это различие очень важное; охарактеризует его отношением 2 2u12 u12 1 . При всяком отклонении коэффициента u12 от единицы это отношение становится также меньше единицы; и, чем больше указанное отклонение, тем меньше становится это отношение и тем меньше, следовательно, степень сходства S121 . Именно к этому и нужно стремиться, так как таким способом можно уйти от нежелательной противоречивости ситуаций. Посмотрим, как будет изменяться степень сходства S121 в зависимости от коэффициента u12 при некоторых значениях B1 B2 . Примем B1 B2 u (индексы коэффициента u12 опущены) и подставим это в выражение (3.37); получим: S121 B1 B2 При равенстве рецепторных участков u (3.40) B1 = B2 выражение (3.37) примет вид S121 B1 И еще при одном соотношении: u 4 2u 2 1 . u4 u3 u 1 B1 B2 1 u2 2u 1 . 2u2 2 B2 (3.41) u: S121 B1 B2 1 u u 2 4u . 2u 1 Зависимости (3.40), (3.41) и (3.42) отражены на рис. 3.9. (ось u — в логарифмическом масштабе). Рис.3.9. Зависимость степени сходства S121 от коэффициента напряжения среды u при различном соотношении рецепторных участков B1 и B2 . (3.42) B1 B2 Сразу же можно сказать, что наиболее предпочтительной является кривая 1 u , так как при этом обеспечивается самое большое изменение ситуаций; две другие кривые изменяют их в меньшей степени. При соотношении B1 B2 u , когда u > 1, выделенный большим напряжением участок оказывается и большим по размерам; такое состояние похоже на пропорциональность, когда усиливаются в равной степени все возбуждения рецепторов. А пропорциональность, как нам известно, не изменяет ситуаций. Этим можно объяснить слабое изменение степени сходства образов ситуаций даже при значительном повышении напряжения u. Переход в область u < 1 ничего не изменяет: хотя выделенный участок и становится меньше оставшегося рецепторного поля, но повышенным напряжением питания в этом случае обеспечивается не он, а оставшаяся часть; а это равноценно просто замене мест. Равенство участков B1 = B2 несколько улучшает положение дел: степень S121 опускается до значения 0,9 при усилении напряжения только в два раза, а при u = 10 она уже равна 0,6; это существенно. Слабой стороной выбора, при котором размеры участков B1 и B2 одинаковы, является то, что в этом случае мы имеем только два участка и не представляется возможность увеличить их количество. Следовательно, число решаемых задач определится только изменением напряжения питания рецепторов, а оно имеет свои физические границы. Переход к ослаблению напряжения питания (u < 1) совершенно ничего не даёт: как видно из графика (рис. З.9), кривая симметрична. Кривая B1 B2 1 u выглядит лучше других во всех отношениях. Прежде всего она отражает довольно резкое уменьшение степени сходства уже в зоне до u = 10, а ещё — возможность увеличения числа рецепторных участков. Оказывается, если выделенный участок относительно мал, то усиление возбуждений рецепторов в нём изменяет общую ситуацию (её образ), можно сказать, значительно. Так вдвое меньший по отношению к остальной части рецепторный участок, получивший четырёхкратное усиление питания, уменьшает степень сходства образов S121 до 0,64, а участок, составляющий четвёртую часть общего рецепторного поля, при девятикратном усилении питания снижает степень сходства образов сравниваемых ситуаций уже до 0,36. Показатели — очень хорошие, но на их основании преждевременно делать вывод о том, что, чем меньше участок, тем лучше; можно предположить, что существует в этом отношении некоторый оптимум, и вокруг него желательно искать практические решения. Также резко спадает степень сходства S121 и при снижении напряжения питания u — кривая симметрична; только при этом выделенный участок оказывается больше остальной части; что в общем-то почти одно и то же. Получается так, что можно выделить малый рецепторный участок и подать на него усиленное питание, а можно оставить на нём питание нормальным (u = 1) , но понизить его в оставшейся части рецепторного поля; результат будет такой же. Разница будет только в том, что рост напряжения питания имеет свой физический предел, а снижение можно осуществлять до нуля. Последний путь — явно привлекательней, однако увлекаться снижением никак нельзя, так как этим самым подавляется информация, поступающая от рецепторов основной, большей части очувствления, а при u = 0 она и вовсе отсекается. Говоря о регулируемом питании рецепторов, мы имеем в виду, скорее всего, не нервные системы животных, а технические обучаемые системы управления; на основе проводимого анализа могут быть выработаны рекомендации по их устройству и по их развитию. Так, если из всего поля очувствления, как мы убедились, можно выделить небольшой участок с переменным напряжением питания, то представляется возможность из оставшейся части поля выделить ещё такой же участок, и ещё, и ещё. Таким образом, мы приходим к выводу, что обучаемая система может иметь несколько рецепторных участков. Чтобы найти наилучшее решение в выборе количества рецепторных участков, выявим связь между ним и числом независимо решаемых задач. Допустим, все участки по количеству рецепторов в них приблизительно равны между собой. Тогда общее количество рецепторных участков определится как n B1 B2 B1 1 B2 . B1 (3.34) Если для решения очередной задачи выделять с помощью изменения напряжения питания только один рецепторный участок, а само напряжение изменять по двоичному закону: либо нормальное питание — либо изменённое, — то общее число решаемых задач окажется равным количеству рецепторных участков n: N n . Если же изменением напряжения питания выделять не один участок, а каждый раз различное количество: один, два, три и так далее, — и в различном сочетании, но сохранять при этом прежнее двустуn пенчатое питание, то число решаемых задач уже определится и как N 2 . И наконец, если иметь возможность выделять переменное количество участков в различном их сочетании, а напряжение питания изменять в широких пределах с g градациями (ступенями), то число задач будет равно N gn . Эту зависимость нужно рассматривать как наиболее общий случай; из неё следует n lg N . lg g (3.34) Выражение (3.44) может быть использовано для определения количества рецепторных участков n, если известна градация изменения напряжения их питания g и задано число решаемых задач N. Изменение напряжения питания рецепторов, кроме увеличения числа решаемых задач, способствует ещё и тому, что расширяет информативность обучаемых систем управления. При неизменном, стабильном питании число отличимых ситуаций M0 с отличимыми сигналами управления при G 0 градаций m возбуждений рецепторов, как известно, определяется числом сочетаний M 0 G 0 , где m — общее количество рецепторов. Варьирование напряжений питания расширяет диапазон возбуждений рецепторов и дробит их градацию, так что действительная градация возбуждений рецепторов G определится как G k G 0 g , где k — коэффициент, характеризующий случайное совпадение уровней возбуждений рецепторов: если совпадений нет, то k = 1; при частичном совпадении k < 1, но близок к единице. Игнорируя случайные совпадения, можно записать M Gm G0 g m . (3.45) Столько ситуаций может различить обучаемая система управления, очувствление которой разбито на участки. Это — очень большое число; его трудно даже представить. Если даже взять самые малые значения 100 параметров: m = 100; G 0 = 2; g = 2, то и тогда M 4 — число необозримое. Вернёмся снова к выражению (3.37) и попытаемся извлечь из него более общие рекомендации; заменим в нём отношение B1 B2 на количество рецепторных участков n, воспользовавшись выражением (3.43); в результате получим S121 u2 u2 2 4 2u n 1 n 1 2 4 . 2 u 1 n 1 n 1 (3.46) В оценке зависимости (3.46) сохраним прежний подход, согласно которому чем меньше степень сходства S121 , тем лучше. Для наглядности представим это выражение в виде графиков S121 f n при различных значениях коэффициента напряжения среды u (рис. З.10). Графики нуждаются в пояснениях. Прежде всего будем помнить, что сравниваются внешние ситуации, ничем друг от друга не отличающиеся; различаются их образы очувствления, и это различие достигается путём подачи изменённого напряжения питания на один из выделенных участков, повторим: только на один, хотя в выражении (3.46) фигурируют n участков. Значение n говорит о размере выделенного рецепторного участка: если n = 2, то он составляет половину поля очувствления; если n = 3, то — одну треть; если n = 4, то — одну четвертую и так далее. Этим можно объяснить стремление степени сходства S121 к единице при больших количествах n: значение выделенного участка сказывается всё меньше и меньше. Рис. 3.10. График зависимости степени сходства S121 от количества рецепторных участков n при различных напряжениях питания u В то же время графики позволяют использовать их и при групповом изменении напряжения питания. Рассмотрим конкретный пример. Пусть u = 10; и для начала примем, что n = 12, то есть под указанным напряжением находится один из двенадцати участков; S121 =0,636. Если теперь подать то же напряжение не на один, а на два участка, то под изменённым напряжением окажется 2/12 = 1/6 часть рецепторного поля; это равносильно тому, что n = 6, и согласно графику S121 (6) = 0,377. Подадим напряжение u = 10 на три участка, то есть задействуем четвёртую часть поля, и получим S121 (4) = 0,331. Четыре выделенных участка S121 (З)=0,367; шесть участков под увеличенным напряжением охватывают уже половину поля очувствления: n = 2, — и S121 (2) = 0,599. Итак, n на графике (рис. 3.10) означает, какая часть из двенадцати — это n = 3 и рецепторного поля имеет изменённое напряжение питания; чем больше n, тем эта часть меньше. Ступенчатая форма кривых (рис. 3.10) обусловлена тем, что нет дробного представления участков: n может, например, равняться 6 или 7, но n = 6,5 быть не может. Как не может быть и n = 1: при этом поле очувствления не разделено на участки. На рис. 3.10 представлены кривые, отражающие повышенное напряжение питания на выделенном участке, начиная от u = 2 и до u = 100 (при u = 1 степень сходства S121 всегда равна единице). Понижение напряжения питания в несколько раз даёт равный результат с повышением во столько же раз, но при делении поля только на два участка; более мелкое дробление вызывает резкое расхождение степени сходства; например: n: u = 10: u = 0,1: 2 0,599 0,599 3 0,367 0,838 4 0,331 0,919 5 0,342 0,952 6 0,377 0,961 7 0,421 0,978 Как видно, симметрии нет никакой: повышение напряжения питания намного эффективней, чем понижение; эта эффективность тем выразительней, чем сильнее изменено напряжение; при u = 2 особого различия нет. Отметим общие закономерности: во-первых, повышение напряжения питания отдельного рецепторного участка приводит к резкому уменьшению степени сходства S121 , и это можно только приветствовать; вовторых, в общем случае наблюдается рост степени сходства при дроблении рецепторного поля на более мелкие участки; в-третьих, наблюдается некоторое труднообъяснимое местное снижение значений степени сходства при относительно мелком дроблении поля на участки. Последнее рассмотрим более подробно. Как видно из pис. 3.10, кривая u = 2 при увеличении n всё время растёт, но это — исключение. У других кривых в самом начале, при малых значениях n наблюдается снижение степени сходства; у кривой u = 3 степень сходства S121 падает с 0,8 при n = 2 до 0,754 при n = 3; у кривой u = 7 она падает уже с 0,64 при n = 2 до 0,441 при n = 4, и так далее, а у кривой u = 100 такое местное падение — очень существенное: от 0,510 при n = 2 до 0,039 при n = 11. После падения начинается планомерный рост, о котором говорилось выше. Местное снижение значений степени сходства имеет такую особенность: чем больше напряжение выделенного участка, тем больше провал кривой смещается вправо в сторону более мелких участков. Определим аналитически этот минимум; для этого нужно найти производную от выражения (3.46) по числу n и приравнять её к нулю. Обозначив n вместо (3.46) следующее выражение S121 x2 x2 2 через x, получим 2ux u 2 . u2 1 x u2 Продифференцировав его и приравняв к нулю, найдём: n min 1 uопт xmin u или: 1. Из этого следует, что наилучшее решение с точки зрения способности обучаемой системы управления переключаться с выполнения одной работы на другую может быть получено при условии: uопт 2 n 1 . (3.47) Рассмотрим пример. Пусть число решаемых задач обучаемой системы управления равно 16; напряжение питания рецепторных участков может быть либо нормальным, либо принимать ещё одно значение, то есть g = 2. Тогда, пользуясь формулой (3.44), получим n lg 16 lg 2 4 . Подставляя это в (3.47), определим, во 2 4 1 9 . Если сколько раз нужно изменить напряжение питания выделенных участков: u нормальное напряжение равно 10 B, то изменённое должно составлять 90 В. Такой расчёт гарантирует самое короткое обучение. Сопоставляя зависимость (3.47) с кривыми на рис.3.10, можно выявить некоторое несоответствие; так при u = 5 экстремум на графике выпадает на n = 3, а при u = 7 — на n = 4; и уж совсем кажется непонятным то, что при n = 2 формула (3.47) даёт u опт = 1, в то время как на графике u опт = 2. Всё это происходит потому, что нами принята ступенчатость графиков, и в этой ступенчатости заложено округление значений до целых чисел. Точный расчёт показывает, что при u = 5 экстремум кривой достигается при nmin 5 1 3,24 , а при u = 7 получается n min 7 1 3,64 . Если выполнить тот же расчёт для u = n min 2 1 2,41, то есть этот экстремум в равной степени распространяется как на = 2, так и на n min = 3. Отсюда следует, что формулу (З.47) можно использовать при условии, что 2, то получим, что n min количество участков должно быть не менее трёх. На практике наилучшее решение с самым коротким обучением, скорее всего, невозможно получить; и причиной тому является физическое ограничение напряжения питания: и рецепторы, и синапсы мозга могут не выдержать чрезмерных нагрузок; и придётся соглашаться с другими нелучшими решениями. В таких случаях расчёт можно вести из условия принятия допустимой степени сходства. Выше говорилось, что любые две ситуации могут считаться различимыми и иметь какие угодно сигналы управления, если их образы отличаются друг от друга хотя бы на одну ступень возбуждения одного рецептора, превышающую естественный шум. Другими словами, две любые ситуации различаются тогда, когда степень сходства их образов меньше единицы. В теоретическом плане это определение кажется безукоризненным, но только в теоретическом. Стоит только посмотреть на обучаемые системы управления с позиций конечных систем — конечных по допустимым нижнему и верхнему пределам сигналов управления, — как сразу же возникает такой вопрос: какое наибольшее значение степени сходства приемлемо в конкретном случае? Подойдём к ответу на поставленный вопрос со стороны выходного сигнала обучаемой системы управления; он нуждается в последующем усилении для того, чтобы состыковать его с силовым управлением приводов объекта. Поэтому каждая пара столбцовых шин технического мозга имеет на выходе электронный усилитель, который совмещает функции суммирования рецепторных долей столбцовых шин, вычитания одной суммы из другой и усиления разности. Обозначим коэффициент данного усиления через k ус и определим его требуемый диапазон. Примем его равным единице в том случае, когда сравниваемые образы ситуаций абсолютно несхожи, то есть когда = 0 и от противного: при полном сходстве образов, когда S121 S121 = 1, коэффициент k ус должен стремиться к бесконечности. Этим условиям отвечает следующая зависимость: k ус 1 . 1 S121 (3.48) Так как коэффициент усиления k ус имеет реальные пределы, определяемые электрическими параметрами усилителей, в частности своё наибольшее значение k max ус , то подставлял его в формулу (3.48), доп можно определить ту наибольшую степень сходства S121 , которая допустима: доп S121 1 1 k max ус . (3.49) После всего сказанного можно предложить следующий порядок выбора и расчёта количества рецепторных участков и напряжений их питания; и сразу же можно рассмотреть пример. Исходным параметром является число решаемых задач N; это число определяется назначением объекта, оснащённого обучаемой системой управления; оно может быть взято из технического задания или принято субъективно; пусть N = 128. Нужно договориться также о том, что напряжение питания может быть только двуступенчатым: нормальным (u = 1) и каким-то определённо изменённым (пусть u > 1), то есть градация питания двуступенчатая: g = 2. Наши расчёты не охватывают те случаи, когда градация питания больше двух. По формуле (3.44) рассчитываем то количество рецепторных участков, на которое нужно разбить очувствление, чтобы была возможность выполнить все требуемые задачи. lg N lg g n Затем необходимо задать коэффициент технического мозга; пусть lg 128 lg 2 7 участков. усиления сумматора-вычитателя, стоящего на выходе k max ус max в k max ус =1 000. Подставляя принятую величину коэффициента усиления k ус доп выражение (3.49), определим допустимую степень сходства S121 : доп S121 1 1 k max ус Наименьшее изменение напряжения питания доп 121 подстановки в него параметров n и S 0,999 1 1 1000 0,999 . u min определим, решая уравнение (3.46) после : u 2min u 2min 2u min 7 1 u 2min 2 1 7 1 7 1 2 4 7 1 4 . В результате несложных вычислений получим u min = 1,196; во столько раз нужно усилить нормальное напряжение питания одного из семи участков, чтобы можно было переключить объект на решение одной из 128 задач; это — минимальное усиление, при котором достижимы любые сигналы управления. Чтобы сократить продолжительность обучения, коэффициент u следует увеличить. Продолжим рассмотрение примера с целью выбора приемлемых параметров. Определим сначала продолжительность обучения, принимая значение степени сходства, равное допустимому: S121 = 0,999. Выберем недостающие параметры при наиболее жёстких условиях. Пусть сигналы управления в сравниваемых ситуациях будут максимально разнящимися: E 1 = 10; E 2 = -10, — а допустимая погрешность пусть составляет 0,1% от их величин, то есть = 0,01. Примем ещё, что коэффициенты приведения образов обеих ситуаций, прямой и обратный, равны между собой; тогда S12 = S21 = S121 =0,999. Подставим все эти данные в формулу (2,21): lg T E1 S121 E 2 S21 lg S121 lg 0,01 10 0,999 10 0,999 , lg 0,999 и получим продолжительность обучения, равную T = 8 250 циклов. Таким затяжным процесс получился потому, что было принято крайнее значение степени сходства S121 . Зададимся теперь приемлемой продолжительностью обучения и вычислим требуемую степень сходства S121 . Пусть обучение длится 32 цикла; при прочих принятых параметрах согласно выражению (2.21) S121 (32) = 0,789. Если принять продолжительность Т = 16 циклам, то степень сходства уже должна быть равной S121 (16) = 0,622. В подученных данных отражено обучение с использованием только двух получим ситуаций; если же ситуаций будет больше, но из них эти две имеют самое существенное расхождение сигналов управления при том, что они различаются только напряжением питания, то процессы обучения, возможно затянутся, но не существенно, и полученные продолжительности в циклах будут для них определяющими. Подставляя значения степеней сходства S121 (32) и S121 (16) в выражение (3.46), получим: u min (32) = 4,49; u min (16) = 6,528. Видно, что сокращение продолжительности обучения требует увеличения напряжения питания; это и понятно. Командные рецепторы. Проведённые исследования показали, что предпочтительнее иметь большие участки с большим количеством рецепторов; однако, если не руководствоваться выбором наилучших решений, то можно позволить уменьшать размеры рецепторных участков вплоть до одного рецептора /1.39/. В принципе достаточно выделить повышенным напряжением питания только один рецептор, и объект перейдёт к выполнению новой задачи; такой рецептор справедливо назвать командным. Общее количество командных рецепторов определится общим числом отдельных независимых задач. Попробуем выявить некоторые связи с тем, чтобы на их основе можно было выбирать приемлемые решения и оценивать их. Снова представим развитие событий в виде двух ситуаций, образы которых имеют следующий вид: образ 1-ой ситуации: В 0; b k1 образ 2-ой ситуации: В 0 b k2 , где В — рецепторное поле или, точнее говоря, энергетическая мощность всего рецепторного поля, или, ещё точнее, средняя сумма возбуждений всех рецепторов; b k1 — первый командный рецептор, то есть его возбуждение; b k2 — второй командный рецептор. Степень сходства образов выбранных ситуаций можно привести к виду 1 S121 2 k1 2 2 k2 2 b B 1 b B b 2k1 b 2k 2 B4 . (3.50) Для того, чтобы 1-я и 2-я ситуации отличались между собой и отличались в наибольшей мере, необходимо, очевидно, увеличивать ту добавку к единице, которая заключена в скобках выражения (3.50). А для этого необходимо стремиться увеличить возбуждения, то есть энергетическую мощность, командных рецепторов b k1 и b k2 и сделать её соизмеримой с энергетической мощностью всего рецепторного поля В. Благо, что физически командные рецепторы могут представлять собой обычные переключатели, не боящиеся больших напряжений; такими же устойчивыми к напряжению можно сделать синапсы командных рецепторов. Тем не менее хотелось бы выявить хотя бы ориентировочные соотношения мощностей поля и доп этих рецепторов. Для этого воспользуемся снова допустимой степенью сходства S121 , определяемой из сигнала управления на выходе их техничесk max ус кого мозга, то есть воспользуемся выражением (3.49). Очевидно, степень сходства S121 (3.50) должна быть доп меньше или, в крайнем случае, равна S121 . Преобразуя это условие, получим условия выбора максимального коэффициента усиления b 2k1 B2 b 2k 2 B2 b 2k1 b 2k 2 B4 С учётом того, что коэффициент усиления 1 k max ус 1 . — всегда значительно больше единицы, а ( k max ус b 2k1 b 2k 2 B4 ) можно без особого вреда приравнять к нулю, полученное условие можно привести к виду b 2k1 Если принять, что b 2k 2 B2 . k max ус b k1 = b k2 (делать их различными не имеет смысла), то в результате получим bk B 2k max ус . (3.51) Условие (3.51), строго говоря, не является расчётным; оно даёт лишь представление о соотношении используемых в ней параметров, из которых рецепторное поле В в энергетическом смысле можно представить как сумму входящих в него рецепторов очувствления. Таким образом, равенство (3.51) min устанавливает энергетическое соотношение между b k ситуации еле различимы. Если взять k max ус и суммой рецепторов всего поля при условии, что = 1 000, то минимальная мощность командного рецептора должна составлять 1/45 часть мощности всего поля; и если поле насчитывает 900 рецепторов, то самый малый командный рецептор приравнивается в среднем к 20 обычным рецепторам. Чтобы сделать командные рецепторы более эффективными, их мощность необходимо усиливать. Очевидно, оптимальные параметры этих рецепторов должны соответствовать оптимальным параметрам рецепторных участков. Командные рецепторы не имеют аналога в живой природе; они — плод человеческого творчества, и поэтому они вносят в систему управления некоторые свои особенности, не характерные для нервных систем животных. Так наличие в системе командных рецепторов нарушает известное свойство, именуемое нами как пропорциональность образов. Пропорциональные образы и ситуации воспринимаются нервными системами, и в том числе техническими, как абсолютно схожие с пропорциональным изменением сигналов управления. Теперь эта особенность оказывается утерянной. Чтобы её сохранить, необходимо ввести в систему контур регулирования напряжения питания командных рецепторов, в частности на базе фоторезистора у технического глаза /1.39/. Но в принципе командные рецепторы могут выполнять те же функции, что и рецепторные участки. 4. Задача поиска в обучаемых системах управления Почти все действия объектов с обучаемыми системами управления, выражающиеся в движениях приводов и исполнительных механизмов, преследуют такие цели, при достижении которых указанные движения приостанавливаются: есть цель — есть движение, цель достигнута — нет движений. Продолжительные, сложные работы представляют собой, как правило, череду преследуемых целей и череду соответствующих им действий. Допустим, робот с обучаемой системой управления обслуживает станок; его работа также представляет собой последовательность отдельных действий. Начнём с поиска тары, в которой перевозят заготовки; для этого система управления должна включить в работу те приводы, которые обеспечивают её поиск. Как только она будет найдена, все эти приводы остановятся, и робот перейдёт к выбору требуемой заготовки внутри тары. Может быть при этом включатся в работу те же приводы, но возможно также, что они будут дополнены другими, так как роботу придётся приблизиться к таре и даже углубиться в неё. Распознавание заготовки завершится тогда, когда схват правильно сориентируется относительно неё и зависнет над ней. Последующим действием робота будет захват заготовки; при этом сработают соответствующие приводы: раскрытия схвата, приближения его к заготовке и её захвата; выполнив всё это, приводы снова остановятся. Затем робот должен отыскать то станочное приспособление, на которое устанавливается заготовка. Найдя его, он должен отключить приводы поиска и включить приводы установки заготовки на приспособление. И так далее, и каждый раз любое действие завершается остановкой приводов. Потом робот должен найти пневматический кран, осуществить поворот ручки крана и таким образом зажать заготовку; затем должен отыскать кнопку пуска, включить станок в работу и отойти в безопасное место. По окончание обработки деталь нужно снять с приспособления и уложить в тару. Сделав это последнее дело, робот может успокоиться, но едва ли ему дадут отдохнуть; скорее всего, его снова и снова будут заставлять повторять все эти движения. В результате за один цикл робот должен выполнить все перечисленные шестнадцать видов действий, не считая таких, как выходы в безопасную зону. Обратим наше внимание в данном примере на следующие моменты в поведении робота: на начало каждого действия и на его завершение (само действие выполняется как навык и сейчас нас не интересует). Механизм начала заключается в переключении внимания обучаемой системы управления; оно рассмотрено выше: каждый раз для перехода на очередную работу система управления подаёт изменённое напряжение питания на соответствующую группу рецепторных участков. Признаком, побуждающим такое переключение, является завершение предыдущего действия. Но в чём физически выражается этот признак? Как система управления догадывается, что действие закончено? Здесь возможны, по крайней мере, два подхода. По первому — признаком завершения предыдущего действия является его последняя ситуация. Вид разыскиваемой заготовки в сочетании с определённым распределением напряжения питания по рецепторным участкам может явиться признаком завершения поиска этой заготовки. Образ данной ситуации неповторим; он-то и переключает внимание системы управления, заставляя робот переходить к захвату заготовки. Этот первый способ характерен для животных. По второму — признаком завершения любого действия является также последняя ситуация, но в совокупности с нулевыми сигналами управления приводов, участвовавших в этом действии. Такой подход требует того, чтобы в образе были учтены сигналы управления, то есть чтобы они были введены в мозг как возбуждения рецепторов; а для этого внутри мозга должны существовать рецепторы самого мозга. Соединение мотонейронов с этими рецепторами образуют внутренние обратные связи, которые можно характеризовать как основу мыслительного процесса, происходящего параллельно действиям исполнительных органов или вообще без этих действий /1.38/. Такое свойственно, пожалуй, только человеку. И по первому подходу, и по второму завершение действий можно расценивать как распознавание образа, но только это — такое распознавание, какое происходит в результате действий, а точнее — по их окончанию, но не предшествует им. Не вдаваясь в более глубокий разбор явления распознавания, отметим лишь, что у человека оно значительно сложнее, чем у животных; в частности, признаком распознавания может быть не образ текущей ситуации с учётом информации рецепторов мозга, другими словами — не моментальный образ, а образ, растянутый во времени, создаваемый внешней ситуацией в купе с мыслительным процессом. Приблизительно также, как робот, вёл бы себя тот же прокатный стан, будь он оснащён обучаемой системой управления, или станок, или какой-то транспортный объект. Во время прокатки также сменяют друг друга пели: приведение стана в состояние захвата сляба, сам захват, многочисленные коррекции режимов прокатки, подготовка выхода полосы и приведение в норму холостых клетей. И также, как у робота, завершение каждой операции знаменуется прекращением движений приводов этой операции, У станка, например сверлильного, выход на позицию сверления должны обеспечивать два, а может быть даже три привода, и после выхода все они должны остановиться. То же самое — и у транспортного средства, и у других объектов, если они оснащены обучаемыми системами управления. Итак, любое действие — это движение приводов, а успешное завершение действия — их остановка. И самым характерным действием среди всех прочих, пожалуй, является поиск: поиск предмета, поиск положения, поиск состояния или, в общем случае, поиск ситуации; одним словом — поиск; им и займёмся. Поиск, как операция, особенно выразителен у животных. Присмотритесь к птицам: к грачам, к синицам, к воробьям, — к домашним животным: к корове, к овце, к курице, к собаке, — или к диким животным, если у вас есть такая возможность, и вы обнаружите, что они живут в постоянном поиске; другое что-то в их жизни даже трудно выявить, если не относить сюда бездействие и всё то, что связано с переработкой пищи. В действиях человека поиск занимает тоже значительное место, чуть ли не довлеющее. Сели мы, например, за обеденный стол, и начались поиски один за другим: ищем ложку, хлеб, тарелку, ищем собственный рот, чтобы поднести к нему ложку, ищем соль, чашку, сахар и так далее. Поиск может быть не только зрительным; он может быть слуховым при нахождении, например, любимой песни среди звуковых записей, — осязательным, когда мы поправляем наощупь шапку на голове; вестибулярным, поддерживающим наше вертикальное положение; обонятельным, когда мы по аромату духов определяем их хозяйку, и каким угодно другим. И всё это — поиск. Чтобы упростить себе задачу, выберем в качестве объекта робот со зрением; и пусть он находит заданный предмет, свободно расположенный на столе. Будем считать такой поиск классическим, то есть обычным и наиболее характерным. Робот пусть будет тоже обычный: с одной рукой и с глазом на охвате руки. Впрочем, выражение «глаз на схвате руки» звучит несколько необычно; нужна какая-то коррекция терминологий; уделим ей внимание. По расположению глаз роботы можно разделить на две группы: на скотоподобные (да простят роботы такое сравнение) и на человекоподобные. У роботов первой группы глаза совмещены со схватом, что напоминает голову животных, таких как корова, лошадь, собака; эти и почти все другие животные не способны захватить предмет иначе как своей пастью — их ноги и лапы для этого не предназначены. Для обеспечения приемлемой резкости видимых захватываемых предметов глаза у большинства животных отодвинуты от схватывающей части пасти на определённое расстояние; этим объясняются их вытянутые морды. Уместно, может быть, по подобию то звено скотоподобного робота, которое принято именовать рукою, называть теперь шеей, схват — пастью, а схват с глазами и техническим мозгом — головой. У человекоподобных (антропоморфных) роботов глаза устанавливаются не на охвате и даже не на руке, а где-то в некотором удалении от них; поэтому рука такого робота действительно соответствует функционально руке человека, а примитивный охват, будь он усложнён, — кисти руки с пальцами. Человекоподобный робот может иметь не обязательно одну руку, но и две, не только один глаз, но и два, а может быть и больше. Определимся и со способами поисков, выделив из них два наиболее характерных: это — продольнопоперечный поиск и поиск свысока. Стратегия первого способа отроится на том, что глаз скользит вдоль некоторой полосы, а при попадании в его поле зрения искомого предмета смещается поперёк полосы до совмещения о ним. Для поиска этим способом глаз должен иметь три привода, обеспечивающих перемещения: x вдоль полосы, y поперёк полосы и поворот вокруг своей оптической оси. Все три привода — независимые и действуют одновременно. По завершении удачного поиска глаз должен остановиться напротив искомого предмета, то есть должны остановиться все три его привода. Стратегия поиска свысока — несколько иная. Отдалённый глаз обозревает некоторое поле. При появлении на этом поле предмета глаз приближается к нему на определённое расстояние и, если предмет — искомый, зависает над ним. Для поиска свысока глаз должен иметь столько приводов, сколько нужно для приближения к предмету, и ещё один — для поворота глаза вокруг своей оптической оси. Приближение к предмету может быть оптическим, если глаз оборудован телескопической оптикой с соответствующим приводом. Все приводы также независимы друг от друга и должны останавливаться при совмещении глаза с искомым предметом. Продольно-поперечный поиск представляется более простым; он требует меньшего количества приводов и очень простого набора ситуаций в обучаемую выборку; его и рассмотрим более подробно. Он хорош ещё и тем, что удачно сочетается с конструктивными особенностями скотоподобных роботов, которые сами по себе проще человекоподобных. 4.1. Поперечные перемещения поиска Итак, представим себе робот, у которого голова со схватом (пастью) и одним глазом (что поделаешь? — у животных тоже иногда остаётся один глаз) закреплена на подвижной длинной шее; заставим этот робот выполнять продольно-поперечный поиск заданной детали, и начнём с поперечного перемещения. Выберем статическое обучение (есть ещё динамическое), как наиболее простое и займёмся обучаемой выборкой; введём в неё наименьшее число ситуаций, а именно: одну целевую и три дополнительных. За целевую примем такую ситуацию, в которой искомый предмет расположен в центре поля зрения глаза и сориентирован определённым образом. В этой ситуации привод поперечного перемещения должен остановиться, то есть обучаемая система управления должна выдать на него нулевой сигнал управления: E ц = 0. Таким же нулевым должен быть сигнал управления и в том случае, когда в поле зрения глаза ничего нет — только однообразный фон; это — первая дополнительная ситуация, и в ней E ф = 0. В двух остальных дополнительных ситуациях искомый предмет располагается справа или слева от центра поля зрения по ходу продольного перемещения, и приводы обязаны смещать глаз соответствующим образом до совмещения центра поля зрения с этим предметом; сигналы управления в этих ситуациях должны иметь разные знаки: если E пр >0, то E лв < 0. Принятая наипростейшая обучаемая выборка ситуаций обеспечивает в принципе отслеживание предметов, однако при этом могут появиться некоторые трудности: при больших значениях E пр и E лв могут возникнуть поперечные автоколебания головы робота, а при уменьшении этих сигналов глаз может не успеть сместиться в поперечном направлении и проскочит искомый предмет; на практике приходится постоянно сталкиваться с этим. Попытаемся разобраться в этом и предложить общие рекомендации. Для исследований и расчётов привода поперечного смещения головы робота можно воспользоваться с некоторыми оговорками теорией автоматического управления. Оговорки касаются того, что обратная связь осуществляется с помощью зрения, а закон изменения сигнала управления, формируемый в процессе обучения автоматически, носит явно нелинейный характер и может быть выявлен только опытным путём после завершения обучения. Функциональная схема системы управления робота представлена на рис. 3.11,а. Механизм робота М, он же — манипулятор, включает силовой шкаф, привод и исполнительную часть. После незначительной трансформации, в результате которой множество информационных каналов между глазом и мозгом заменены одним каналом обратной связи, функциональную схему (рис. 3.11,а) можно представить в виде привычной структурной схемы с отрицательной обратной связью (рис. 3.11,б); на этой схеме: Е — сигнал управления, формируемый обучаемой системой управления (ОСУ); у — смещение глаза; y ц расположение цели; y — рассогласование. Рис.3.11. Функциональная схема обучаемой системы управления робота со зрением а) и соответствующая ей структурная схема автоматической системы с отрицательной обратной связью б) Передаточную функцию обучаемой системы управления можно представить в виде апериодического (инерционного) звена первого порядка: Wосу k осу Tосу p 1 , где k осу — коэффициент передачи, отражающий линейность зависимости E k осу y ; такое можно допустить, если рассматривать отклонения в узком интервале; Tосу — постоянная времени, определяемая в основном быстродействием фоторецепторов глаза. Манипулятор может быть отображен как интегрирующее колебательное звено: WM где kM p TM2 p2 2 TM p 1 , k M — коэффициент передачи; TM — постоянная времени манипулятора, определяемая инерционностью механизма; — коэффициент демпфирования или динамического сопротивления. В передаточной функции манипулятора WM все статические рабочие характеристики также приняты линейными. Структурная схема (рис. 3.11,6) с принятыми передаточными функциями позволяет провести динамический анализ робота; но будем помнить, что такое представление объекта с обучаемой системой управления слишком упрощенное, чтобы полагаться на достоверность его анализа. Поперечные перемещения при поиске в образном представлении. Углубимся в исследования и начнём с обучаемой системы управления. Все математические выкладки для удобства договоримся представлять физически; с этой целью воспользуемся оптическим вариантом обучаемой системы, описанным выше. Напомним, что в этой системе мозг представляет собой диапозитив или, точнее, набор диапозитивов — по два на каждый привод. Видимая сцена, собранная оптикой, пропускается через указанные диапозитивы; потоки света, проходящие через них, определяют сигналы управления. Один из парных диапозитивов (плюс-) определяет положительную составляющую E , а другой (минус-) - отрицательную E ; сигнал управления Е получается как разность ( E - E ). Удобство такого физического представления состоит в том, что и сама ситуация как видимая глазом сцена, и состояние мозга как рисунки диапозитивов представлены в нём в одном виде — виде оптических изображений; поэтому их можно сравнивать принятыми методами теории обучаемых систем управления, то есть с помощью коэффициентов приведения и степени сходства. Так коэффициент приведения изображения диапозитива с к изображению ситуации B j в обычном виде можно представить как m 1 S c, B j bj c , m c 2 1 где — -ый пиксель диапозитива; b j — соответствующий ему пиксель изображения j-ой ситуации; m — число пикселей; все эти величины можно истолковать как обычные: b j — возбуждение -го рецептора; c — проводимость соответствующего синапса. m С учетом того что 1 bj c E j , получим Ej S c, B j . m c 2 1 В действительности единого образа с не существует; он состоит из двух образов: c и c . В электрическом мозгу им соответствуют проводимости синапсов плюс- и минусмотонейронов, а в оптическом — изображения плюс- и минусдиапозитивов. Также разделяется сигнал управления Е на E и E . В результате вместо одного коэффициента приведения S c, Bj получим два: Ej S c , Bj m 2 c S c , Bj ; Ej m 2 c . (3.52) , (3.53) 1 1 Встречные коэффициенты определятся как Ej S Bj , c b 1 S Bj , c ; m 2 j Ej m b 1 2 j а степени сходства примут вид S Bj , c , Bj m m b 1 S Bj, c , Bj 2 Ej 2 j c 2 m b 1 2 j ; 1 Ej m 2 c 2 . 1 И коэффициент приведения, и степени сходства позволяют находить количественные соотношения между образами. Эти соотношения становятся более зримыми, то есть упрощается их физическое представление, если принимать образы как оптические. Так коэффициент S c , B j можно истолковать как отношение потоков света, проходящих один в виде изображения ситуации через плюс-диапозитив, а второй в виде рассеянного света через два спаренных плюс-диапозитива. Если изображение ситуации, собранное оптикой, представить также в виде диапозитива, то получится так, что в числителе коэффициента будут стоять спаренные диапозитивы этого изображения и мозга, а в знаменателе — два дубля диапозитива мозга. В таком представлении есть некоторая приблизительность, но в общем оно отражает физическую сторону коэффициента приведения. Разделим на плюсовые и минусовые составляющие все сигналы управления и определим их соотношения: Eц = Eц ; * в целевой ситуации: * в ситуации с однообразным фоном: * в ситуации, когда цель — в поле зрения справа при движении вдоль полосы: Eф = Eф ; E пр > E пр ; в ситуации, когда цель — слева: E лв < E лв . Из равенства парных сигналов управления в целевой, ситуации и в ситуации с однообразным фоном с учётом (3.52) следует * m S c , Bц S c , Bф S c , Bц S c , Bф c 1 m c 2 2 . (3.54) 1 Кроме того равенство парных составляющих сигнала управления в ситуации с однообразным фоном даёт m 1 m bф c 1 bф c . Допуская, что все b ф в этой ситуации равны между собой, получим m m c 1 c , 1 то есть суммарные проводимости (прозрачности) плюс- и минус-диапозитивов мозга одинаковы. Правда, на этом основании нельзя утверждать, что также одинаковы сами изображения диапозитивов и что m c 1 2 m c 2 . Последнее справедливо только при абсолютной световой симметрии изображения 1 искомого предмета; а это — мало вероятно. На основании (3.52) и с учётом (3.54) можно получить следующие соотношения коэффициентов приведения для двух последних дополнительных ситуаций обучаемой выборки: S c , Bп р S c , Bц S c , Bлв S c , Bп р S c , Bц S c , Bлв . (3.55) Из условия (3.55) следует вывод, который в приложении к оптической обучаемой системе звучит так: если искомый предмет ярче фона, то плюс-диапозитив после обучения будет более прозрачным с той стороны, на которую падает свет от правой половины поля зрения глаза при движении вдоль полосы, а минус-диапозитив, наоборот, — более прозрачным с другой стороны. Указанные просветления накладываются на сложные изображения обученных диапозитивов. Эта асимметрия взятых в отдельности плюс- и минус-диапозитивов согласуется в то же время с некоторой симметрией их между собой, точнее говоря, — с их зеркальностью: на сколько у плюс-диапозитива одна сторона (правая или левая) прозрачнее другой, на столько у минус-диапозитива всё наоборот; это следует из условия (3.54). Выражения (3.53) позволяют выявить связь между результирующими сигналами управления и коэффициентами приведения; так в ситуации B пр получим m E пр 1 b 2п р S Bп р , c S Bп р , c , а в ситуации Bлв абсолютная величина сигнала управления будет равна m E лв b 2лв S Bлв , c S Bлв , c . 1 Из этого следует: S Bпр , c S Bпр , c ; S Bлв , c S Bлв , c , и тем самым подтверждаются приведённые выше выводы об асимметрии и симметрии плюс- и минусдиапозитивов мозга. Переход из состояния B ф в состояние B пр и из состояния B пр в состояние Bц , и далее через Bлв до B ф или навстречу осуществляется плавно; эта плавность характерна для обучаемых систем управления. Следовательно, также плавно в данных переходах будут изменяться сигналы управления. Стоит только появиться предмету на краю поля зрения глаза, как начнёт расти от нуля сигнал управления, заставляющий глаз смещаться в сторону предмета. В некотором смещённом положении предмета сигнал достигает своего наибольшего значения, а по мере приближения изображения предмета к центру поля зрения начнёт снова уменьшаться и дойдёт до нуля в центре. Если в общем такой характер изменения сигнала управления нас устраивает, то в некоторых позициях — не совсем. Для того, чтобы глаз быстрее начал движение в сторону предмета при появлении его на краю поля зрения, — а это очень важно, иначе глаз может успеть сместиться в продольном направлении и проскочить мимо предмета, — необходимо, очевидно, увеличить крутизну нарастания сигнала Е. Сделать это можно путём резкого перехода образа B ф в образ B пр (или Bлв ); оценить переход можно по изменению степени сходства этих образов S Bф , Bпр , Bф и S Bф , Bлв , Bф в зависимости от смещения глаза у. Усиления резкости перехода можно добиться, например, подсветкой, связанной с глазом и направленной на края его поля зрения, или с помощью той же подсветки, но дающей на краях поля зрения резкие тени от предмета, или выбором контрастного по отношению к предмету фона и другими методами. Не менее важно определить характер изменения сигнала управления привода поперечного перемещения при нахождении предмета вблизи от центра поля зрения, то есть в ситуациях B пр , B ц , Bлв . Сохраняя прежнее требование — быстродействие смещения глаза, — нужно побеспокоиться о том, чтобы оно не привело к автоколебаниям в центре. Для этого необходимо, чтобы сигнал управления имел в ближайших окрестностях центра самые малые значения, а при большем смещении от центра нарастал бы по крутой зависимости. В переложении на степень сходства образов B пр , B ц , Bлв это означает обратное: в окрестностях центра она должна быть наибольшей и близкой единице, а далее к краям — резко бы уменьшалась. Достичь этого можно опять же соответствующей подсветкой или расширением обучаемой выборки — введением дополнительных двух ситуаций с предметом по обе стороны (вправо, влево) от центра вблизи него с уменьшенными или даже нулевыми сигналами управления. Говоря о подсветке, мы имеем в виду, что она должна быть постоянной и не требовать изменения в зависимости от ситуаций; было бы нелепо держать для этих целей человека, который подсвечивал бы фонариком то тут, то там. Динамика механизма поперечного перемещения при поиске. Исследования процесса поперечного перемещения головы робота при поиске заданного предмета не могут замыкаться только на системе управления: она значит многое, но не всё; ещё есть динамика всего робота — и она не менее важна. Представлять дело так, что её анализ может быть ограничен передаточными функциями линеаризованной системы, означало бы чрезмерное упрощение. Во-первых, робот на самом деле является сугубо нелинейной системой, некоторые нелинейности которой, может быть даже, недопустимо линеаризировать, например такие как сухое трение или наличие предела тягового усилия привода, а во-вторых, практика обучения робота поискам предметов убеждает нас в высокой нестабильности процессов, и теория линейных автоматических систем бессильна помочь в этом. Проведём для наглядности физическое отображение процесса выведения робота на цель. Но прежде перечислим все факторы, влияющие на процесс; к ним относятся: активная сила привода динамическое сопротивление Ey , F y , сухое трение R, инерция механизма и запаздывание системы управления. Характеристика активной силы E y (рис.3.12,а) формируется, как уже говорилось, в процессе обучения и имеет явно не теоретический вид; её другой особенностью является ограничение по величине силы Е — это такая особенность, которая не поддаётся линеаризации. Проинтегрируем активную силу по перемещению у и получим кривую (рис. 3.12,б) напоминающую впадину со склонами. Такое сравнение не случайно: интеграл силы равноценен потенциальной энергии Н. Инерцию манипулятора можно отобразить в виде шарика, перекатывающегося со склона на склон. Сухое трение R механизма изменит форму впадины так, что уклон главного склона (по которому скатывается шарик) уменьшится — он станет более пологим, а уклон противооклона увеличится — он станет более крутым; при этом произойдёт смещение нижней точки впадины назад по направлению движения шарика на величину yR (рис. 3.12,в). В результате форма впадины определится таким отображающим выражением: H Ey R sign y dy . Динамическое сопротивление механизма можно представить в виде вязкой жидкости, заполнившей впадину. И сухое трение, и динамическое сопротивление, очевидно, будут тормозить шарик, гася его колебания относительно положения цели y ц . Фактором, способствующим неустойчивости шарика, кроме его инерции, будет так называемое апериодическое запаздывание системы управления, характеризуемое постоянной времени Tосу . В нашем физическом отображении это запаздывание приводит к тому, что кривая впадины смещается вперёд по ходу движения шарика на величину yT (рис. 3.12,г), и самая нижняя точка впадины — точка равновесия — может оказаться на противоположной стороне от положения цели (если yT > y R ). Учитывая то, что смещение впадины относительно положения цели, вызываемое апериодическим запаздыванием системы управления, происходит только во время движения шарика (нет движения — нет смещения), то, остановившись в нижней точке, шарик в тот же момент оказывается на противосклоне (так как впадина сместилась назад), и он вынужден катиться в обратную сторону. Величина смещения впадины вперёд по ходу движения шарика определяется двумя параметрами: скоростью шарика и постоянной времени системы, причём в прямой зависимости. Поэтому всякое уменьшение скорости шарика и, особенно, постоянной времени Tосу будет способствовать стабилизации процесса, а при Tосу =0 колебания могут прекратиться вовсе. Рис. 3.12. Физическое отображение динамики привода поперечного перемещения Но об этом можно только мечтать. Реальность такова, что инерционность современных фоторезисторов, определяемая живучестью выбитых светом электронов, достаточно велика, и не приходится говорить о их нулевом апериодическом запаздывании. Напомним ещё раз, что постоянная времени Tосу обучаемой системы управления определяется в основном инерционностью фоторезисторов. Фазовые методы исследований и расчётов поперечного перемещения. Более точные по сравнению с теорией линейных автоматических систем исследования можно провести фазовыми методами /32/. Их достоинство в том, что они позволяют проводить конкретные исследования и расчёты на относительно простом инженерном уровне практически любых нелинейных систем без линеаризации. Обычным для них является использование экспериментальных рабочих характеристик, форма которых сильно отличается от аналитических кривых. Принципиальной особенностью фазовых методов является то, что они проводятся не во временном пространстве, а в разовом, сочетающем любые параметры между собой, кроме времени. Впрочем, время может быть также введено в оборот, но только наравне со всеми другими параметрами без предоставления ему статуса фона, на котором разворачиваются события. Такое отношение ко времени сродни обучаемым системам управления, в которых, говоря принятым языком, действуют исключительно фазовые соотношения. Примем за основу плоскость, осью абсцисс которой является поперечное перемещение y , а осью ординат — скорость того же перемещения y  (рис. З.13); такая плоскость наиболее распространена в фазовых методах. Изобразим на ней вое силовые характеристики, приведённые к конечной точке робота — к смещающемуся глазу, так что: динамического сопротивления; Ey представляет собой активную силу привода; F y — сила R y — сухое трение. Все эти силы могут быть получены без особого труда опытным путём, причём активная сила есть не что иное как сигнал управления обучаемой системы после завершения обучения. Экспериментальный характер кривых обязывает учитывать масштабы их изображений; более того, предполагая проведение исследований графическими методами, мы должны придать масштабированию особо важное значение, но об этом — чуть ниже. Аналитические кривые, если такие появятся, также могут быть использованы в фазовых расчётах и исследованиях, но на общих правах о экспериментальными. Фазовая траектория в плоскости y f y представляет собой кривую, оборачивающуюся вокруг начала координат по часовой стрелке. В основу методики графического построения траектории положим уравнение  my E F R, где m — масса всех движущихся частей робота, приведённая к его голове (инерция); головы. (3.56)  y — ускорение Рис. 3.13. Построение фазовой траектории  ) фазовой плоскости и обозначим её Возьмём произвольную точку траектории в квадранте ( y , y цифрой 1; определим положение траектории в окрестностях этой точки. Для этого уравнение (3.56) приведём к виду  y E m F m R . m Если допустить, что приведённая масса m робота постоянна, то отношения сил к ней можно воспринимать как сами силы в иной размерности или в определённом масштабе изображения на фазовой плоскости; отобразим это чертой над ними:  y E F R Разделим правую и левую части уравнения на скорость E. y :  y y E . y dy ; dt y Представим ускорение и скорость в виде:  y dy , dt и подставим их в полученное выражение; после сокращения на dt получим dy dy E . y (3.57) Выражение (3.57) является уравнением фазовой траектории и его можно отобразить на фазовой плоскости графически. В точке 1 (рис. 3.13) оно примет вид dy 1 dy E1 . y 1 (3.58) Для дальнейших рассуждений произведём некоторые графические построения. Опустим из точки 1 перпендикуляр на ось у; получим проекцию точки 1 . Отложим по ходу оси у (вправо) величину E 1 E 1 F 1 R 1 ; получим точку O 1 . Будем утверждать, что точка O 1 является мгновенным центром кривизны фазовой траектории в точке 1. На этом основании отрезок прямой (1-2), проведённый перпендикулярно радиусу ( O 1 -1), есть не что иное, как кусочек самой траектории. Являясь прямым, этот отрезок, естественно, отклоняется от действительной кривой траектории, и чем он длиннее, тем — больше отклонение. Допустим такую погрешность в построении фазовой траектории. Её можно несколько уменьшить, если изобразить отрезок (1-2) в виде дуги окружности с центром в точке O 1 и само собой разумеется: чем короче отрезок (1-2), тем он меньше отклоняется от траектории. Повторив все построения относительно точки 2, получим следующий отрезок фазовой траектории (2-3), и так далее. Вернёмся к доказательству нашего утверждения. Линия (А-2), проведённая перпендикулярно мгновенному радиусу кривизны ( O 1 -1) образует с осью у угол , тангенс которого, как известно, равен производной: tg dy (1). dy С другой стороны из подобия треугольников ( 1 A ) также равен ; тангенс этого угла определится как tg 1 O1 1 1 1 ) и (1 1 O1 ) следует, что угол ( 1 1 O1 E1 . y 1 Приравняв оба тангенса между собой, получим выражение (З.58); следовательно, оно справедливо.  ), мы При построении отрезка фазовой траектории (1-2), находящегося в четверти плоскости ( y ; y откладывали активную силу E 1 вправо от проекции 1 , то есть по ходу оси у, а силы сопротивления F 1 и R 1 влево, то есть вычитали из активной силы. Определимся с направлениями сил в других четвертях. Для этого воспользуемся проведённым выше отображением. Движение изображающей точки,  ) соответствует скатыванию шарика с левого склона образующей фазовую траекторию, в четверти ( y ; y (рис. 3.14); активная сила в этом случае разгоняет его, а силы F и R тормозят: E E F R . Переход изображающей точки через ось y  означает, что шарик в этот момент находится в нижней точке впадины; активная сила Е равна нулю, а силы сопротивления F и R направлены в противоположную сторону от векF R ; мгновенный центр кривизны траектории лежит на оси у слева тора движения, то есть влево: E от начала координат, поэтому траектория при переходе оси всегда имеет отрицательный наклон. В следующей четверти ( y ; y  ) движение изображающей точки траектории соответствует подъёму шарика на правый склон. В этом случае все силы, и в том числе активная, будут тормозить шарик: E E F R ; а это означает, что при построении их следует откладывать влево от проекции на ось у очередной точки траектории. В своей самой верхней точке на правом склоне шарик потеряет скорость ( y  =0), динамическое сопротивление и сухое трение исчезнут, а активная сила достигнет своего максимума и E . Фазовая траектория в этом случае будет всегда переходить ось у будет направлена влево: E перпендикулярно ей. Четверть ( y ; y  ) соответствует скатыванию шарика с правого склона впадины; активная сила E разгоняет шарик и будет направлена влево, а силы сопротивления F и R тормозят и должны быть E E F R . В самой нижней точке впадины отложены при построении траектории вправо: скорость достигает своего максимального значения, но активная сила при этом исчезает; поэтому на оси y : E F R , и любая траектория будет пересекать ось у под отрицательным наклоном.  ) движение изображающей точки отражает подъём шарика на левый В последней четверти ( y ; y E F R , то есть все три силы тормозят шарик, поэтому на фазовой склон. В этом случае E плоскости их необходимо откладывать вправо. В крайней левой точке траектории, соответствующей самому  уменьшается до нуля, силы сопротивления F и R исчезают и верхнему положению шарика, скорость y E E ; траектория пересекает ось у по перпендикуляру к ней. Далее всё повторяется.  f y поперечного перемещения Таков порядок графического построения фазовой траектории y головы робота при поиске. Построение можно ускорить, если воспользоваться средствами вычислительной техники. Выше мы говорили о том, что графическое построение требует определённого согласованного масштабирования всех параметров; если масштабы окажутся несогласованными, то результаты будут ошибочными. Начнём с оси абсцисс (рис. 3.13); по ней откладываем смещение у головы робота. Это смещение может в действительности измеряться тысячами миллиметров, но на оси у оно должно умещаться в пределах обычного листа. Нужен масштаб изображения смещения; обозначим его через m y ; в результате каждому смещению головы робота у будет соответствовать на оси абсцисс отрезок изображения y y my . Также каждой скорости смещения y будет соответствовать на оси ординат отрезок  y y my , где m y — масштаб скорости. И, наконец, каждая из учитываемых сил E , F и R должна быть отображена на соответствующей оси фазовой плоскости в масштабе E R E m E;  F F m E; R m E;  E E m мм ; m y мм мм ; m мм с m E: E Размерности масштабов: my E мм . мм с 2 Согласование масштабов начнём с выражения (3.58); изобразим его в малых приращениях: y 1 2 y1 2 Приращение y 1 2 E1 . y 1 представляет собой на фазовой плоскости отрезок (2-В), а приращение y 1 2 — отрезок (1-В); в результате получим 1 O1 . 1 1 2 B 1 B Все указанные отрезки соответствуют определённым величинам, отложенным на плоскости в своих масштабах: y 1 2 my E1 mE . y 1 my y 1 2 my Отсюда: m m2y y 1 2 y 1 E1 y1 2 E . my Из геометрии построения следует: y 1 2 y1 2 tg ; E1 y 1 tg . В результате получим: m m2y E my Таково соотношение масштабов изображения всех величин; масштаб как к m . E (3.59) в равной степени относится E , так и ко всем другим силам, и справедлив при откладывании этих сил по обеим осям y и y . Выбранная нами фазовая плоскость y f y исключила из оборота время, однако его можно восстановить косвенным путем; это иногда необходимо делать, например для учета апериодического запаздывания процесса, для построения привычных временных характеристик или для иных целей. Для восстановления времени воспользуемся снова выражением (3.56) и представим его в виде dy dt E . Отсюда: dt dy . E В приращениях отрезка траектории (1-2) (рис.3.13) это выражение предстанет как t1 2 Из подобия треугольников ( 1 y 2 B 1 O1 . O1 1 ) и ( 1 2 B ) получим: Следовательно, отрезок времени траектории на плоскости y 1 2 E1 f y 2 B 1 2 1 O1 1 O1 tg 1 2 . t 1 2 , за который изображающая точка проходит по фазовой при выбранных масштабах отрезок (1-2), равен тангенсу угла отклонения мгновенного радиуса кривизны траектории: t1 2 tg 1 2 . (3.60) Зависимость (3.60) позволяет определить время прохождения изображающей точкой любой части фазовой траектории или, что одно и то же, головой робота — любого соответствующего участка действительной траектории; это время определяется простым суммированием составляющих отрезков времени. Таким же образом можно определить период поперечных колебаний головы робота и их частоту, как обратную величину. Следует, однако, иметь в виду, что подставлять в выражение (3.60) транспортирный угол очень рискованно; более правильным является представление тангенса угла в виде отношения величин y 1 2 и E 1 в абсолютных значениях, проверяя при этом, чтобы отношение размерностей этих величин давало размерность времени, то есть секунды. По виду фазовых траекторий при некотором навыке можно судить о поведении объекта с обучаемой системой управления, в нашем случае — робота. На рис. 3.14 приведены типовые траектории; их определяющим параметром является рабочая характеристика активной силы E y ; если она достаточно крутая (рис. 3.14,а), то фазовая траектория включает много оборотов и слабо стремится к началу координат, то есть к положению цели. В переложении на физическое отображение (3.14) это означает, что шарик будет совершать слабозатухающие колебания, перекатываясь со склона на склон, а применительно к роботу, совершающему поиск, можно сказать так: раскачиваясь из стороны в сторону в поперечном направлении, робот едва ли сможет зафиксировать цель и проскочит мимо неё, двигаясь вдоль полосы поиска. Силы сопротивления в данном примере (рис. 3.14, а) приняты такими: сухое трение составляет 5% от максимального значения активной силы, а динамическое сопротивление принята квадратичным в зависимости от скорости смещения с коэффициентом 0,01. В действительности силы сопротивления могут оказаться ещё слабее, и в таком случае процесс станет более неустойчивым, ведь его успокоение полностью зависит от этих сил. На рис. 3.14,6 активная сила E y более пологая, сухое трение составляет уже 6 % от её наибольшего значения, а коэффициент квадратичности динамического сопротивления увеличен по сравнению с предыдущим случаем в четыре раза и составляет 0,04. В результате фазовая траектория более выражение стремится к началу координат, но говорить об удовлетворительном поиске всё равно ещё не приходится: поперечные колебания головы робота сохранились, и они не позволят «схватить» цель. Рис.3.14. Фазовые траектории поперечного перемещения при поиске: а) слабое затухание; б) более ускоренное затухание колебаний; в) сильное затухание колебаний Более приемлемыми выглядят фазовые траектории на рис. 3.14, в: все они ограничиваются одним оборотом. Достигнуто это за счёт целого ряда мер. Во-первых, активная сила принята ещё более пологой, сухое трение доведено до 15 %, а коэффициент квадратичности динамического сопротивления принят равным 0,05. Во-вторых, искусственно расширена нулевая область активной силы; зона остановки, таким образом, оказалась довольно широкой — на рис. 3.14, в она выделена жирной линией. Как всего этого можно достичь на практике? Что касается увеличения сил сопротивления, то здесь способы — обычные: чтобы тормозить, напрмер, трением, особой изобретательности не требуется. Сложнее — с рабочей характеристикой E y . Если расширение нулевой области активной силы — дело, в общем-то, не очень трудное, то с уменьшением наклона характеристики не всё так просто Начнём с нулевой области. Введём в обучаемую выборку ещё две целевых ситуации со смещением положения искомого предмета на величину y0 в обе стороны от целевой позиции y ц ; сигналы управления в них должны быть также нулевыми. Тогда зона остановки определится тем, что в ней сухое трение — больше или, по крайней мере, равно активной силе: R E . Всё, казалось бы, хорошо, но одно плохо: при этом усложняется захват искомого предмета — та процедура, ради которой и осуществляется поиск. В самом деле: схват робота (пасть головы) может остановиться в такой точке над предметом, что не сможет его потом захватить. Другими словами, расширение зоны остановки снижает точность позиционирования, хотя, с другой стороны, способствует стабилизации поперечного привода. Что же касается наклона рабочей характеристики в окрестностях целевой позиции, то следует помнить, что он формируется автоматически в процессе обучения, и регулировать его не очень просто. К тому же при этом возникает трудноразрешимое противоречие: чтобы ускорить поперечное перемещение и повысить надежность поиска, желательно увеличить наклон, а для того, чтобы стабилизировать процесс — нужно уменьшить. Если же всё-таки будет принято решение об уменьшении наклона рабочей характеристики активной силы, то достичь этого можно, во-первых, определённой подсветкой искомого предмета в процессе обучения, такой, которая размывала бы образ предмета, а во-вторых, введением постоянных колебаний глаза с малой амплитудой — так называемого тремора. Более подробно эти колебания и их влияние на поиск будут рассмотрены ниже, а пока мы говорим только о том, что о их помощью можно также существенно размыть образ и уменьшить активные силы на подходе к цели. Апериодическое запаздывание поперечного привода. Возможны и иные способы стабилизации привода поперечного перемещения головы робота при поиске, и некоторые из них хорошо представлены в той же линейной теории автоматического управления, но прежде чем приступить к стабилизации, стоило бы хорошенько изучить дестабилизирующие факторы. Одним из таких факторов является апериодическое запаздывание; оно отражено в передаточной функции Wосу структурной схемы обучаемой системы управления робота со зрением (рис. 3.11,6) и характеризуется постоянной времени Tосу . Выше уже говорилось о том, что апериодичность обучаемой системы возникает, в основном, по вине фоторезисторов; совсем незначительно она усиливается за счёт инерционности усилителей, стоящих на выходе из мозга; сам же мозг действует в этом смысле безукоризненно — практически мгновенно. Зная, что апериодическое запаздывание обучаемой системы — может быть, самая главная причина нестабильности поперечных перемещений, предлагаем отнестись к нему более внимательно. Чтобы оценить влияние апериодического запаздывания на процесс, учтём его при построении фазовых траекторий, но сначала уточним сам порядок построения. Каждой точке фазовой плоскости, отражающей текущий момент, соответствует своя координата у и своё значение активной силы E T , снятое с силовой характеристики, но действительное значение силы E Д в указанной точке будет несколько иным. Дело в том, что сигнал управления обучаемой системы изменяет свою величину не мгновенно, а по апериодическому закону или, как иногда говорят, по экспоненте; поэтому изменение действительной силы E Д не будет успевать за ростом или падением текущей силы E T , и всё время E Д будет отставать. Если на каком-то участке фазовой траектории текущее значение незначительно, то указанного запаздывания не будет, и имеет наклон, там действительная сила E T постоянно или изменяется совсем E Д = E T . Но там, где кривая характеристики E y E Д будет принимать какое-то значение, располагающееся в интервале между неким предыдущим и текущим; и чем круче окажется наклон, тем сильнее будут разниться величины E Д и E T . Для того, чтобы определить порядок построения фазовой траектории с учётом сказанного, произведём следующие рассуждения. Вернёмся от текущего момента назад на некоторый отрезок времени, равный t и будем считать, что в начале этого отрезка действительное значение активной силы было равно E П ; это — t сила должна была бы равняться соответствующему предыдущая сила. В конце отрезка времени значению E T , но из-за апериодичности E П не сможет измениться до E T и достигнет только какого-то значения E Д . Мы знаем, что изменение силы будет происходить по экспоненте; следовательно, за время t её изменение составит только часть, определяемую выражением 1 e где T t T , Tосу ; в абсолютном значении это будет равно EП ET 1 e t T . Здесь рассматривается спуск шарика с левого склона; ему соответствует постоянное уменьшение активной силы. В результате предыдущая сила E П уменьшится на указанную величину, так что действительная сила E Д текущего момента определится как EД EП EП ET 1 e Это выражение можно изобразить в более компактном виде: t T . EД ET EП ET e t T . (3.61) Полученная действительная сила для последующего отрезка времени, очевидно, окажется предыдущей. Так, переходя от одного отрезка к другому, можно постепенно определить соответствующие им значения действительной силы. Если при построении фазовой траектории принимать временной шаг t всегда t T одним и тем же, то величина e окажется постоянным простым числом меньше единицы. Графически при построении фазовой траектории неизменному шагу t будет соответствовать неизменный угол (рис. 3.13). Для того, чтобы убедиться в справедливости выражения (3.61), проверим его в крайних состояниях. Начнём с t =0, при этом E Д окажется равной E П , то есть сила никак не успеет измениться; это естественно. Если же t = , то действительная сила окажется равной текущей; и это понятно: апериодический процесс за такое время закончится полностью, и никакого запаздывания сил не будет. Конечно, принятое значение t = — несколько утрировано; известно, что экспонента почти полностью выходит на свой предел уже при соотношениях t 34 T . Последний вывод не должен вводить нас в заблуждение относительно того, что достаточно выбрать при построении фазовой траектории угол относительно большим, и можно исключить апериодическое запаздывание и всё то негативное, что связано с ним в реальном процессе; к сожалению, реальность никак не отреагирует на наши графические построения. Ошибка подобного заключения состоит в том, что таким образом допускается недопустимое увеличение шага построения, то есть угла ; этим самым реальный процесс искажается на столько, что можно ожидать в результате чего угодно. Крайние состояния выражения (3.61) не очень характерны; посмотрим, что даёт оно в приемлемых условиях. Допустим, сетчатка глаза робота собрана из фоторезисторов типа СФЗ-1, постоянная времени которых Т =0,06 сек. Приблизительно такой же будет постоянная времени всей обучаемой системы управления. Пусть частота поперечных колебаний головы робота составляет 5 Гц; ей соответствует период колебаний 0,2 сек. За это время траектория на фазовой плоскости совершит полный оборот. Если период разбить на 20 одинаковых по времени участков ( = 360°/20 == 18°), то каждый из них окажется равным t = 0,2/20 = 0,01 сек. При выбранных значениях получим: 1 e t T 1 e 0, 01 0, 06 0,1563 . t = 0,01с успеет измениться только Это говорит о том. что предыдущая сила E П , за время приблизительно на одну шестую перепада сил, возникшего на данном отрезке, то есть будет наблюдаться явно выраженное запаздывание действительной силы. Выражение (3.61) закольцовано: предыдущая сила текущего отрезка времени является действительной силой предыдущего отрезка времени является действительной силой предыдущего отрезка; и, как будто, у этого процесса нет начала, в котором действительная сила равнялась бы текущей. Это так, и тем не менее за начало можно принять очередную крайнюю точку положения, в которой фазовая траектория пересекает ось у; в этих точках голова робота задерживается дольше всего (они соответствуют крайним верхним положениям шарика на склонах, где он останавливается), и с некоторым допущением в них можно принять EД = E T . После того, как мы определили порядок построения фазовых траекторий о учётом апериодического запаздывания, продемонстрируем его — этот порядок — на конкретном примере. Примем исходные данные такими же, как в случае с фазовой траекторией, изображённой на рис. 3.16,6, то есть ту же рабочую характеристику активной силы E y , то же динамическое сопротивление F y с коэффициентом R y , составляющее 6 % от наибольшего значения активной силы. Кроме того примем постоянную времена системы Т = 0,06 сек, и временной шаг построения t = квадратичности 0,04 и то же сухое трение 0,025 сек; при этих условиях получим e EД t T e ET 0 , 025 0 , 06 EП 0,657 , а выражение (3,61) примет вид E T 0,657 . Строя шаг за шагом фазовую траекторию и откладывая одновременно соответствующие значения действительной активной силы, получим в результате фазовый портрет рассматриваемого примера (рис. 3.15), Сравнивая его с рис. 3.14,б, видим, что, если на прежней фазовая траектория, худо-бедно, стремилась к центру, и можно было ожидать постепенного затухания колебаний, то на полученном портрете фазовая траектория раскручивается до некоторого предельного цикла (предельным циклом принято называть замкнутую траекторию), и ожидать затухания не приходится. Кривая действительной активной силы существенно отличается от статической рабочей характеристики EД y E T y и её отличие состоит в основном в том, что она имеет явно выраженный гистерезисный вид; кривой предельного цикла соответствует замкнутая петля гистерезиса. Суммируя время отрезков t , можно получить период колебаний; в рассмотренном примере он равен 0,5 сек, а зная масштаб m y , можно определить размах колебаний и амплитуду предельного цикла. По отдельным отрезкам фазовой траектории есть возможность восстановить колебания в привычном временном виде: y f t (рис. 3.15, справа внизу). Рис.3.15. Фазовая траектория поперечного перемещения при поиске с учетом апериодического запаздывания Полученный фазовый портрет отражает действительный процесс, можно сказать, без искажений: все параметры приняты такими, какие они есть на самом деле. Погрешности могли возникнуть только от неточности графического построения; в частности, от выбора увеличенных отрезков t (вспомним, что, чем меньше отрезки, тем точнее построение), или ещё от того, что была принята постоянной инерция робота, то есть приведённая масса m; в действительности она может изменяться в зависимости от положения робота. Последнюю погрешность, если она существует, можно уменьшить или даже устранить совсем, произведя корректировку силовых характеристик; для этого необходимо разобраться в кинематике робота и рассчитать величину коррекции в зависимости от смещения у; по отношению к характеристикам E y и R y сделать это нетрудно, а динамическое сопротивление F y придётся сохранить в прежнем виде. Впрочем, указанные корректировки не могут привести к серьёзным изменениям фазовых траекторий, и поэтому их лучше не производить. Анализ фазового портрета (рис. 3.15) позволяет выявить общие закономерности колебаний поперечного перемещения головы робота при поиске. Очевидно, большим отклонениям у будут соответствовать ограничение по величине активной силы (та нелинейность, которую нельзя устранить) и резкое квадратичное возрастание динамического сопротивления; в результате колебания с большим размахом склонны будут затухать до выхода на тот же предельный цикл. С другой стороны при малых отклонениях у в той области, где активная сила E y соизмерима с сухим трением R y , будет наблюдаться отчётливое затухание колебаний вплоть до полной остановки. В натуре это выглядит следующим образом. Если предает оказался на дальнем краю поля зрения, то голова робота с глазом устремляется к нему, набирает скорость, проскакивает его и начинает колебаться вправо-влево относительно цели с некоторой постоянной амплитудой, меньшей первоначального отклонения. Если же предмет окажется недалеко от центра поля зрения глаза, то всё равно возникнут те же самые колебания с той же амплитудой, но в этот раз она будет больше начального отклонения. И только тогда, когда предмет возникнет в поле зрения совсем рядом с центром, смещения будут носить хотя и колебательный, но центростремительный затухающий характер. Итак, обратим наше внимание на то, что любые первоначальные отклонения предмета от центра поля зрения, кроме самых малых, приводят к автоколебаниям головы робота, причём амплитуда этих колебаний всегда постоянна; это — главный вывод. (Автоколебаниями называют такие колебания, которые поддерживаются за счёт их подпитки внешней энергией, в нашем случае — активной силой.) Основной причиной незатухающих колебаний является апериодическое запаздывание системы управления; его влияние хорошо видно на примере построения фазовой траектории (рис. 3.15). Интересным моментом является то, что существует такое граничное отклонение y Б , исходя из которого фазовая траектория может пойти с равной вероятностью по одному из двух направлений: либо на раскручивание до предельного цикла, либо на затухание до нуля; такое раздвоение траектории называется бифуркацией. Точечный преобразования. Завершим рассмотрение фазовых методов расчета и исследований так называемыми точечными преобразованиями; они применяются, как правило, для геометрической интерпретации состояний исследуемых систем, но иногда и для непосредственных расчётов. Суть точечных преобразований заключается в следующем. Если взять произвольную линию и пересечь ею закручивающиеся спирали фазовой траектории, то можно подучить последовательность точек, каждая из которых является последующей к некоторой предыдущей и предыдущей к следующей; удобнее всего в качестве такой секущей линии принимать одну из полуосей фазовой плоскости. Зависимость координат последующих точек от координат предыдущих отражает в полной мере исследуемый процесс и называется функцией исследования; эту функцию можно изобразить на графике исследования. Рассмотрим конкретный пример. Примем в качестве секущей линии на фазовой плоскости рис. 3.14,а полуось (- y ) и обозначим последовательность пересечений этой линии фазовой траекторией цифрами 1,2,3,4,5 и так далее. Функцию последования отразим на плоскости с осями: абсцисса — координата предыдущей точки y пр ордината — координата последующей точки y пс . Замерим координаты всех отмеченных на рис. 3.14,а точек и построим саму функцию (рис. 3.16, а). Ступенчатая траектория, ограниченная функцией последования и биссектрисой координатного угла, отображает в итерационном виде фазовую траекторию; в нашем примере (рис. 3.16,а) ступенчатая траектория устремляется к началу координат и свидетельствует о затухании колебаний головы робота. Рис. 3.16. Графики точечных преобразований Более сложный график точечных преобразований представлен на рис. 3.16.б; он отражает тот же процесс, но с учётом апериодического запаздывания. Функция последования представляет собой сложную кривую, дважды пересекающую биссектрису координатного угла. Первое пересечение с абсциссой y A образует аттрактор, к которому устремляются ступенчатые траектории с обеих сторон; это — предельный цикл, а y A — его амплитуда. Второе пересечение с абсциссой y Б образует бифуркацию; ступенчатые траектории от него, наоборот, разбегаются. Выше было сказано, что функции последования извлекаются из фазовых траекторий; в общем это правильно, но в принципе их можно получить также иными способами, в частности путём снятия экспериментальных характеристик. В нашем примере с роботом последний путь, пожалуй, даже проще. Так или иначе эксперименты проводить надо, хотя бы для того, чтобы снять действительные силовые характеристики, чтобы на их основе построить семейство фазовых траекторий. А можно, минуя этот процесс, заснять сразу же сами функции последования, задавая для этого различные исходные положения предметов в поле зрения и фиксируя последовательные отклонения головы робота. Так, пожалуй, даже проще. На этом исследования поперечных перемещений поиска закончим. Отметим лишь, что поворот головы робота вокруг оптической оси глаза до совмещения с определённым положением искомого предмета в плане его динамики ничем от поперечного перемещения не отличается; все рассмотренные выше методы применимы к нему в полной мере. 4.2. Продольные перемещения поиска Продольное перемещение происходит вдоль оси х; осуществляет его отдельный привод. Простейшая обучаемая выборка продольного перемещения состоят всего из трёх ситуаций: в целевой, когда искомый предмет расположен в центре поля зрения глаза и определённо сориентирован, сигнал управления должен равняться нулю: E ц =0; в двух других дополнительных, в одной из которых в поле зрения — чистый однообразный фон, а в другой — любой предмет (лучше — похожий на искомый), сигналы управления должны быть больше нуля и всегда положительными: E ф >0; E д р >0. Желательно, чтобы сигнал управления в фоновой ситуации был несколько больше: E ф > E д р . Такая обучаемая выборка в принципе обеспечивает поиск, но не гарантирует его безотказность. Стоит только в борьбе с поперечными колебаниями снизить скорость поперечного перемещения, так сразу возникает проскакивание цели, особенно в случаях, когда искомый предмет оказывается на самом краю поля зрения; об этом уже говорилось. Пока нарастает сигнал управления привода поперечного перемещения, пока привод набирает свою скорость и пока он смещает глаз к предмету, привод продольного перемещения успевает сместить глаз дальше предмета, то есть проскакивает, и поиск не состоится. Для устранения этого дефекта можно предложить более тщательный подбор соотношения величин сигналов обоих приводов: скорость поперечного перемещения увеличить до предела, а скорость продольного — снизить до гарантированного поиска. Такое решение можно было бы считать наиболее удачным, если бы не то обстоятельство, что продольные и поперечные перемещения нужны роботу не только для поиска, но и для других целей, и тогда установленное соотношение скоростей приводов может оказаться неприемлемым. По той же самой причине нельзя считать выходом из положения согласование сигналов приводов в движении, то есть при росте сигнала поперечного привода уменьшать сигнал продольного, может быть даже вплоть до полной остановки: а вдруг в какой-то ситуации потребуется, чтобы оба сигнала были максимальными. Другим неприятным моментом при поиске является так называемое сползание глаза с цели, когда он, хотя и притормаживает на ней, но не до нуля, и, перевалив через неё, уходит дальше. Так обычно ведёт себя глаз при приближении к постороннему предмету, и, чем больше тот похож на искомый, тем сильнее притормаживание; и всё-таки совсем глаз в этом случае не останавливается. И это — хорошо, но только не по отношению к искомому предмету. Прежде, чем принимать какие-либо решения по устранению указанных нежелательных явлений, попытаемся поглубже разобраться в самом процессе продольного перемещения при поиске. Представим сигналы управления привода во всех ситуациях обучаемой выборки в разделённом виде: в целевой ситуации: Eц = Eц ; в ситуации с однообразным фоном: Eф > Eф ; в ситуации, когда в поле зрения — любой посторонний предмет: E др > E др . Если по-прежнему считать, что в ситуации с однообразным фоном все возбуждения рецепторов b ф равны между собой (или близки к этому), то из самого определения слагаемых сигнала управления m Eф 1 m bф c bф m Eф 1 c ; 1 m bф c bф c ,— 1 следует, что E ф может быть больше E ф только при условии m m c c . 1 (3.62) 1 А это в приложении к оптической обучаемой системе управления означает, что плюс-диапозитив, управляющий продольным перемещением головы робота, всегда светлее минус-диапозитива; одного этого достаточно, чтобы обеспечить такое перемещение. Представим соотношение сигналов управления во всех ситуациях обучаемой выборки, оговоренные в начале, в разделенном виде: Eф Eф Eд р Eд р Eц Eц 0. Выражая слагаемые сигналов управления через коэффициенты приведения (3.52), получим m S c , Bф c m 2 S c , Bф 1 m S c , Bд р 2 c 1 m S c , Bц 2 c 1 S C, B в соответствии с 2 c 1 m S c , Bд р 2 c 1 m S c , Bц 2 c 0. 1 Третья разность, равная нулю дает m 2 c S c , Bц 1 m S c , Bц 2 c . (3.63) 1 Вторая разность больше нуля: m S c , Bд р m 2 c S c , Bд р 1 2 c 0, — 1 из нее следует m S c , Bд р S c , Bд р c 1 m c 1 Первая разность больше второй, следовательно: m S c , Bф и тогда: c 1 2 m S c , Bф c 1 2 0, — 2 2 . (3.64) m S c , Bф S c , Bф c 1 m c 2 2 . (3.65) 1 Сводя условия (3.63), (3.64) и (3.65) вместе, получим S c , Bф S c , Bд р S c , Bц S c , Bф S c , Bд р S c , Bц . (3.66) Соотношения коэффициентов приведения, представленные в условиях (3.66), отражают работоспособность привода продольного перемещения в принципе, но не затрагивают качественную сторону его работы. Преломляя все полученные условия к оптической системе, можно сделать такие умозаключения. Из условия (3.63) с учетом (3.62) следует, что, несмотря на то, что плюс-диапозитив в общем и целом прозрачнее минус-диапозитива, центр его, то есть та зона, которую занимает искомый предмет, несколько темнее, чем центр минус-диапозитива при условии. что искомый предмет ярче фона. Условие (3.64) уточняет предыдущее заключение: центр плюс-диапозитива не просто темнее, а избирательно темнее, то есть избирательно только к более ярким пятнам образа искомого предмета. Результирующее условие (3.66) сводит все эти умозаключения воедино. Динамика продольного перемещения. При продольном перемещении действует тот же самый набор сил, что и при поперечном, но только это — свои силы: E x — активная сила привода продольного переме-  — динамическое сопротивление; R x — сухое трение; m — инерция, то есть приведённая к щения; F x голове робота масса движущихся в продольном направлении частей. И снова допускаем, что все они получены экспериментальным путём и не выглядят как теоретические. В фоновой ситуации скорость продольного перемещения, очевидно, должна быть постоянной; следовательно, активная сила привода в ней должна уравновешиваться силами сопротивления: Eф x Fф x Rx . На силовой характеристике (рис. 3.17,а) участки с фоновыми активными силами E ф x выглядят как прямые, параллельные оси х; величина положительного смещения этих сил соизмерима с величиной отрицательного смещения сухого трения R x . При размещении искомого предмета вблизи центра поля зрения активная сила уменьшается и достигает нудя при совмещении предмета с центром. Посторонние предметы также вызывают уменьшение активной силы, но не до нуля. Представим сначала динамику продольного перемещения в виде физического отображения и воспользуемся для этого отображающим преобразованием, которое было применено при поперечном перемещении; в данном случае оно примет вид H Ex R sign x dx . Рис. 3.17. Физическое отображение динамики привода продольного перемещения. Согласно этому отображению продольное перемещение выглядит как склон одного направления с выровненной площадкой в центре, по которому скатывается шарик (рис. 3.17,б). При отсутствии сухого трения уклон склона — очень крутой, а площадка в центре поля зрения (х=0) — горизонтальная (кривая 1). Скатывающийся шарик, очевидно, легко преодолеет эту площадку и укатится дальше, то есть глаз не задержится на искомом предмете и проскочит его. Сухое трение, соизмеримое с активной силой, резко уменьшает уклон склона и создаёт противоуклон центральной площадки (кривая 2); преодолеть этот противосклон шарику не так-то просто, но это возможно. Если же добавить к сухому трению ещё динамическое сопротивление в виде вязкой жидкости, то остановка шарика в центре становится более вероятной; и всё будет зависеть от инерции этого шарика (от его массы): если инерция окажется большой, то шарик перевалит через противосклон и укатится дальше; если инерции на это не хватит, то шарик остановится. В последнем случае колебания шарика относительно центра невозможны, так как противосклон будет менять свою ориентацию в зависимости от направления движения шарика. Апериодическое запаздывание, игравшее решающую роль в поперечных перемещениях, в данном случае влияет на динамику не столь активно; тем не менее оно также влияет на процесс отрицательно, уменьшая уклон противосклона (кривая 3). Все эти рассуждения переложимы к продольным перемещениям головы робота. Если она, приближаясь к искомому предмету, имела относительно небольшую скорость, то вполне возможно, что задержится в положении пели; но есть вероятность того, что притормаживание при приближении к искомому предмету будет неполным, и тогда достаточно глазу в силу инерции механизма продвинуться чуть дальше, как снова начнёт нарастать скорость, и он окончательно покинет цель; поиск не состоится. Тем более он не состоится в том случае, если образ искомого предмета будет искажён или вместо него окажется посторонний предмет. Процесс притормаживания продольного движения на цели хорошо отображается с помощью фазовых  ) (рис. 3.18). Здесь учтена все те параметры, что и при поперечном траекторий на плоскости ( x ; x перемещении, но только применительно к приводу продольного. Так E x — силовая характеристика этого  — его динамическое сопротивление; R x — его сухое трение. Черта над параметрами привода; F x означает деление на приведённую массу головы робота при продольном перемещений. Все силовые характеристики могут быть полностью экспериментальными. Координата x ц , — положение цели — x Б отмечены конечные точки бифуркационных траекторий, выделенных на рисунках штриховкой; в положении x x Б активные силы равны силам сопротивления. Бифуркаискомого предмета. Координатами ционная фазовая траектория характерна тем, что она с равной вероятностью может завершиться либо полной остановкой, либо сползанием с цели. Все траектории, располагающиеся ниже неё, гарантируют остановку, то есть успешный поиск; все траектории выше неё после притормаживания на цели уходят дальше — поиск провалился. Рис. 3.18. Фазовые траектории продольного перемещения На рис. З.18,а выбрана более крутая силовая характеристика E x по сравнению с той же характеристикой на рисунке б); другими словами можно сказать, что на рис. 3.18,б цель более размыта и занимает большее пространство, чем на рисунке а). (Размывание зрительного образа — явление положительное и будет рассмотрено особо.) Все другие силовые характеристики на обоих рисунках одинаковы. Размером x ф выделены фазовые траектории, имевшие на подходе к цели постоянную скорость — назовём её фоновой; на однообразном фоне скорость продольного перемещения глаза в конце концов стабилизируется — ей соответствует равенство активной силы и сил сопротивления: Eф Fф R . Так вот, во втором случае (рис.3.18,б) фазовая траектория с фоновой начальной скоростью завершается полной остановкой, в то время как на рисунке а) она притормаживает на цели не до нудя и в конце концов уходит дальше, увеличиваясь снова в скорости. Считая фоновую скорость на подходе к цели наиболее вероятной, можно сделать вывод о том, что силовая характеристика на рис. 3.18, а выбрана неудачно. Следовательно, при обучении робота поиску нужно хорошо продумать все моменты, такие как положение искомого предмета в целевой ситуации, распределение освещения поля зрения, уровень фонового сигнала управления E ф и может быть даже придётся изменить состав ситуаций в обучаемой выборке. На первых порах было бы целесообразным совмещение экспериментов обучения с построением и анализом фазовых траекторий, благо что при некотором навыке это не отнимает много времени. Фазовые траектории второго случая (рис. 3.18, б) выглядят более предпочтительными, несмотря даже на то, что при их построении было учтено апериодическое запаздывание системы управления. В основу расчётного определения действительной активной силы EД при графическом построении фазовых траекторий с учётом апериодического запаздывания было положено выражение (3.61), которое в равной мере применимо как в случае поперечных перемещений, так и при продольном. Исходными параметрами были приняты: фоновая скорость x ф = 200 мм/сек; габарит искомого предмета L = 200 мм; постоянная времени Т = 0,06 сек. Время прохождения глазом всего предмета на скорости x ф определится в одну секунду; действительное время из-за притормаживанвя окажется большим. Исходя из всего этого, примем временной отрезок построения фазовых траекторий равным t = 0,06 сек. Тогда выражение (3.61) примет вид EД ET EП E T 0,3679 . E T — текущее значение активной силы, снятое со статической характеристики; E П — предыдущее значение активной силы, равное действительному значению EД , посчитанному на Напомним, что предыдущем шаге построения. В общем и целом апериодическое запаздывание ухудшает процесс поиска как при поперечном перемещении, так и при продольном, только при продольном ухудшение, может быть, не столь заметно. Апериодическое запаздывание сдвигает все фазовые траектории (рис. 3.18) вправо, то есть по ходу движения робота; а это означает, что располагавшиеся до бифуркационной границы траектории на самом деле (с учётом апериодичности) проходят уже за ней, притормаживают не до конца и уходят дальше с увеличением скорости, свидетельствуя о несостоявшемся поиске. За основные мы приняли фазовые траектории, начинавшиеся с фоновой скорости x ф . Другие траектории начинаются с иных скоростей, возникновение которых объяснять едва ли стоит: реальный процесс поиска может быть усложнён самыми непредвиденными обстоятельствами настолько, что возникнут скорости и больше, и меньше x ф . Если рассматривать только те фазовые траектории, которые заканчиваются на оси абсцисс, то есть полной остановкой головы робота, то, как видно из рис. З.18, все они, как правило, выходят на ось х правее центра x ц , что свидетельствует о том, что глаз робота останавливается не над серединой искомого предмета, а чуть проскакивает её. Объяснять это едва ли стоит — и без того понятно, — но учитывать такое явление очень желательно. Если схват робота (его пасть), совмещённый с глазом, зависнет не над серединой предмета, а вектором смещении, то захватить его будет нелегко. Лучше, очевидно, было бы располагать схват чуть позади глаза, но только в том случае, если направление продольного перемещения не меняется на обратное. Впрочем, обстоятельства поиска могут быть разными, и торопиться с принятием однозначных решений не стоит. Противоуклон продольного перемещения. Выше мы уже говорили о противоуклоне, создаваемом сухим трением; он способствует торможению шарика в физическом отображении динамики привода продольного перемещения (рис.3.17,б). Там же указывалось, что противосклон меняет свою ориентацию в зависимости от направления движения. Поясним: противосклон от сухого трения виртуален (есть такой термин в эфирной физике): он как бы есть и его как бы нету; пока глаз движется в продольном направлении, он возникает; стоит только глазу остановиться, и он исчезает. Поэтому в обратном направлении шарик под действием такого виртуального противоуклона смещаться не может, а надо бы. Желательность противосклона объясняется тем, что искомые предметы могут зрительно отличаться друг от друга, и это отличие делает их неузнаваемыми. Если даже в процессе обучения в целевой ситуации использовать наиболее характерный предмет или даже несколько различающихся предметов, то и тогда найдутся в действительности такие, которые всё же будут отличаться ещё больше. Обученная система, очевидно, будет выдавать нулевой сигнал привода продольного перемещения только в том случае, если образ искомого предмета будет абсолютно схож с эталонным, использованным при самом обучении; во всех иных случаях сигнал управления будет больше нуля, а это — такая помеха при поиске, которая делает его безрезультатным. Нужна лунка, да такая, в которой, образно говоря, мог бы застрять любой искомый предмет (в самом деле застревает глаз). Рассмотрим одно из предложений: введём в обучаемую выборку еще одну сопредельную с целевой ситуацию о искомым предметом, смещённым от центра поля зрения по ходу на расстояние x , и с сигналом управления, небольшим по величине, но обратным по знаку по отношению к E ф : Eсп < 0. Сформировавшаяся в процессе обучения силовая характеристика будет иметь в принципе такой вид, который представлен на рис. 3.19,a. Воспользовавшись простейшим отображающим преобразованием: H E x dx , — получим физический склон (рис. 3.19,б). За физическое отображение головы робота, как обычно, примем шарик. В отображающем преобразовании на этот раз не учтено сухое трение; это сделано для того, чтобы получить склон, так сказать, в натуральном виде, без всяких виртуальных уклонов, а сухое трение и динамическое сопротивление будем иметь в виду, зная, что то и другое тормозят движение. Полученный склон (рис.3.19,б) образует в районе цели ( x x ц ) лунку, как место притяжения шарика. Нетрудно предположить, как он будет вести себя в этой лунке. Варианты такие: 1) по инерции шарик переваливает через край лунки и скатывается дальше по склону; 2) шарик совершает в лунке незатухающие колебания (автоколебания); 3) постепенно колебания шарика в лунке затухают; 4) шарик останавливается в лунке без колебаний; последний вариант — самый предпочтительный. Очевидно, поведение шарика в лунке определится соотношением таких факторов: с одной стороны — активной силой, инерцией самого шарика и его скоростью на подходе к лунке, а с другой стороны — силами сопротивления. Рис. 3.19. Физическое отображение динамики привода продольного перемещения с противосклоном Координатой x x Б обозначена на рис. 3.19,б позиция бифуркации: оказавшись в этой точке без скорости, шарик с равной вероятностью может либо вернуться назад в лунку, либо скатиться дальше по склону. Дальнейшие наши исследования сведём к выбору величин введённых дополнительных параметров Eсп и x . Сигнал управления Eсп следует выбирать, очевидно, из тех соображений, что глаз, с одной стороны, не должен проходить мимо искомых предметов, если они даже несколько различаются между собой по внешнему виду, а с другой стороны, не должен останавливаться у посторонних предметов, пусть даже похожих на искомые. Выберем среди искомых предметов два, в наибольшей мере различающихся между собой; и пусть их степень сходства равна Sг р . А среди посторонних предметов найдём такой, какой более всего похож на идеальный искомый; и пусть степень сходства его о ним равна Sдр . Нормальным условием, очевидно, следует считать, что Sг р > Sдр . В противном случае обучаемая система не справится с задачей сортировки предметов на искомые и посторонние. Впрочем, в такой ситуации человек тоже будет ошибаться. И будем рассуждать следующим образом. Идеальный искомый предмет (пронумеруем его цифрой 1), породит согласно обучению сигнал управления E 1 = - Eсп ; любому другому предмету будет соответствовать сигнал больше Eсп . Только, всё равно, договоримся считать, что любые искомые предметы будут порождать сигналы управления меньше нуля, и в крайнем случае — нулевыми, а посторонние — больше; так что второй выбранный нами искомый предмет должен дать дать E 2 <0, а выбранный посторонний (№3) — должен E 3 >0. Следовательно, условия правильной сортировки предметов примут вид E2 E1 E сп ; E 3 E1 E сп . С другой стороны разность сигналов управления ( E 2 - E 1 ) и ( E 3 - E 1 ) можно выразить через степень сходства Sг р и Sдр . Для этого применим те же рассуждения, что и при формировании выражения (3.48). Тогда мы анализировали потенциальные возможности системы и определяли роль степени усиления сигнала управления; продолжим эту мысль. Пусть система уже обучена и коэффициент усиления уже выбран. Если теперь предъявить системе предмет, абсолютно похожий на тот идеальный, что применён в обучении, то, надо полагать, сигналы управления, порождаемые ими, будут неразличимыми; другими словами: если степень сходства равна единице, то разность сигналов равна нулю. Предъявив же предмет №3, имеющий некоторое отличие от предмета №1 ( S131 >1), получим явно не нулевую разность ( E 3 - E 1 ) эта разность будет коррелироваться с величиной (1- S131 ), то есть со степенью различия предметов. В общем случае, в пределах того, о чём мы ведём речь, явно просматривается прямая связь разности сигналов управления в двух ситуациях со степенью различия образов этих ситуаций: E k 1 S, (3.67) где k — коэффициент передачи, учитывающий усиление на выходе из мозга. Согласимся, что говорить о полной линейности выражения (3.67) никак нельзя, но в узком интервале и в схожих обстоятельствах она искажается незначительно; что же касается прямой пропорции выражения (3.67), то сомнения в ней едва ли могут возникнуть. Поэтому в нашем случае можно записать: E2 E1 k 1 Sг р ; E 3 E1 k 1 Sд р . И условия правильной сортировки предметов приобретут следующий вид Eсп k 1 Sг р ; E сп k 1 Sд р . (3.68) Эти условия можно представить в несколько ином виде, если заменить в них степень сходства S на степень различия Р, опираясь на соотношение P 1 S. В результате получим: E сп k Pг р ; E сп k Pд р , где Pг р — наибольшая степень различия образов любых двух искомых предметов; Pдр — наименьшая степень различия образов искомого и постороннего предметов. Таким образом, условия (3.68) позволяют выбрать величину сигнала управления Eсп , которую необходимо задать в дополнительной сопредельной ситуации, чтобы обеспечить надёжный поиск различающихся искомых предметов. Любому постороннему предмету, как бы он не был похож на искомый, будет соответствовать такой сигнал управления, который будет приводить к надёжному сползанию глаза. Смещение x , определяющее положение искомого предмета в дополнительной сопредельной ситуации, следует выбирать из соображений динамики системы. Увеличение смещения x будет способствовать повышению надёжности «захвата» глазом искомого предмета, но приведёт к некоторой неустойчивости привода: в положении, близком к цели, могут появиться колебания и даже автоколебания. Уменьшение смещения x может породить проскакиваете цели. Более конкретные рекомендации могут быть получены в результате построения фазовых траекторий с учётом действительных характеристик. На рис. 3.20 представлены два случая с различными смещениями x . В первом случае а) смещение относительно большое, и все возможные (почти все) фазовые траектории устремляются в положению цели xц , при этом наиболее характерная траектория, начинающаяся с фоновой скорости x ф , приходит к центру с возвратом, то есть сначала голова робота проскакивает искомый предмет, а затем возвращается к нему. Фазовая траектория со штриховкой является бифуркационной, то есть граничной; как видно из рис.3.20 проскакивание цели маловероятно. Рис. 3.20. Фазовые траектории продольного перемещения с противосклоном Во втором случае (рис. 3.20, б) смещение x при всех прочих равных условиях меньше предыдущего, и это отразилось на фазовых траекториях. Бифуркационная траектория (со штриховкой) выглядит теперь далеко не крайней, а это говорит о том, что вероятность проскакивания цели явно увеличилась; хотя траектория с начальной фоновой скоростью x ф по-прежнему возвращается к цели. Положение бифуркации x Б на оси x в обоих случаях совпадает с вершиной гребня противосклона в физическом отображении; и можно было бы, казалось, говорить о завершении движения в этих точках, тем более о учётом сухого трения, которое растягивает указанные точки до участков (на рис. 3.20 выделены жирными отрезками), однако такая приостановка — ненадежная: под воздействием любого, даже самого слабого сотрясения голова робота будет оползать либо в ту, либо в другую сторону. Таким образом, если позиция x ц , притягивает траектории и может рассматриваться как аттрактор, то позиция x Б отталкивает их и является типичной бифуркацией. Увеличение смещения сопредельной ситуации относительно целевой, способствующее надёжности поиска, может оказаться, к сожалению, причиной «неразберихи», если искомые и посторонние предметы x ; поэтому окончательные решения и по будут располагаться на расстоянии друг от друга, менее стратегии обучения, и по обучаемой выборке, и по конкретным параметрам можно принимать лишь в результате подробных исследований, совмещая их с практикой обучения. Самый простой путь — дообучение робота: если он проскакивает искомые предметы, — заставлять его останавливаться; если же его глаз зависает на посторонних предметах, — подталкиванием прогонять его дальше. На этом рассмотрение процедуры продольно-поперечного поиска закончим. В заключение ещё раз отметим, что поиск — не самоцель; он всегда предшествует последующим действиям, которые могут начаться только после того, как будет переключено внимание объекта. Итак, допустим, робот нашёл тот предмет, который искал, и требуется его захватить. Переключение внимания на захват может осуществить образ найденного предмета — это самое простое решение: видит глаз определённый предмет — происходит переключение питания рецепторных участков; произошло переключение — включается в работу захват. Очевидно, все эти процедуры должны быть предусмотрены в обучаемой выборке, и робот должен быть обучен всему этому. Переключение внимания с учётом нулевых сигналов управления приводов поиска возможно только с подключением так называемого мыслительного блока, в котором входные сигналы заведены обратными связями как рецепторы самого мозга; в этом случае процедура распознавания несколько сложнее. 4.3. Колебания глаза Сходство функциональных назначений технического глаза обучаемой системы управления и глаза животных, в том числе человека, побуждает к осмысленному переложению особенностей живого зрения, приспособленного к поиску, на техническое. Одной из таких особенностей являются колебания глаза. Различают несколько типов этих колебаний; наиболее ярко выражены скачки, благодаря которым глаз перескакивает с точки на точку своего внимания. Определён термин таких скачков — саккады. Скачки — саккады не носят регулярного характера и постороннему наблюдателю кажутся хаотичными. Есть дрейф — плавное смещение глаза в одном каком-либо направлении, и есть тремор — регулярные колебания глаза с определённой частотой и почти неизменной амплитудой. Колебания — тремор ещё называют микросаккадами, но по виду своему они нисколько не похожи на саккады. Вое эта колебания своих глаз человек, как правило, не замечает; они ему не мешают. Более того, как показали эксперименты, устранение этих колебаний создаёт человеку определённые неудобства. Следовательно, колебания не есть нежелательная неустойчивость приводов глаз, вытекающая из самой природы автоматического наведения, а является положительным свойством /3.I3/. Сосредоточим свое внимание на треморе и попытаемся, исходя из теории обучаемых систем управления, обосновать целесообразность введения его в техническое зрение. Уточним параметры тремора глаз человека. Амплитуда тремора составляет у разных людей от нескольких десятков угловых секунд до 1,2 угловой минуты; частота колеблется от 30 до 100 Гц /3.1/. По другим источникам /1.41/ колебания совершаются несколько раз в секунду на величину I...2 угловых минуты. Расхождения в параметрах у разных источников — несущественные. Что интересно, амплитуда тремора соизмерима с наименьшим расстоянием между двумя точками, которые способен различать человек; она равна приблизительно 0,5 угловых минуты. Приведём ещё такие данные из нейробиологии: одно волокно зрительного нерва охватывает примерно 125 рецепторов глаза; одна ганглиозная клетка сетчатки, объединявшая несколько рецепторов, охватывает своим рецепторным полем примерно 3 угловых градуса всего поля зрения или около одного миллиметра на сетчатке; рецептивные поля ганглиозных клеток накладываются друг на друга с некоторым смещением. Нэйрофизиологи, говоря о треморе, обычно отмечают такие положительные моменты его влияния: он, прежде всего, устраняет адаптацию рецепторов, как нежелательное явление; без колебаний глаз неподвижные предметы в поле зрения через несколько секунд становились бы невидимыми; во-вторых, было замечено, что тремор обостряет остроту зрения; тонкие линии он делает более различимыми. Объектом нашего внимания является технический глаз обучаемой системы управления, рецепторами которого являются обычные фоторезисторы, например из германия, из кремния или из соединений кадмия с серой, селеном, теллуром /З.З/. Фоторезисторы имеют хорошую, близкую к линейной чувствительность, но страдают такими недостатками, как малое быстродействие и относительно большие габариты. Постоянная времени фоторезисторов Tp , характеризующая их быстродействие, колеблется в пределах 0,03...0,08 секунды, а габариты фоточувствительной площадки измеряются миллиметрами. В качестве рецепторов глаза могут быть использованы фотодиоды или лавинные фотодиоды, но у них имеются свои недостатки. У всех перечисленных технических фоторецепторов отсутствует адаптация, характерная для рецепторов живого глаза. Говоря техническим языком, адаптация есть регулирование по реально-дифференцирующему закону. Можно, разумеется, в каждый рецептор встроить электрическую схему с таким законом регулирования, но в данном случае будем рассматривать простые фоторецепторы без подобных схем. При использовании в качестве оптики технического глаза объективов типа Гелиос с углом зрения 28 градусов и диаметром изображения не более 50 мм можно расположить в этой зоне сетчатку с 2000 фоторезисторов, то есть до 50 штук по диаметру. Таким образом, один рецептор будет охватывать приблизительно 0,5 угловых градуса поля зрения или 1 мм сетчатки. Охарактеризуем возбуждения рецепторов сетчатки. В силу нелинейностей фоторезисторных свойств рецепторов и оптических искажений поле возбуждений рецепторов будет, очевидно, отличаться от изображения на сетчатке, а это изображение — от видимой сцены. Но в данном случае эти отличия нас не интересуют, и поэтому обобщим и то, и другое, и третье одним понятием — образ. Элементами образа, как известно, являются пятна, границы или контуры пятен, линии, точки и полутоновые участки. Напомним, что пятно есть участок рецепторного поля с равными возбуждениями рецепторов, причём при смещении изображения на величину не более, чем на один рецептор, возбуждения сохраняются неизменными. Пятна могут быть светлыми, тёмными или серыми. Рецепторы света, возбуждающиеся на свету, будут иметь соответственно наибольшее, наименьшее или частичное возбуждение. Рецепторы же темноты, возбуждающиеся в темноте, наоборот, — соответственно наименьшее, наибольшее или частичное обратное возбуждение. Граница пятна или контур включает только те рецепторы, возбуждение которых изменяется при смещении изображения по сетчатке на один рецептор. Линия есть тот же контур, но без пятна; при смещении изображения поперёк линии на один рецептор возбуждения всех рецепторов изменяются. Точка охватывает только один или несколько, но малое число рецепторов, и при смещении в любом направлении возбуждения их изменяются. Полутоновые участки характерны тем, что рецепторы их хотя и слабо, но изменяют своё возбуждение при любом смещении изображений. Влияние колебаний глаза на зрительный образ. Прежде чем выдать рекомендации по введению колебаний технического глаза (тремора), посмотрим, как эти колебания отразятся на образе, то есть на изображении сетчатки. Из всех элементов образа важнейшими являются линии и точки; только у них при малых смещениях изображений по сетчатке глаза происходят существенные изменения возбуждений рецепторов, и только эти изменения могут обеспечить требуемые изменения сигналов управления обучаемых систем. Рецепторы полутоновых участков и, тем более, пятен в изменении сигналов управления участия практически не принимают. Тонкие линии, ширина которых соизмерима с размерами оптических окон рецепторов или даже меньше их, могут оказаться незамеченными глазом. Введём колебания глаза. Амплитуда этих колебаний, скорее всего, должна быть соизмеримой с размерами рецепторов, а частота — с постоянной времени рецепторов Tp , то есть со временем запаздывания срабатывания фоторецепторов. Более точные параметры колебаний определим дальше. Колебания, о которых идёт речь, не должны распространяться на остов: если глаз закреплён на охвате робота, то приводы колебаний должны смещать глаз относительно охвата; причём желательно заставлять колебаться глаз в двух направлениях в плоскости, перпендикулярной оптической оси глаза. Сосредоточим своё внимание на некоторой линии образа, изобразим её в виде полосы шириной а (рис. 3.21) и заставим колебаться в поперечном направлении по синусоидальному закону с амплитудой А и частотой : x A sin t . Считаем, что линия (полоса) ярко выделяется на общем фоне и засвечивает фоторецепторы сетчатки глаза. На самом деле линия может быть тёмной на светлом фоне, но, учитывая, что сетчатка включает кроме так называемых рецепторов света, ещё и рецепторы темноты, тёмные линии можно приравнять к светлым, и также можно говорить о яркости тёмных линий. Во время колебаний зона засветки оказывается шире полосы на величину двух амплитуд. Однако вследствие колебаний рецепторы будут освещены не всегда, а только в момент выхода на них полосы. Те из них, которые освещены постоянно, или почти постоянно, будут возбуждены максимально, но а те, на которые свет падает кратковременно, окажутся возбуждёнными лишь частично. Определим степень засветки рецепторов в зависимости от смещения их от центрального положения. Обозначим через х — смещение края полосы в поперечном направлении и заменим в синусоидальном законе частоту на период Т: x где a 2 A sin 2 tн T , t н — время начала засветки. Рис.3.21. Зависимость засветки рецепторов от колебаний глаза Полное время засветки за один период колебаний Т определится как t T 2 2t н , а с учётом синусоиды получим: t T 2 T arcsin x A a . 2A (3.69) На рис. 3.21 изображены: полоса шириной а, три синусоиды с амплитудами: A3 A1 0,5a ; A 2 a; 15 , a , — и кривые зависимости продолжительности засветки рецепторов в течение одного периода Т от удалённости рецепторов х. Как видно из графика, рецепторы, расположенные на оси t, будут освещены полосой постоянно, если амплитуда колебаний полосы А окажется меньше половины ширины а. При А=а те же рецепторы будут освещены только 2/3 времени периода Т, а при A 1,5a — ещё меньше: t T 0,607 . Но при любой амплитуде колебаний полосы время освещения ею указанных рецепторов не будет меньше половины периода Т. Рецепторы, расположенные не по центру полосы, будут освещены меньше; чем дальше от центра, те ещё меньше. Координата крайней освещённой точки определяется как xmax A 0,5a , а общая ширина освещаемой зоны будет равна 2xmax 2A a . Теперь посмотрим, как будут возбуждаться рецепторы под воздействием мелькающего света. Закон роста возбуждения (проводимости) фоторезистора в этом случае может быть представлен в виде экспоненты: b t где b max b 1 e max t Tp , (3.70) — наибольшее возбуждение фоторезистора при непрерывном освещении его полосой. Примем за время отсчёта начало засветки фоторезистора; тогда в конце засветки возбуждение возрастёт до такой величины: b t b b T max t Tp 1 e , где b T — остаточное возбуждение от засветки в предыдущем периоде. После засветки рецептор погружается в темноту, и возбуждение его начинает спадать по тому же закону экспоненты: t b t b t e t Tp . (3.71) В конце затемнения возбуждение фоторезисторов снизится согласно (3.71) до значения b T b t e T t Tp . В результате можно определить высшее возбуждение фоторезистора в конце засветки: b b max t 1 e t TP 1 e T t Tp T Tp , t Tp . e и его низшее возбуждение в конце затемнения: b max b T 1 e 1 e T t Tp e t TP На рис.3.22 представлена кривая изменения возбуждения фоторезистора во времени t при условии, что Tp T . Среднее возбуждение b ср фоторезистора можно определить по кривой (рис.3.22) путем интегрирования выражений (3.70) и (3.71) и деления суммарной величины на период Т. Однако, учитывая то, что экспонента спадания возбуждения (3.71) по своим параметрам повторяет экспоненту роста (3.70), а также то, что начальные и конечные точки этих экспонент совпадают, на этом основании можно утверждать, что b ср b t b T 2 . (3.72) Рис. 3.22. График возбуждения фоторецептора при мелькающей освещении. Если же учесть, что ионизация токопроводящего слоя обычных, упомянутых выше фоторезисторов порождается исключительно светом и не носит лавинный характер, как у лавинных фотодиодов, то допустимо считать, что среднее возбуждение b ср каждого фоторезистора будет пропорционально засветке t T: b t b T ср max . С учётом (3.69) последнее выражение примет вид: b ср b max 0,5 0,318 arcsin x a 0,5 a A . (3.73) И выражение (3.72), и выражение (3.73) в общем случае дают размытое изображение линии на сетчатке глаза с увеличением её ширины. Хорошо ли это или плохо? То, что все видимые линии становятся толще, — это ещё не значит, что они становятся более видимыми. Если уширение линии осуществить без полутонов, ступенчато, то такая линия становится пятном, и решающим фактором изменения сигнала управления становится лишь край этой уширенной линии. Другое дело — полутоновое, размытое к краям изображении линии на сетчатке глаза: любое смещение изображения приводит к изменению возбуждений рецепторов, охваченных этой линией. И чем шире размыта линия, тем больше рецепторов фиксируют её. В этом смысле размывание линий действительно способствует обострению остроты зрения (хотя понятие остроты зрения требует особого толкования). Однако такой вывод справедлив лишь в отношении отдельной линии. При наличии нескольких рядом расположенных линий размывание их может привести к стиранию границ между ними, то есть к потере остроты зрения. Другими словами, отдельно расположенные линии при колебаниях глаза будут фиксироваться большим количеством рецепторов и тем самым ярче выделяться, но плотно расположенные линии будут сливаться в общее пятно. Именно так видит человеческий глаз: до определённого момента он отчётливо различает тонкие линии и мелкие точки, а дальше — при сближении их — изображения линий и точек сливаются. Граница различимого-неразличимого человеческого глаза известна, и она удачно используется в телевизорах, где пятьсот строк сканирования при определённых размерах экрана обеспечивают восприятие изображения как непрерывного. С учётом указанных особенностей человеческого глаза сформировалась также точечная полиграфия. Острота зрения как следствие обучения. А теперь — об инженерном толковании остроты зрения (уточним: технического зрения) с позиции обучаемых систем. Очевидно, какой бы рельефной (контрастной) ни была видимая сцена, глаз не задержит своего внимания ни на чём в этой сцене, если он не обучен этому; и говорить в этом случае об остроте зрения бессмысленно. Вот если обучаемая система управления со зрением обучена отыскивать вокруг себя заданные предметы, зрительно выделяющиеся на общем фоне, или любые изображения (для глаза предметы — тоже изображения), то тогда и возникает острота зрения. Из чего она складывается? Изменение любого образа В, как известно, порождает соответствующее изменение сигнала управления: Bj c Дj ; Дj E j. Величина E становится определённой только в том случае, когда она выделяется из общего «шума», то есть когда E E min , где E min — уровень «шума» (или допустимое отклонение). Такой порог чувствительности и определяет остроту зрения. Он порождается соответствующим изменением образа при соответствующем состоянии мозга: Bmin c Д min ; Д min Bmin E min . Обострить остроту зрения, то есть усилить изменение образа до граничного значения Bmin , можно различными способами, например дополнительной подсветкой обозреваемой сцены, или наведением оптики на большую резкость, или увеличением напряжения питания технического глаза. Но можно обострить, оказывается, с помощью колебаний глаза. Чтобы объяснить это, рассмотрим более подробно техническое зрение. В конечном счёте острота зрения проявляется не в простом изменении сигнала управления на величину, больше чем E min (хотя в общем случае это справедливо), а в сосредоточении внимания на заданном объекте или, говоря иными словами, в надёжном поиске. Если глаз реагирует на изменение образа и с помощью технического мозга заставляет привод смещать схват в сторону выделенного предмета, то, следовательно, этот глаз в данном случае имеет необходимую остроту зрения. Её можно считать достаточной и в том случае, если схват притормаживает при выходе на посторонний, но схожий по виду предмет и притормаживает ровно на столько, на сколько необходимо для надёжного обозревания предмета. Значит, кроме зрительного выделения на общем фоне искомых и похожих на них предметов, должен сформироваться соответствующим образом в процессе обучения сам технический мозг, то есть образ С. А так как проводимости технических синапсов, как известно, в процессе обучения изменяются под воздействием возбуждений соответствующих рецепторов, то, очевидно, наибольшие изменения претерпят только те синапсы, рецепторы которых окажутся наиболее возбуждёнными. Это означает, что при обучении в целевых ситуациях яркие пятна, линии и точки образов этих ситуаций оставят в мозгу наибольший след. Если говорить об отдельной линии образа целевой ситуации, то ей будет соответствовать некоторое проявление в мозгу, которое «скажет своё слово» в момент выхода в процессе работы на эту же целевую ситуацию. Так во время поиска заданного предмета при приближении к нему линии (контуры) его изображения на сетчатке глаза постепенно будут надвигаться на проявления этих же линий в мозгу, и, как только они сольются, схват остановится — предмет найден. Образно говоря, рельеф состояния мозга С напоминает рельефы образов ситуаций В обучаемой выборки, и в том числе — целевых с нулевыми сигналами управления, а посему в момент выхода глаза на любую целевую ситуацию, то есть в момент нахождения заданного предмета, оба стыкующихся рельефа (образа ситуации В и образа состояния мозга С) находят, как бы, наиболее плотное прилегание друг к другу с наименьшей потенциальной энергией, точнее говоря — с нулевой, так что дальше глаз перемещаться уже не сможет: предмет найден. Продолжая это же образное сравнение, можно сказать, что в прочих нецелевых ситуациях указанные рельефы не имеют плотного прилегания и скользят друг по другу, как скользит шарик по неровной поверхности в поисках лунки. В этом смысле В, С и Е отражают, образно говоря, штамп: В — пуансон, С — матрица, а Е — зазор между ними. Возвращаясь к исследуемым линиям образов ситуаций, можно представить их в виде выступающих рёбер рельефа, а их проявления в мозгу — в виде желобов (соответственно: точка — бугорок, а проявление точки в мозгу — лунка), и при сближении рёбер и желобов они стыкуются. Нельзя забывать при этом, что проявление зрительных элементов в мозгу никоим образом не является простым их отпечатком. При наложении в процессе обучения одних ситуаций на другие и при многократном повторе картина проводимостей синапсов в мозгу окажется очень сложной и далеко не однозначной по отношению к конкретному зрительному образу. Тем не менее след от отдельных ситуаций всё же в мозгу останется; точнее говоря, это — уже даже и не след, а некоторое искажённое проявление его. Сравним в образном представлении линии без колебаний и с колебаниями глаза. Без колебаний — линии будут выглядеть как узкие рёбра с отвесными краями, а их проявления в мозгу — как такой же ширины щели. Хотя очертания этих рёбер и этих щелей полностью совпадают и они могут плотно прилегать друг к другу, но находить друг друга рёбра и щели будут с трудом: достаточно иметь самое малое смещение, и стыковка невозможна. Даже стремясь друг к другу, они легко будут проскакивать позицию совпадения. Отсюда следует, что схват с глазом обречён на неустойчивость, которая усугубляется инерцией головы робота и запаздыванием срабатывания фоторецепто-ров. Другое дело — при треморе, то есть при колебаниях глаза относительно схвата. Линию теперь можно представить уже в виде выступающего широкого ребра с пологими сторонами, а проявления линии в мозгу — в виде такой же ширины жёлоба также с пологими краями. И нахождение, и стыковка этих рёбер и желобов могут осуществляться без каких-либо трудностей. Достаточно попасть пологой стороне ребра на край жёлоба, и начнётся естественное «скольжение» к полному совпадению, к стыковке данных ребра и жёлоба, то есть к выходу схвата с глазом на искомый предмет. Пологие профили рёбер и желобов предотвращают неустойчивость приводов головы робота в нулевой позиции, снижая влияние инерции головы и апериодического запаздывания системы. Скольжение ребра по склону жёлоба можно назвать проявлением остроты зрения. С другой стороны, пологие склоны рёбер и желобов таят в себе некоторую опасность «зависания» на них: чем положе склон, тем менее проявляется стремление двигаться под действием его уклона. Так детские санки на слабом склоне горки могут не скользить вниз. Причиной «зависания», как обычно, может быть сухое трение привода и механизма, которое преодолевается только тогда, когда сигнал управления Е привода достигает своего порогового значения. Выход из положения связан опять же с тремором: колебания глаза приводят к пульсированию сигнала управления, и в позиции, близкой к целевой, такое пульсирующее подталкивание приведёт к дальнейшему скольжению по склону вплоть до почти нулевой отметки. Правда, в других позициях, далёких от целевых, пульсирование сигнала управления не позволяет стабилизироваться любому положению схвата робота, и схват с глазом смещается даже в том случае, когда нет для этого видимых причин. Это и есть тот дрейф, то есть бесцельное плавное блуждание, который отмечен у человеческого глаза. Выбор параметров колебаний глаза. Итак, колебания-тремор технического глаза способствуют выделению искомых предметов, поиску их, быстрейшему выходу на них и стабилизации положения после нахождения. Другими словами, колебания-тремор обостряют зрение или, проще, улучшают его. И такое улучшение наблюдается почти на всём пространстве зрительных возможностей за исключением только того, что очень мелкие детали зрительного поля, напротив, сливаются и глазом не выделяются. Но и это можно расценить как улучшение зрения: благодаря такой способности глаза можно, оказывается, линейные или точечные, то есть дискретные изображения воспринимать непрерывными, монолитными. Если целесообразность введения в техническое зрение колебаний-тремора считать очевидной, то возникает вопрос выбора параметров этих колебаний: какими они должны быть? Практика, разумеется, даст свой ответ на поставленный вопрос, а пока приходится руководствоваться логическими соображениями. И одним из этих соображений может быть необходимость. Колебания глаза должны быть такими, чтобы различать вполне определённые по размерам мелкие предметы или детали этих предметов. Допустим, робот предназначен для монтажа электрических плат. Самыми мелкими деталями плат являются отверстия в этих платах и ножки устанавливаемых в них микросхем. Значит, глаз должен их различать с расстояния, допустим, 0,5 метра. Достаточно пересчитать размеры указанных мелких деталей в масштаб сетчатки глаза, чтобы определить их угол зрения. Пусть их размер окажется равным полградусу угла зрения объектива; тогда амплитуда колебаний глаза может составлять порядка 0,25...0,50 угловых градуса. Такой вывод следует из анализа кривых зависимости продолжительности засветки от соотношения ширины линии и амплитуды колебаний (рис. 3.21). Что же касается выбора частоты колебаний, то, исходя из тех же соображений необходимости, можно рекомендовать как можно большую частоту. Другим соображением при выборе параметров колебаний-тремора может быть соотношение их с параметрами глаза, в частности с размерами и с постоянной времени рецепторов. Пусть амплитуда колебаний будет равна половине угла зрения одного рецептора, то есть 0,25 угловых градуса. При равных размерах амплитуда и ширины полосы (А=а) получается, что глаз окажется способным различать предметы с размерами, соответствующими приблизительно 0,75 угловых градуса. Более мелкие детали поля зрения будут сливаться. Частоту колебаний следует выбирать с учётом того, что период колебаний Т должен быть больше постоянной времени Tp рецептора, но обязательно меньше постоянной времени привода робота: Tp T Tпр . Если известные фоторезисторы имеют Tp = 0,03...0,08 сек, то период можно принять равным Т = 0,05...0,10 сек при условии, что Tпр = 0,20 сек. Ещё одним соображением при выборе параметров колебаний-тремора глаза может быть реальная возможность. Приведённые выше параметры фоторезисторов не очень удачные для технического зрения. Желательно было бы иметь такие фоторецепторы, размеры оптических окон которых не превышали бы сотых или даже тысячных долей миллиметра, а постоянная времени — измерялась бы тысячными и менее долями секунды. Тогда при обычной оптике типа объективов фотоаппаратов можно было бы довести число рецепторов в сетчатке глаза до десятков и сотен тысяч, а быстродействие робота, оснащённого техническим зрением, — до быстродействия широко известных робототехнических, станочных и иных приводов. И, наконец, можно принять за эталон известные параметры колебаний человеческого глаза. Примеры и задачи Пример 3.1. Расчетное обучение принятию решений в двух ситуациях при квадратичном законе саморегулирования синапсов. Исходные данные: в таблице 3.1. Исходные данные приняты такими, как в примере 1.2; это позволит сравнить результаты. Таблица 3.1. Исходные данные Ситуации Возбуждения рецепторов Требуемые Допустимые решения погрешности b1 b2 b3 b4 Ej j 1 2 1 2 1 0,1 А 2 1 2 1 2 0,1 В Первоначальные проводимости синапсов равны нулю. Требуется: вычислить пошаговые погрешности E j и проводимости синапсов c методом расчетного обучения по алгоритму: (1.12), (1.13), (1.14), (3.7), (1.16), — и сравнить результаты с обучением при линейном законе саморегулирования синапсов. Выполнение: Цикл 1-ый, шаг 1-ый, ситуация А: Фактическое решение: E 0, A 0. Погрешность: E 0, A 1 0 1. По формуле (3.7) вычисляем поправки проводимостей синапсов: c1 A 1 12 18 0,055 ; c2 A 1 2 2 18 0,22 ; c3 A 1 12 18 0,055 ; c 4 A 1 2 2 18 0,22 Проводимости синапсов: c1 A 0,055; c2 A 0,22 ; c3 A 0,055 ; c4 A 0,22 Цикл 1-ый, шаг 2-ой, ситуация В: E A, B E A, B 2 0,055 1 0,22 2 0,66; 2 0,66 133 , ; c1 A, B c3 A, B 133 ,  22 18 0,296 ; c2 A, B c4 A, B 1,33 12 18 0,074 ; c1 A, B c3 A, B 0,055 0,296 0,35 ; c2 A, B c4 A, B 0,22 0,074 0,296 . И так далее. Обучение продолжим до тех пор, пока абсолютное значение погрешностей E j в обеих ситуациях не окажется меньше 0,1. Результаты обучения представлены в таблице 3.2. Таблица 3.2. Цикл Ситуации Погрешность Результаты обучения Проводимости синапсов Ej 0 1 А В А В А В А В А В 2 3 4 5 0,0 1,0 1,33... -0,844 0,6 -0,4 0,27 -0,177 0,12 -0,079 0,0528 c1 c3 0,0 0,055... 0,35 0,3 0,433 0,411 0,47 0,46 0,4868 0,4824 c2 c4 0,0 0,22... 0,296 0,1 0,133 0,044 0,059 0,01966 0,02637 0,008796 Изобразим в виде графика изменения абсолютных погрешностей по циклам обучения и сравним с таким же графиком при линейном законе саморегулирования синапсов (рис.3.23). Рис. 3.23. Изменение погрешностей численных значений решений в процессе обучения при квадратичном и линейном законах саморегулирования (обучения синапсов) Пример 3.2. Расчетное жесткое обучение принятию решений в двух ситуациях с переменным перерегулированием. Исходные данные: те же, что и в примере 3.1. Исходные проводимости синапсов равны: c1 c3 0,3967; c2 c4 0,2048, — что соответствует предварительному обучению по нормальному алгоритму в двух циклах. Жесткость обучения: h=0,5. Требуется: Вычислить пошаговые погрешности E j и проводимости синапсов c методом расчетного обучения по алгоритму: (1.12), (1,13), (3.23), (3.15), (1.14), (3.24), (1.16), — и сравнить результаты с результатами примера 1.2. Выполнение: Цикл 3-ий, шаг 1-ый, ситуация А: ; E 0,3976 1 0,2048 2 2 16144 , E 1 1,6144 0,6144 ; c1 c3 15 , 0,6144 1 10 0,09216 ; c2 c1 c2 c4 15 , 0,6144 2 10 0,18432 ; c3 0,3976 0,09216 0,30544 ; c4 0,2048 0,18432 0,02048 . Цикл 3-ий, шаг 2-ой, ситуация В: E E c1 c2 c1 c2 ; 0,30544 2 0,02048 1 2 126272 , 2 1,26272 0,73728 ; c3 15 , 0,73728 2 10 0,221184 ; c4 15 , 0,73728 1 10 0,110592 ; c3 0,30544 0,221184 0,526624 ; c4 0,2048 0,110592 0,131072 . Цикл 4-ый, шаг 1-ый, ситуация А: E c2 E 1,577536 ; c1 c3 0,0866304 ; c1 c3 0,4399936 ; c2 0,577536 ; c4 0,1732608 ; c4 0,0421888 . Цикл 4-ый, шаг 2-ый, ситуация В: E 0,3244032 ; c2 c4 0,04866048 ; c2 c4 0,00647168 . E 1,6755968 ; c1 c3 0,0972096 ; c1 c3 0,53731456 ; Цикл 5-ый, шаг 1-ый, ситуация А: E 110051584 , ; E 0,10051584 ; c1 c3 0,015077376 ; c2 c4 0,030154752 ; c1 c3 0,522237184 ; c2 c4 0,023683078 . Цикл 5-ый, шаг 2-ый, ситуация В: E 2,04158258 ; Погрешность E 0,04158258 . E меньше допустимой =0,1. Определим погрешность E в ситуации А: E 0,52237184 1 0,023683078 2 2 E 0,050257944 , — также меньше 0,1. 0,949742056 ; На этом расчётное обучение прекращаем. Результаты обучения представлены в виде графиков на рис. 3.24, с наложением их на графики рис. 1.17. Рис. 3.24. Изменение абсолютных значений погрешностей в зависимости от продолжительности в циклах при жестком обучении с переменным перерегулированием (h=0,5). Штриховыми линиями выделены те же зависимости при нормальном обучении Вывод: Жёсткое обучение с переменным перерегулированием при h=0,5 сокращает продолжительность обучения. Пример 3.3. Разделение очувствления на рецепторные участки с целью переключения внимания системы с решения одних задач на другие. Исходные данные: система может различать ситуации, степень сходства образов которых не превышает 0,94; допустимый коэффициент увеличения напряжения питания рецепторов u = 2; напряжение питания рецепторов может иметь только два уровня: нормальный и повышенный, — то есть градация g = 2. Требуется: определить максимальное количество участков, на которое можно разбить очувствление; определить число решаемых задач; вычислить продолжительность обучения при требуемых сигналах управления: E 1 = +5; E 2 = -5, — и при допустимом отклонении = 0,01. Выполнение: Подставим в выражение (3,46) степень сходства S121 = 0,94 и коэффициент увеличения напряжения u = 2: 0,94 2 22 4 2 2n 1 n 1 2 4 . 2 2 1 n 1 n 1 22 Решим его относительно n; получим n = 4,36; округляем в меньшую сторону: n = 4. Следовательно, очувствление можно разбить максимально на 4 рецепторных участка. По формуле N g n определим число задач, которые требуют переключения внимания системы: 24 N 16 . Столько независимых задач может решить система, имеющая 4 рецепторных участка. По формуле (2.21) определим продолжительность обучения при условии, что степень сходства образов наиболее схожих ситуаций принята предельно допустимой: S121 =0,94, а коэффициенты приведения этих образов — прямой и встречный — равны между собой: lg T 0,01 5 0,94 5 0,94 lg 0,94 107 циклов. Пример 3.4. Суждение о сходстве образов ситуаций с образами мозга. Исходные данные: три ситуации с сигналами управления в них: в первой — нулевой; во второй — максимально положительный; в третьей — максимально отрицательный. Требуется: охарактеризовать образы мозга ситуаций. Выполнение: Очевидно: * в первой ситуации: E1 * во второй ситуации: E 2 * c и c , на основе сравнения их с образами указанных трёх E1 ; E2 ; E3 . в третьей ситуации: E 3 Рассмотрим первую ситуацию; согласно выражений (3.53) получим: S B1 , c E1 b 1 А так как E1 E1 , то: ; m 2 1 S B1 , c E1 . m b 1 2 1 S B1 , c S B1 , c . Из этого можно вывести только одно заключение: образ ситуации одинаково соотносится с образами c и c . Применительно к оптической обучаемой системе это означает, что оптическое изображение ситуации B1 , пропущенное через диапозитивы мозга c и c , образует на фотоэлектрических экранах мозга приблизительно одинаковые рисунки (если выражаться точнее — одинаковую освещённость экранов). То же самое можно сказать и про соотношения резисторного поля очувствления с резисторными полями плюси минус-столбцов мозга электрической обучаемой системы. Образ второй ситуации более похож на образ c и мало похож на образ c .Это говорит о том, что светлые и тёмные пятна оптического изображения второй ситуации совпадают с почти такими же по форме светлыми и тёмными пятнами диапозитива мозга c и не совпадают с подобными пятнами диапозитива c ; в последнем случае, может быть даже, реализуется перекрёстное совмещение светлых пятен с тёмными. Образ третьей ситуации, наоборот, более похож на c и не похож на c . Пример 3.5. Выбор противоуклона продольного перемещения при поиске. Исходные данные: наименьшая степень сходства любых двух искомых предметов Sг р = 0,990; наибольшая степень сходства искомого предмета с посторонним Sдр = 0,988; коэффициент передачи мозга, учитывающий усиление на выходе, k = 100. Требуется; выбрать величину сигнала управления образующей противоуклон продольного перемещения. Выполнение: Воспользуемся выражениями (3.68). E сп 100 1 0,990 ; Eсп в дополнительной сопредельной ситуации, E сп 100 1 0,988 . Получим: 1 E сп 1,2 . E сп =1,1 Знак сигнала Eсп принимаем обратным по отношению к сигналу управления E ф в фоновой ситуации. Выбираем: Задача 3.1. Расчётное обучение принятию решений в двух ситуациях при нелинейных законах работы и обучения. Исходные данные: см. табл. 3.1. Исходные проводимости синапсов равны нулю. Требуется: Вычислить проводимости синапсов методом расчётного обучения по алгоритму: (3.1), (1.13), (1.14), (3.7), (1.16). Построить график изменения погрешностей численных значений решений и сравнить его с графиками рис. 1.17 и рис. 3.23. Задача 3.2. Построение графика функции последования при жёстком обучении в двух ситуациях с постоянным перерегулированием. Исходные данные: степень сходства образов ситуаций S121 = 0,85; допустимое отклонение = 10 мм; постоянное перерегулирование =50 мм. Требуется: Построить координатную плоскость функции последования (типа рис. 3.3); принимая исходную погрешность, равной E T 1 = 100 мм, построить ступенчатую траекторию, отражающую процесс обучения; определить число циклов обучения. Задача 3.3. Выявление предельного цикла графика функции последования при жёстком обучении в двух ситуациях с постоянным перерегулированием. Исходные данные: степень сходства образов ситуаций S121 = 0,5774; постоянное перерегулирование = 60 мм. Требуется: Построить график функции последования, выявить предельный цикл и определить размах его колебаний. Задача 3.4. Расчётное обучение принятию решений в двух ситуациях с переменным перерегулированием. Исходные данные: те же, что и в примере 3.2 при жесткостях обучения: h = 0,2; 0,8; 1,5. Требуется: Вычислить пошаговые погрешности E j и проводимости синапсов c методом расчётного обучения по алгоритму: (1.12), (1.13), (3.23), (3.15), (1.14), (3.24), (1.16) — и сравнить результаты с результатами примера 3.2. Задача 3.5. Определение количества рецепторных участков, на которое необходимо разбить всё очувствление, и продолжительность обучения в двух ситуациях, если известно число решаемых задач и ограничено напряжение питания рецепторов. Исходные данные: число решаемых задач N = 64; нормальное напряжение питания U = 15 В, предельное напряжение питания U max =30 В; напряжение может быть только двуступенчатым. Требуется: Рассчитать количество рецепторных участков n. Определить продолжительность обучения Т в двух ситуациях; сигналы управления в ситуациях, их допустимые отклонения и соотношение коэффициентов приведения образов ситуаций выбрать по своему усмотрению. Задача 3.6. Определение предельных значений степени сходства искомых и посторонних предметов, то есть определение Sг р и Sдр из условий гарантированной остановки продольного перемещения при поиске. Исходные данные: сигнал управления в дополнительной сопредельной ситуации Eсп = 2; коэффициент передачи мозга, учитывающий усиление на выходе, k = 200. Требуется: Определить предельные значения степени сходства искомых предметов между собой Sг р и искомого предмета с посторонним Sдр . Задача 3.7. Суждение о сходстве образов ситуаций с образами мозга. Исходные данные: три ситуации с сигналами управления в них: в первой — максимальный; во второй — средний; в третьей — нулевой. Требуется: Охарактеризовать образы мозга ситуаций. c и c на основе сравнения их с образами указанных трёх Литература З.1. Шахнович А. Р. Мозг и регуляция движений глаз/ М.: Медицина. — 1974. — 160 с. 3.2. Петров В. В., Гордеев А. А. Нелинейные сервомеханизмы/ М.: Машиностроение. — 1979. — 471 с. З.З. Меркишин Г. В. Многооконные оптико-электронные датчики линейных размеров/ М.: Радио и связь. — 1986. — 168 с. 3.4. Чикин Ю. В. Воспроизведение заданного профиля с помощью обучаемой системы управления/ Тез. докл. обл. н.-пр. конф. «Опыт и проблемы внедрения робототехники и ГАП на промышленных предприятиях области», ЛипПИ, 8-9 дек. 1987 г. — Липецк, 1987. — С.56...59. 3.5. Антонов В. М., Штоколова Е. Л. Влияние соотношения скоростей исполнительных двигателей на решение задачи поиска/ Тез. докл. 20-ой н.-т. студ. конф. ФАП ЛипПИ, 24 апр. 1989 г. — Липецк, I989 — C.40. 3.6. Антонов В. М., Яшина Е. В. Исследование системы поиска предметов произвольной конфигурации/ Тез. докл. 20-ой н.-т. студ. конф. ФАП ЛипПИ, 34 апр. 1989 г. — Липецк, 1989. — С.40. 3.7. Антонов В. М., Петров И. М. Корректировка проводимостей элементов памяти обучаемых систем управления/ Тез. докл. peг. н.-т. конф. «Автоматизированное проектирование и автоматизация производственных процессов», 14-15 дек. 1989 г. — Липецк, 1989. — С.79-80. 3.8. Антонов В. М., Яшин А. А., Яшина Е. В. Влияние жёсткости обучения на его продолжительность/ Тез. докл. peг. н.-т. конф. «Автоматизированное проектирование и автоматизация производственных процессов», 14-15 дек. 1989 г. — Липецк, 1989. — С. 85-86. 3.9. Антонов В. М., Яшин А. А., Яшина Е. В. Акцентирование внимания в обучаемых системах управления/ Тез. докл. peг. н.-т. конф. «Автоматизированное проектирование и автоматизация производственных процессов», 14-15 дек. 1989 г. — Липецк, 1989. — С. 86. З.10. Антонов В. М., Буков А. А. Влияние жёсткости обучения и опорных ситуаций на процесс технического обучения/ Сб. научн. тр. ЛипПИ «Технология машиностроения. Декабрь I993», — Липецк, 1994. — С. 111...121. З.11. Антонов В. М., Буков А. А. Восприятие речи и окружающего мира человеком/ Сб. научн. тр. ЛипПИ «Технология машиностроения. Декабрь 1993», — Липецк, 1994. — С. 133...142. 3.12. Антонов В. М. Переключение внимания обучаемых систем управления/ Сб. тез. докл. Всеросс. н.-т. конф., посвящ. 40-летию ЛГТУ. — Окт. 1996. — Липецк, 1996. — С. 132-133. 3.13. Физиология человека: В 3-х томах. Пер. с англ./ Под ред. С. Шмидта и Г. Тевса. — М.: Мир, 1996. — 323 с. 3.14. Антонов В. М. Моделирование процессов обучения обучаемых систем управления/ Сб. научн. тр. ЛГТУ «Технология машиностроения и ремонт машин. Апрель 1997 г.» — Липецк, 1997. — С. 68...77. 3.15. Антонов В. М., Морозова В. П. Обучение принятию решения в технологических ситуациях/ Сб. научн. тр. ЛГТУ «Технология машиностроения и ремонт машин. Апрель 1997 г.» — Липецк, 1997. — С. 64...67. Оглавление Предисловие автора Часть 1. Обучаемые системы управления: устройство, принципы действия и обучения 1. Что такое обучаемые системы управления 2. Из истории создания обучаемых систем управления Изобретение обучаемых систем управления Математическое моделирование Изготовление и испытания аналоговых обучаемых систем управления Патентование 3. Некоторые сведения из нейробиологии Навыки Память Эмоции и мимика Нервные системы Зрение Слух Осязание Мышечное чувство Чувство равновесия Химическая чувствительность Нейроны, мотонейроны Кора головного мозга Синапсы коры головного мозга Сигналы управления Нейронный транспорт веществ 4. Принцип устройства обучаемых систем управления Биогидравлическая модель нервной системы Поэтапность раскрытия тайны мозга Техническая модель нервных систем Математическая модель работы нервных систем Электрическая обучаемая система управления Работа обучаемой системы управления 5. Закон обучения Логика и интуиция Обучаемость мозга Обучение с обучаяелем Обучение на основе игры Запаздывающее обучение Обучение на основе подражания Возбуждающие и тормозящие рецепторы Память с позиции биогидравлической модели Математическая модель (алгоритм) обучения Обобщённая модель нервной системы животных 6. Реализация технического мозга Компьютерный мозг Технический мозг с синапсами в виде построечных резисторов Технический мозг с саморегулируемыми синапсами Оптический мозг 7. Сложные системы Технические нервные системы Обучаемые экспертные системы Примеры и задачи Литература Часть II Начальные основы теории обучаемых систем управления 1. Теория образов в обучаемых системах управления 1.1. Рельефное представление образов Рельефные образы в оптических системах Арифметика и алгебра рельефных образов Рельефные образы в электрических системах Матричное (табличное) представление образов 1.2. Профильное представление образов Параметры образов Коэффициент приведения одного образа к другому Степень сходства образов 1.3. Определение коэффициентов приведения образов Расчётное определение коэффициентов приведения образов Экспериментальное определение коэффициентов приведения оптических образов Экспериментальное определение коэффициентов приведения образов с обнулением проводимостей синапсов Экспериментальное определение коэффициентов приведения образов в процессе непрерывного обучения 2. Теоретическое обучение обучаемых систем управления 2.1. Обучение в двух ситуациях Ход обучения в двух ситуациях Закономерности обучения в двух ситуациях Продолжительность обучения в двух ситуациях Порядок предъявления двух ситуаций 2.2. Обучение в трёх ситуациях Ход обучения в трёх ситуациях Закономерности обучения в трёх ситуациях Продолжительность обучения в трёх ситуациях Порядок предъявления трёх ситуаций 2.3. Обучение с числом ситуаций более трёх Беспорядочное обучение Закономерности беспорядочного обучения Продолжительность беспорядочного обучения Цикловое обучение Ход циклового обучения Закономерности и продолжительность циклового обучения Порядок предъявления ситуаций при цикловом и беспорядочном обучении З. Динамика образов 3.1. Динамика пропорционально изменяющегося образа 3.2. Динамика образа о изменяющейся контрастностью 3.3. Динамика зрительного образа при аккомодации 3.4. Динамика смешащегося образа 3.5. Динамика изменяющегося во времени образа Примеры и задачи Литература Часть Ш. Теоретические исследования обучаемых систем управления 1. Нелинейности обучаемых систем управления Нелинейность очувствления Нелинейность работы Нелинейность обучения Нелинейность работы и обучения 2. Жёсткость обучения обучаемых систем управления 2.1. Общая закономерность жёсткого обучения в двух ситуациях Жёсткое обучение с постоянным перерегулированием Предельные циклы функции последования при жёстком обучении Жёсткое обучение с переменным перерегулированием Мягкое обучение в двух ситуациях 2.2. Жёсткое обучение в трёх ситуациях З. Переключение и сосредоточение внимания Нейрофизиология переключения и сосредоточения внимания Теория переключения и сосредоточения внимания Командные рецепторы 4. Задача поиска в обучаемых системах управления 4.1. Поперечное перемещение поиска Поперечные перемещения при поиске в образном представлении Динамика механизма поперечного перемещения при поиске Фазовые методы исследований и расчётов поперечного перемещения Апериодическое запаздывание поперечного привода Точечные преобразования 4.2. Продольные перемещения поиска Динамика продольного перемещения Противоуклон продольного перемещения 4.3. Колебания глаза Влияние колебаний глаза на зрительный образ Острота зрения как следствие обучения Выбор параметров колебаний глаза Примеры и задачи Литература Антонов Владимир Михайлович Обучаемые системы управления

обучаемые системы управления

Related documents

Products

Support

обучаемые системы управления

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib