sii_voprosyx

advertisement
Оглавление
1. Введение .............................................................................................................................................. 2
2. История развития ИИ ......................................................................................................................... 3
3. Особенности знаний ........................................................................................................................... 4
4. Модели представления знаний .......................................................................................................... 5
5. Способы описания знаний ................................................................................................................. 6
6. Реализация моделей представления знаний. Логические модели .................................................. 7
7. Реализация моделей представления знаний. Сетевые модели ....................................................... 8
8. Статусы и логическая структура модели предметной области (МПОб) ....................................... 9
9. Понятия экстенсионала и интенсионала ......................................................................................... 10
10. Использование таксономических структур в сетевых моделях ................................................. 11
11. Продукционная модель .................................................................................................................. 12
12. Классификация ядер продукции .................................................................................................... 13
13. Управление системой продукции .................................................................................................. 14
14. Сценарии .......................................................................................................................................... 15
15. Ленема .............................................................................................................................................. 16
16. Нейронные сети. Основные положения........................................................................................ 17
17. Обучение .......................................................................................................................................... 19
18. Алгоритм обучения с учителем ..................................................................................................... 20
19. Нейронные сети. Алгоритм обратного распространения ........................................................... 21
1. Введение
Искусственный интеллект – свойство автоматических систем брать на себя отдельные
функции интеллекта человека.
Интеллект – способность мозга решать задачи путем приобретения, запоминания и
целенаправленного преобразования знаний в процессе обучения на опыте и адаптации к
различным обстоятельствам.
Интеллектуальная задача – связанная с отысканием алгоритма решения класса задач
определенного типа. Интеллект – универсальный сверхалгоритм, способный создавать
алгоритмическое решение конкретных задач.
Деятельность мозга, обладающего интеллектом, направленную на решение интеллектуальных
задач, будем называть мышлением.
Любая материальная система, с которой можно достаточно долго обсуждать проблемы науки,
литературы и искусства обладает интеллектом.
Допустим, в разных комнатах находятся люди или машины. Если в процессе обсуждения,
люди не понимают, что перед ними машина, то машину можно считать обладающей интеллектом.
2. История развития ИИ
Два направления развития в области ИИ
1 – моделирование биологического прототипа: в 1950-е годы был создан перцептрон
(PERCEPTRON) – самоорганизующийся автомат, реализующий сетчатку глаза.
2 – разработка методов, приемов, специализированных устройств и программ для ЭВМ,
обеспечивающих решение сложных математических и логических задач, позволяющих
автоматизировать отдельные интеллектуальные действия человека:
 General Purpose Solver (Универсальный решатель задач). Принцип эвристичности поиска
Большая задача -> несколько подзадач -> их решение -> решение всех задач
Система не давала конкретной привязки к определенной области задач, однако вскоре
выяснилось, что это применимо только для общих математических задач.
 Экспертные системы (Dendral) Для хим анализа в 3 этапа
1. С помощью базы знаний составляется список исходных условий
2. Список дополняется пользователем
3. Система генерирует, проверяет, ранжирует и упорядочивает возможные решения, выдает
их пользователям
 Система MYCIN - диагностика инфекционных заболеваний крови. Вероятностный характер
вывода. Допускала замену правил вывода. Система MYCIN могла объяснить ход решения. В
дальнейшем система была расширена, что позволяло диагностировать не только заболевания
крови.
 Системы AM (automated mathematician) и Eurisco – спроектированы стенфордским
университетом в 80-е. AM не смогла формулировать новые эвристические правила. Разработчики
Eurisco попытались преодолеть недостатки AM и позволили генерировать новые правила
случайным образом, но исходные данные переопределялись не всегда корректно. Также
рандомный фактор приводил к коллизиям и противоречиям.
3. Особенности знаний
1. Внутренняя интерпретируемость
2. Структурированность
3. Связность
4. Семантическая метрика
5. Активность
Внутренняя интерпретируемость - наличие у данных уникальных имен, дающих
возможность оперировать с данными как с информационными единицами. По этим уникальным
именам ИС находит эти информационные единицы, а так же отвечает на запросы, где упомянуто
это имя.
Структурированность – рекурсивная вложенность одних информационных единиц в другие.
Каждая информационная единица может быть включена в состав любой другой и из каждой
информационной единицы можно выделить некоторые ее составляющие.
Связанность - между информационными единицами должна быть предусмотрена
возможность установления связей различного типа, характеризующих отношения между этими
единицами. 2 вида отношений: декларативный или процедурный характер.
Типы отношений:
1)Относительная структуризация -> иерархия информационных единиц
2)функциональные отношения -> процедурная информация (вычисление единицы
информации через другие)
3)Каузальные отношения -> причинно-следственные связи
4)Семантические отношения -> все остальные связи
Семантическая сеть – иерархическая сеть в вершинах которой находятся ин.ед. Каждая
единица имеет индивидуальное имя. Дуги графа соответствуют различным связям между ин.ед.,
причем иерархическая связь определяется отношением структур, а неиерархическая – отношением
имен типов.
Семантическая метрика – на множестве информационных единиц могут быть заданы
отношения, характеризующие ситуационную близость информационных единиц, т.е. силу
ассоциативной связи между ними. Это позволяет выделить в информационной базе некоторые
типовые ситуации. Т.е. можно находить знания, близкие уже найденным.
Активность – Для ИС неприемлема ситуация, когда данные пассивны, а команды активны.
Каждое новое знание – активизация команды. Выполнение команд в ИС должно инициироваться
текущим состоянием информационной базы. Т.е. появление в базе новых фактов или установление
новых связей может стать источником активности системы.
Если система обладает этими 5 особенностями, то это не БД а БЗ.
4. Модели представления знаний
Декларативная – нет описаний выполняемых действий. Вывод решений основан на
процедурах поиска в пространстве состояний.
Проблема представления предметной области решается независимо от того как эти знания
потом будут использоваться. Модель делится на две части:
 Статическое описание модели знаний
 Механизм вывода
Не содержит в явном виде описание выполняемых процедур. Модель представляет
произведение множества утверждений.
Процедуральная – Знания содержатся в процедурах, которые определяют, как выполнять
специфические действия (как поступить в специфических ситуациях). Можно не описывать все
возможные состояния среды или объекта для реализации выводов. Достаточно хранить некоторые
начальные состояния и процедуры, генерирующие необходимые описания ситуаций и действий.
Процедуры могут активировать друг друга. Их выполнение может прерываться, а затем
возобновляться.
Главные преимущества: 1) высокая эффективность механизмов вывода, за счет введения
дополнительных знаний о применении. Т.е. знаний о том, каким образом использовать
накопленные знания для решения конкретной задачи, что однако снижает их общность.
2) высокая выразительная сила – можно смоделировать что угодно.
3) расширенная система выводов. Полезна в случаях:
3.1) неполнота знаний – если в системе отдельные факты не представлены или невыводимы,
правила вывода позволяют гипотетически признавать их верными при условии, что в системе нет
или невыводимы доказательства обратного.
3.2) Фактов достаточно, но нет времени проверять. Позволяет осуществить вывод в условиях
ограниченности ресурсов, когда процессы не могут быть завершены, но должны быть
остановлены для получения результатов.
5. Способы описания знаний
1. Логические модели. В основе – формальная система, задаваемая четверкой вида
M=<T,P,A,B>
T – множество базовых элементов различной природы, причем для этого множества
существует некоторый способ определения принадлежности или непринадлежности
произвольного элемента к этому множеству. Процедура такой проверки может быть любой, но за
конечное число шагов она должна давать положительный или отрицательный ответ на вопрос,
является ли Х элементом множества Т.
Р – множество синтаксических правил. С их помощью из элементов Т образуются
синтаксические правильные совокупности. Должна существовать процедура, с помощью которой
за конечное число шагов можно получить ответ на вопрос является ли Х синтаксически
правильной.
А – аксион – подмножество, выделяемое в множестве синтаксически правильных
совокупностей. Есть процедура П(А), которая за конечное количество шагов даст ответ для любой
синтаксически правильной конструкции о принадлежности/непринадлежности к множеству А. Но
если П(Т) должна определять «да» или «нет» из использования всех элементов, то П(*) работает
со множеством Р.
В – множество правил вывода. Применяя их к элементам А, можно получить новые
синтаксически правильные совокупности, к которым снова можно применить правила вывода.
Так формируется множество выводимых в данной формальной системе совокупностей.
Если имеется процедура П(В), с помощью которой можно определить для любой
синтаксически правильной совокупности, является ли она выводимой, то соответствующая
формальная система называется разрешимой.
2. Сетевые модели
В зависимости от типов связи между ин.ед. различают:
 Классифицирующие сети (отношения структуризации)
 Функциональные сети (вычислительные модели)
 Сценарии (каузальные отн.)
Если в сетевой модели допускаются связи различного рода - это семантическая сеть.
H=<J,C1,C2….Cn,r>
J – множество ин.ед.
C1,C2….Cn – типы связей
r – отображение, которое конкретизирует связи
3. Продукционные модели
Используются элементы логических(правила вывода) и сетевых(описание знаний в виде
семантической сети) моделей. В результате применения правил вывода к фрагментам сетевого
описания происходит трансформация сети за счет смены её фрагментов, наращивания сети и
исключения из неё ненужных фрагментов. Т.о. в продукционных моделях процедурная
информация явно выделяется и описывается иными средствами чем другая информация => вместо
логического вывода тут стоит говорить о выводах на знаниях.
Продукция – правила вывода
4. Фреймовая модель
Фреймы – минимальные структуры информации, необходимые для представления класса
объектов, явления или процессов
Протофрейм(имя фрейма:
имя слота1 (значение слота1)
……………………
имя слотаN (значение слотаN))
Значение слота может быть ссылкой на другой слот любого фрейма. В качестве знаний может
выступать набор слотов более низкого уровня
Конкретизация фрейма – заполнение слотов (значение и имя). Если все имена и все значения
фрейма заполнены, то это конкретный фрейм.
Связи м/у фреймами задаются значениями спецслота с именем
6. Реализация моделей представления знаний. Логические модели
Механизм представление знаний средствами матлогики - исчислении предикатов. На практике
применяется , если небольшое пространство решений и конкретно-описываемая область. Предикат
– переменная высказывания, истинность и ложность которого зависит от значений его
переменных. Логика предикатов – расширение логики высказываний.
Формула является выводимой, если она может быть получена из конечной совокупности
исходных формул путем конечного числа шагов применений правил вывода.
Термы, предикаты и кванторы. Терм – всякая константа или переменная. Предикат –
логическая функция, заданная на термах. Квантор – 2 специальных символа ∀, ∃ - общности и
существования. Областью действия квантера является формула к которой он применяется.
Вхождение переменной в формулу может быть связанным и свободным.
P(x,y)→∀x P(x)
y – свободная переменная (не находится в области действия квантора). х – свободное лишь
первое вхождение, остальные два – связано.
Недостаток – ограниченная выразительность. Способы преодоления:
1) Расширение и модификация логики предикатов
 применение семантических ограничений в зависимости от особенностей предметной
области.
 использование логики предикатов 2-ого порядка
 использование модальной логики (необходимость и возможность)
 использование вероятностной логики (P(1) или P(0) высказывания)
 использование многозначных и нечетких логик, в которых оценка истинности
высказывания может принимать дискретные или непрерывные значения из интервала между
истиной и ложью.
2) Разработка глобальных механизмов представления.
Достоинства: 1)хорошо исследована как формальная система, 2)синтаксис и интерпретация
хорошо определены.
7. Реализация моделей представления знаний. Сетевые модели
P-объект - объект, существующий в реальном мире. В БЗ ему соответствует некоторое
описание, полнота которого определяется той информацией, которую имеет о Р-объекте
интеллектуальная система. Такое представление – М-объект. Существует ли Р-объект, для
которого не существует М-объекта? Запросто! Может быть и наоборот.
Способ интерпретации взаимосвязи Р-объектов называется денотативной семантикой.
Способ интерпретации взаимосвязи М-объектов называется коннотативной семантикой.
Р-объект по отношению к соответствующему в базе знаний М-объекту называется денотатом
или референтом этого М-объекта, а М-объект по отношению к исходному Р-объекту – десигнат.
Десигнат – простейший элемент сетевой модели и он входит в класс терминальных объектов.
Терминальный объект – М-объект, который не может быть разложен на более простые
объекты. Остальные М-объекты – производные.
Перечень терминальных объектов, которые могут образовывать классы или типы, задается
при проектировании интеллектуальной системы. Семантика терминальных объектов определяется
набором допустимых процедур, оперирующих с ними.
СМ-фрейм (фрейм сетевой модели) задается в виде ассоциативного списка атрибутов
(имя_атрибута1 значение 1
…………………
имя_атрибутаN значение N)
Имена атрибутов характеризуют роли объектов, стоящих в позиции «значение».
Атрибутивная трансформация фреймов – превращение фрейма в атрибут.
Факт (конкретный фрейм, фрейм-экзмепляр) – фрейм, у которого значения всех атрибутов
являются терминальными объектами.
Ситуация – совокупность фреймов. 1 фрейм – элементарная ситуация. >1 фрейма –
глобальная.
Необходимо обеспечить уникальную идентификацию отдельных фреймов. Необходимо задать
коннотативный смысл фреймов. Он задан, если перечень имен атрибутов постоянен и не
совпадает с перечнем имен атрибутов фрейма другого вида. Т.о. целесообразно сопоставлять
смысл фрейма с описанием его типа.
8. Статусы и логическая структура модели предметной области (МПОб)
Простейший статус – статус истинности. Предполагается, что все фреймы, которые в данный
момент имеются в базе абсолютно истинны, а те которых сейчас там нет – абсолютно ложные.
Такая модель – замкнутая. В замкнутых моделях отсутствует необходимость в операциях
отрицания, так как она реализуется исключительно соответственно утверждениям из базы знаний.
Недостаток замкнутых моделей – наличие только одного статуса истинности.
Открытая модель: фреймам, отсутствующим в базе знаний присваивается статус
«неопределен», а ложные факты хранятся явно. Кроме того, могут использоваться фреймы с
набором градации истинности > 3. В МПОб должны присутствовать специальные процедуры
ассимиляции. Эти процедуры соотносят синтаксически правильные фреймы с текущим
состоянием дедуктивного замыкания модели. Фреймы, по отношению к которым выполнимы
процедуры ассимиляции считаются осмысленными.
Распространена практика частично-осмысленного фрейма – тактика, при которой система на
время допускает неосмысленные фреймы «в надежде», что впоследствии процедуры ассимиляции
смогут выполниться успешно.
В некоторых случаях, происходит пробное включение фрейма в модель, после чего
дальнейшая работа продолжается, в надежде на то, что ничего плохого не произойдет; если не
возникнет противоречий, то фрейм сохраняется. Иначе происходит откат и исследуется другой
вариант ассимиляции. В противном случае данный фрейм считается неосмысленным.
Вывод. В сетевой модели есть последовательное применение правил вывода из заданной
системы правил. Он позволяет получать утверждения, ранее в базе незафиксированных
(виртуальное утверждение). Вывод позволяет дать ответ на вопрос о существовании некоторого
виртуального утверждения в данном состоянии базы, либо определить значение атрибута
некоторого утверждения. Мы не храним в модели кучу всего, что можно вывести. Модель,
пополненная всеми виртуальными утверждениями является дедуктивным замыканием модели.
Дедуктивное замыкание модели происходит тогда, когда все факты представлены супер
экстенсионалами.
Виртуальное утверждение – то, которое выводимо в данной предметной области.
Модель знаний, дедуктивное замыкание которой не содержит утверждений, отрицающих друг
друга, характеризуется модельной непротиворечивостью. При замыкании модели необходимо
избегать появления противоречий.
Вводим специальный статус – Д статус, соответственно утверждение с этим статусом – Дистинные. Д статус определяется той измерительной процедурой, которая порождает модельное
утверждение или теми ограничениями исходного описания, которые зафиксированы при вводе
этого утверждения в базу. Можно считать, что утверждение с Д-статусом – это утверждение об
эмпирических фактах, а утверждение с абсолютно истинным статусом – утверждением некоторой
теории. Т.о. есть 2 истинных утверждения: теоретический и эмпирический.
Истинный статус помимо абсолютного может иметь частный или относительный характер,
отражать различные точки зрения на системы утверждений, составляющих конкретную МПОБ. В
этом проявляется основное свойство систем представления знаний – многоаспектное
моделирование действительности. Замкнутая, коньюктивная, абсолютно истинная МПОБ является
наивной «примитивной» одновариантной копией фрагмента реального мира и в общем случае
полезно поддерживающая множественный истинный статус утверждений, так называемый
механизм множественных точек зрения.
9. Понятия экстенсионала и интенсионала
Средствами Баз Знаний удобно реализуется механизм обобщения или абстракции. Первый
шаг на пути к этому – фиксация типа фрейма.
𝑆𝑐ℎ(𝑃𝑖 ) = (𝑃𝑖 … < 𝑎𝑗 : 𝐷𝑂𝑀(𝑃𝑖 , 𝑎𝑗 ) > ⋯ ), 𝑗 = 1. . 𝑁𝑖 – схема фрейма
𝑃𝑖 ∈ {𝑃1 … 𝑃𝑇 } - фрейм
T – количество типов фреймов в МПОб
aj – имя j-го атрибута фрейма Pi
DOM(Pi, aj) – множество допустимых значений атрибута aj фрейма Pi
Ni – число атрибутов фрейма Pi
Конкретизация схемы фрейма – факт.
Экстенсионал фрейма – множество всех фактов данного типа фрейма, зафиксированных в БЗ
МПОб. В процессе функционирования экстенсионалы могут меняться. Пример: таблица
умножения
Множество экстенсионалов образует супер экстенсионал, смысл которого в том, что для
каждого состояния МПОб выполняется следующее утверждение: EXT(Pi) ∈ NEXT(Pi) // правый –
супер экстенсионал
Прототип фрейма – фрейм, имеющий структуру факта, но в который помимо терминальных
значений допускаются переменные.
Интенсионал фрейма – функция INT(Pi), которая вырабатывает множество фактов,
являющихся конкретизацией прототипа фрейма. Пример: калькулятор.
Таким образом, используя интенсионал, мы виртуализируем утверждения.
Дедуктивное замыкание модели происходит тогда, когда все факты представлены супер
экстенсионалами.
Виртуальное утверждение – то, которое выводимо в данной предметной области.
Для фреймов, имеющих интенсиональное описание бессмысленно вводить в БЗ МПОБ
конкретизирующие факты. Они либо не несут новой информации, либо противоречат модели.
Зачем вводить экстенсионал? Лишь для немногих типов фреймов удается написать чистый
интенсионал и иногда полезней оказывается его аппроксимация. Иногда интенсионал избыточен.
10. Использование таксономических структур в сетевых моделях
Таксономическая структура – иерархия абстрактных понятий в виде дерева. При этом корень –
наиболее общее понятие, всё что выше – более частные понятия.
При этом любое абстрактное понятие таксономии за исключением наиболее общего наследует
все свойства непосредственно своего понятия – предка и добавляет к нему свое уточнение.
Отношения наследника SUP() и предка SUB()– транзитивны.
Достоинства и недостатки ТС:
 (+): Организация фреймов в виде ТС существенно облегчает доступ к экстенсионалам
соответствующих понятий, а также дедукцию при ответах на запросы системы.
Пример:
 ДИРИЖАБЛЬ - ??
 Это ВОЗДУШНЫЙ ТРАНСПОРТ (по дереву снизу вверх найдено решение)
 (+): Наличие ТС может служить основой для рассуждений по аналогии – выполнение
интуитивных умозаключений. Наследники некоторого абстрактного понятия более близки, чем
наследники разных понятий. Это дает:
1): Удобство предположения о формально не заданных свойствах некоторых объектов.
2): Когда пользователь взаимодействует с системой, ТС может помочь, давая подсказки
и уточнения.
 (-): Не существует единых принципов построения классифицирующих структур
Вопрос о выделении подклассов решается для каждого уровня отдельно. Любые другие
аспекты работы с МПОБ классификацией поддерживаться не будут. Чтобы это обойти, применяют
мульти-иерархические таксономии, где отдельное абстрактное понятие может наследоваться не
от одного, а от нескольких родственных понятий. Таким образом, возрастает сложность работы,
т.к. приходится иметь дело с графом классификаций, а не деревом.
11. Продукционная модель
Продукционная модель, или модель, основанная на правилах, позволяет представить знания
в виде предложений типа: Если (условие), то (действие).
Под условием понимается некоторое предложение-образец, по которому осуществляется
поиск в базе знаний, а под действием — действия, выполняемые при успешном исходе поиска (они
могут быть промежуточными, выступающими далее как условия, и терминальными или целевыми,
завершающими работу системы).
В общем виде продукция может быть представлена выражением следующего вида:
(i) ; Q ; P ; A => B ; N ,
где (i) - имя продукции, в качестве которого может выступать некоторая лексема, отражающая
суть данной продукции. На практике – порядковый номер в мн-ве продукций, хранящихся в
памяти системы.
Q – Характеризует сферу применения продукции. Такие сферы легко выделяются в
когнитивных структурах человека. Разделение знаний на сферы позволяет экономить время на
поиск нужных знаний.
А => В - основной элемент продукции, называемый ядром. Интерпретация ядра может быть
различной и зависит от того, что стоит слева и справа от знака сиквенции. Обычно это «если «А»
то «В» ». Может быть и « «В» следует из истинности «А» ».
Р - условие применения ядра продукции. Обычно Р - логическое выражение, предикат. Если
выражение Р – истина, то ядро продукции активизируется.
N - описание постусловия продукции. Актуализируется только в том случае, если ядро
продукции реализовалось. Здесь описываются действия и процедуры, которые необходимо
выполнить после реализации «В». Выполнение N может происходить не сразу после выполнения
ядра продукции.
Если в памяти системы хранится некоторый набор продукций, то они образуют систему
продукций. В системе продукций должны быть заданы специальные процедуры управления
продукциями, с помощью которых происходит актуализация продукций и выполнение той или
иной продукции из числа актуализированных.
В ряде интеллектуальных систем используются комбинации сетевых и продукционных
моделей представления знаний. В таких моделях декларативные знания описываются в сетевом
компоненте модели, а процедурные – в продукционном. В этом случае говорят о работе
продукционной системы над семантической сетью.
12. Классификация ядер продукции
I – детерминированные ядра продукции (если А, то обязательно В)
II - недетерминированные ядра продукции (если А, то возможно В)
I.1 – однозначные
I.2 – альтернативные
II.1 – с вероятностной оценкой реализации ядра (если А, то с вероятностью р реализуется В)
II.2 – с лингвистической оценкой реализации ядра (если А, то с большой долей уверенности В)
I.2 делится:
1) С вероятностной оценкой веса - если А, то с вероятностью р=0.5 реализуется В1 , с
вероятностью р=0.3 реализуется В2 , с вероятностью р=0.2 реализуется В3. Сумма всех рi должна
быть равна 1.
2) С лингвистической оценкой веса – если А, то с большей долей уверенности В1 , с меньшей
В2
3) Экспертная оценка веса – если А, то чаще В1 , реже В2
13. Управление системой продукции
При выполнении условий применимости ядер продукций для группы продукций возникает
проблема выбора той продукции, которая в данной ситуации будет активизирована. Решение этой
проблемы возлагается на систему управления системой продукции.
Продукции, для которых в данный момент времени выполняется условие применимости,
называется фронтом готовых продукций.
Возможны два пути решения этой задачи:
1 - централизованное управление – решения об актуализации принимаются специальной
системой управления.
2 - децентрализованное управление – предполагает учет складывающейся на этот момент
ситуации.
Стратегии для управления системой продукции:
1.Принцип «стопки книг»
Наиболее часто используемая продукция является наиболее полезной. Желательно кроме
частоты добавить параметр, что продукция не просто использовалась, а имела положительную
оценку. Принцип особо выгоден, когда частота исполнений продукции подсчитывается с учетом
некоторой ситуации, в которой ранее использовалась продукция и это исполнение имело
положительную оценку. LFU-принцип. При такой обратной связи метод стопки книг может
превратиться обучающую процедуру, адаптирующуюся к тем задачам, которые возникают во
внешней среде. Управление по этому принципу наиболее целесообразно применять, если
продукция относительно независит друг от друга.
2.Принцип «наиболее длинного условия»
Из фронта готовых продукций выбирается та продукция, у которой стало истинным наиболее
длинное условие выполнимости ядра. Принцип опирается на соображения здравого смысла,
а именно: частные правила, относящиеся к узкому классу ситуаций важнее общих правил (к
широкому классу правил), т.е. частные правила содержат больше информации, чем вторые.
Целесообразнее применять в тех случаях, когда знание и сами продукции хорошо
структурированы с привязкой к типовой ситуации
3.Принцип метапродукций
Основан на идее ввода в систему специальных метапродукций, задачей которых является
определение порядка выполнения продукций во фронте продукций.
4.Принцип «классной доски»
При реализации это в ИС выделяется рабочая область памяти (динамическая), на которой
выделяются специальные поля для определения условий применимости ядер продукций, для
различных сфер применимости продукций, а так же специальные поля для записи результатов
срабатывания продукции и для записи постусловий (3-е поле).
5.Принцип приоритетного выбора
Связан с введением статических или динамических приоритетов на продукции. Статические
приоритеты, как правило, формируются априорно на основании сведений о важности
продукционных правил в данной проблемной области. Динамические приоритеты
вырабатываются в процессе функционирования системы продукций и могут представлять,
например, время нахождения продукции во фронте готовых продукций.
6. Управление по именам.
Эта стратегия основана на задании для имен продукций, входящих в некоторую систему,
некоторой формальной грамматики или другой процедуры, обеспечивающей сужение фронта
готовых продукций.
Пример. Система из 4х продукций:
а) 𝐴 => 𝐵 б) 𝐵&𝐷 => 𝐴 в) 𝐴 ∪ 𝐵 => 𝐷 г) 𝐷 => 𝐶
Система недетерминирована. Введем формальную грамматику(порядок выполнения):
Сначала выполним (а). Из истинности (а) следует истинность (б). Выполним (в), откуда
следует истинность (б).
(а)=>(г)
(б) однозначно истинно, значит фронт готовых продукций сузится до (а), (в), (г)
14. Сценарии
Особую роль в системах представления знаний играют стереотипные знания, описывающие
известные стандартные ситуации реального мира; такие знания позволяют восстановить
информацию, пропущенную в описании ситуации, предсказывать появление новых фактов,
которых можно ожидать в данной ситуации, устанавливать смысл происхождения ситуации с
точки зрения более общего ситуативного контекста.
Для описания стереотипного знания используются различные модели. Среди них наиболее
распространенными являются сценарии. Сценарием называется формализованное описание
стандартной последовательности взаимосвязанных фактов, определяющих типичную ситуацию
предметной области. Это могут быть последовательности действий или процедур, описывающие
способы достижения целей действующих лиц сценария.
Наиболее распространены сценарии в виде 1) дерева 2) классифицирующий сценарий и 3)
каузальный сценарий.
1) Дерево: в сценарии описывается как некоторая цель может быть декомпозирована в
систему подцелей (применяется при планировании решений)
2) Классифицирующий: При обобщении знаний и представляет собой сети между вершинами
которых имеются отношения.
3) Каузальный: сценарий используемый для представления проблемно зависимых каузальных
знаний о событиях, действиях и процедурах. Кауз сценарий задает в обобщенном и структурном
виде типичную последовательность действий или процедур в заданной предметной области и
описывается в виде фрейма.
Имена слотов и значения слотов. Значение слота описывается в нотации Бэкуса-Науэра.
Сценарий считается завершенным, если реализовано ключевое событие и достигнута цель деятеля.
15. Ленема
При выполнении любой работы на характер представления знаний влияют 2 точки зрения:
разработчика и пользователя.
В основу модели представления знаний через Ленемы положена двухуровневая система,
состоящая из языка спецификации знаний (L-языка) и базовой формальной системы (БФС),
которая представляет собой самостоятельный язык представления знаний.
Семантика языка полностью описывается в терминах БФС. Как и всякий язык представления
знаний он выражает средства для формирования МПОб и подъязык для спецификации конкретных
фактов. Спецификацией языка является Ленема – конструкция, задающая схему описания
понятий. Спецификация МПОб и конкретики факторов в форме выражений L-языка существует
только на внешнем пользовательском уровне, а хранение и обработка информации
осуществляется на уровне БФС.
БФС состоит из 3х компонентов: Библиотека понятий, Функционально-Семантическая сеть
(ФС-сеть), продукционная система на ФС-сети. Библиотека содержит описание классов (сортов,
объектов, отношений и функций). Описание полей включает 2 уровня: декларативный и
интерпретационный. На 1 вводятся обозначение понятий, на 2 – интерпретация.
ФС-сеть объединяет возможности функциональной и семантической сети. В ней три типа
вершин: объекты, функции и отношения. Графически «объект» - маленькая вершина, «ф-я» большая вершина, «отношение» - большая дуга. Отражает связь функций и отношений с их
аргументами.
Каждая объектная вершина, как и библиотека имеет 2 уровня представлений – декларативный
и интерпретационный. 1 – классы и имя, 2 – мн-во возможных значений.
Модель представления знаний, основанная на базе ленем, предназначена для ситуаций, когда
необходимо выполнить противоречивые требования, заданные при разработке языка
представления знаний: 1) требования максимальной простоты и однородности языка; 2)
требования удобства. Ленема очень напоминает фрейм, но сходство между ними чисто внешнее.
16. Нейронные сети. Основные положения
Сети бывают:
Программного исполнения (программная эмуляция) и Аппаратного исполнения (плата)
Рассматриваем только программного исполнения.
Общие черты: в основе – искусственный нейрон
𝑋 – входы
𝑤1 . . 𝑤𝑛 – синапсы, характеризующиеся весом.
S – состояние нейрона
Y – выход (функция состояния)
Вес синапса – аналог электропроводимости реального синапса.
F – активационная функция, может быть разной.
Наиболее распространены:
1) Функция единичного скачка
Параметр Т в функции единичного скачка может принимать произвольные значения,
определяемые в процессе обучения.
2) Линейный порог (гистерезис)
3) Гиперболический тангенс
4) Сигмоидальная
𝐹(𝑥) =
1
1 + 𝑒 −𝛼𝑥
α = 0 – горизонтальная линия 0,5
α → ∞ стремится к единичному скачку с Т=0
Гиперболический тангенс – легко дифференцируется на всей оси абсцисс.
Гипербол.тангенс и гистерезис усиливают слабые сигналы лучше, чем сильные.
Нейронным сетям присущ принцип параллельной обработки сигналов. Один нейрон не
решает задачи. Но их можно объединить в слой, а несколько слоев – в большую сеть.
Однослойный перцептрон из 3-х нейронов:
𝑛
𝑦𝑗 = 𝑓 [∑ 𝑥𝑖 𝑤𝑖𝑗 ] ; 𝑗 = 1, 3
𝑖=1
Y = F (X * W) – в матричном виде.
Число слоев ограничено ресурсами. Синтез новой конфигурации: представить в виде Черного
ящика, так получим кол-во входов и выходов. Достаточно ли будет одного слоя? Можно ли
обойтись одним слоем на входе и одним слоем на выходе?
17. Обучение
Обучение нейронной сети – процесс нахождения оптимальных значений весовых
коэффициентов, калибровка связей.
Два метода обучения: с учителем и без него.
1) Есть некий набор тестовых значений Х и эталонных значений У. Сравниваем реальный Y с
эталонным, производим корректировку сигналов с учетом разницы (Y – Yэт.)
2) Весовые коэффициенты меняются на основе входных сигналов и значений синапсов на
текущей итерации.
Алгоритмы обучения: детерминистические и стохастические.
1) Жесткая последовательность действий.
2) Обучение на основе действия, подчиняющегося некоему случайному процессу.
Классификация нейронных сетей:
 Бинарные (напр. единичный скачок)
 Аналоговые (напр. сигмоид – значения в некотором диапазоне)
или
 Синхронные – в каждый момент времени свое состояние меняет лишь один нейрон.
 Асинхронные – состояния меняется сразу у группы нейронов.
или
 однослойные
 двуслойные
 многослойные
Состояние нейрона можно не только считать как сумму, можно возвести Х в квадрат.
Добавляем к 𝑊 (1) 𝑊 (2)
Если убрать F(S), получим 𝑊 𝛴 = 𝑊 (1) ∗ 𝑊 (2) ∗ … , а 𝑌 = 𝑋 ∗ 𝑊 𝛴
F(S) дает нелинейность исполнения.
𝑆 = ∑𝑛𝑖=1 𝑥𝑖2 𝑤𝑖 –дополнительная нелинейность.
Параметр Т в функции единичного скачка может принимать произвольные значения,
определяемые в процессе обучения.
Порог единичного синапса можно подобрать, как и веса:
Например, 𝑆 = ∑𝑛𝑖=1 𝑥𝑖 𝑤𝑖 − 𝑇
Или можно ввести фиктивный нейрон с 𝑥0 = 1 𝑤0 = −Т, тогда 𝑆 = ∑𝑛𝑖=0 𝑥𝑖 𝑤𝑖
Большинство нейронных сетей решают задачу классификации.
𝑥1 𝑤1 + 𝑥2 𝑤2 = Т – прямая делит пространство объектов (решений) на части. Но это не всегда
возможно.
Например, решить задачу XOR одним нейроном невозможно (проблема исключающего или).
Необходимо минимум 2 слоя.
18. Алгоритм обучения с учителем
Функция, которая не может быть решена однослойной сетью, называется линейно
неразделимой.
Алгоритм обучения сети из одного слоя.
Есть тестовый набор 𝑋̅ и 𝑌̅. Изначальные веса 𝑤𝑖𝑗 задаются случайным образом. Обучение
представляет собой подгонку весов.
Этап 1. Инициализация элементов весовой матрицы небольшими случайными значениями
Этап 2. Подать на входы один из входных векторов, которые сеть должна научиться
различать, и вычислить ее выход 𝑆𝑗 = 𝑥𝑖 𝑤𝑖𝑗 , 𝑦𝑖 = 𝐹(𝑆𝑗 )
Этап 3. Если выход получили правильный, переходим к пункту 4.
Иначе – вычисляем разницу м/у идеальным и полученным значением выхода 𝛿 = 𝑌𝐼 − 𝑌
Необходимо скорректировать веса: 𝑤𝑖𝑗 (𝑡 + 1) = 𝑤𝑖𝑗 (𝑡) + 𝜈𝛿𝑥𝑖
t – текущая итерация обучения, 𝜈 – коэффициент скорости обучения (0…1), j – номер условия,
i – номер входа.
𝑌𝐼 > 𝑌 𝛿 > 0 => 𝑤𝑖𝑗 − увеличивается => ошибка уменьшается
𝑌𝐼 < 𝑌 𝛿 < 0 => 𝑤𝑖𝑗 − уменьшается => ошибка увеличивается
Этап 4. Цикл с этапом 2, пока сеть не перестает ошибаться.
Правило: На втором шаге на разных итерациях поочередно в случайном порядке
предъявляются все возможные входные вектора.
19. Нейронные сети. Алгоритм обратного распространения
Полносвязные НС – в которых каждый нейрон произвольного слоя связан со всеми
функциональными нейронами предыдущего слоя или, в случае первого слоя, со всеми входами
сети.
В многослойных сетях оптимальное выходное значение нейронов всех слоев, кроме
последнего, как правило, неизвестно, и двух или болееслойный перцептрон уже невозможно
обучить, руководствуясь только величиной ошибок на выходах нейронной сети.
Решение проблемы:
 Разработка наборов выходных сигналов, соответствующих входным для каждого слоя
нейронной сети. Минус: трудоемкость
 Динамическая подстройка весовых коэффициентов синапсов: выбираются, как правило,
наиболее слабые связи и изменяются на малую величину, а сохраняются только те изменения,
которые повлекли уменьшение ошибки на выходе сети.
 Распространение сигналов ошибки от выходов нейронной сети к её входам в направлении,
обратном прямому распространению сигналов в обычных режимах работы.
𝐸(𝑤) =
1
2
∑𝑗,𝑝(𝑦𝑗𝑝 (𝑁) − 𝑑𝑗𝑝 )2 - целевая функция, которую требуется минимизировать.
𝑦𝑗𝑝 (𝑁) - реальное выходное состояние нейрона j слоя N (выходного) на её вход образа p
𝑑𝑗𝑝 - идеальное выходное состояние этого нейрона.
Суммирование происходит и по выходным нейронам и по образам.
Поиск минимума производится методом обратного спуска. Подстройка весовых
коэффициентов осуществляется в следующем виде:
𝜕𝐸
∆𝑤𝑖𝑗 (𝑁 ) = 𝜂 𝜕𝑤 ; 𝑤𝑖𝑗 – весовой коэффициент связи, соединяющей i-й нейрон слоя n-1 с j-ым
𝑖𝑗
нейроном слоя n. 𝜂 - коэффициент скорости обучения (0…1)
𝜕𝑤𝑖𝑗 =
𝜕𝐸
𝜕𝑦𝑗
𝜕𝑦
𝜕𝑆
× 𝜕𝑆 𝑗 × 𝜕𝑤𝑗 ; 𝑦𝑗 – выход нейрона j, 𝑆𝑗 - взвешенная сумма входных сигналов
𝑗
𝑖𝑗
нейрона j (аргумент активационной функции)
Для гиперболического тангенса:
𝜕𝑆
𝑑𝑦
(𝑛−1)
= 1 − 𝑆 2 ; 𝜕𝑤𝑗 = 𝑦𝑖
- выход нейрона предыдущего слоя
𝑑𝑆
𝑖𝑗
𝜕𝐸
𝜕𝑦𝑗
= ∑𝑘
𝜕𝐸
𝜕𝑦𝑘
∗
𝑑𝑦𝑘
𝑑𝑆𝑘
∗
𝜕𝑆𝑘
𝜕𝑦𝑗
= ∑𝑘
𝜕𝐸
𝜕𝑦𝑘
∗
𝑑𝑦𝑘
𝑑𝑆𝑘
(𝑛+1)
∗ 𝑤𝑗𝑘
- суммирование по k выполняется среди n+1 слоя
𝑑𝑦
𝜕𝐸
Вводится новая переменная: 𝛿𝑗 = 𝜕𝑦 ∗ 𝑑𝑆 𝑗 Получим рекурсивную формулу для расчёта
𝑗
величин 𝛿𝑗
(𝑛)
слоя из величин 𝛿𝑗
Выходной слой 𝛿𝑙
(𝑁)
=
(𝑛+1)
(𝑁)
(𝑦𝑙
𝑗
(
)
более старшего слоя. 𝛿𝑗 (𝑛) = [∑𝑘 𝛿𝑘 (𝑛+1) ∗ 𝑤𝑗𝑘𝑛+1 ] ∗
𝑑𝑦𝑗
− 𝑑𝑙 ) 𝑑𝑆 можно записать как ∆𝑤𝑖𝑗 =
𝑗
(𝑛)
−𝜂𝛿𝑗
∗
𝑑𝑦𝑗
𝑑𝑆𝑗
(𝑛−1)
𝑦𝑖
(𝑛)
(𝑛−1)
∆𝑤𝑖𝑗 (𝑛) (𝑡) = −𝜂(𝜇 ∗ ∆𝑤𝑖𝑗 (𝑛) (𝑡 − 1) + (1 − 𝜇)𝛿𝑗 ∗ 𝑦𝑖
), где μ − коэфциент инерционности,
t-номер текущей итерации.
Алгоритм обратного распространения:
1.Подать образ на вход, рассчитать выход.
M-число нейронов в слое n-1 (с учетом нейрона с постоянным выходным состоянием +1).
- q-ая компонента вектора входного образа.
2.Рассчитать ẟ выходного слоя (𝛿𝑙
(𝑛)
(𝑛−1)
слоя N ∆𝑤𝑖𝑗 = −𝜂𝛿𝑗 ∗ 𝑦𝑖
3.Рассчитать 𝛿𝑙 (𝑛) и ∆𝑤 (𝑛)
𝑑𝑦𝑗
(𝑛)
(𝑛−1)
и ∆𝑤𝑖𝑗 = −𝜂𝛿𝑗 ∗ 𝑦𝑖
𝑑𝑆
(𝑁)
=
(𝑁)
(𝑦𝑙
𝑑𝑦
− 𝑑𝑙 ) 𝑑𝑆 𝑗). Рассчитать изменения весов ∆𝑤 (𝑁)
𝑗
(
)
для всех оставшихся слоев n=N-1,…,1. 𝛿𝑗 (𝑛) = [∑𝑘 𝛿𝑘 (𝑛+1) ∗ 𝑤𝑗𝑘𝑛+1 ] ∗
𝑗
4.Скорректировать все веса нейронной сети 𝑤𝑖𝑗 (𝑛) (𝑡) = (𝑤𝑖𝑗 (𝑛) (𝑡 − 1) + ∆𝑤𝑖𝑗 (𝑛) (𝑡)).
5.Если ошибка сети большая, то к шагу 1, иначе – конец.
На шаге 1 использовать разные образы.
Проблема алгоритма обратного распространения:
Ошибочно подавать последовательно образы, лучше делать это случайно. Это позволит не
забыть одни образы по мере запоминания других.
Как выбрать без повторов 10 случайных чисел? Берем число и меняем его со случайно
выбранным элементом местами. Потом пройдемся подряд в полученном массиве.
Ёмкость нейронной сети – характеристика НС, показывающая, какое количество образов НС
способна научиться распознавать.
Если два слоя, то можно найти выражение для этой оценки:
𝑁𝑤
𝑁
𝑁
< 𝐶𝑑 < 𝑁𝑤 ∗ log( 𝑁𝑤 ), где Nw - число подстраевымых весов, Ny - число нейронов в
𝑁
𝑦
𝑦
𝑦
выходном слое. Сd - емкость(количество образов для распознавания).
Это справедливо для некоторого решения: предпологается, что
1) Nx+Nh>Ny, где Nx – число входов, Nh – число нейронов в скрытом слое.
𝑁
2) 𝑁𝑤 > 1000
𝑦
Можно ли решить задачу одним слоем.
Всегда есть избыточность - Для повышения достоверности классификации желательно ввести
избыточность, путем выделения каждому классу одного нейрона в выходном слое или нескольких,
каждый из которых обучается определять принадлежность образов к классу со своей степенью
достоверности.
Узкие места алгоритма:
1) Большие положительные и отрицательные значения весов сместят рабочую точку
сигмоидов многих нейронов в область насыщения. Малые величины производных от функции f
приведут к остановке обучения. Так как посылаемая обратно в процессе обучения ошибка
пропорциональна этой производной, то процесс обучения может практически замереть. В
теоретическом отношении эта проблема плохо изучена. Обычно этого избегают уменьшением
размера шага η, но это увеличивает время обучения. Различные эвристики использовались для
предохранения от паралича или для восстановления после него, но пока что они могут
рассматриваться лишь как экспериментальные.
2) Применение метода градиентного спуска не гарантирует, что будет найден глобальный, а не
локальный минимум целевой функции. Поверхность ошибки сложной сети сильно изрезана и
состоит из холмов, долин, складок и оврагов в пространстве высокой размерности. Сеть может
попасть в локальный минимум (неглубокую долину), когда рядом имеется более глубокий
минимум. В точке локального минимума все направления ведут вверх, и сеть неспособна из него
выбраться. Можно кратковременно увеличивать коэффициент обучения и следить за найденными
минимумами. Каждый раз выходя из локального минимума снова ищется следующий локальный
минимум тем же методом обратного распространения ошибки до тех пор, пока найти из него
выход уже не удаётся. Если они одни и те же, то это глобальный минимум.
Программирование НС: 1) матричная алгебра 2)ООП
Классическая иерархия:
• Neuron FF – методы для работы с нейроном для прямого распространения
• Neuron BP – методы для работы с нейроном для обратного распространения
• Layer FF – методы для работы со слоем для прямого распространения
• Layer BP – методы для работы со слоем для обратного распространения
• Net BP – сеть с обратным распространением ошибки
В основе иерархи положен вес синапсов
Download