Knowledge Mining - от сырых знаний к полезным

advertisement
In
English
«Интеллсист»
Интеллектуальные системы общего назначения www.intellsyst.ru
Альберт Александрович Красилов krasilov@galaktika.ru
УДК 681.3.06 - 519.852.6
Knowledge Mining - от сырых знаний к
полезным решениям и новым знаниям
А.А. Красилов
Корпорация «Галактика»
Москва, Россия
Аннотация. Информация о Добыче данных (Data Mining) использована полностью для
формирования понятия Добыча знаний (Knowledge Mining), поскольку обе работы или
оба направления непрерывно перетекают друг в друга. Может быть добыча знаний
является составной частью добычи данных, может быть они составляют одно целое.
Отличие напоминает то, как отличаются между собой понятия информация и знание.
Ниже в тексте можно обнаружить компилятивные тексты, они заимствованы из [1].
Abstract. The information on Extraction of data (Data Mining) is used completely for formation
of concept Extraction of knowledge (Knowledge Mining) as both works or both directions
continuously flow each other. There can be an extraction of knowledge is a component of
extraction of data, there can be they make a single whole. Difference reminds how concepts the
information and knowledge differ among themselves. Below in the text it is possible to find out
compilational texts, they are borrowed from [1].
1. Что такое Knowledge Mining?
Knowledge Mining переводится как "добыча знаний" или "раскопка знаний", но пока это
новое понятие оставляем без перевода. Нередко рядом с Knowledge Mining встречаются
слова "обнаружение знаний в базах данных" и "интеллектуальный анализ знаний". Их
можно считать синонимами Knowledge Mining. Возникновение всех указанных терминов
связано с новым витком в развитии средств и методов обработки данных, алгоритмов,
заданий, естественного языка, аналитических выкладок и знаний вообще.
Ниже приведена цитата, в которой понятие «данные» заменено понятием «знание»:
"До начала 90-х годов, казалось, не было особой нужды переосмысливать ситуацию в этой
области. Все шло своим чередом в рамках направления применения языков Лисп, Пролог
и экспертных систем. Теоретики проводили конференции и семинары, писали
внушительные статьи и монографии, изобиловавшие аналитическими выкладками.
Вместе с тем, практики всегда знали, что попытки применить теоретические экзерсисы
для решения реальных задач в большинстве случаев оказываются бесплодными. Но на
озабоченность практиков до поры до времени можно было не обращать особого внимания
- они решали главным образом свои частные проблемы обработки небольших локальных
баз знаний.
И вот прозвенел звонок. В связи с совершенствованием технологий записи и хранения
знаний на людей обрушились колоссальные потоки информационной руды в самых
различных областях. Деятельность любого предприятия (коммерческого,
производственного, медицинского, научного и т.п.) теперь сопровождается регистрацией
и записью всех подробностей его деятельности. Что делать с этой информацией? Стало
ясно, что без продуктивной переработки потоки сырых знаний и данных образуют никому
не нужную свалку. Специфика современных требований к такой переработке следующая:




Знания имеют неограниченный объем, поскольку необходимо определить большое
число понятий.
Знания являются разнородными (количественными, качественными, текстовыми).
Результаты должны быть конкретны и понятны, итоговыми фактами.
Инструменты для обработки сырых знаний должны быть просты в использовании.
Традиционная математическая статистика, долгое время претендовавшая на роль
основного инструмента анализа данных, откровенно спасовала перед лицом возникших
проблем." (цитата из "Data Mining - интеллектуальный анализ данных." В.А. Дюк)
Высказанное предложение приобретает новый смысл из-за перехода от данных к знаниям.
Имеется некоторый аналог сопоставлению данных и знания паре информация и знание
[2].
По мере создания экспертных систем (ЭС) и интеллектуальных систем вообще
(Интеллсист) была осознана необходимость сбора или поиска (добыча) знаний из
различных источников. Добыча данных является также поиском фактического материала
по знанию. Напомним, что поиск знаний сейчас реализуется с помощью системы
Интернет, обеспечивающей новыми для данного пользователя знаниями, если кто-то уже
решал такие же задачи. Эта широко распространенная система снабжена подсистемой
поиска готового решения по заданному вопросу, из которого используются для поиска
ключевые слова или термины. В результате поиска находятся десятки (иногда тысячи)
вариантов ответа, из них нужно вручную выбрать нужный ответ путем логического
вывода, производимого самим пользователем. Это сырые или исходные знания.
Рассмотрим главные причины, породившие новое направление в информатике. С одной
стороны представленные причины являются критикой процедурного программирования
(ПП), а с другой - проектным заданием на создание Интеллсист нового класса, она
поддерживает интеллектуальное программирование (ИП [3, 4, 5]). Перечисленные ниже
причины являются глобальными. Другие причины по нашему мнению являются частными
и способствуют раскрытию главных причин.
Причина 1. Прямой пользователь, имеющий доступ в Интернет, не имеет доступа к ВМ
без готовой программы и не желает его иметь, так как программирование ему не
доступно. Для обеспечения доступа к программам необходимы условия, позволяющие
все-таки осуществить прямой доступ к ВМ. Более того, выдвигается следующее
положение. Каждый прямой пользователь ВМ должен стать «программистом» своих задач
без знания основ программирования. Известна уже упомянутая ранее проблема 20-х годов
о необходимости ускоренного роста количества телефонисток в условиях бурного
развития средств телефонной связи. Возникал парадокс: для обеспечения указанного
роста необходимо почти всех людей страны превратить в телефонисток. Парадокс был
разрешен изобретением и внедрением автоматических телефонных станций. В этом
случае каждый становился телефонистом, он сам соединяется с абонентом путем набора
номера. Парадокс сегодняшнего дня - это необходимость ускоренного роста количества
программистов в условиях бурного развития средств вычислительной техники (СВТ),
необходимость в связи с этим переквалификации всех людей страны в программистов и
переобучения их новой науке - прикладной информатики. Парадокс должен быть
разрешен созданием и внедрением методологии применения СВТ, основанным на
программировании без программистов. Как и в случае с телефонами, с применением
Интеллсист каждый становится «программистом» на основе использования своих знаний,
представленных на своем профессиональном языке.
Причина 2. Уровень или интеллектуальность общения с ВМ является важным
обстоятельством. Современные системы создания программ вполне обеспечивают
значительными удобствами только тех программистов, которые являются
профессионалами в области подготовки ВМ к использованию. Увеличение количества
пользователей ВМ выдвигает проблемы учета человеческих факторов. Для пользователей
ВМ важен учет следующих главных факторов. Общение с ВМ должно напоминать
общение с человеком. Может быть не с человеком вообще, а с профессионалом тех же
предметной и проблемной областей, каким является сам пользователь. Второе, любая
программная система должна воспринимать избыточность вводимых в ВМ сведений в
связи с решением некоторой проблемы, но без передачи ее в рабочую синтезированную
программу. Избыточность случайна, она не должна быть препятствием для решения
заданий. Отметим третье, любая программная система должна допускать естественную
ошибочность сообщений пользователя и средства ее устранения. Последнее
обстоятельство важно для привлекательности системы. Таковы требования к Интеллсист
со стороны пользователя. Доступ прямого пользователя к ВМ должен знаменоваться
постепенным внедрением средств естественного (национального) языка в качестве
средства общения в системе человек-ВМ. Использование ЕЯ в полном объеме (здесь
почти) невозможен, поскольку с его помощью можно передавать только расплывчатые
или просто неопределенные знания, которые будут требовать непрерывного уточнения и
контекста. Из ЕЯ можно выделить часть, которая именуется нами ЯПП (язык
профессиональной прозы [6]), являющийся проекцией ЕЯ на предметную и проблемную
области знания прямого пользователя. Почти каждая специальность или специализация
характеризуется своим ЯПП. Эти факторы не являются препятствием для внедрения
Интеллсист.
Причина 3. Необходимость формализации процессов общения с ВМ существует, она
реализуется в Интеллсист через интерфейс. Процесс построения программы формализуем,
если известны способы спецификации заданий и методы их развертывания, базирующиеся
на научном анализе, с помощью и в процессе которого строится алгоритм.
Формализованное задание, метод и алгоритмы его развертывания содержат полный состав
всех операций, потока имен, данных и управления - все, что необходимо для написания
программы. Если известна только формальная запись спецификации задания, то по ней
возможен вывод алгоритма методом автоматического синтеза, но он еще не исчерпывает
всех возможностей программирования без программистов. Имеются в таком случае
знания только о данных предметной и проблемной областях. Из этих знаний необходимо
вывести новое знание, которое составляется или формируется из ответов на запросы
пользователя Интеллсист. Необходимо обеспечить условия создания программ только из
потоков операций, исключая потоки имен и управления.
Причина 4. Барьер формализации процессов общения с ВМ для решения задач состоит в
следующем. Решение неформализованных заданий с помощью знаний всегда
подразумевает учет сведений от специалистов (как иногда принято говорить - экспертов).
Их сведения уникальны и плохо поддаются формализации. Частенько сами программисты
пасовали перед замечаниями специалистов относительно свойств результатов прогона
программы. Учет программистом замечаний специалистов в формальном описании
алгоритмов сложен, а зачастую практически невозможен. Однако подобные проблемы
должны разрешаться положительно, и Интеллсист обеспечивает подход к разрешению
проблемы учета и использования всякого знания специалистов науки, техники, культуры
и быта. При этом знания должны быть общедоступными, а не быть знаниями только
одного специалиста.
Причина 5. Существует ли панацея? Ньюэлл и Саймон, см. например в [7], описали
универсальный решатель задач. Были и другие попытки построения универсальных
решателей. Все случаи таких экспериментов предполагали построение программы,
реализующей путь от исходных данных к конечному целевому результату. Эта проблема
является неразрешимой, если ориентироваться на классические логики. У каждого
пользователя или в каждой области знания своя логика, включающая или не включающая
классические. Этот фактор не учитывался в экспериментальных универсальных
решателях. Простой пример показывает на правильность такого утверждения. Можно ли
решить простое уравнение Х * Х = 2? Невозможно! Запись Х=sqrt(2) является
модификацией исходного уравнения или задания. Практика решения подобных проблем
подсказывает путь получения приближенного значения для корня квадратного уравнения:
Х ~ 1.41. Следовательно, мы не всегда можем достигнуть поставленной цели. Вопрос о
возможности или невозможности (или степени возможного) достижения цели чаще всего
установить сложно. Эту проблему можно сформулировать так. Имеются знания, на основе
которых необходимо решить задачу и достигнуть максимальной близости к цели
настолько, насколько позволяют знания. Остаток пути к цели будет оценкой
возможностей знания и необходимости пополнения знаний новыми знаниями. Систему
поиска решений задачи пользователя, соответствующих знаниям и запросу по смыслу, мы
называем Интеллсист.
Причина 6. Главным барьером для пользователя ВМ является необходимость
составления алгоритмов и программ. Устранением этих условий является создание
средств программирования без разработки алгоритмов и программ, средства
автоматического программирования. Следствием внедрения методологии
программирования без программистов (сама методология должна реализовываться
программными комплексами, построенными силами программистов высокой
квалификации) должно быть увеличение общего количества пользователей ВМ. В
современных условиях на пути использования ВМ в новых областях науки, техники,
культуры и быта барьером является именно составление алгоритмов решения заданий.
Интеллсист и ИП способствует устранению указанных барьеров.
Причина 7. Углубление барьеров программирования. Развитие ВМ не только увеличивает
количество пользователей, но и приводит к увеличению размеров и сложности
алгоритмов, программ, а, следовательно, исходных заданий. Отсюда проистекают многие
беды современного использования ВМ. Интеллсист должны смягчить это препятствие
путем контроля правильности знаний и возможности построения пакетов прикладных
программ. Технические барьеры должны автоматически контролироваться, но не быть
препятствием в решении проблем.
Обсуждение причин возникновения ИП и Интеллсист каждый раз сопровождается
требованием специального достаточно емкого обучения для успешного использования
ВМ. Для прямого пользователя это непреодолимая преграда, если обучение связано с
программированием. Впрочем, сказано очень сильно, многие прямые пользователи
освоили методы ПП и находят в этом наслаждение. Но большинство из таких
специалистов постепенно теряют свою исходную квалификацию. Конечно, это может
оказаться пагубным для проблемы и соответствующей специальности.
2. Основная концепция
В основу современной технологии Knowledge Mining положена концепция логического
вывода из известного знания нового. Для осмысления важности нового взгляда на знания
рассмотрим обобщенную классификацию проблем пользователя.
Класс А проблем - это все постановки проблем, которые сводятся к вопросам,
требующим ответов «да», «нет» или «не знаю». Другие формулировки проблемы типа А это доказать теорему, установить истинность утверждения и соответствие проблемы
знаниям. Новым знанием является результат решения проблемы.
Класс Б проблем. Поиск условий истинности утверждения (определение недостающего
знания для решения конкретной задачи). Другая формулировка проблемы характеризуется
словами синтез теорем. Построение теоремы сводится к установлению условий, при
которых утверждение становится истинным. Простейший пример имеет следующую
формулировку: «При каких значениях Х значения функции sin X будут равны нулю?».
Класс В проблем. Формирование понятий по БЗ (анализ и синтез свойств понятия,
необходимых в анализе, например, требований проектировщика). Другая формулировка
проблемы - определение понятий.
Класс Г проблем. Поиск информации в БД (информационные системы, включаемые в
состав Интеллсист на базе выбранной СУБД). Запрос состоит в том, чтобы по известным
данным собрать те факты, которые удовлетворяют контексту поиска. Прямой поиск по
ключу осуществляет Интернет, она не осуществляет поиск по логической совокупности
терминов (по смыслу). Усилением проблемы является формулировка - найти новые
знания в произвольных текстах в соответствии со смыслом вопроса.
Класс Д проблем. Поиск путей логического вывода (синтез организационных или
технологических и других логических планов). Построить дерево вывода решения из
запроса в заданном исчислении (или БЗ) и показать пути достижения ответа. Другая
формулировка - синтез рассуждений «выводящих» из лабиринта с входом (запрос) и
выходом (решение). Сами запрос и решение могут и не приниматься во внимание в
качестве результата.
Класс Е проблем. Построение алгоритмов (синтез программ для прогона с конкретными
исходными данными) по запросу пользователя о решении задачи. Здесь решается общая
задача программирования без программистов или задача автоматического
программирования.
Класс Ж проблем. Выполнение запроса пользователя на информационное
конструирование системы. Другая формулировка проблемы - это информационный синтез
системы или ее автоматическое изобретание. Результатом решения проблем являются
схемы, состоящие из элементов некоторой природы и связей элементов, возможно
нагруженных подходящими функциями.
Побочными проблемами являются проблемы поиска альтернативных решений по
каждому классу задач. Эту проблему можно именовать еще проблемой единственности
решений, которая разрешается практически. Это значит, что по структуре результата
можно судить о том, что задача имеет единственное решение.
Общая технология сбора знаний. Она базируется на «технологии» мышления, которая
осуществляется совокупностью различных операций:

Наблюдение за объектами и сбор данных и знаний о свойствах объектов.

Сравнение для установления сходства и различия между предметами или
объектами. Познание объектов окружающего мира начинается, прежде всего,
путем их сравнения, сопоставления их друг с другом (первичный синтез). Одни и
те же предметы воспринимаются нами в различных изменяющихся условиях: при
различной «освещенности», с разных точек зрения, с разного расстояния. Однако
объективные качества предмета воспринимаются нами в неизменном виде.

Поиск понятия. В зависимости от прошлого опыта, знаний, профессиональной
направленности человек не только избирательно выделяет те или иные предметы,
но и избирательно воспринимает различные их стороны.

Конкретизации, накопление - аналитическая операция над данными и знаниями.

Обобщения или абстрагирование. Константность восприятия, независимость
отражения объективных качеств предметов (условно: величины, формы, цвета) от
временных условий. Изображение величины предмета на сетчатке глаза при
восприятии его с близкого расстояния и с далекого расстояния будет разным.
Однако это интерпретируется нами как удаленность или приближенность
предмета, а не как изменение его величины. При восприятии прямоугольного
предмета (папки, листа бумаги) с разных точек зрения на сетчатке глаза могут
отобразиться и квадрат, и ромб, и даже прямая линия. Однако во всех случаях мы
сохраняем за этим предметом присущую ему форму.

Действие, преобразование. Сбор знаний может сопровождаться преобразованиями
данных и знаний.

Классификации и систематизации завершают сбор знаний.
Благодаря константности восприятия мы узнаем предметы или объекты в разных условиях
и успешно ориентируемся среди них.
3. Важность информатики как двигателя в управлении делами
Мы живем в век информатики [8]. Трудно переоценить значение знаний, которые
непрерывно собираются в процессе человеческой деятельности, в управлении бизнесом
или производством, в банковском деле, в решении научных, инженерных и медицинских
задач. Мощные компьютерные системы, хранящие и управляющие огромными базами
данных и знаний, стали неотъемлемым атрибутом жизнедеятельности, как крупных
корпораций, так и небольших компаний. Тем не менее, наличие данных и знаний само по
себе еще недостаточно для улучшения показателей работы. Нужно уметь
трансформировать сырые знания в полезную для принятия решений информацию. В этом
и состоит основное предназначение технологий Knowledge Mining. Вот некоторые
частные проблемы:
















Какие товары надо предлагать данному покупателю?
Какова вероятность того, что данный сектор потенциальных клиентов отреагирует
на рекламную кампанию?
Можно ли выработать оптимальную стратегию игры на бирже?
Как оценить риск выдачи кредита данному клиенту банка?
Можно ли повысить качество медицинской диагностики?
Как прогнозировать пиковые нагрузки в телефонных или энергетических сетях?
В чем причины брака в производстве?
Распознающие программы и распознавание образов.
Что могут обучающие программы?
Как реализовать синтез библиотек программ и подпрограмм.
Для чего нужны построения прикладных исчислений?
Нужны ли теории баз знаний?
Анализ и применение естественного языка.
Автоматическое программирование методов поиска или добычи данных.
Для чего необходимы рассуждения по сходству и по аналоги?
Нужен ли синтез новых интеллектуальных систем?
Важное положение Knowledge Mining состоит в нетривиальности разыскиваемых
шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные,
неожиданные регулярности в знании, составляющие так называемые скрытые знания. К
обществу пришло понимание, что сырые знания содержат глубинный пласт знаний, при
грамотной раскопке которого могут быть обнаружены настоящие самородки. Это
модифицированная цитата из указанного выше источника.
Итак, Knowledge mining (Добыча знаний) - это процесс обнаружения путем
логического вывода в сырых знаниях ранее неизвестных, нетривиальных,
практически полезных и доступных интерпретации знаний, необходимых для
принятия решений в различных сферах человеческой деятельности.
4. Кому это нужно?
Сфера применения Knowledge Mining ничем не ограничена - она везде, где имеются
какие-либо знания, по которым можно вывести новые знания. Но в первую очередь
методы Knowledge Mining сегодня заинтриговали коммерческие предприятия,
развертывающие проекты на основе информационных хранилищ знаний (Knowledge Base
- КB или КБ). Опыт многих таких предприятий показывает, что отдача от использования
Knowledge Mining, по аналогии с Data Mining, может достигать 1000%. Например,
известны сообщения об экономическом эффекте от внедрения методов Data Mining, в 1070 раз превысившем первоначальные затраты от 350 до 750 тыс. дол. Известны сведения о
проекте в 20 млн. дол., который окупился всего за 4 месяца. Другой пример - годовая
экономия 700 тыс. дол. за счет внедрения Data Mining в сети универсамов в
Великобритании.
Knowledge Mining представляют большую ценность для руководителей и аналитиков в их
повседневной деятельности. Деловые люди осознали, что с помощью методов Knowledge
Mining они могут получить ощутимые преимущества в конкурентной борьбе. Кратко
охарактеризуем некоторые возможные бизнес-приложения Knowledge Mining:







поиск ранее неизвестных знаний об экономике,
использование естественного профессионального языка для решения задач,
продуктивное использование практически полезных профессиональных знаний,
использование доступных интерпретации хранилищ знаний для решения задач,
логический вывод нового знания, необходимых для принятия решений в различных
сферах человеческой деятельности,
автоматическое формирование программ без программистов для построения
динамического повседневного источника знаний,
создание новых информационных структур.
Методы Data Mining не могут обеспечить реализацию указанных приложений.
5. Некоторые общие приложения Knowledge Mining
Путем последовательного просмотра различных сфер деятельности человека определим
области приложения Knowledge Mining [9].
Решение задач школьниками и студентами. Немедленное применение программного
комплекса «INTELLSYST» к решению таких задач ясно из-за свойств встроенных в
систему знаний. Логика, арифметика, алгебра, математический анализ, структуры данных
поддержаны этой базы знаний (БЗ).
Научные исследования на производстве. Такая работа поддержана возможностью
получения кроме окончательных результатов, получение аналитических зависимостей и
синтезированных программ. Во встроенной БЗ имеются математические объекты,
пригодные для проведения исследований в различных сферах научной деятельности
человека. К исследовательским задачам можно присовокупить исследования ученых в
своей науке.
Экономический расчет. Такие работы связаны с выполнением вычислений на тех же
основах, что указаны выше. Системы, применяемые в экономике, имеют «залежи» данных
в базах данных, из которых можно вывести новые характеристики деятельности
предприятия и определить пути его развития. Важно отметить, что для экономических
расчетов важную роль играет возможность получения «бесплатных» программ в данной
области деятельности экономики.
Другие приложения в бизнесе связаны с разработкой БЗ с ориентацией на создание
указанных выше программ и:
1. Добывать информацию из разнородных баз данных и представлять их в удобном виде.
2. Извлекать информацию и манипулировать ею произвольным и нужным образом.
3. Находить скрытые закономерности и зависимости между множеством показателей,
моделировать поведение.
4. Сегментировать объекты анализа, находить целевые рынки, оптимизировать
использование ресурсов.
5. Прогнозировать.
и многое другое.
6. Создание прикладных аналитических систем
Учетные (мониторинговые) информационные системы в том или ином виде работают в
большинстве организаций. Но вопросы серьезного анализа данных и прогнозирования не
решены практически нигде. Учетные системы ориентированы, в первую очередь, на
поддержку оперативной деятельности, подготовку и печать документов. Анализ в них
представлен, в лучшем случае, в виде генератора отчетов. Так обычно реализуется
мониторинг экономической деятельности.
BaseGroup Labs предлагает в рамках Data Mining услуги по интеграции инструментов
анализа с вашими базами данных и созданию прикладных аналитических систем.
Накопленная в вашей организации информация - это огромный ресурс, который должен
привести к повышению эффективности работы. В ваших базах данных хранятся знания,
их нужно оттуда только извлечь. Вы сможете прогнозировать, моделировать ситуацию,
находить скрытые закономерности, персонифицировать работу с каждым клиентом и
многое другое. Так как аналитический модуль будет полностью интегрирован в вашу
информационную систему, прогнозирование для Вас станет таким же простым делом, как
печать документа. Аналитические системы сделают за Вас всю черную работу по
обработке больших массивов данных, и Вы получите на выходе не всю информацию, а
только то, что действительно важно. Рамки Knowledge Mining позволяют расширить такое
рассмотрение дел и внести логический аспект в процессы получения нового знания
(модифицированная цитата из [1]).
7. Бизнес-приложения Knowledge Mining
Прекрасные методы Data Mining могут быть заимствованы для реализации методов
Knowledge Mining с использованием логического вывода по БЗ и с применением
оптимизационных методов. При этом необходимо воспользоваться БЗ, автоматическим
синтезом программ или шаблонами решения подобных задач. Вопросов, возникающих в
трудовой деятельности, чрезвычайно много. Более точный и быстрый ответ можно
получить с помощью ВМ. Некоторые представители вопросов были заданы выше.
А теперь можно посмотреть на отдельные области рынка, текстуально взятые из [1].
Розничная торговля. Предприятия розничной торговли сегодня собирают подробную
информацию о каждой отдельной покупке, используя кредитные карточки с маркой
магазина и компьютеризованные системы контроля. Вот типичные задачи, которые можно
решать с помощью Knowledge Mining, как задачи Data Mining, к которым применяется
логический вывод решения, в сфере розничной торговли:

Анализ покупательской корзины (анализ сходства) предназначен для выявления
товаров, которые покупатели стремятся приобретать вместе. Знание
покупательской корзины необходимо для улучшения рекламы, выработки
стратегии создания запасов товаров и способов их раскладки в торговых залах.

Исследование временных шаблонов помогает торговым предприятиям принимать
решения о создании товарных запасов. Оно дает ответы на вопросы типа "Если
сегодня покупатель приобрел видеокамеру, то через какое время он вероятнее
всего купит новые батарейки и пленку?"

Создание прогнозирующих моделей дает возможность торговым предприятиям
узнавать характер потребностей различных категорий клиентов с определенным
поведением, например, покупающих товары известных дизайнеров или
посещающих распродажи. Эти знания нужны для разработки точно направленных,
экономичных мероприятий по продвижению товаров.
Банковское дело. Достижения технологии Knowledge Mining используются в банковском
деле для решения следующих распространенных задач, также заимствованных из Data
Mining:

Выявление мошенничества с кредитными карточками. Путем анализа прошлых
транзакций, которые впоследствии оказались мошенническими, банк выявляет
некоторые стереотипы такого мошенничества.

Сегментация клиентов. Разбивая клиентов на различные категории, банки делают
свою маркетинговую политику более целенаправленной и результативной,
предлагая различные виды услуг разным группам клиентов.

Прогнозирование изменений клиентуры. Data Mining помогает банкам строить
прогнозные модели ценности своих клиентов, и соответствующим образом
обслуживать каждую категорию.
Телекоммуникации. В области телекоммуникаций методы Knowledge Mining помогают
компаниям более энергично продвигать свои программы маркетинга и ценообразования,
чтобы удерживать существующих клиентов и привлекать новых. Среди типичных
мероприятий отметим следующие:

Анализ записей о подробных характеристиках вызовов. Назначение такого анализа
- выявление категорий клиентов с похожими стереотипами пользования их
услугами и разработка привлекательных наборов цен и услуг.

Выявление лояльности клиентов. Knowledge Mining (как это делает Data Mining)
можно использовать для определения характеристик клиентов, которые, один раз
воспользовавшись услугами данной компании, с большой долей вероятности
останутся ей верными. В итоге средства, выделяемые на маркетинг, можно тратить
там, где отдача больше всего.
Страхование. Страховые компании в течение ряда лет накапливают большие объемы
данных. Здесь обширное поле деятельности для методов Data Mining и Knowledge Mining:

Выявление мошенничества. Страховые компании могут снизить уровень
мошенничества, отыскивая определенные стереотипы в заявлениях о выплате
страхового возмещения, характеризующих взаимоотношения между юристами,
врачами и заявителями.

Анализ риска. Путем выявления сочетаний факторов, связанных с оплаченными
заявлениями, страховщики могут уменьшить свои потери по обязательствам.
Известен случай, когда в США крупная страховая компания обнаружила, что
суммы, выплаченные по заявлениям людей, состоящих в браке, вдвое превышает
суммы по заявлениям одиноких людей. Компания отреагировала на это новое
знание пересмотром своей общей политики предоставления скидок семейным
клиентам.
Другие приложения в бизнесе. Knowledge Mining может применяться во множестве
других областей. Например:

Развитие автомобильной промышленности. При сборке автомобилей
производители должны учитывать требования каждого отдельного клиента,
поэтому им нужны возможность прогнозирования популярности определенных
характеристик и знание того, какие характеристики обычно заказываются вместе.

Политика гарантий. Производителям нужно предсказывать число клиентов,
которые подадут гарантийные заявки, и среднюю стоимость заявок.

Поощрение часто летающих клиентов. Авиакомпании могут обнаружить группу
клиентов, которых данными поощрительными мерами можно побудить летать
больше. Например, одна авиакомпания обнаружила категорию клиентов, которые
совершали много полетов на короткие расстояния, не накапливая достаточно миль
для вступления в их клубы, поэтому она таким образом изменила правила приема в
клуб, чтобы поощрять число полетов так же, как и мили.
Важно здесь получение массы «бесплатных» программ в данной области деятельности для
обеспечения постоянства в обработке знаний и данных.
Медицина. Здесь важно указать на специальную область задач диагностики с помощью
анкетного опроса «пациента», которым может оказаться человек или любое устройство.
Известно много ЭС для постановки медицинских диагнозов или диагностики устройств.
Они построены главным образом на основе правил, описывающих сочетания различных
симптомов различных заболеваний. С помощью таких правил узнают не только, чем
болен пациент, но и как нужно его лечить. Правила помогают выбирать средства
медикаментозного воздействия, определять показания - противопоказания,
ориентироваться в лечебных процедурах, создавать условия наиболее эффективного
лечения, предсказывать исходы назначенного курса лечения и т. п. Технологии Knowledge
Mining позволяют обнаруживать в медицинских данных шаблоны, составляющие основу
указанных правил.
Молекулярная генетика и генная инженерия. Пожалуй, наиболее остро и вместе с тем
четко задача обнаружения закономерностей в экспериментальных данных стоит в
молекулярной генетике и генной инженерии. Здесь она формулируется как определение
так называемых маркеров, под которыми понимают генетические коды, контролирующие
те или иные фенотипические признаки живого организма. Такие коды могут содержать
сотни, тысячи и более связанных элементов. На развитие генетических исследований
выделяются большие средства. В последнее время в данной области возник особый
интерес к применению методов Knowledge Mining. Известно несколько крупных фирм,
специализирующихся на применении методов Data Mining для расшифровки генома
человека и растений.
Прикладная химия. Методы Knowledge Mining, как и методы Data Mining, находят
широкое применение в прикладной химии (органической и неорганической). Здесь
нередко возникает вопрос о выяснении особенностей химического строения тех или иных
соединений, определяющих их свойства. Особенно актуальна такая задача при анализе
сложных химических соединений, описание которых включает сотни и тысячи
структурных элементов и их связей.
Можно привести еще много примеров различных областей знания, где методы Data
Mining и Knowledge Mining играют ведущую роль [10]. Особенность этих областей
заключается в их сложной системной организации: анализ последовательностей,
проведение классификации и кластеризации, установление логической выводимости,
выбор решений и
прогнозирование.
Knowledge Discovery in Databases - это процесс поиска полезных знаний в «сырых
данных». KDD включает в себя вопросы подготовки данных, выбора информативных
признаков, очистки данных, применения методов Data Mining, постобработка данных,
интерпретации полученных результатов.
8. Классы систем Knowledge Mining
Имеется значительный объем приемов и методов, применяемых в Knowledge Mining.
Можно указать на 80 методов, которые распределены по этапам создания новых объектов
следующим образом:
Этап изобретания новых объектов - 35 методов,
Этап проектирования объектов - 17 методов,
Этап разработки объекта - 15 методов,
Этап сопровождения созданного объекта - 13 методов,
Все методы подробно рассматриваются в информатике и программировании.
Knowledge Mining является с одной стороны отдельной дисциплиной информатики, а с
другой стороны - мультидисциплинарной областью, возникшей и развивающейся на базе
достижений прикладных исчислений, распознавания образов, методов искусственного
интеллекта, теории баз данных и знаний, анализа естественного языка, трансляции,
грамматики языков, программ доказательства и др. Отсюда обилие методов и алгоритмов,
реализованных в различных действующих системах Knowledge Mining. Многие из таких
систем интегрируют в себе сразу несколько подходов. Тем не менее, как правило, в
каждой системе имеется какая-то ключевая компонента, на которую делается главная
ставка. Ниже приводится классификация указанных ключевых компонент.
Мы живем в век информации и информатики [8]. Трудно переоценить значение знаний,
которые непрерывно собираются в процессе человеческой деятельности, в управлении
бизнесом или производством, в банковском деле, в решении научных, инженерных и
медицинских задач. Мощные компьютерные системы, хранящие и управляющие
огромными базами данных и знаний, стали неотъемлемым атрибутом жизнедеятельности,
как крупных корпораций, так и даже небольших компаний. Повторимся: нужно уметь
трансформировать сырые знания в полезную для принятия решений информацию, в чем и
состоит основное предназначение технологий Knowledge Mining.
Предметно-ориентированные аналитические системы. Предметно-ориентированные
аналитические системы очень разнообразны. Наиболее широкий подкласс таких систем,
получивший распространение в области исследования финансовых рынков, носит
название «технический анализ». Он представляет собой совокупность нескольких
десятков методов прогноза динамики цен и выбора оптимальной структуры
инвестиционного портфеля, основанных на различных эмпирических моделях динамики
рынка. Эти методы часто используют несложный статистический аппарат, но
максимально учитывают сложившуюся своей области специфику (профессиональный
язык, системы различных индексов и пр.). На рынке имеется множество программ этого
класса. Как правило, они довольно дешевы (обычно $300-1000).
Системы рассуждений на основе аналогичных случаев. К методам Knowledge Mining
весьма близок метод систем case based reasoning - CBR - на первый взгляд крайне простой.
Для того чтобы сделать прогноз на будущее или выбрать правильное решение, эти
системы находят в прошлом близкие аналоги наличной ситуации и выбирают тот же
ответ, который был для них правильным. Поэтому этот метод еще называют методом
«ближайшего соседа». В последнее время распространение получил также термин memory
based reasoning, который акцентирует внимание, что решение принимается на основании
всей информации, накопленной в памяти.
Системы CBR показывают неплохие результаты в самых разнообразных задачах. Главным
их минусом считают то, что они вообще не создают каких-либо моделей или правил,
обобщающих предыдущий опыт, - в выборе решения они основываются на всем массиве
доступных исторических данных, поэтому невозможно сказать, на основе каких
конкретно факторов CBR системы строят свои ответы.
Другой минус заключается в произволе, который допускают системы CBR при выборе
меры «близости». От этой меры самым решительным образом зависит объем множества
прецедентов, которые нужно хранить в памяти для достижения удовлетворительной
классификации или прогноза.
Все перечисляемые методы Data Mining могут только улучшиться или усилиться в рамках
методов Knowledge Mining, использующих логический вывод и оптимизацию.
Деревья решений. Деревья решения являются одним из наиболее популярных подходов к
решению задач Knowledge Mining. Они создают иерархическую структуру
классифицирующих правил типа "ЕСЛИ... ТО...", имеющую вид дерева. Для принятия
решения, к какому классу надо отнести некоторый объект или ситуацию, требуется
ответить на вопросы, стоящие в узлах этого дерева, начиная с его корня. Вопросы имеют
вид "значение параметра A больше x?". Если ответ положительный, осуществляется
переход к правому узлу следующего уровня, если отрицательный - то к левому узлу; затем
снова следует вопрос, связанный с соответствующим узлом.
Популярность подхода связана как бы с наглядностью и понятностью. Но деревья
решений принципиально не способны находить «лучшие» (наиболее полные и точные)
правила для данных. Они реализуют наивный принцип последовательного просмотра
признаков и “цепляют” фактически осколки настоящих закономерностей, создавая лишь
иллюзию логического вывода.
Существенно отметить, что методыKnowledge Mining обнаруживают локальную или
глобальную непротиворечивость знаний типа "ЕСЛИ... ТО...", обеспечивая тем самым
экологическую чистоту знаний, что не умеют делать ЭС.
Моделирование и изучение сложных систем на основе истории их поведения - вот
предмет и задачи Knowledge Mining. Knowledge Mining - синтетическая область,
впитавшая в себя достижения искусственного интеллекта, машинной лингвистики,
численных математических методов, математические подходы. Knowledge Mining важнейшее звено в управлении бизнесом, от сбора данных и знаний до принятия решений
и оценки результатов воздействия. РезультатыKnowledge Mining - программные модели,
классификационные правила, найденные кластеры и т.п.
9. Knowledge Management - управление знаниями.
Это еще одно направление работы со знанием, «хранящимся» в головах работников в
любой сфере деятельности [11]. Это - технология, включающая в себя комплекс
формализованных методов, охватывающих:
- поиск и извлечение знаний из живых и неживых объектов (носителей знаний);
- структурирование и систематизацию знаний (для обеспечения их удобного хранения и
поиска);
- анализ знаний (выявление зависимостей и аналогий);
- обновление (актуализацию) знаний;
- распространение знаний;
- генерацию новых знаний.
В указанной публикации все такие аспекты рассмотрены подробно. В основе такой
деятельности лежат многие подчас непреодолимые трудности типа: как сделать это? как
обеспечить объективность обработки знаний? какова надежность результата?
10. Система INTELLSYST
Корпорация Галактика производит и готовится предлагать на рынке семейство продуктов
для Knowledge mining - INTELLSYST (это имя программного комплекса,
зарегистрированного под номером 2003610255). Система INTELLSYST [12]
предназначена для автоматического анализа заданий из числовых и текстовых данных с
целью обнаружения в них ранее неизвестных, нетривиальных, практически полезных и
доступных пониманию закономерностей и нового знания, необходимых для принятия
оптимальных решений в бизнесе и в других областях человеческой деятельности.
В настоящее время по нашему предположению INTELLSYST явится одной из самых
мощных систем Knowledge Mining в мире, реализованных для Intel платформ и
операционных систем Microsoft Windows. Аналогичные системы Knowledge Mining таких
ведущих производителей, как IBM (Intelligent Miner, Knowledge Miner), Silicon Graphics
(SGI Miner), Integral Solutions (Clementine), SAS Institute (SAS) работают на средних и
больших машинах и стоят десятки и даже сотни тысяч долларов. INTELLSYST сочетает в
себе высочайшую производительность "больших систем" с низкой стоимостью (около
$1000), присущей программам для Windows. INTELLSYST - один из немногих
коммерческих продуктов, в котором реализованы не только методы анализа числовых
данных и текстовых знаний, но и алгоритмы анализа текстовой информации. В течение
своей более, чем 10-летней истории, пакет создавался и непрерывно развивается,
компания-производитель добавляет новую функциональность, новые математические
модули. INTELLSYST получит широкое распространение в мире, она с успехом
применяется в различных областях: в решении бизнес-задач, в социологических
исследованиях, в прикладных научных и инженерных задачах, в банковском деле, в
страховании и медицине.
11. Архитектура системы
По своей природе программный комплекс INTELLSYST является клиент/серверным
приложением. Такая архитектура предоставляет естественную возможность для
масштабирования системы: от однопользовательского варианта до корпоративного
решения с несколькими серверами [13]. INTELLSYST написан на языках Паскаль и С++ с
использованием спецификации Microsoft's COM. Эта спецификация устанавливает
стандарт коммуникации между программными компонентами. Математические модули и
многие другие компоненты INTELLSYST выделены в отдельные динамические
библиотеки и доступны из других приложений. Это дает возможность интегрировать
математику INTELLSYST в существующие и новые Интеллсист, например, в CRM или
ERP системы.
Основными особенностями данной Интеллсист служат с философской точки зрения:







адекватно реагировать
понимать
классифицировать
помнить
доказывать
принимать решения
умение обучаться
Архитектура системы.
По своей природе INTELLSYST является клиент/серверным приложением.
Математические модули выделены в серверную часть - Knowledge Server. Такая
архитектура предоставляет естественную возможность для масштабирования системы: от
однопользовательского варианта до корпоративного решения с несколькими серверами.
INTELLSYST написан на языках Паскаль и С++ с использованием спецификации
Microsoft's COM. Эта спецификация устанавливает стандарт коммуникации между
программными компонентами. Математические модули и многие другие компоненты
INTELLSYST выделены в отдельные динамические библиотеки и доступны из других
приложений. Это дает возможность интегрировать математику INTELLSYST в
существующие ИС, например, в CRM или ERP системы.
Аналитический инструментарий ИНТЕЛЛСИСТ. Версия ИНТЕЛЛСИСТ 01.1
включает более 1500 математических модулей, основанных на различных алгоритмах
Knowledge и Text Mining. Большинство из этих алгоритмов являются Know-How
компании Галактика и не имеют аналогов в других системах. Алгоритмы анализа данных
можно объединить в группы по их функциональному назначению: логический вывод,
трансляция, моделирование, прогнозирование, кластеризация, классификация, текстовый
анализ. Ниже дается краткая характеристика математическим алгоритмам ИНТЕЛЛСИСТ.
Особенности алгоритмов ИНТЕЛЛСИСТ. ИП хорошо согласуется с особенностями
семантического программирования. В обоих случаях работа над заданиями связана с тем
или иным способом определения смысла текста. В чём же заключаются фундаментальные
принципы, составляющие парадигму семантического программирования, и в чём их
отличие от традиционной парадигмы прологоподобных языков?
Как уже было замечено, прологообразные языки используют принцип дедукции: из
программы, которая представляет собой набор формул (утверждений о предметной
области), делаются выводы, цель которых - доказать или опровергнуть запрос в форме
некоторого утверждения. Принципиальным ограничением эффективности такого подхода
является потенциально экспоненциальный рост дерева перебора доказательств в
зависимости от глубины этого дерева. В большой степени развитие традиционного
логического программирования в прологообразном стиле и состояло в преодолении этой
неэффективности.
Парадигма семантического программирования базируется на вычислении так называемых
формульных множеств: если есть некоторая формула и некоторая модель, согласованная с
этой формулой по языку, то множество тех элементов, которые удовлетворяют этой
формуле, и называется формульным. Можно провести довольно точную аналогию между
нахождением формульного множества (или множества решений некоторой формулы) и
решения алгебраического уравнения (в общем случае от нескольких переменных). Строго
говоря, решение системы алгебраических уравнений и есть нахождение множества
решений некоторой формулы специального вида.
Эффективность нахождения формульного множества первого порядка в любом случае
полиномиальна, и с помощью специальных алгоритмов степень этого полинома может
быть существенно редуцирована, часто до линейной. Более того, ограничивая области
определения переменных в формуле (в том числе и под кванторами), можно сильно сузить
область определения всей формулы и ускорить вычисление формульного множества.
[Конец цитаты из описания языка tExp, который представляет средства сведения
вычисления формульных множеств второго порядка к нахождению формульных множеств
первого порядка (шаблоны), а значит эффективно, причём использование таких
конструкций оказывается очень удобным в машинной лингвистике. Д. Власов]
В алгоритмах ИНТЕЛЛСИСТ не используется правило дедукции, оно заменено
правилами элиминации операций и операндов. Сложность таких алгоритмов
полиномиальная. Имеется одно опасение относительно расходов памяти. Поскольку
алгоритмы связаны с поиском всех альтернатив, расход памяти высок. Это обстоятельство
требует доработки алгоритмов для эффективного использования памяти и «обрезания»
некоторых альтернатив. Принципы «обрезания» не всегда ясны, потому что важность
альтернативы требует точной оценки. Конечно, «обрезания» может управляться
пользователем за счет изменения задания.
12. INTELLSYST - лаборатория аналитика
Единицей Knowledge Mining исследования в ИНТЕЛЛСИСТ является «задание». Задание
объединяет в себе все объекты исследования, правила, отчеты и т.п. Задание сохраняется в
файле внешнего формата системы. Отчеты исследований представляются в формате TXT
и доступны любому пользователю через Интернет. Ниже рассматриваются некоторые
характерные алгоритмы, несущую новизну для методов Knowledge Mining.
Вычислительный инструментарий ИНТЕЛЛСИСТ. Первым вариантом результата
работы Интеллсист является набор совместных фактов, которых указано имя понятия и
его смысл (значение). Это есть явные вычисления результата логического и
алгебраического вывода. Для логических величин результат определяется только именем
с подразумеваемым значением истина, ложные результаты представляются именем с
отрицанием. Для числовых величин результат представляется именем величины и числом,
соединенных знаком отношения. Для строковых величин - именем и строкой и т.д.
Аналитический инструментарий ИНТЕЛЛСИСТ. Явное построение аналитических
выражений путем алгебраических выводов реализует версия ИНТЕЛЛСИСТ 01, которая
включает во встроенную БЗ более 500 математических модулей, основанных на
различных алгоритмах Knowledge и Text Mining. Большинство из этих алгоритмов
являются Know-How авторов и не имеют аналогов в других системах. Ниже дается
краткая характеристика некоторым алгоритмам ИНТЕЛЛСИСТ.
Программный инструментарий ИНТЕЛЛСИСТ. Явный автоматический синтез
программ по результату логического и алгебраического вывода из задания. В системе
используется формальный язык Лейбниц для внутреннего представления знаний.
Формализм этого языка пользователю неизвестен. Формальные конструкции строятся
автоматически при работе пользователя с интерфейсом.
Контролирующий инструментарий ИНТЕЛЛСИСТ. Реализован алгоритм явного
анализа текстов по смыслу. Система находит ошибки из 13 классов, 8 из которых
известны в программировании, а 5 являются в программировании новыми, с помощью их
обнаружения реализуется экологическая чистота знаний и запросов (заданий).
Дерево решений. Алгоритмы «деревья решений» широко распространены и реализованы
во многих Knowledge Mining пакетах. Эти алгоритмы используются в задачах
классификации на два и большее количество классов. Результатом их работы является
иерархическая древоподобная структура, состоящая из ветвей, узлов и листьев. Для
каждого узла вычисляется критерий расщепления. Если дерево не очень развесистое, то
такое представление является достаточно наглядным.
Реализация теории фактов. В системе ИНТЕЛЛСИСТ реализован алгоритм,
основанный на критерии максимизации взаимной информации (information gain). То есть
для расщепления выбирается независимая переменная, несущая максимальную (в смысле
Шеннона) информацию о зависимой переменной. Этот критерий в отличие от многих
критериев, применяемых в других системах Knowledge Mining, имеет ясную
интерпретацию и дает разумные результаты при самых разнообразных статистических
параметрах изучаемых данных. Алгоритм является одним из самых быстрых в
ИНТЕЛЛСИСТ, он реализует теорию фактов.
Альтернативы решений. В случае, когда зависимая (связная) переменная может
принимать большое количество разных значений, применение метода деревьев решений
становится неэффективным. В такой ситуации в системе ИНТЕЛЛСИСТ применяется
метод, называемый лесом решений. При этом строится совокупность деревьев решений по одному для каждого различного значения зависимой переменной. Результатом
прогноза, основанном на лесе решений, является то значение зависимой переменной, для
которой соответствующее дерево дает наиболее вероятную оценку. Они образуют всю
совокупность альтернатив решения (отсутствие единственности решения). Выбор
единственного решения требует дополнительных знаний для автоматической сортировки
пригодных в некотором смысле решений.
Модули текстового анализа. Одной из уникальных особенностей ИНТЕЛЛСИСТ
является интеграция инструментов Knowledge Mining - средств анализа числовой
информации с методами анализа текстов на естественном языке - алгоритмов Text Mining.
К сожалению в начальной версии программы алгоритмы Text Mining реализованы только
для русского языка, однако в ближайших планах производителя обеспечить и поддержку
английского и ряда других европейских языков. Текстовый анализ необходим для
автоматического составления черновых словарей терминов, которые служат основой для
создания чистовых словарей.
Текстовый анализ представляет собой средство формализации неструктурированных
текстов и текстовых полей в базах данных. При этом текстовое поле представляется как
набор булевых признаков, основанных на наличии и/или частоте данного слова,
устойчивого словосочетания или понятия (с учетом отношений синонимии и "общеечастное") в данном тексте. При этом появляется возможность распространить на
текстовые поля всю мощь алгоритмов Knowledge Mining, реализованных в системе
ИНТЕЛЛСИСТ. Кроме того, этот метод может быть использован для лучшего понимания
текстовой компоненты данных за счет автоматического выделения ключевых понятий.
Модуль связи понятий позволяет выявлять логические связи между понятиями,
встречающимися в текстах и текстовых полях изучаемой базы данных, и представлять их
в виде графа. Этот граф также может быть использован для выделения записей,
реализующих выбранную связь. Связи понятий являются почти выделенными знаниями,
на основе которых решаются задачи.
Визуализация. В ИНТЕЛЛСИСТ имеется богатый набор инструментов для графического
представления и анализа данных и результатов исследований. Данные могут
представляться в различных зрительных форматах: гистограммах, двумерных, псевдо- и
реальных трехмерных графиках. Такие представления необходимы при информационном
синтезе систем, при индикации логического вывода в качестве решения задачи или при
автоматическом построении блок-схем синтезированных программ.
Найденные в процессе Knowledge Mining зависимости могут быть представлены как
интерактивные графики со слайдами для изменения значений представленных на них
переменных. Эта особенность позволяет пользователю графически моделировать
результаты. Имеется набор специальных графиков, широко применяемых в бизнесе,
которые используются для графической оценки качества классификационных моделей и
выбора оптимального числа контактов. Кроме этого в последние версии ИНТЕЛЛСИСТ
будут включены новые визуальные методы Knowledge Mining - анализ связей понятий.
В той или иной мере средства для графического отображения данных и знаний (решений
задач) поддерживаются всеми системами Knowledge Mining. Вместе с тем, весьма
внушительную долю рынка занимают системы, специализирующиеся исключительно на
этой функции. Примером здесь может служить программа KnowledgeMiner 3D словацкой
фирмы Dimension5 (5-е измерение). ИНТЕЛЛСИСТ может эффективно использовать
такие готовые системы путем «внедрения» ссылок на них.
13. Применение квалификации понятий
Каждое понятие явно (по требованию пользователя) или неявно (по контексту) может
быть квалифицировано как исходное, искомое, расчетное и неопределенное. Сами
наименования квалификации говорят о ее назначении: исходные данные, требуемый
результат, внутреннее понятие и понятие, не играющее роли в вычислениях. Главное
достоинство квалификации состоит в следующем. Перед решением задания задается та
или иная квалификация. В зависимости от нее строится вычислительный процесс. В итоге
строительства будут сформированы или синтезированы различные программы.
Проиллюстрируем эти положения на примере.
Пусть задано уравнение У = А(Х). У - искомое понятие, Х - исходное понятие. В этом
случае решается известная вычислительная задача: У := А(Х). Эту задачу можно назвать
условно прямой. Если изменить квалификацию так: Х - искомое понятие, У - исходное
понятие, то решается обратная задача Х := А-1(У), где А-1 - является обратным алгоритмом
к алгоритму А.
Специальный модуль ИНТЕЛЛСИСТ непрерывно алгебраически преобразует выражения
на данный момент в соответстие с квалификацией понятия. При этом используется язык
символьных правил, понятный человеку: математические и аксиоматические формулы,
условные конструкции и так далее. Это позволяет пользователю понять суть полученной
зависимости, контролировать процесс поиска.
Проиллюстрируем современное состояние данного подхода на примере системы
ИНТЕЛЛСИСТ - отечественной разработке, получившей сегодня общее признание на
рынке Knowledge Mining. В данной системе гипотезы о виде зависимости целевой
переменной от других переменных формулируются в виде программ на некотором
внутреннем заданном языке программирования. Процесс построения программ строится
как эволюция в мире программ. Когда система находит программу, более или менее
удовлетворительно выражающую искомую зависимость, она начинает вносить в нее
небольшие модификации и отбирает среди построенных дочерних программ те, которые
повышают точность представления знаний. Так система «выращивает» несколько
генетических линий программ, которые конкурируют между собой в точности выражения
искомой зависимости. Специальный модуль системы ИНТЕЛЛСИСТ переводит
найденные зависимости с внутреннего языка системы на понятный пользователю язык
(математические формулы, таблицы и пр.). В печатаемых зависимостях сохраняются
неопределенные понятия. Такой результат может определить смысл этого понятия
(определить понятие). Другое направление такого эволюционного программирования
связано с поиском зависимости целевых переменных от остальных в форме функций
какого-то определенного вида.
14. Генетические алгоритмы
Knowledge Mining не основная область применения генетических алгоритмов. Их нужно
рассматривать скорее как мощное средство решения разнообразных комбинаторных задач
и задач оптимизации. Тем не менее генетические алгоритмы вошли сейчас в стандартный
инструментарий методов Data Mining, поэтому они и включены в данный обзор.
Первый шаг при построении генетических алгоритмов - это кодировка исходных
логических закономерностей в БЗ, которые именуют хромосомами, а весь набор таких
закономерностей называют популяцией хромосом. Далее для реализации концепции
отбора вводится способ сопоставления различных хромосом. Популяция обрабатывается с
помощью процедур репродукции, изменчивости (мутаций), генетической композиции.
Эти процедуры имитируют биологические процессы. Наиболее важные среди них:
случайные мутации данных в индивидуальных хромосомах, переходы (кроссинговер) и
рекомбинация генетического материала, содержащегося в индивидуальных родительских
хромосомах (аналогично гетеросексуальной репродукции), и миграции генов. В ходе
работы процедур на каждой стадии эволюции получаются популяции со все более
совершенными индивидуумами. Такие процедуры решают проблемы избыточности,
неполноты и непротиворечивости знаний. Эти проблемы составляют основу методов
экологической чистоты знаний [14].
Алгоритмы ограниченного перебора. ИНТЕЛЛСИСТ основана на более чем 500 аксиом.
Они не исчерпывают полное знание об объектах, определяемых этими аксиомами. Но они
выбраны из практических потребностей. Поэтому в системе реализуется ограниченный
перебор формул и алгоритмов. В особенности имеется большое число (к 500) аксиом
теории фактов, они собраны в ограниченном объеме. Эти алгоритмы вычисляют
комбинаций простых логических событий в подгруппах данных. Примеры простых
логических событий: X = a; X < a; X a; a < X < b и др., где X - какое-либо понятие, «a» и
«b» - константы, или лексемы. Ограничением служит длина комбинации простых
логических событий. На основании анализа аксиом делается заключение о полезности той
или иной комбинации для установления формы результата.
Рассмотрим пару простых примера. Пусть при логическом выводе получился результат:
1. Х=0 и Х>0 - противоречие, которое прекращает вывод окончательного результата.
2. Х>3 и Х>5 - приводит к результату Х>5. Х>3 покрывается таким результатом.
Автономные системы типа системы WizWhy являются на сегодняшний день одними из
лидеров на рынке продуктов Data Mining примерно с такими свойствами: цена $4000 и
тираж 30000.
15. Характеристики каналов добывания знаний из внешней среды
Основной объем информации коммерческой организации циркулирует в ее
организационных, юридических и физических границах. Однако экономическая
деятельность всегда связана с выходом ее информации во внешнюю среду. Поэтому
добывание информации об организации может осуществлять через объекты этой среды из
следующих каналов.
Первый канал: открытые общие и специальные публикации базы данных и БЗ.
Второй канал: клиенты, поставщики, инвесторы, кредитные организации, посредники,
агенты.
Третий канал: общественные службы, адвокатские конторы, аудиторские фирмы,
страховые компании, консультанты, налоговые инспекции, санитарные и пожарные
службы, органы статистики, правоохранительные органы.
Четвертый канал: представительство на ярмарках, салонах, конференциях.
Пятый канал: сети ВМ, особенно Интернет, которая содержит готовые решения и
используются в качестве исходных знаний для поиска нового знания.
Рассмотрим эти каналы более подробно.
1. Использование открытых общих и специальных публикаций и баз данных в качестве
объектов аналитической обработки позволяет получить 10-15% информации. Их
доступность практически ничем не ограничена, кроме стоимости подписки на
информационные издания, базы данных и стоимости аналитической работы (хорошие
аналитики должны хорошо оплачиваться). В настоящее время насчитываются десятки
информационных изданий, учебников и пособий. Эти источники позволяют получить
достаточно свежие сведения, используемые для организации разведывательной работы
конкурирующими предприятиями (постановка задачи на добывание конкретной
информации из других источников, планирование и организация мероприятий для этого,
планирование и организация работы исследовательских, технологических, маркетинговых
служб, непосредственное руководство выполнением мероприятий, контроль результатов).
2. Клиенты, поставщики, инвесторы, банки, посредники, агенты получают информацию в
результате контактов персонала предприятия с ними как со своими партнерами. Через
этот канал также может проходить от 10 до 15% знаний. В контролируемое сообщество
этого канала должен входить весь персонал собственного предприятия, который может и
должен вступать в контакт со сторонними организациями на основе следующих видов
информации: научной, коммерческой, технической, финансовой, юридической и т. д.
«Структура информации, проходящей по этому каналу, если ее классифицировать по
основанию "о чем", имеет следующую характеристику: 60% информации - о конкурентах,
рынке, ресурсах; 15% - о технологии; 15% - о регламентирующих документах; 10% - о
тенденциях развития». В данном канале следует особо отметить банки как источник
информации о финансовой деятельности организации для посторонних лиц. Хотя закон
России «О банках и банковской деятельности» обязывает всех служащих кредитной
организации хранить тайну об операциях. счетах и вкладах ее клиентов и
корреспондентов, а также об иных сведениях, устанавливаемых кредитной организацией,
утечка информации из коммерческих банков в виде публикаций о счетах чиновников
происходила не один раз (вспомним события с авторами исторического труда о
приватизации в России). Такая утечка может происходить как непосредственно из банка,
так и через организации, которые, согласно данному закону, могут получить справку о
состоянии счета лица, занимающегося предпринимательской деятельностью (число таких
организаций - семь). Следует отметить посредников, в частности, посреднические фирмы,
продающие офшорные фирмы. Источниками информации о наличии офшора могут стать
их сотрудники посреднической фирмы, сведения об этом могут быть получены в
результате конфискации документации фирмы-посредника.
3. Привлекаемые к сотрудничеству с предприятием эксперты общественных служб и
консультанты, могут предоставить 5-10% информации. Работа консультантов и экспертов
сторонних консультационных и экспертных фирм всегда несет некоторую вероятность
нарушения работы предприятия. Поэтому их использование должно быть тщательно
подготовлено, в том числе и путем ограничения предоставляемой информации.
Экспертные оценки могут выполняться лицами из числа сотрудников разнообразных
служб своего предприятия. Такие эксперты могут быть штатными или выполнять эту
работу по мере возникновения необходимости. В плане утечки информации из
правоохранительных органов следует обратить внимание на Закон России 1998 г. "О
противодействии легализации (отмыванию) доходов, полученных незаконным путем".
Этот закон в статье 7 уделяет внимание ознакомлению компетентных органов с
коммерческими тайнами организаций, на которые они обращают внимание.
Предоставление сведений об их операциях в суд, прокурору, органам следствия и
дознания, Счетной палате России, налоговой полиции и налоговой инспекции, службе
валютно-зкспортного контроля, таможне и Центробанку "не является нарушением
служебной или коммерческой тайны". Причем организации, которые в соответствии с
данным законом сообщают компетентным органам об операциях с денежными средствами
и иным имуществом, освобождаются от ответственности за убытки и моральный вред,
причиненный в результате физическим и юридическим лицам. По этому закону
правоохранительные органы России по запросам иностранных государств могут
проводить обыски и допросы подозреваемых коммерсантов, аресты и конфискации
имущества, а также выдавать иностранных граждан и лиц без гражданства, находящихся
на российской территории, для привлечения их за рубежом к уголовной ответственности
или исполнения приговора. Утечка или утрата информации может произойти через
конфискованные или затребованные документы внешних организаций - посреднических
фирм и партнеров.
4. Четвертый канал разведывательной деятельности - представительство на различных
организационных формах демонстрации продукции и возможностей - позволяет получать
5-6% информации. Однако степень достоверности этой информации достаточно высокая,
если она воспринимается подготовленными специалистами, которые перед посещением
мероприятий данной группы источников готовят свой "регистрирующий и
анализирующий инструмент" - знакомится с каталогами, анонсирующими эти
мероприятия.
Рассмотренные внешние каналы информационной деятельности используются
ранжированно, в зависимости от их возможностей по предоставлению информации,
касающейся различных сторон деятельности предприятия. Соотношение сторон
деятельности предприятия и возможностей этих источников информации показано в табл.
1.
Данная таблица построена на основе метода "3B" (три B: buts - besoins - bases): "цель потребность - база". Данный метод служит основой для построения информационной
работы, которая должна начинаться с определения целей, предопределяющих потребности
в необходимой информации, а затем и базы для ее получения. Для изучения деятельности
предприятия обычно достаточно следующих баз: конкуренция; рынки; технологии;
ресурсы; общие тенденции. Недостающая до 100% часть информации получается
случайным образом, как правило, от болтунов, говорунов, забывчивых и неаккуратных
людей. Ведь при межличностных контактах контроль над ограничением распространения
лежит непосредственно на субъектах взаимоотношений - сотрудниках предприятия, о чем
они порой забывают под влиянием повышающейся при контакте самооценки и
специально поощряемой контактором растущей самозначимости. О важности слухов в
информационной работе говорит анализ подобной категории сведений, опубликованный в
журнале "Деньги". Из 108 публикаций слухов в рубрике "Говорят, что…" в 1998 г. 56 в
последующем подтвердились - показатель сбыта составил 51,8% (см. [1]).
Важность каналов информации (по степени
Информация о сторонах
убывания) в соответствии с их
возможностями
деятельности
предприятия
по освещению данной стороны деятельности
предприятия
Конкуренция
2
134
Рынки
2
134
Технологии
2
143
Источники (ресурсы)
3
214
Общие тенденции
1
324
5. Интернет некоторые называют мусорной кучей информации. Это так, если отбор из
найденного материала осуществляется вручную. Если используется программа отбора, то
тем самым обеспечивается автоматический отбор знаний. По предварительным оценкам в
учебниках содержится около 5% полезных для ИНТЕЛЛСИСТ знаний, так как остальной
текст служит для напоминания об известном знании.
Информация от всех каналов подвергается противниками коммерческой организации
анализу, установлению конъюнктивной и корреляционной зависимостей, компиляции,
обобщению. И, наконец, случайно сотрудники конкурирующих фирм оказываются на
выставке (конференции, ярмарке и т. п.) рядом с болтуном из данного предприятия,
который существенно дополняет (подтверждает) уже имеющуюся информацию.
Обсуждение на таких мероприятиях всегда имеет прикладное содержание, которое
обладает собственным подтекстом, а, кроме того, профессионал всегда в разговоре будет
опираться на определенные основания, чтобы получаемые сведения ложились еще и на
формируемое им контекстное поле, позволяющее иметь полную информационную
картину интересующих его событий и прогнозировать дальнейшие действия. Как видно,
разведывательная деятельность имеет четкие алгоритмы процедур и операций,
отлаженный структурный характер.
16. Общесистемные характеристики ИНТЕЛЛСИСТ [15]
Типы данных. ИНТЕЛЛСИСТ работает с разными типами данных. Это - числа, булевы
значения, символы и текстовые строки, комплексные числа, даты, время, свободный
русский текст из файлов, а также структуры: массивы и записи, множества, функции и
процедуры.
Операции с данными. ИНТЕЛЛСИСТ допускает использование 110 операций с
перечисленными выше данными и описанных аксиоматически во встроенной БЗ. Это
логические, арифметические, алгебраические, преобразовательные операции и известные
25 математические функции.
Доступ к данным. ИНТЕЛЛСИСТ может получать исходные данные из различных
источников. Это: текстовые файлы с разделителем запятая (.csv), файлы Microsoft Excel
97/2000, любая ODBC- совместимая СУБД, SAS Knowledge files, Oracle Express, IBM
Visual Warehouse.
Основные емкие работы. ИНТЕЛЛСИСТ выполняет 7 видов работ:







Настройка системы пользователем по всем проблемам.
Обработка и использование формальных языков пользователя.
Создание лексикона для пользовательских задач.
Использование библиотек системы для пользователя по 9 разделам.
Создание новых БЗ по заказу пользователя.
Создание запросов пользователя на решение конкретных задач.
Создание или формирование новых ИНТЕЛЛСИСТ под задачи пользователя.
Лексикон включает следующие объекты:










Термин - основной объект лексикона
Метапонятие - классификационное понятие
Синоним - подмена термина
Правило - формы преобразования выражений
Подстановка - замена одних подвыражений другими
Вводный термин - исключаемый термин
Тип - пользовательский набор значений термина
Масштаб - изменение размерности термина или выражения
Метка - возможное и допустимое операторное программирование
Операция - пользовательская операция
17. Поддержка OLE DB for Knowledge Mining.
Версия 2 ИНТЕЛЛСИСТ поддерживает спецификацию Microsoft OLE DB for Knowledge
Mining (Version 1.0). При выполнении исследований для большинства математических
модулей можно создавать так называемые «Mining Models». После завершения анализа
эти модели можно применять к внешним данным через стандартные интерфейсы OLE DB
или ADO из других программ или скриптов поддерживающих создание ADO или COMобъектов. Применение модели осуществляется при помощи выполнения SQL-команд
(Расширение SQL для DM). Mining Models можно также экспортировать в PMML.
В дальнейших планах развития программы намечается обеспечить интеграцию
«ИНТЕЛЛСИСТ Knowledge Mining Provider» с Microsoft Analysis Services (в составе SQL
Server 2000 )
In-place Knowledge Mining. ИНТЕЛЛСИСТ поддерживает запуск исследований на
внешних данных через OLE DB интерфейсы при отсутствии загрузки этих данных в
проект PA. При выполнении исследования ИНТЕЛЛСИСТ получает данные порциями
через выполнение SQL запросов к внешним источникам данных. Это позволяет
преодолеть ограничения памяти при исследовании больших массивов данных.
18. ИНТЕЛЛСИСТ Scheduler - режим пакетной обработки
В ИНТЕЛЛСИСТ предусмотрена возможность пакетного режима анализа данных. Для
этого имеется специальный ЯПП и КБ, на котором программируется все аналитические
действия и временная последовательность их выполнения, а также определяются наборы
данных. БЗ сохраняется в файле и автоматически инициализирует исследование в
указанный момент времени на определенных данных. Для реализации функции Scheduler
в электронной лицензии должна быть включена соответствующая опция.
Продукт
Конфигурация системы
Локальные продукты
Математические модули:
ИНТЕЛЛСИСТ 01 однопользовательская
версия (2005)
Пакетная обработка, поддержка OLE
DB.
Платформа - MS Windows NT/2000/XP
ИНТЕЛЛСИСТ 1.1 Professional (русс. с
настройкой на язык - 2006)
ИНТЕЛЛСИСТ 2 Lite - студенческая
версия (русс. с настройкой на язык)
ИНТЕЛЛСИСТ 3.0 Power (русс. с
настройкой на язык - 2007)
Математические модули:
Платформа - MS Windows NT/2000/XP
Математические модули:
Платформа - MS Windows 98/NT/2000/XP
Математические модули:
Платформа - MS Windows 98/NT/2000/XP
Сетевые продукты
ИНТЕЛЛСИСТ Knowledge Server 01
сетевая версия - 2007
Математические модули:
Пакетная обработка, поддержка OLE
DB,
In-Place Knowledge Mining.Серверная
часть-MS Windows NT/2000/XP server,
клиентская часть - MS Windows
98/NT/2000/XP. Клиент/серверная версия
системы
Средства разработки
ИНТЕЛЛСИСТ для создания собственных
приложений для Knowledge Mining - 2008
Набор COM-объектов, библиотеки,
документация для разработчиков
19. Схема лицензирования ИНТЕЛЛСИСТ
Для версии Интеллсист версии 3.0 будет действовать покомпонентная система
лицензирования, то есть можно выбрать только те математические модули и ту
функциональность системы, которые необходимы пользователю для решения данного
конкретного класса задач. Единственным обязательным модулем является ИНТЕЛЛСИСТ
Workplace. Технически вся конфигурация программы определяется в специальном
криптованном файле электронной лицензии, который высылается при регистрации
продукта.
С 2005 года для российских заказчиков действуют специальных цены на
однопользовательскую (stand-alone) версию системы, которые значительно ниже мировых.
Эта акция компании-производителя направлена на продвижение технологий Knowledge
Mining на отечественный рынок. Галактика также проводит активную образовательную
программу, в рамках которой для образовательных учреждений действуют
дополнительные скидки.
ИНТЕЛЛСИСТ - средство разработки, а также клиент/серверная конфигурация системы ИНТЕЛЛСИСТ Knowledge Server лицензируются на отдельных условиях.
20. Заключение
1. Рынок систем Knowledge Mining экспоненциально развивается. В этом развитии
принимают участие практически все крупнейшие корпорации (см. например
http://www.kdnuggets.com ). В частности, Microsoft непосредственно руководит большим
сектором данного рынка (издает специальный журнал, проводит конференции,
разрабатывает собственные продукты).
2. Системы Knowledge Mining применяются по двум основным направлениям:
1) как массовый продукт для бизнес-приложений;
2) как инструменты для проведения уникальных исследований (генетика, химия,
медицина и др.).
В настоящее время стоимость массового продукта составляет от $1000 до $10000.
Количество инсталляций массовых продуктов, судя по имеющимся сведениям, сегодня
достигает десятков тысяч. Лидеры Knowledge Mining связывают будущее этих систем с
использованием их в качестве интеллектуальных приложений, встроенных в
корпоративные хранилища знаний и данных.
3. Несмотря на обилие методов Knowledge Mining, приоритет постепенно все более
смещается в сторону логических алгоритмов поиска в данных if-then правил. С их
помощью решаются задачи прогнозирования, классификации, распознавания образов,
сегментации БД, извлечения из данных «скрытых» знаний, интерпретации данных,
установления ассоциаций в БД и др. Результаты таких алгоритмов эффективны и легко
интерпретируются.
4. Вместе с тем, главной проблемой логических методов обнаружения закономерностей
является проблема перебора вариантов за приемлемое время. Известные методы либо
искусственно ограничивают такой перебор, либо строят деревья решений (алгоритмы
CART, CHAID, ID3, See5, Sipina и др.), имеющих принципиальные ограничения
эффективности поиска if-then правил. Другие проблемы связаны с тем, что известные
методы поиска логических правил не поддерживают функцию обобщения найденных
правил и функцию поиска оптимальной композиции таких правил. Удачное решение
указанных проблем может составить предмет новых конкурентоспособных разработок.
5. Имеется надежда на то, что система Интеллсист покроет многие области Knowledge
Mining особенно в той части, где существенным является логический вывод по
известному знанию. Поиск знаний будет использовать представления знаний,
воспринимаемых однозначно человеком. Имеются еще многие преимущества Интеллсист,
которые указаны по тексту статьи.
6. Стремительно развивается рынок машинных знаний. БЗ составляют основу рынка.
Вначале будут производиться заказные БЗ. На их основе буду создаваться тиражируемые
БЗ. ИНТЕЛЛСИСТ предусматривает работу над БЗ с выпуском защищенных от
копирования знаний.
Литература (наши публикации можно найти на сайте [15])
1. В.А. Дюк, Knowledge Mining - интеллектуальный анализ знаний. Санкт-Петербургский
институт информатики и автоматизации РАН.
2. Красилов А.А Информация, знание и информатика: концептуальные аспекты.
Международный форум по информации. - М., ВИНИТИ, том 28, № 4, 2003, с. 10-26
3. Красилов А.А., Григорьев Р.Д. Интеллектуальное программирование, синтез программ
и интерфейсы. "Высокие технологии в промышленности России", материалы VIII
Международной научно-технической конференции. 11-13 сентября 2002, - М., ОАО
ЦНИТИ "ТЕХНОМАШ", с.303-307
4. Krasilov A. A., Grigoriev R.D. Intellectual programming, synthesis of programs and their
toolbox. CSIT2002, , 18-20 сент. 2002
5. Красилов А.А., Григорьев Р.Д. Интеллектуальное и автоматическое программирование.
Международный форум по информации. - М., ВИНИТИ, том 28, № 2, 2003, с. 30-38
6. Красилов А.А. Язык и знание. Семантическая грамматика русского языка. //Научнотехническая информация, серия 2, № 10, ВИНИТИ, 2000, с 21-33.
7. Вычислительные машины и мышление. - М., Мир, 1967, - 552 с.
8. Красилов А.А. 21 век - век информатики, // в сб.: Высокие технологии в
промышленности России, -М., Международная академия информатизации, 2001, с. 199203
9. Киселев М., Соломатин Е.. Средства добычи знаний в бизнесе и финансах. - Открытые
системы, № 4, 1997, с. 41-44.
10. Кречетов Н.. Продукты для интеллектуального анализа данных. - Рынок программных
средств, N14-15_97, c. 32-39.
11. Монахова Е., Бочкарев А., Лукомский А., Майоров А., Управление знаниями,
еженедельник "PC Week/RE" 2001 г., N 8, с. 35.
12. Красилов А.А., Григорьев Р.Д. Программный комплекс «INTELLSYST». Основы
использования. Руководство пользователя по инструментарию интеллектуального
программирования. Система Интелсис. Препринт корп. «Галактика», 1999, 250 с.
13. Красилов А.А., Григорьев Р.Д. Технология интеллектуального программирования.
//Сб. докл.: Высокие технологии в промышленности России, -М., Международная
академия информатизации, 1999, с.; и //Инженерный журнал Справочник, N 10 (31),
Машиностроение, 1999, с. 34-37.
14. Красилов А.А Экология информации и знаний. - М., ВИНИТИ, 2005, 35 с.
15. http://www.intellsyst.ru - общие сведения об ИНТЕЛЛСИСТ.
Download