СППИ2_6лекция_23 апреляx

advertisement
23 апреля
Технологии извлечения данных и БД (продолжение)
Обобщенная схема и компоненты информационного поиска
1.
2.
3.
4.
5.
Основные понятия и определения поисковых компонентов ИС
Обобщенная схема информационного поиска
Стратегия информационного поиска
Методы информационного поиска
Технологии отбора документов и обработки результатов
1. Основные понятия и определения поисковых компонентов ИС
Каждому типу поиска соответствует свой тип запроса, а также форма его выражения,
следовательно, и характер результата.
Так, в первом случае (предметный поиск) необходимо найти сведения о некотором
объекте, в результате пользователь получает документ-результат, где нужные сведения
присутствуют в явном виде.
В случае осуществления тематического поиска строится предметная область проблемы,
описываются объекты и связи, и затем осуществляется поиск недостающих объектов
и/или связей. Пользователь получает выдачу, где присутствуют понятие(я), которое может
быть использовано для построения нового объекта, а не только для подтверждения факта
его существования.
В случае осуществления проблемного поиска, тема запроса часто меняется
непосредственно в процессе запроса.
Методы поиска – совокупность моделей и алгоритмов реализации отдельных
технологических этапов, таких, как: построение поискового образа запроса, отбор
документов, расширение или реформулирование запроса и т.д.
Механизмы поиска – реализованные в конкретной АИПС алгоритмы и модели процесса
формирования выдачи документов в ответ на поисковый запрос.
Средства поиска – комплекс информационно-поисковых языков и языков определения
или управления данными, обеспечивающих представление и структурно-семантич
преобразования основных и технологических объектов (документы, словари, результаты
предыдущих поисков), а также средства управления, обеспечивающие с помощью
пользовательского интерфейса доступ к операционным объектам и функциям конкретной
автоматизированной информационно-поисковой системы.
Поисковые технологии – унифицированные и оптимизированные последовательности
использования в процессе взаимодействия пользователя с системой отдельных средств
поиска для устойчивого и эффективного получения конечных и промежуточных
результатов.
2. Обобщенная схема информационного поиска
Задачей поискового процесса является построение согласованной системы моделей
объекта поиска, т.е. для зафиксированной информационной потребности следует
сформировать множество лингвистических образов в среде АИПС.
Для информационной последовательности формирования, например, ПОЗ это 2,
имеющие лингвистическую природу, модели:


1-модель коммуникативная - представление информационного поиска, ориентир
на передачу информации для соотнесения с аналогично представленными
объектами, описанными в уже известных документах (например, идентификация
личности по отпечаткам пальцев);
2-поисковая модель, представляющая информационный поиск и ориентированная
на точечное соотнесение с аналогично представленными поисковыми образами
документа (идентификация по общедоступным параметрам).
Выделяют следующие страты (деление на «неравноправные» слои и определение их
иерархичности) преобразования запроса в результат :
1. Страта планирования для определения пользователем стратегии поиска
2. Страта организации поиска, как системных решений на стадии разработки и
адаптации системы к особенностям поведения предполагаемых пользователей и
характеру хранимой информации
3. Страта выполнения для проведения реальным пользователем конкретного поиска
в рамках выбранной стратегии.
С т.з. целевого использования ИС существуют 2 типа основных операционных объекта:
запрос и документ. Эти 2 типа объектов представляют средствами языка некоторый
семантически целостный фрагмент предметной области.
Другие операционные объекты – технологические объекты, представленные
самостоятельными семантически значимыми объектами, назначение и природа
которых - дать возможность локализовать, снять или зафиксировать
неопределенность отдельного типа (словники, тезаурусы и т.д.).
В зависимости от способа выбора терминов и характера их использования можно
выделить 2 типа процессов: модификация выражения запроса, когда запрос
представлен в вербальной форме; реформулировка запроса, если запрос был
представлен в кластерной форме.
Основные этапы и технологические средства (объекты) процесса поиска, позволяющие
последовательно локализовать неопределенности известных типов могут быть
представлены на следующей схеме, которая делится на 2 части: слева - осн этапы
процесса поиска, с правой – технологические объекты поиска.
Информационная
потребность
1.
Формулировка
запроса
Тезаурус предметной области
Рубрикатор предметной области
2. Запрос
3. Конструктор
запроса
Рубрикатор БД
Словари БД
4. ПОЗ
5. Механизм
поиска
Нормализованная
лексика
Тезаурус темы
6. Результат
поика
Структурностатистический
анализ темы
7.
Формирование
выдачи
Тематикостатистический
спектр темы
8. Результат
поиска
(документы)
Дистрибутивностатистический
анализ темы
9. Обработка
документов
Словнкии
Обработка
выдачи
Словник - перечень статей (содержание словаря)
Комментарий к схеме:
Итеративный человеко-машинный процесс поиска информации в общем случае
включает следующие этапы (на схеме не обязательно представлена
последовательность этапов):
1. определение темы запроса, ее локализация, ее формализация на уровне
понятий основной и смежных областей. На этом этапе система представляет
систематизированное описание предметной области, а также сведения о
тематике, структуре и методах доступа к выбранному ресурсу;
2. Формирование, а также структурное и лексическое адаптирование выражения
запроса, когда система предоставляет вспомогательные (технологические)
объекты: тезаурусы, рубрикаторы;
3. Отбор документов с помощью одного из механизмов поиска;
4. Формирование и управление выдачей найденных документов. При этом
система обеспечивает формирование пространства представления выданных
документов, их сортировку, а также рубрицирование, ранжирование,
например, в соответствии с использованием тематико-статистических
распределений, характерных для данной предметной области;
5. Оценка результатов поиска на уровне отдельного документа, когда система
обеспечивает возможность фиксировать значение степени соответствия
запросу пользователя и использование лексики документов для
непосредственной модификации выражения запроса (внешняя обратная связь);
6. Итоговая оценка результатов поиска на уровне всего запроса или отдельных
предложений, когда система позволяет качественно оценить динамику выдач и
обеспечивает возможность выборочного обращения к результатам отдельных
результатов поиска;
7. Развитие процесса поиска по технологии реформулирования запроса по
обратной связи по релевантности (степень соответствия между запросом и
найденным документом) или использованию других признаков;
Обратные связи:
На схеме 2 типа обратных связей: для построения словников на основе лексики
документов, определяемых пользователем как истинно релевантная (внешняя
обратная связь); связь для построения реформулированного запроса - внутренняя
обратная связь, позволяющая выделить термины путем ранжирования или
кластеризации по статистическим показателям (ТСС).
3. Стратегия информационного поиска
Схема отражает итерационный процесс, важнейшей проблемой при этом является
проблема полноты и непротиворечивости поиска.
Для случая предметного поиска доказательство полноты и непротиворечивости является
тривиальным, потому что положительный результат поиска и является доказательством
или подтверждающим фактом и существования объекта документа, и обладания этого
документа определенными свойствами.
Результат тематического поиска неоднозначен и требует последующей систематизации,
т.е. еще одного процедурного шага для упорядочения полученного множества объектов
по значениям основания, которые явно не определены.
Проблемный поиск еще более неясен с т.з. полноты и непротиворечивости результатов.
Классифицировать АИПС можно также с помощью подходов к организации
информационного поиска.
Различают:


традиционные информационно - поисковые системы, информационный вход в
которых реализуется через дополнительные вторичные справочные структуры,
предназначены для обработки большого кол-ва однородных, структурнорегулярных документов небольшой длины;
гипертекстовые информационные системы, в которых переход к потенциально
полезному документу реализуется через контекстную ссылку, размещенную в
тексте самого документа. Гипертекстовые системы используются для реализации
справочных систем, базирующихся на проблемно-ориентированных коллекциях.
Соответственно этим 2м типам систем различают: координатный принцип
индексирования документов и использование в запросе терминов вне контекста и
гипертекстовый принцип. Гипертекстовые системы целенаправленно управляют
переходом к следующему документу за счет контекстной определенности ссылки.
Для класса задач поиска новой информации более эффективным представляется
координатный принцип, который базируется на комбинативности.
Использование гипертекстовых ссылок предполагает однозначность навигации, т.е.
предопределяется переход к единственному документу (может он и наилучший, но
слишком жестко навязанный), а пользователю в этом случае не предоставляется
возможность отслеживания вариантности ситуации и возможных альтернатив или
дополнительных аспектов.
Стратегия информационного поиска полностью соответствует формам выражения
запроса, который в данном случае используется:
1) вербальная стратегия (вербальный по форме запрос) используется в большинстве
промышленный АИПС и ее отличительно чертой является обязательное
построение завершенного логически и синтаксически правильного выражения,
посредством которого м.б. получена выдача формально релевантных запросу
документов
2) кластерная стратегия, обобщающая понятие документ или совокупность док до
уровня запроса, основывается на предположении, что документ, его фрагмент или
группа документов может рассматриваться не только как результат поиска, но и
как средство навигации, т.е. как поисковый образ. Технологии, поддерживающие
эту стратегию, позволяют сократить объем просматриваемой при поиске
информации за счет определения на основе знаний пользователя групп
документов для эффективной идентификации его потребностей
4. Методы информационного поиска
4.1. Методы информационного поиска. Общие положения.
Методы поиска как средства выделения подмножества документов, потенциально
содержащих описание решения задач, являются отражением процесса нахождения
решения и зависят от характера задачи и предметной области.
Выбор метода поиска – оптимизационная задача, в данном случае это минимизация
совокупных временных затрат за счет снижения суммарного объема выдач,
просматриваемых потребителем. Ограничением являются затраты на программноаппаратные средства и их сложность.
Методы сокращения пространства перебора могут быть разделены на следующие классы:




Метод поиска в одном пространстве
Методы поиска в иерархически упорядоченном пространстве
Методы прииска в альтернативных пространствах
Методы поиска в динамически изменяющихся пространствах
К методам поиска относят все функциональные решения от методов сопоставления
поискового образа запроса и отбора документов до методов упорядочивания документов
в выдаче, в т.ч. использование результатов поиска для реформулирования запроса.
4.2. Методы информационного поиска. Отбор документов по формальным
критериям.
По признаку использования мер близости (полному или частичному совпадению
поисковых образов) методы информационного поиска можно разделить на группы:


Методы, использующиеся для реализации традиционного поиска по булевому
выражению (т.е. у документов есть общие признаки, ели они совпадают-1, если
нет-0)
Метод многообразных моделей. Группа, которой соответствуют многочисленные
реализации формальных моделей таких как: поиск, использующий векторные
меры близости, весовой поиск, поиск по нечетким множествам, кластерный поиск
и т.д. (документы не совпадают, можно определить насколько)
Эти методы достаточно хорошо разработаны и применяются для информационнопоисковых языков.
Download