Гордеев А.К., Сергеев Ю.А - Финансовый Университет при

advertisement
АВТОМАТИЗАЦИЯ ПОИСКА ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ
INFORMATION SEARCH AUTOMATION IN THE INTERNET
Гордеев А.К., Сергеев Ю.А.
Финансовый Университет при Правительстве РФ, Москва
Научный руководитель: д.т.н., профессор Царегородцев А.В.
Аннотация: В данной работе рассматривается вопрос автоматизации
поиска информации в сети Интернет применительно к малому бизнесу,
образовательной деятельности и в целях частного использования. Дается
сравнение
традиционного
автоматизированным.
подхода
Проводится
к
поиску
обзор
информации
коммерческих
с
решений,
рассматриваются их сильные и слабые стороны применительно к обозначенной
области. Приводится общий алгоритм работы подобных систем. Авторы
предлагают свое программное решение. Главными его достоинствами являются
универсальность, гибкость, открытый исходный код и свободная лицензия.
Ключевые
слова:
поиск
информация;
всемирная
сеть;
Интернет;
автоматизация поиска; Dinase; для образования; для малого бизнеса.
Abstract: In this research information search automation in the Internet was
considered as part of small business, education and personal usage. Traditional
information search methods were compared with automated ones. There is an
overview of commercial search systems: what advantages and disadvantages they
have in small business, education and personal usage. Typical automated search
algorithm was illustrated. Authors created yet another software solution. It has
universality, flexibility, open source code and free license as main advantages.
Keywords: information search; word wide web; Internet; automation information
search; for education; for small business.
Мы живем в век информационных технологий. Объемы информации,
доступные
в
сети
Интернет,
скорость
и
количество
участников
информационного обмена растет с каждым годом. Чтобы эффективно
использовать этот массив информации, необходимо обладать эффективными
инструментами поиска и анализа информации.
Традиционно для поиска информации используются «поисковики», такие
как Яндекс и Google. Они отлично справляются с простыми однократными
запросами. Однако если информационный поиск надо повторять постоянно или
если предметная область сложна по структуре — довольно быстро обнаружится
ряд недостатков:
○ поисковики выдают сотни бесполезных ссылок;
○ поисковики не помнит, что вы уже видели, а что нет, и завтра покажут
уже просмотренные ссылки;
○ поисковики не умеют раскладывать информацию по рубрикам;
○ поисковики не всегда видят свежие тематические новости. Задержка в
индексировании конкретного сообщения может доходить до двух недель;
○ поисковик сети Интернет выполняет поиск по конкретному запросу, а
значит, нагружает вас повторяющейся рутинной работой.
При автоматизации формируется модель предметной области в виде набора
правил рубрикации, при этом исключается дублирование сообщений, а
наполнением рубрик занимается специализированный поисковый робот. Таким
образом, автоматизация позволяет избежать недостатков традиционного
подхода к поиску информации.
На рынке представлен широкий спектр решений автоматизации поиска
информации
в
сети
Интернет,
как
специализированных,
так
и
универсальных.Вот некоторые из них:
1. RCO.
2. I-Teco «Аналитический курьер».
3. InfoWatch «Крибрум».
4. Тора-центр «Avalanche».
5. Медиалогия.
Эти
продукты
имеют
невероятно
мощные
аналитические
модули,
поддерживают семантический разбор текста, такой как выделение субъектов и
объектов, событий, участников, мест и пр.; умеют проводить анализ
эмоциональной окраски текста и многое другое. Но их стоимость, как правило,
лежит от 600 т. до 12 млн. рублей в год. Таким образом, они подходят только
для крупного и среднего бизнеса, и совершенно не приемлемы для малого
бизнеса и для частного использования.
Было принято решение написать свой собственный инструмент. Он должен
быть универсальным и гибким. Универсальность достигается за счет
использования общепринятых стандартов. Гибкость достигается за счет выбора
свободной лицензии, модульной структуры и использованию универсальных
открытых программных библиотек и компонентов.
Программный комплекс использует клиент-серверную архитектуру. В
качестве клиентской части выступает почтовая программа, такая как
MicrosoftOutlook или MozillaThunderbird. В качестве серверной части выступает
разработанная нами программа Dinase.
В
целом,
настройка
Dinase
не
сильно
отличается
от
настройки
коммерческих программ. Суть заключается в детальной проработке модели
предметной области. Но в отличие от коммерческих программ, где вам с
настройкой помогут специалисты, программа Dinase настраивается вручную.
Алгоритм работыпрограммы Dinase:
1. Dinase собирает «сырую» информацию.
2. разбирает ее, отделяет шум от ценной информации.
3. приводит к единому формату.
4. выделяет новую информацию.
5. обрабатывает, если требуется.
6. классифицирует.
7. сохраняет в базу данных.
Программа запускается по расписанию, например каждые 15 минут.
При запросе почтовой программы, Dinase генерирует новостную ленту
Atom, содержащую новости из определенной рубрики.
Использование программного комплекса Dinase особенно удачно и
выигрышно в ситуации, когда поиском информации по определенной тематике
приходится заниматься ежедневно. В этом случае единожды настроенная
система способна работать в автономном режиме и свести трудовые и
временные затраты по поиску к минимуму.
Технические характеристики программыDinase:
Лицензия: GPL
Состояние: indev
Язык программирования: python
Окружение:
сервер: GNU/Linux,
клиент: что угодно
СУБД: MongoDB
Использованные сторонние компоненты: pycurl, lxml, grablib, feedparser,
pymongo, trafaret.
Ведется подготовка исходного кода для публикации на интернет-ресурсе
github.com.
Литература
Кристофер Д. Маннинги др. Введение в информационный поиск. — М.:
Вильямс, 2011. —528 с., ил.,ISBN 978-5-8459-1623-5.
Сузи Р.А. Язык программирования Python: учебное пособие. — М.:
БИНОМ, 2007. — 326 стр., ISBN 978-5-94774-711-9.
Гойверст Я., Левитан С. Регулярные выражения. Сборник рецептов. —
СПб.: Символ-Плюс, 2010. — 608 с., ил., ISBN 978-5-93286-181-3.
Сегаран Т. Программируем коллективный разум. — СПб.: Символ-Плюс,
2012. — 368 с., ил., ISBN 978-5-93286-119-6.
Download