Мониторинг СМИ и новостных потоков

advertisement
Автор Алексей Мыльников
http://sitesputnik.ru/
Дата выхода публикации – 21.04.11г.
Последнее изменение - 13.09.11г.
Программа SiteSputnik News:
как организовать мониторинг потоков информации
В настоящей инструкции изложены рекомендации по организации работ по мониторингу СМИ, новостных и
других источников и сайтов в программе SiteSputnik News. Желательно, но не обязательно, чтобы пользователь,
начинающий осваивать эту программу, имел хотя бы небольшой опыт работы в программе SiteSputnik Pro. Если у Вас
есть возможность поручить описанные в данной публикации работы специалисту или продвинутому пользователю, то
Ваши знания как пользователя программы сводятся к нулю, - достаточно уметь работать с «любимым» браузером.
A. Выберите источники информации.
1. Воспользуйтесь подключенными источниками, а именно:








сценарий News, включающий внутренний поиск по: Яндекс.Новости, Google.News, Рамблер.Новости,
CNews, Вести.ру, News2, Газета.Ру, Novoteka.ru.
сценарий News2, включающий внутренний поиск по сайтам: rbc.ru (РосБизнесКонсалтинг),
newsru.com, lenta.ru, news.mail.ru, compromat.ru, expert.ru, Ross-gazeta, lobbying.ru, fontanka.ru, РБК
Дейли.
сценарий RSS-ii, включающий RSS потоки с сайтов: argumenti.ru, computerra.ru, procontent.ru, dni.ru,
hrazvedka.ru (сайт Лариной Е.С.), webmarketing.by.
сценарий RSS-YG, включающий Вашу Яндекс-подписку и Google-Reader, созданные в Internet
Explorer.
сценарий КиберТех, включающий страницы сайтов searchengines.ru, cybersecurity.ru, дважды
computerra.ru/sgolub/, ITUA, yushchuk.livejournal.com (ЖЖ Ющука Е.Л).
сценарий Резюме, включающий поиск резюме соискателей по сайтам: e-prof.ru, finstaff.ru, it-rabota.ru,
rabota.mail.ru, job.qip.ru.
сценарий Тендеры,
включающий обращение к новостным страницам сайтов, на которых
размещаются электронные аукционы: etp-micex.ru, multitender.ru, etp.zakazrf.ru, bicotender.ru, iszakupki.ru, rts-tender.ru.
а также некоторые другие сценарии.
2. Подключите свои источники. Это могут быть: главные или новостные странички сайтов, RSS-потоки,
встроенные в сайты внутренние поиски, произвольные страницы, для которых можно сэмулировать RSSпотоки средствами программы SiteSputnik News. Подключить свои источники можно позднее – на
начальных этапах работы и ознакомления с программой вполне достаточно перечисленных выше
источников. Для подключения своих источников воспользуйтесь Мастером подключения новых
источников.
Подробнее о Мастере на ссылке – http://sitesputnik.ru/Help/SSMaster.htm,
об импорте-экспорте источников – http://sitesputnik.ru/Help/SSMasExIm.htm.
Б. Сформируйте собственный поток информации из подключенных источников.
1. Опишите свой поток информации. Для этого используйте пакет запросов. Ниже приведён пример
пакета, объединяющий в единый поток потоки информации из нескольких источников, перечисленных в
разделе А1.
М
о
ж
н
о
^^Новости;
^^Рубрики\Интернет
интернет
|| News=2
любая фраза или слово || КиберТех=2
любая фраза или слово || RSS-ii=2
любая фраза или слово || RSS-YG=2
интернет
|| News2->Rbc=1
интернет
|| News2->Lenta-ru=3
начать с более простого пакета:
^^Новости;
^^ Рубрики\Интернет
интернет || News->YandexNew=5
Признак формирования (синтеза) новостного потока
Задействованные Рубрики (см. раздел В) – анализ пото
Внутренний поиск по 8 источникам на глубину 2 стран
Присоединение новостей со страниц пяти сайтов
Присоединение информации с шести RSS потоков
Присоединение Яндекс.Подписки и Google.Reader
Присоединение поиска по rbc.ru только по 1-ой страни
Присоединение поиска по lenta.ru на глубину 3 страни
интернет || News->GoogleNew=5
интернет || News->RamblerNew=5
В нём задействованы только поиски по новостям Яндекса, Google и Рамблера, которые обращаются к
очень большому количеству источников и приносят самую разнообразную информацию практически без
«опоздания».
В источниках, подключенных как поиски по сайтам, задействован фильтр новостного потока по
ключевому слову «Интернет». С остальных источников поступает полный поток информации (без
фильтрации). Аналогичные потоки можно сформировать и на другие темы, например: поиск нужного
резюме, актуального тендерного предложения, экономической, финансовой, банковской,
научнотехнической информации или другого новостного потока с другими Рубриками.
2. Последовательность действий пользователя.


Для начала пакет можно сделать прямо в программе Блокнот из ОС Windows. Для этого скопируйте
в буфер обмена первый столбец таблицы из раздела Б1 или более простой пакет и восстановите его в
созданном в Блокноте текстовом файле с именем «Интернет.txt». Позднее свои пакеты можно будет
формировать и из меню «Золотого ключика».
Создайте в папке «Condition Files» вложенную папку с названием, например, «Мои потоки» и
поместите в неё файл «Интернет.txt». Для начала это можно сделать прямо из Проводника в Windows.
В. Создайте Рубрики.
1. Для создания Рубрики откройте программу SiteSputnik News, выберите в базе данных «Ссылки
открытые» папку «Рубрики», на правой кнопке мышки выберите пункт: «Создать новую Рубрику»,
наберите имя Рубрики: «Интернет» и введите Правило попадания в Рубрику, например:
поисковики
поисковые /1 системы
'метапоиск'
поиск /2 невидимый /1 интернет
Согласно этому правилу, в Рубрику «Интернет» будут попадать новости, содержащие словоформы от
слова «поисковики», или рядом стоящие словоформы от слов «поисковые» и «системы», или точное слово
«метапоиск», или рядом стоящие словоформы от слов «поиск», «невидимый» и «интернет».
2. Основное при создании Рубрики – это определение Правила попадания новостей в Рубрику.
Правило составляется из следующих конструкций:
А) каждая строка в Правиле - набор ключевых слов, которые обязательно все должны быть в содержании
новости (логическое "И");
Б) строк с ключевыми словами может быть несколько (логическое "ИЛИ" между строками);
В) ~слово - эта конструкция означает, что слово в содержании новости должно отсутствовать (логическое "НЕТ");
Г) точное 'слово' или 'точная фраза' берутся в одинарные кавычки;
Д) максимальное расстояние между словами задается после наклонной черты: Алексей /2 Кудрин.
Е) все правила перечислены здесь -
http://sitesputnik.ru/Help/SSRubriki.htm .
Именно благодаря этим правилам из огромного потока информации можно выделить только
нужные новости.
3. Для Рубрики можно указать клиентские папки: а) на Вашем компьютере, б) в локальной сети
предприятия, в) в глобальной сети интернета (e-mail адреса), - в которые будет выводиться её содержание.
Это позволит в дальнейшем не «заглядывать» внутрь программы SiteSputnik News, а только
просматривать результаты её работы, которые будут автоматически появляться в клиентских папках.
4. Можно создать древовидную структуру Рубрик любой глубины вложенности.
Подробнее и самая новая информация о Рубриках – http://sitesputnik.ru/Help/SSRubriki.htm.
Г. Создайте папку (базу данных) для потока.
Желательно под каждый поток создать отдельную папку (базу данных), в которой Вы будете хранить
результаты работы. Для этого выберите базу данных «Поиск в Интернете» и создайте в ней вложенную
папку. Глубина вложенности может быть любой. Для создания вложенной папки используйте меню на
правой кнопке мышки и его пункт: «Создать новый подобный Ящик». Для всех вложенных папок, включая
и Рубрики, можно задавать максимальное число заносимых в папку записей, например, 100. Этого, с одной
стороны, вполне достаточно для отсечения дублей информации, с другой стороны, автоматически
предотвращает неограниченный рост её объёмов.
Д. Откройте поток.
Теперь всё готово к сбору и мониторингу информации на заданную тему.
Осталось открыть поток. Для этого сделайте следующее.
1. Нажмите на «Золотой ключик», затем на кнопку «Пакет», кнопку «Обзор», откройте папку «Мои потоки»
и выберите «Интернет». Нажмите на кнопку «Совместно» и дождитесь окончания процесса.
2. Используя Планировщик задач, можно поручить программе SiteSputnik News открывать заданные
потоки в заданное время. Это можно освоить позднее - http://sitesputnik.ru/Help/Scheduler.htm.
Е. Анализ результатов.
1. В базе данных «Поиск в Интернете» наибольший интерес представляют два списка.


Новости – это новостная лента из всех найденных и очищенные от мусора полных текстов новостей.
Cсылка-правила, другими словами, Новость-рубрики – это список, в котором для каждой ссылки
(новости) приводится перечень правил, которым она удовлетворяет (Рубрик, в которые она попала).
2. В базе данных «Ссылки открытые» сохранились все найденные страницы в исходном виде. Это рабочая
папка. Она не представляет интереса для пользователя.
3. В базе данных «Рубрики» (в нашем случае «Рубрики\Интернет»), представляющей наибольший интерес
для пользователя, сохранилась следующая информация.
 Удовлетворяющие Рубрике полные тексты новостей, которые очищены от окружающего их мусора.
 В списке «Всё по Рубрике» полные тексты новостей сохранены в виде собственной тематической
новостной ленты. Именно такие ленты можно направлять в клиентские папки, расположенные на
компьютерах именно тех пользователей, которым ленты нужны.
4. Далее, периодическое выполняя действия из раздела Д,
можно получать новую информацию,
появившуюся за период времени, следующий после предыдущего выполнения.
5. Применение Планировщика и клиентских папок позволяет на протяжении нескольких суток или недель
«не прикасаться» к программе, но получать в нужное время нужную информацию. Если у Вас существует
возможность поручить всю описанную в данной публикации работу специалисту или продвинотому
пользователю (администратору программы), то Вам достаточно уметь открывать присылаемые файлы при
помощи «любимого» браузера и больше ничего. Сама программа SiteSputnik News может быть даже не
установлена на Вашем компьютере.
Обсуждение на форуме - http://forum.razved.info/index.php?t=2046&&st=0
Ж. Особенности мониторинга в SiteSputnik News.
Об этом на ссылке - http://forum.razved.info/index.php?t=1555&p=17938#pp17938.
З. Другие полезные ссылки.
Ещё о SiteSputnik News – http://sitesputnik.ru/Help/SSNews.htm.
Обсуждение на форуме – http://forum.razved.info/index.php?t=1555&&st=0.
Видеоролики:
мониторинг новостей – http://www.youtube.com/watch?v=uHtXUD9gEmo,
мониторинг резюме
– http://www.youtube.com/watch?v=lzaPA6cy4m0,
мониторинг тендеров – http://www.youtube.com/watch?v=tq-oOuQ-Itk,
купля-продажа бизнеса – http://www.youtube.com/watch?v=J7W8J10InSk
Подробнее о всей программе FileForFiles & SiteSputnik - http://sitesputnik.ru.
Список публикаций, пресс-релизов, статей, очерков, полевые испытания - http://sitesputnik.ru/Public.htm.
Подробное обсуждение программы на форуме СПКР - http://forum.razved.info/index.php?ct=7&f=0.
Download