DOC - X-Parser - парсеры контента

advertisement
X-Parser Light - help
1 / 66
Table of contents
О программе ..................................................................................................................... 3
Для каких целей подходит X-Parser? ......................................................................... 3
Для каких целей не подходит X-Parser ...................................................................... 4
Системные требования ............................................................................................... 5
Главная форма................................................................................................................. 6
Главное меню .............................................................................................................. 7
Файл ......................................................................................................................... 8
Правка .................................................................................................................... 10
Парсер ................................................................................................................... 11
Настройки .............................................................................................................. 12
Справка .................................................................................................................. 13
Вкладки....................................................................................................................... 13
Список кейвордов.................................................................................................. 14
Параметры............................................................................................................. 16
Фильтров................................................................................................................ 20
Нижняя часть формы ................................................................................................ 22
Стадия запуска ...................................................................................................... 23
Стадия выполнения процесса .............................................................................. 24
Панель инструментов ................................................................................................ 25
Менеджер визуализации процесса ............................................................................... 27
Панель инструментов ................................................................................................ 28
Вкладки....................................................................................................................... 29
Лог .......................................................................................................................... 30
Менеджер обработки контента ............................................................................ 31
Обработанный контент ......................................................................................... 32
Строка состояния ...................................................................................................... 33
Менеджер обработки контента ..................................................................................... 35
Панель инструментов ................................................................................................ 36
Вкладки....................................................................................................................... 38
Необработанный контент ..................................................................................... 38
Обработанный контент ......................................................................................... 40
Строка состояния ...................................................................................................... 41
Настройки ....................................................................................................................... 42
Поисковые системы ................................................................................................... 44
Как настроить поисковую систему ....................................................................... 46
Тестеирование настроек ...................................................................................... 51
Шаблоны вывода ....................................................................................................... 53
Тестер ............................................................................................................................. 56
Панель инструментов ................................................................................................ 57
Вкладки....................................................................................................................... 58
Полученный контент ............................................................................................. 59
Исходный код донора ........................................................................................... 60
Ссылки из выдачи ПС ........................................................................................... 61
Черный список ....................................................................................................... 62
Строка состояния ...................................................................................................... 63
Парсинг и обработка контента ...................................................................................... 64
Запуск процесса сбора контента .............................................................................. 64
Обработака отпарсенного ранее контента .............................................................. 65
Конвертация контента ............................................................................................... 66
2 / 66
О программе
X-Parser-Light 1.0.1
Автоматический парсер контента
О программе
X-Parser Light - это автоматический парсер контента по списку ключевых слов. Алгоритмы парсера
сделаны так, чтобы пользователю не нужно было производить какие-либо настройки, связанные с
привязкой к шаблону сайтов-доноров. Все манипуляции с контентом парсер производит
автоматически, и с достаточно высокой вероятностью находит непосредственно тело статьи среди
всего контента отпарсенной страницы.
X-Parser предназначен для решения следующих задачь:
1. Сбор тематического текстового контента для наполнения дорвеев
2. Сбор отформатированного тематического контента для
наполнения сайтов и сателлитов
3. Поиск исходников для написания текстов (рерайтов/копирайтов)
X-Parser может работать с любыми поисковыми системами, парсить
контент на любых языках.На выходе может давать контент, как в виде
чистого текста без разметки (подходит для наполнения дорвеев), так и с
сохранением базового форматирования (подходит для наполнения
любых сайтов). Под базовым форматированием подразумевается
сохранение абзацев, выделений, списков и т.п. Так же, в зависимости от
пользовательских настроек, парсер может сохранять изображения
найденные в теле статьи.
Created with the Personal Edition of HelpNDoc: Easily create PDF Help documents
Для каких целей подходит X-Parser?
3 / 66
X-Parser-Light 1.0.1
Автоматический парсер контента
Для каких целей подходит X-Parser
X-Parser предназначен для решения следующих задачь:
1. Сбор тематического текстового контента для наполнения дорвеев
2. Сбор отформатированного тематического контента для наполнения сайтов и сателлитов
3. Поиск исходников для написания текстов (рерайтов/копирайтов)
На последнем пункте хотелось бы остановиться подробнее:
На сегодняшний день не так много существует решений для быстрого поиска исходников для
написания уникальных материалов по интересующим вас темам. Как правило, процесс поиска
сводится к ручному перерыванию выдачи поисковиков, просмотром десятков сайтов, пока не
найдется нужный исходник. Это занимает много времени, которое можно было бы потратить более
рационально. В данном случае X-Parser может оказать рерайтеру неоценимую помощь. С его
помощью можно быстро и без труда собрать по каждому ключевому слову по нескольку исходников
нужного объема, среди которых найти наиболее подходящие не составит ни какого труда. Весь
процесс может занять считанные минуты, в отличае от ручного поиска.
Created with the Personal Edition of HelpNDoc: Easily create EPub books
Для каких целей не подходит X-Parser
X-Parser-Light 1.0.1
Автоматический парсер контента
Для каких целей не подходит X-Parser
X-Parser не предназначен для решения следующих задачь:
1. Парсинг любого контента кроме текстового (статей), например фильмы, видео,
интернет-магазины и т.п., т.е. любых страниц, не содержащих статей в теле страницы.
2. Парсинг по шаблону, когда пользователь сам задает границы парсинга в виде участков
шаблонов.
4 / 66
3. Автоматический постинг в движки типа DLE, Wordpress и т.п. Данные задачи помогут
решить такие программы, как Zebrum или Textkit
Некоторые из вышеперечисленных задачь будут реализованы в следующих версиях и обновлениях
X-Parser
Created with the Personal Edition of HelpNDoc: Single source CHM, PDF, DOC and HTML Help creation
Системные требования
X-Parser-Light 1.0.1
Автоматический парсер контента
Системные требования
Требования к Программному обеспечению:

X-Parser-Light поддерживает все семейство 32 - битных Windows NT, в том числе Windows
NT 4,0, 2000, XP, 2003, Vista и Windows 7.

Требуется установить .NET Framework 4.0 и выше (ссылка на страницу фреймворка дается
при установке X-Parser-Light, если нужная версия фреймворка не обнаружена на
компьютере пользователя)
Аппаратные требования:






CPU с тактовой частотой 800Mhz и выше, количество ядер значения не имеет
256 MB RAM
10 MB свободного места на жестком диске
Достаточное свободное место на жестких дисках для сохранения отпарсенного контента
Минимум 1024 х 768 точек - разрешающая способность экрана
Соединение с Интернетом 1 мегабит и выше
Примечание: производительность программы прямо пропорциональна конфигурации ПК, чем выше
тактовая частота процессора и больше ширина канала, тем больше контента за единицу времени
парсер сможет получить. Средняя скорость парсинга составляет 300-800Mb/сутки.
Created with the Personal Edition of HelpNDoc: Free EPub and documentation generator
5 / 66
Главная форма
X-Parser-Light 1.0.1
Автоматический парсер контента
Главная форма
Описание:
Главная форма приложения содержит главное меню, панель инструментов, 3 вкладки настроек:
список кейвордов, парметры и фильтры. В нижней части формы находится панель с кнопкой запуска
парсера и кнопкой запуска тестера.
В подразделах Вы сожете найти информацию по каждому элементу формы.
Внешний вид главной формы при запуске приложения:
6 / 66
Created with the Personal Edition of HelpNDoc: Easy to use tool to create HTML Help files and Help web
sites
Главное меню
X-Parser-Light 1.0.1
Автоматический парсер контента
Главное меню программы
Описание:
Главное меню программы содержит все элементы управления парсером, некоторые из них
7 / 66
продублированы в меню быстрого запуска и кнопками на форме. В главном меню расположены
такие подменю, как Файл, Правка, Парсер, Настройки, Справка
Внешний вид свернутого меню:
Created with the Personal Edition of HelpNDoc: Easily create EBooks
Файл
X-Parser-Light 1.0.1
Автоматический парсер контента
Подменю Файл
В подменю Файл, расположены элементы управления сохранением и открытием всех возможных
настроек парсера. Сохранять можно как все настройки вместе, так и по отдельности. Рекомендуется
хранить все необходимые комплекты настроек, так как это ускоряет и упрощает работу с парсером.
Внешний вид развернутого меню Файл:
8 / 66
Элементы меню Файл:

Создать новый парсер - позволяет Вам очистить все текущие формы настроек и перевести
парсер в режим создания нового комплекта настроек. По сути может использоваться крайне
редко, так как удобнее просто пренастраивать готовые настройки и сохранять под новым
именем.




Сохранить ключевики - позволяет сохранить текущий список ключевиков в файл.
Сохранить настройки - позволяет сохранить текущие настройки парсера в файл.
Сохранить фильтры - позволяет сохранить текущие настройки фильтров в файл.
Сохранить как... - подменю:
o Парсер как... - позволяет сохранить все текущие настройки, включая список ключевиков,
настройки парсера и настройки фильтров в файл.
o Ключевики как... - позволяет сохранить список ключевиков в файл под новым именем.
o Ключевики как... - позволяет сохранить настройки парсера в файл под новым именем.
o Фильтры как... - позволяет сохранить текущие настройки фильтров в файл под новым
именем.

Открыть - подменю:
o Парсер... - позволяет загрузить все текущие настройки, включая список ключевиков,
настройки парсера и настройки фильтров из ранее сохраненного файла.
o
o
o
o
Процесс... - позволяет загрузить ренее сохраненный процесс парсинга.
Ключевики... - позволяет загрузить список ключевиков из ранее сохраненного файла.
Ключевики... - позволяет загрузить настройки парсера из ранее сохраненного файла.
Фильтры... - позволяет загрузить текущие настройки фильтров из ранее сохраненного
файла.

Выход - закрывает приложение
Примечание: Все сохраняемые в данном меню файлы, могут быть запущены непосредственно из
9 / 66
проводника Windows, что позволяем быстро получать доступ к нужным комплектам настроек, не
запуская приложение через основной файл запуска.
Created with the Personal Edition of HelpNDoc: Easily create HTML Help documents
Правка
X-Parser-Light 1.0.1
Автоматический парсер контента
Подменю Правка
Описание:
В подменю Правка, расположены стандартные элементы управления редактированием контента,
такие как копировать, вставить, вырезать и т.п.
Внешний вид развернутого меню Правка:
Элементы меню Правка:

Отменить - отменяет последнее действие, произведенное в текстовом поле, которое
находится в фокусе ввода.

Вырезать - вырезает текущий выделенный участок текста в любом текстовом поле программы и
помещает его в буфер обмена.

Копировать - копирует в буфер обмена текущий выделенный участок текста из любого
текстового поля программы.

Вставить - вставляет содержимое буфера обмена в текущее положение курсора в текстовом
10 / 66
поле или вместо выделения.


Удалить - удаляет текущий выделенный текст из любого текстового поля программы.
Выделить все - выделяет все содержимое текстового поля, находящегося в фокусе ввода.
Created with the Personal Edition of HelpNDoc: Full featured multi-format Help generator
Парсер
X-Parser-Light 1.0.1
Автоматический парсер контента
Подменю Парсер
Описание:
В подменю Парсер, расположены элементы управления процессом сбора контента, а так же
несколько дополнительных элементов, таких как Менеджер обратотки контента и Протестировать
настройки.
Внешний вид развернутого меню Парсер:
Элементы меню Парсер:

Сохранить процесс - позволяет сохранить текущий процесс сбора контента, чтобы иметь
возможность продолжить его в будущем. Перед сохранением процесс нужно остановить.

Запустить процесс - Запускает процесс сбора контента. Так же процесс можно запустить
11 / 66
кнопкой Запустить парсер, которая находится внизу главной формы. При завершенном
процессе данный элемент меню заменяется на элемент Выйти из процесса, который закрывает
текущий процесс.

Остановить процесс - останавливает текущий запущенный процесс, делая его доступным для
сохранения.

Приостановить процесс - приостанавливает процесс (пауза). Используется, если нужно не
надолго приостановитьб процесс, не выходя из него.

Менеджер визуализации процесса - отображает весь ход выполнения процесса парсинга, в том
числе позволяет редактировать временный контент, если данный режим выбран,
непосредственно в процессе парсинга.

Менеджер обработки контента - позволяет править и конвертировать любой ранее
отпарсенный контент.

Протестировать настройки - позволяет протестировать настройки при помощи визуального
тестера настроек.
Created with the Personal Edition of HelpNDoc: Easy EBook and documentation generator
Настройки
X-Parser-Light 1.0.1
Автоматический парсер контента
Подменю Настройки
Описание:
В подменю Настройки, расположены элементы вызова настроек парсера, такие как Настройка
поисквых систем и Настройка форматов вывода.
Внешний вид развернутого меню Настройки:
12 / 66
Элементы меню Настройки:


Поисковые системы - открывает форму нстроек поисковых систем.
Форматы вывода - открывает форму настроек шаблонов вывода.
Created with the Personal Edition of HelpNDoc: Easily create Help documents
Справка
X-Parser-Light 1.0.1
Автоматический парсер контента
Подменю Справка
Описание:
В подменю Справка, расположены элементы вызова справки и авторизации.
Внешний вид развернутого меню Справка:
Элементы меню Справка:


Просмотр справки - открывает данную справочную систему.
О программе X-Parser-Light - открывает форму с данными о текущей версии программы,
лицензионным соглашением и контактными данными службы поддержки.

Активировать программу - открывает форму активации.
Created with the Personal Edition of HelpNDoc: Easily create PDF Help documents
Вкладки
13 / 66
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладки главное формы
Описание:
Главная форма содержит три вкладки настроек: Список кейвордов, Настройки парсера, Фильтры.
Каждая из вкладок содержит независимую группу настроек, каждая из которых выполняет свою
функцию и может настраиваться не зависимо от другой группы. Каждая из групп может сохраняться
и загружаться как отдельно, так и в комлекте с другой группой. О сохранении настроек читайте
здесь.
Внешний вид вкладок:
О назначении и возможностях каждой вкладки читайте в подразделах данного раздела или
перейдите по ссылкам выше.
Created with the Personal Edition of HelpNDoc: Free iPhone documentation generator
Список кейвордов
X-Parser-Light 1.0.1
Автоматический парсер контента
Список кейвордов
14 / 66
Описание:
Вкладка Список кейвордов предназначена для ввода списка кейвордов, по которому будет
собираться контент. Все кейворды нужно указать в теккстовом поле под названием "Список
кейвордов, по которым будет собираться контент:" каждый с новой строки. Кейворды можно как
сохранять, так и загружать. Сохраняются кейворды в обычных текстовых файлах.
Внешний вид вкладки кейвордов:
Как сохранить или загрузить кейворды:
Чтобы сохранить кейворды в файл воспользуйтесь одним из следующих вариантов:
1. В подменю Файл главного меню нажмите на элемент с именем Сохранить ключевики. Если Вы
не открывали кейворды, а заполнили список кейвордов вручную, то Вам будет предложено
задать имя нового файла. Если же кейворды были сохранены ранее или открыты, то список
будет сохранен в тот же файл, который был ренее сохранен или открыт. Если нужно сохранить
файл под новым именем, воспользуйтесь подменю Сохранить как...
2. В меню быстрого запуска нажмите на иконку дискеты
, убедитесь что открыта именно
вкладка кейвордов, так как действие вызываемое данной кнопкой зависят от выбранной вкладки.
Если Вы находитесь на другой вкладке, то можете нажать на стерлку рядом с иконкой дискеты и
15 / 66
выбрать пункт Сохранить кейворды в выпавшем меню.
Created with the Personal Edition of HelpNDoc: Free help authoring environment
Параметры
X-Parser-Light 1.0.1
Автоматический парсер контента
Параметры парсера
Описание:
Вкладка Параметры предназначена для установки основных параметров парсера. Как и кейворды,
параметры могут быть сохранены и загружены, не зависимо от других вкладок. Ниже приведен
внешний вид владки. Еще ниже оисаны все параметры, задаваемые на данной вкладке.
Внешний вид вкладки параметров:
16 / 66
На вклаладке Параметры расплагаюются две группы настроек - это Параметры парсера и
Параметры сохранения контента. Ниже приведен полный перечень всех параметрок этих двух
групп:
Параметры парсера:
1. Название парсера - служит для идентификации комплекта настроек, а так же служит
именем файла, если Вы весь контент сохраняете в один файл.
2. Поисковик - выбор поисковой системы, через которую будет осуществляться поиск
релевантного контента. Перечень поисковиков задается в Настройках поисковых
систем.
3. Необходимое количество контента (kb/key) - Задает объем контента в килобайтах,
которое Вы хотите получить по каждому кейворду. Если указать 0, то параметр будет
игнорироваться и парсер получит весь возможный контент. Имейте в виду, что
максимальное количество контента зависит от допустимого количества ссылок в выдаче
ПС (как правило не больше 100 страниц по 10-100 ссылок нга странице) и количества
статей в выдаче, удовлетворяющих заданным настройкам.
4. Количество потоков - задает количество потоков, которое будет выделено системой
для осуществления сбора контента. Прямопропорционально влияет на скорость
парсинга, т.е. чем больше - тем быстрее и наоборот. Но это не значит, что указав 10000
потоков Вы получите скорость в 100 раз большую чем при 10 потоках, так как возрастает
17 / 66
и нагрузка на систему. Для получения оптимальной скорости используйте диапазон
начиная от количества ядер процессора и заканчивая количеством ссылок в выдаче,
которое Вы выберите в нвастройках. Большее количество потоков в любом случае не
будет задействовано. Например, если Вы указали парсеру брать 50 ссылок из выдачи
ПС и ядер у Вас, к примеру - четыре, то можете использовать диапазон от 4 до 50
потоков. Опытным путем можете подобрать оптимальное значение в данном диапазоне.
5. Сколько статей получить (шт/кей) - задает количество статей, которое Вы хотите
получить по каждому кейворду. Как и в случае с количеством контента, если указать 0,
то параметр будет игнорирован. Максимальное количество статей зависит от
допустимого количества ссылок в выдаче ПС (как правило не больше 100 страниц по
10-100 ссылок нга странице) и количества статей в выдаче, удовлетворяющих заданным
настройкам.
6. Мин. длинна статьи (кол-во символов) - задает минимальную длинну статьи в
количестве символов. Задав в данном параметре значение равное 300, Вы получите
только статьи длиннее 300 символов. Имейте в виду, что при низких значениях данного
параметра Вы рискуете получить много разного "мусора".
7. Таймауты обращения к ПС (сек) - задает паузы в секундах между обращениями к
поисковику. Актуально для снижения частоты выдачи каптчи поисковиком. Содержит 2
значения:


Между страницами - интервал перелистывания страниц выдачи.
Между кейвордами - интервал между последней страницей предыдущего
кейворда и запросом нового кейворда.
Если предположить, что реальный пользователь страницы выдачи может листать
достаточно быстро, а на ввод нового кейворда нужно немного больше времени, то имеет
смысл устанавливать данные интервалы соответствующим образом, напрмер 3 и 6 сек.
соответственно.
8. Количество ссылок в выдаче ПС - задает количество ссылок на странице выдачи ПС.
9. Форматирование контента - задает один из следующих вариантов форматирования
контента:

Сохранить базовую разметку (теги b, em, ul, li...) - если выбрать данный
режим, то на выходе контент будет иметь базовую HTML-разметку, подобную
исходнику, но без каких-либо ошибок верстки.

Полное отсутствие разметки (только текст) - если выбрать данный
режим, то на выходе будет получен чистый текст без каких-либо тегов.
10. Алгоритм фильтрации статей - задает один из следующих алгоритмов фильтрации
статей:

Парсить непосредственно тексты статей - если выбрать данный режим,
то в процессе парсинга будут собраны исключительно полноценные тексты
статей или все то, что похоже на статью.

Парсить весь возможный текст со страницы - если выбрать данный
режим, то будет собираться весь контент, который будет найден, но длиннее
минимальной заданной длинны статьи.
11. Список стоп-констукций в URL - задает список URL, каждый с новой строки, с
которых парсер не будет парсить контент. Можно задавать части URL, полные URL или
регулярные выражения.
18 / 66
Параметры сохранения контента:
1. Формат обработанного текста - задает один из форматов, настраиваемых в
Настройках форматов вывода, в котором будет сохранен конечный контент.
2. Параметры проверки контента - задает один из двух возможных режимов:

Сохранять контент без предварительной проверки - если выбрать данный
режим, то контент будет сохраняться без проверки сразу в выбранном формате.

Использовать менеджер контента для ручной проверки контента перед
сохранением - если выбрать данный режим, то контент в конечном формате не
будет сохраняться сразу, а вместо этого в категории куда Вы сохраняете контент,
будет создана временная категория с промежуточными результатами парсинга,
которые будут сразу же видны в Менеджере визуализации процесса на вкладке
Менеджер обработки контента. Чтобы получить конечный контент, нужно,
после проверки промежуточного контента и внесения необходимых изменений,
сконвертировать контент в нужный формат при помощи кнопки на Меню
быстрого запуска в Менеджере визуализации процесса, которая выглядит так:
. После чего контент в заданном формате появится в заданной папке и на
вкладке обработанный контент Менеджера визуализации процесса.
3. Если файл уже существует - позволяет указать что какое из нижеперечисленных
действий предпринять, если файл уже существует:

Перезаписать - если выбрать данный режим, то существующие файлы, в
случае совпадения их имен с новыми файлами, будут перезаписаны.

Дописать - если выбрать данный режим, то в существующие файлы, в случае
совпадения их имен с новыми файлами, будет дописан контент новых файлов.

Создать новый с суфиксом "_x", где х - индекс нового файла - если
выбрать данный режим, то новые файлы, в случае совпадения их имен с уже
существующими файлами, будут сохранены под новым именем с добавлением
софикса _х, где х - индекс нового файла.
4. Если файл уже существует - позволяет указать что какое из нижеперечисленных
действий предпринять, если файл уже существует:

Перезаписать - если выбрать данный режим, то существующие файлы, в
случае совпадения их имен с новыми файлами, будут перезаписаны.

Дописать - если выбрать данный режим, то в существующие файлы, в случае
совпадения их имен с новыми файлами, будет дописан контент новых файлов.

Создать новый с суфиксом "_x", где х - индекс нового файла - если
выбрать данный режим, то новые файлы, в случае совпадения их имен с уже
существующими файлами, будут сохранены под новым именем с добавлением
софикса _х, где х - индекс нового файла.
5. Формат сохранения контента - в данном параметре можно указать как Вы хотите
сохранять контент:

Каждая статья в отдельном файле - если выбрать данный режим, то все
статьи будут сохранены в отдельных файлах. В этом случае они будут
находиться в папках, имеющих название соответствующие кейвордам, по
которым были отпарсены статьи.

Все статьи по одному кейворду в одном отдельном файле - если выбрать
данный режим, то статьи будут сохранены в файлах имеющих зазвания с
19 / 66
соответствующими кейвордами.

Все статьи в одном файле - если выбрать данный режим, то все статьи по
всем кейвордам будут сохранены в один файл, с именем, состоящим из названия
парсера.
6. Формат названий файлов - указывает, можно ли использовать кирилицу в названиях
файлов:

Допускать кирилицу в названиях файлов ( имя_файла.txt ) - разрешает
кирилицу в именах файлов.

Заменять кирилицу транслитом ( imia_faila.txt ) - запрещает кирилицу в
именах файлов и выводит имена файлов транслитом.
7. Путь к сохраняемому контенту - задает путь к папке, в которую будут сохранен
контент. Имейте в виду, что конечный контент будет находиться именно в этой папке.
Если в Параметрах проверки контента будет выбран пункт Использовать менеджер
контента для ручной проверки контента перед сохранением то в указанной папке
будет так же создана временная категория с названием Temp_Content в которой будут
сохранены промежуточные результаты парсинга. Обратите внимание, что файлы из
папки Temp_Content не являются текстовыми и открываются только в X-Parser-Light.
Как сохранить или загрузить параметры:
Чтобы сохранить настройки парсера в файл воспользуйтесь одним из следующих вариантов:
1. В подменю Файл главного меню нажмите на элемент с именем Сохранить настройки. Если Вы
не открывали настройки, а заполнили все поля вручную, то Вам будет предложено задать имя
нового файла. Если же настройки были сохранены ранее или открыты, то список будет сохранен
в тот же файл, который был ренее сохранен или открыт. Если нужно сохранить файл под новым
именем, воспользуйтесь подменю Сохранить как...
2. В меню быстрого запуска нажмите на иконку дискеты
, убедитесь что открыта именно
вкладка Параметры, так как действие вызываемое данной кнопкой зависят от выбранной
вкладки. Если Вы находитесь на другой вкладке, то можете нажать на стерлку рядом с иконкой
дискеты и выбрать пункт Сохранить настройки в выпавшем меню.
Created with the Personal Edition of HelpNDoc: Full featured EPub generator
Фильтров
X-Parser-Light 1.0.1
Автоматический парсер контента
Настройка фильтров
20 / 66
Описание:
Вкладка Список фильров предназначена для настройки пользовательской фильтрации контента.
Пользовательские фильтры позволяют Вам как угодно отфильтровывать статьи на стадии сбора
контента. Например, Вы можете запретить сохранять статьи, которые не релевантны текущему
кейворду, или указать удалять абзацы, которые содержат те или иные слова и т.п. Для удобства и
простоты настройки фильтров можно использовать Тестер настроек.
Внешний вид вкладки фильтров:
Как настроить фильтры:
Чтобы настроить фильтры, нужно выполнить следующие действия:
1. В поле Текст или шаблон ввести строку поиска или регулярное выражение. Если
регулярное выражение окажется не корректным программа оповестит Вас об этом. Для
поиска текущего кейворда доступен маркер {KEYWORD}.
2. В поле действие выбрать действие, которое нужно произвести, если заданное
включение найдено. Варианты доступных действий:

Удалять статьи с заданным включением - если выбрать данное действие,
то все статьи, в которых заданное включение будет найдено парситься не будут.
21 / 66

Удалять абзацы с заданным включением - если выбрать данное действие, то
все абзацы с заданным включением будут удаляться.

Удалять заданное включение - если выбрать данное действие, то будут
удаляться непосредственно заданные включения.

Парсить только те статьи, которые содержат заданное включение если выбрать данное действие, то будут парситься только статьи, которые
содержат заданное включение. Особенно актуально использовать данное
действие в связке с маркером {KEYWORD}.

Парсить только те абзацы, которые содержат заданное включение если выбрать данное действие, то будут парситься только те абзацы, которые
содержат заданное включение.
Как сохранить или загрузить фильтры:
Чтобы сохранить фильтры в файл воспользуйтесь одним из следующих вариантов:
1. В подменю Файл главного меню нажмите на элемент с именем Сохранить фильтьры. Если Вы
не открывали фильтры, а создали их вручную, то Вам будет предложено задать имя нового
файла. Если же фильтры были сохранены ранее или открыты, то список будет сохранен в тот
же файл, который был ренее сохранен или открыт. Если нужно сохранить файл под новым
именем, воспользуйтесь подменю Сохранить как...
2. В меню быстрого запуска нажмите на иконку дискеты
, убедитесь что открыта именно
вкладка фильтров, так как действие вызываемое данной кнопкой зависят от выбранной вкладки.
Если Вы находитесь на другой вкладке, то можете нажать на стерлку рядом с иконкой дискеты и
выбрать пункт Сохранить фильтры в выпавшем меню.
Created with the Personal Edition of HelpNDoc: Create HTML Help, DOC, PDF and print manuals from 1
single source
Нижняя часть формы
X-Parser-Light 1.0.1
Автоматический парсер контента
Назначение панели в нижней части главной формы
Описание:
На нижней части главной формы парсера располагается панель запуска парсера, которая
содержит кнопку запуска парсера и кнопку запуска тестера. При запуске парсра панель запуска
22 / 66
сменяется панелью отображения прогресса процесса парсинга.
Внешний вид панели на стадии запуска парсера:
Внешний вид панели на стадии выполненния процесса:
Внешний вид панели при остановленном парсере:
Created with the Personal Edition of HelpNDoc: Free help authoring environment
Стадия запуска
X-Parser-Light 1.0.1
Автоматический парсер контента
Панель запуска парсера
Описание:
Панель, отображаемая при незапущенном парсере на стадии настройки имеет всего две кнопки:
ктопку Запустить парсер и кнопка Протестировать.
23 / 66
Внешний вид панели запуска парсера:
Назначение кнопок на панели:
o Кнопка запуска позволяет запустить парсер, если все настройки произведены.
o Кнопка Протестировать позволяет запустить тестер и протестировать корректность
настроек, в частности фильтров.
Created with the Personal Edition of HelpNDoc: Easily create Help documents
Стадия выполнения процесса
X-Parser-Light 1.0.1
Автоматический парсер контента
Панель стадии выполнения процесса
Описание:
Панель, отображаемая при запущенном парсере отображает ход выполнения процесса, и имеет два
состояния. Первое состояние актуально во время выполнения процесса и имеет кнопки управления
процессом, а так же кнопку вызова Менеджера визуализации процесса. Второе состояние актуально
после остановки процесса и содержит кнопки сохранения и закрытия процесса.
o Кнопка запуска позволяет запустить парсер, если все настройки произведены.
o Кнопка Протестировать позволяет запустить тестер и протестировать корректность
настроек, в частности фильтров.
Состояние панели при запущенном парсере:
24 / 66
Состояние панели при остановленном парсере:
Назначение кнопок на панели:
- Запуск приостановленного или открытого процесса.
- Временно приостанавливает процесс.
- Останавливает процесс, делая его доступным для сохранения.
- Сохраняет остановленный процесс. Сохранение процесса позоляет в будущем вернуться к
точке останова и продолжить парсинг.
- Закрывает текущий процесс.
- Открывает менеджер визуализации процесса
Created with the Personal Edition of HelpNDoc: Free HTML Help documentation generator
Панель инструментов
X-Parser-Light 1.0.1
Автоматический парсер контента
Панель инструментов
Описание:
Панель инструментов находится в правом верхнем углу главной формы над вкладками. Оно
25 / 66
предназначено для быстрого сохранения и загрузки кейвордов, настроек и фильтров. Так же оно
содержит кнопку очистки формы. Все кнопки, расоложенные непосредственно на панели всегда
соответствуют текущей активной вкладке.
Внешний панели инструментов:
Действия, осуществляемые при помощи панели инструментов:
1. Сохранение содержимого любой вкладки. Если Вы хотите быстро сохранить кейворды,
настройки или фильтры отдельно друг от друга, то у Вас есть возможность это сделать двумя
простыми способами: открыть нужную вкладку и нажать кнопку сохранения прямо на панели
инструментов или нажать стрелку рядом с кнопкой сохранения и в выпавшем списке выбрать
нужное действие. Как это выглядит, показано ниже:
2. Загрузка данных любой вкладки. Как и при сохранении у Вас есть два аналогичных способа
открыть нужные Вам настройки: либо открыть нужную вкладку и нажать на кнопку открыть прямо
на панели, после чего найти нужный файл с кейвордами, настройками или фильтрами и открыть
его. Второй вариант, как и с сохранением, - нажать стрелку рядом с кнопкой Открыть и в
выпавшем списке выбрать нужное действие, далше действовать, как и в первом парианте. Как
это выглядит, показано ниже:
3. Очистка форм. С помощью кнопки метлы
можно очистить все поля на текущей вкладке.
Created with the Personal Edition of HelpNDoc: Full featured Documentation generator
26 / 66
Менеджер визуализации процесса
X-Parser-Light 1.0.1
Автоматический парсер контента
Менеджер визуализации процесса
Описание:
Мнеджер визуализации процесса предназначен для наблюдения за процессом сбора контента в
режиме реального времени. Он открывается сразу же при запуске процесса сбора контента. В его
верхней части находится два индикатора выполнения процесса: общий и прогресс текущего
кейворда. По ним Вы можете отслеживать состояние процесса. Так же форма содержит три вкладки,
которые отображают следующие данные:
1. Лог, отображающий данные о собранном контенте, а так же ошибки.
2. Менеджер обработки контента: показывает временный контент (если Вы указали парсеру
использовать ручную проверку контента) и позволяет его редактировать непосредственно в
процессе сбора контента.
3. Обработанный контент: на данной вкладке Вы можете видеть и редактировать контент в
конечном формате, который был указан в настройках.
Внешний вид:
27 / 66
Created with the Personal Edition of HelpNDoc: Easily create EBooks
Панель инструментов
X-Parser-Light 1.0.1
Автоматический парсер контента
Панель инструментов менеджера визуализации
процесса
Описание:
Панель инструментов менеджера визуализации процесса содержит инструменты, необходимые для
управления менеджером процесса. С ее помощью Вы сможете менять метод отображения
документа (в виде браузера или исходного кода), запускать и останавливать процесс, сохранять
внесенные в документ изменения и удалять документы. Самой важной кнопкой панели
инструментов является Кнопка конвертации контента, которая запускает процесс преобразования
временного контента в конечный формат.
28 / 66
Внешний вид панели инструментов:
Назначение кнопок на панели:
- В менеджерах обработки контента и обработанного контента меняет поле редактирования
исходного кода на браузер и обратно. Когда активен браузер принимает вид
.
- Добавляет URL донора в черный список.
- Запускает остановленный или приостановленный процесс. Когда процесс остановлен или
завершен сменяется на кнопку сохранения процесса
.
- Кнопка сохранения процесса. Появляется, когда процесс завершен или остановлен вместо
кнопки запуска процесса
. Не путайте ее с кнопкой сохранения документа, которая выглядит
так же, но находится рядом с кнопкой удаления документа
.
- Кнопка приостановки процесса. Сменяет кнопку запуска
, когда процесс запущен.
- Кнопка остановки процесса. Сменяется кнопкой выхода из процесса
завершен.
, когда процесс
- Закрывает остановленный или завершенный процесс.
- Сохраняет изменения внесенные в отпарсенный документ на вкладках менеджера
обработки контента и обрабонанного контента.
- Удаляет активный документ.
- Кнопка запуска конвертации контента. Конвертирует временный контент, в конечный,
выбранный Вами, формат.
Created with the Personal Edition of HelpNDoc: Write eBooks for the Kindle
Вкладки
X-Parser-Light 1.0.1
Автоматический парсер контента
29 / 66
Вкладки менеджера визуализации процесса
Описание:
Менеджер визуализации процесса содержит три вкладки: Лог, Менеджер обработки контента и
Обработанный контент.
Внешний вид вкладок:
Назначение вкладок:
1. Лог - отображает данные о собранном контенте, а так же ошибки.
2. Менеджер обработки контента - показывает временный контент (если Вы указали парсеру
использовать ручную проверку контента) и позволяет его редактировать непосредственно в
процессе сбора контента.
3. Обработанный контент - позволяет просмативать и редактировать контент в конечном
формате, который был указан в настройках.
Created with the Personal Edition of HelpNDoc: Easily create Web Help sites
Лог
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Лог"
Описание:
На данной вкладке располагается одно текстовое поле, в котором выводится вся информация о
процессе сбора контента, как это выглядит, Вы можете увидеть ниже.
30 / 66
Внешний вид вкладки Лог:
Особенности вывода информации в лог:
После инициализации процесса Вы можете увидеть сообщение о том, какой кейворд сейчас
парсится или был отпарсен ранее.

Парсим кейворд "Решебники по математике":
Далее Вы можете видеть строку с сообщением о том сколько адресов было обработано, сколько
статей найдено и объем контента.

Обработано 20 адресов, получено статей: 7, объем контента: 38kb

Обработано 30 адресов, получено статей: 11, объем контента: 75kb
Имейте в виду, что каждая следующая строка говорит о том, сколько всего обработано
адресов и сколько всего получено контента по каждому кейворду.
Created with the Personal Edition of HelpNDoc: Easily create HTML Help documents
Менеджер обработки контента
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Менеджер обработки контента"
Описание:
31 / 66
Данная вкладка содержит Менеджер обработки контента, в котором отображаются промежуточные
файлы контента, собранные в процессе парсинга. Вы можете их просматривать, редактировать и
удалять не дожидаясь окончания процесса. Кнопки для сохранения изменений и удаления файлов
расположены на Панели инструментов. Когда Вы закончите проверку - нажмите кнопку запуска
конвертации контента
на панели инструментов, чтобы получить контент в нужном Вам
формате.
Обратите внимание на кнопку запуска тестера
, с помощью которого Вы сможете посмотреть на
страницу сайта донора, с которой был отпарсен контент, а так же на ее исходный код. Это бывае
нужно для оценивания корректности полученного контента. Если вдруг Вы обнаружите страницы, с
которых контент берется явно некорректно, добавьте URL донора в черный список при помощи
кнопки
.
Внешний вид вкладки менеджера обработки контента:
Created with the Personal Edition of HelpNDoc: Create iPhone web-based documentation
Обработанный контент
X-Parser-Light 1.0.1
32 / 66
Автоматический парсер контента
Вкладка "Обработанный контент"
Описание:
На данной вкладке Вы можете просматривать, редактировать, а так же удалять файлы, содержащие
обработанный контент, в формате указанном в настройках. Если Вы в параметрах парсера указали,
что хотите использовать ручную проверку контента, то данная вкладка будет оставаться пустой до
того момента, пока Вы не произведете проверку и правку временных файлов в менеджере
обработки контента на второй вкладке. Когда Вы закончите проверку - нажмите кнопку запуска
конвертации контента
на панели инструментов, чтобы получить контент в нужном Вам
формате.
Внешний вид вкладки обработанного контента:
Created with the Personal Edition of HelpNDoc: Free EPub producer
Строка состояния
X-Parser-Light 1.0.1
33 / 66
Автоматический парсер контента
Строка состояния
Описание:
Строка состояния позволяет Вам видеть следующие данные: общее количество полученных
статей, общий объем контента, какой выбран конечный формат контента, общее время
выполнения и текущее состояние процесса.
Внешний вид строки состояния:
Created with the Personal Edition of HelpNDoc: Free EPub producer
34 / 66
Менеджер обработки контента
X-Parser-Light 1.0.1
Автоматический парсер контента
Менеджер обработки контента
Описание:
Менеджер обработки контента позволяет просматривать, редактировать, удалять и конвертировать
контент, который был отпарсен ренее. Открыть его можно из Главного меню -> Парсер -> Менеджер
обработки контента. Он содержит две вкладки, Необработанный контент и Обработанный
контент. Функционал вкладок подобен функционалу аналогичных вкладок мнеджера визуализации
процесса. В панели инструментов менджера обработки контента можно найти ссылки на все папки с
ранее отпарсенным контентом, чтобы это сделать нужно нажить на стрелочку рядом с кнопкой
.
Внешний вид менеджера:
35 / 66
Created with the Personal Edition of HelpNDoc: Easily create iPhone documentation
Панель инструментов
X-Parser-Light 1.0.1
Автоматический парсер контента
Панель инструментов менеджера обработки
контента
Описание:
Панель инструментов менеджера обработки процесса содержит инструменты, позволяющие бустро
получать доступ к ранее отпарсенному контенту, открывать каталоги с контентам, сохранять
изменения, внесенные в файлы и удалять их. Так же имеется кнопка запуска процесса конвертации
контента.
36 / 66
Внешний вид панели инструментов:
Назначение кнопок на панели:
- В менеджерах обработки контента и обработанного контента меняет поле редактирования
исходного кода на браузер и обратно. Когда активен браузер принимает вид
.
- Сохраняет изменения внесенные в отпарсенный документ на вкладках менеджера
обработки контента и обрабонанного контента.
- Удаляет активный документ.
- Открывает папку с контентом из проводника. Стрелочка рядом открывает архивные
категории с ранее отпарсенным контентом.
- Если стоит крестик, то временный контент при конвертации не будет удален. Если его
убрать
, то временные файлы будут удаляться.
- Кнопка запуска конвертации контента. Конвертирует временный контент, в конечный,
выбранный Вами, формат.
Список архивных категорий с отпарсенным контентом:
Назначение кнопок списка:
- Добавляет текущую открытую категрию в архив для обеспечения быстрого доступа к ней в
будущем.
- Удаляет текущую открытую категорию из архива.
Описание иконок списка:
- Говорит о том, что категория содержит как обработанный, так и необработанный контент.
37 / 66
- Говорит о том, что категория содержит только необработанный контент.
- Говорит о том, что категория содержит только обработанный контент.
- Говорит о том, что категория не содержит контента.
Created with the Personal Edition of HelpNDoc: Free EBook and documentation generator
Вкладки
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладки менеджера обработки контента
Описание:
Менеджер обработки контента содержит две вкладки, Необработанный контент и Обработанный
контент.
Внешний вид вкладок:
Назначение вкладок:
1. Необработанный контент - позволяет просматривать и редактировать временный контент.
2. Обработанный контент - позволяет просмативать и редактировать контент в конечном
формате, который был указан в настройках.
Created with the Personal Edition of HelpNDoc: Easy EPub and documentation editor
Необработанный контент
38 / 66
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Необработанный контент"
Описание:
На данной вкладке располагается Менеджер обработки временных файлов с промежуточным
контентом. Правка контента в таком формате удобна тем, что каждая статья сохраняется в
отдельном файле, что позволяет гораздо проще находить некачественный контент и редактировать
или удалять его. Когда Вы закончите проверку - нажмите кнопку запуска конвертации контента
на панели инструментов, чтобы получить контент в нужном Вам формате.
Внешний вид вкладки необработанного контента:
39 / 66
Created with the Personal Edition of HelpNDoc: Free help authoring environment
Обработанный контент
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Обработанный контент"
Описание:
На данной вкладке Вы можете просматривать, редактировать, а так же удалять файлы, содержащие
обработанный контент, в формате указанном в настройках.
Внешний вид вкладки обработанного контента:
Created with the Personal Edition of HelpNDoc: Write eBooks for the Kindle
40 / 66
Строка состояния
X-Parser-Light 1.0.1
Автоматический парсер контента
Строка состояния
Описание:
Строка состояния позволяет Вам видеть следующие данные: общее количество полученных
статей, общий объем контента, какой выбран конечный формат контента, объем текущего
документа в символах общее время выполнения.
Внешний вид строки состояния:
Created with the Personal Edition of HelpNDoc: Create HTML Help, DOC, PDF and print manuals from 1
single source
41 / 66
Настройки
X-Parser-Light 1.0.1
Автоматический парсер контента
Системные настройки парсера
Описание:
К системным настройкам парсера относятся Настройки поисковых систем и Форматов вывода.
Находятся они в Главном меню главной формы -> Настройки. Данные настройки постоянны,
настраиваются единыжды и донастраиваются по мере необходимости. В настройках поисховых
систем храняся данные о всех поисковых системах, которые Вы используете в процессах парсинга.
Форматы вывода содержат все форматы вывода, которыми Вы пользуетесь.
Внешний вид формы настроек поисковых систем:
42 / 66
Внешний вид формы настроек форматов(шаблонов) вывода:
43 / 66
Created with the Personal Edition of HelpNDoc: Free HTML Help documentation generator
Поисковые системы
X-Parser-Light 1.0.1
Автоматический парсер контента
Настройка поисковых систем
Описание:
Самой сложной частью X-Parser является настройка поисковых систем. В данном разделе справки
Вы нейдете подробную информацию о том, как настроить парсер на работу с абсолютно любуй
существующующей поисковой системой. Стоит отметить, что X-Parser поддерживает работу с
любым сайтом, у которого есть поиск. А так же поддерживает работу с каптчами абсолютно любых
поисковых систем, даже не добавленных изначально.
В верхней части формы располагается список настроенных поисковых систем, внизу - параметры
выбранной поисковой системы.
44 / 66
Внешний вид окна настроек:
Назначение элементов формы:

Название ПС - Название ПС, отображаемое в настройках парсера. Можно указывать в формате
Yandex.ru RU Россия, где RU - язык поиска, Россия - регион поиска.

URL - Ссылка на выдачу ПС, в которой должны быть заменены переменные значения
следующим образом:
o Запрос поиска -> {QUERY}
o Количество страниц в выдаче ПС -> {NUM}
o Начальная страница или начальная позиция поиска -> {PAGE} или {START}
соответственно.
Примеры URL:
o http://yandex.ru/yandsearch?p={PAGE}&text={QUERY}&rstr=&lang=ru&mime=all&numdoc={N
45 / 66
UM}&lr=24885&tld=ru
o http://www.nigma.ru/index.php?startpos={START}&s={QUERY}&srt=0&gl=1&yh=1&ms=1&yn=
1&rm=1&av=1&ap=1&nm=1&lang=ru&k=vDwt&rg=t%3D%D0%9C%D0%BE%D1%81%D0%B
A%D0%B2%D0%B0_c%3D%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D1%8F_&rg_vie
w=%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B5&ovis=
o http://nova.rambler.ru/search?query={QUERY}&dlang=1&mimex=0&st_date=&end_date=&new
s=0&limitcontext=0&exclude=&filter=&sort=3&pagelen={NUM}&adult=soft&page={PAGE}
o http://www.bing.com/search?q={QUERY}&qs=n&form=QBLH&pq=viagra&sc=8-6&sp={PAGE}
&sk=

Шаблон ссылки - Шаблон в формате регулярного выражения, который окружает необходимые
ссылки в выдаче.

Шаблон сниппета - Шаблон в формате регулярного вырадения, который окружает сниппет. Не
обязательный параметр в данной версии парсера.

Включения в URL - Включения в форме регулярного выражения, ссылки с которыми будут
добираться.

Исключения из URL - Включения в форме регулярного выражения, ссылки с которыми будут
игнорироваться.

Обработка URL - Шаблон в формате регулярного выражения, который будет обрезаться или
вырезаться из полученных ссылок.

Допустимые значения {NUM} - Перечень допустимых значений количества ссылок в выдаче
ПС.

Формула расчета - Формула, по которой считаются значения маркера {PAGE} или {START}.
Created with the Personal Edition of HelpNDoc: Free Web Help generator
Как настроить поисковую систему
X-Parser-Light 1.0.1
Автоматический парсер контента
Как настроить поисковую систему
Описание:
Чтобы настоить поисковую систему Вам нужно следовать по приведенному ниже пану. Мы
продемонстрируем процедуру натройки поисковой системы на примере Yandex.ru. Все действия
описаны в хронологическом порядке, согласно порядку размещения элементов на форме настроек.
46 / 66
План действий при настройке ПС:
1. Добавить новую поисковую систему, нажав кнопку "Добавить ПС" в нижней части формы
настроек ПС.
2. В поле "Название ПС" укажите название поисковой системы. Можно указывать в формате
Yandex.ru RU Россия, где RU - язык поиска, Россия - регион поиска.
3. Третьим шагом настройки ПС является настройка шаблона ссылки на выдачу ПС, которая
указывается в поле "URL". Чтобы сформировать шаблон ссылки Вам нужно проделать
следующие действия:
o Открыть нужную ПС в Вагем браузере, например в Mozilla Firefox.
o Открыть настройку расширенного поиска:
Внешний вид формы настроек расширенного поиска яндекса:
o Указать в поле "Я ищу:" любое значение, латинскими буквами, например QUERY.
o Выбрать нужный язык и прочие интересующие Вас параметры, например такие, как на
скриншоте.
o Посмотреть на то, какие значения может принимать поле "Размер страницы" (сколько
ссылок в выдаче может выдавать ПС).
o Выбрать любое значение отличное от 10 в поле "Размер страницы".
o Нажать кнопку "Найти".
o Выбираете любую страницу выдачи кроме первой.
o Изменяя количество страниц и количество ссылок на странице, определяете какой
параметр в URL в адресной строке браузера соответствует текущей странице в выдаче,
а какой отвечает за количество ссылок в выдаче. Чаще всего количество ссылок на
странице определяется параметром ..&num=50&..., а страница выдачи может
определяться четырьмя следующими способами:

номер страницы в адресной строке будет соответствовать выбранной вами
47 / 66
страницы

номер страницы в адресной строке будет меньше на единицу номера выбранной
вами страницы, т.е. Вы нажали на страницу с номером 6, а в адресной строке
будет отображаться номер 5.

номер страницы будет отсутствовать в адресной строке, но будет присутствовать
параметр типа ..&start=200&... и он будет соответствовать номеру выбранной
Вами страницы умноженному на количество ссылок в выдаче.

номер страницы будет отсутствовать в адресной строке, но будет присутствовать
параметр типа ..&start=201&... и он будет соответствовать номеру выбранной
Вами страницы умноженному на количество ссылок в выдаче плюс один.
o Скопируйте полученный адрес из адресной строки браузера.
o Вставьте полученное значение в поле "URL" формы настроек поисковых систем.
Вставленное значение будет иметь следующий вид:
http://yandex.ua/yandsearch?text=QUERY&site=&rstr=-10681&zone=all&wordforms=all&lang=
ru&within=0&from_day=&from_month=&from_year=&to_day=&to_month=&to_year=&mime=all
&numdoc=50&lr=24885. В этом URL Вы должны заменить переменные значения на
маркеры значений. Делается это очень просто:

Вы выделяете нужное значение непосредственно в поле "URL", выбираете
соответствующий маркер в списке справа от поля "URL" и нажмите кнопку
.
Выглядит это так:

Соответственно, введенный Вами запрос Вы заменяете на маркер {QUERY},
количество ссылок в выдаче - на {NUM}, начальную страницу - на {PAGE}, в
случае отсутствия страницы - стартовую позицию в выдаче - на {START}. Не
забывайте, что {PAGE} и {START} - взаимоисключающие друг друга параметры.
4. Следующим этапом будет настройка "Шаблона ссылки". Данный шаблон указывает парсеру на
ссылки выдачи ПС и позволяет выделить их среди других, располагающихся на странице
ссылок. Чтобы получить данный шаблон, Вам нужно найти в исходном коде страницы выдачи
нужные ссылки и скопировать их вместе с окружающим HTML-кодом, который присущь именно
ссылкам из выдачи. Чтобы было проще это сделать используйте следующую схему:
o Запустите тестер настроек поисковых систем, который поможет Вам получить нужный
шаблон ссылки способом, описанном ниже. Запускается он нажатием кнопки
"Протестировать". Сначала откроется форма такого вида:
48 / 66
В ней Вам нужно указать тестовые значения маркеров, которые Вы вставили в Шаблон
URL. Подробно о работе с тестером и настройке маркеров можно прочитать здесь.
Указав значения маркеров, нажмите кнопку "Начать тест". В результате откроется
следующая форма с результатами тестирования:
o Теперь нажмите на любую ссылку из выдачи, в результате чего тестер перебросит Вас
на вкладку "Исходный код" и укажет на место в исходном коде, которое соответствует
ссылке, на которую Вы нажали и выделит ее. Выглядеть это будет так:
49 / 66
o Проделайте это еще с несколькими ссылками из выдачи и посмотрите, какой
окружающий HTML-код присущь всем ссылкам из выдачи.
o Выделите ссылку вместе с окружающим кодом и скопируйте в буфер обмена. Например
в нашем случае это может быть строка такого вида: "<a class="b-serp-item__title-link"
href="http://prozvezd.org/foto/olga-freymut/" onmousedown"
o Вставьте полученное значение в поле "Шаблон сылки".
o Затем ссылку в полученном шаблоне замените на одно из следующих регулярных
выражений: (.*?) или ([^"]+). Данные регулярные выражения обозначают любую строку.
В результате получится строка вида: <a class="b-serp-item__title-link" href="(.*?)"
onmousedown.
o Закройте тестер, если он еще открыт и повторите тест заново. Откройте вкладку
"Ссылки", если список ссылок соответствует выдаче, отображаемой на первой вкладке значит шаблон указан верно. Если нет - значит шаблон, который Вы указали не четко
идентифицирует нужные ссылки, в этом случае попробуйте изменить шаблон. Если это
не поможет используйте следующие поля для дополнительной фильтрации результатов.
5. Следующим полем в списке настроек идет "Шаблон сниппета". По-скольку данная версия
парсера не содержит парсер сниппветов из выдачи ПС, данное поле можно не заполнять, так как
оно так же не задействуется.
6. Как было сказано выше, если Вам не удалось получить полное соответствие получаемого
списка ссылок к выдаче ПС, то Вам помогут следующие поля: "Включения в URL",
"Исключения из URL" и "Обработка URL":
o Включения в URL - указав в данном поле шаблон вида "yandex|google" Вы укажете
парсеру брать только ссылки в которых содержится последовательность символов
yandex или google. В целом, поле редко используемое, поэтому его в большинстве
случаев Вам заполнять не прийдется.
o Исключения из URL - это более востребованный параметр и, как раз в случае, когда Вы
получили список ссылок больший чем надо и в нем встрелаются ссылки на страницы
самой ПС, то (если наша ПС - это yandex.ru) указав в данном поле значение "yandex" Вы
50 / 66
укажете парсеру отфильтровать все ссылки, содержащие данное включение.
o Обработка URL - позволит Вам вырезать или обрезать части полученных URL. Это
бывает актуально тогда, когда ПС дает не прямые ссылки на страницы из выдачи, а
через редирект на своей внутренней странице с передачей целевого URL в параметрах
ссылки на внутреннюю страницу. В частности так делает Google. Если Вы указали
данный параметр - не забудьте указать действие в списке правее поля "Обработка
URL".
7. В поле "Допустимые значения {NUM}" укажите через запятую с пробелом все значения,
которые Вы видели в настройках расширенного поиска поисковой системы. Например для
Yandex это будут "10, 20, 30, 50". Если Вы не используете какие-либо значения данного
параметра и для Вас актуальны только 10 и 50, то Вы можете указать только их. Главное, чтобы
они соответствовали требованиям ПС, так как если указать значение вне диапазона,
предлагаемого ПС, например - 200, то Вы, скорее всего, получите не 200, а 10 ссылок в выдаче.
8. В поле "Формула расчета" нужно указать одну из четырех формул, по которой будет
рассчитываться значения маркера {PAGE} или {START}:
o {PAGE} = {BASE-PAGE} - данную формулу нужно использовать, если номер страницы в
адресной строке соответствует номеру страницы при переходе на нее в браузере.
o {PAGE} = {BASE-PAGE} - 1 - данную формулу нужно использовать, если номер
страницы в адресной строке будет меньше на единицу номера выбранной вами
страницы, т.е. Вы нажали на страницу с номером 6, а в адресной строке отображается
номер 5.
o {PAGE} = {BASE-PAGE} * {NUM} - {NUM} - данную формулу нужно использовать, если
номер страницы будет отсутствовать в адресной строке, но будет присутствовать
параметр типа ..&start=200&... и он будет соответствовать номеру выбранной Вами
страницы умноженному на количество ссылок в выдаче.
o {PAGE} = {BASE-PAGE} * {NUM} + 1 - {NUM} - данную формулу нужно использовать,
если номер страницы будет отсутствовать в адресной строке, но будет присутствовать
параметр типа ..&start=201&... и он будет соответствовать номеру выбранной Вами
страницы умноженному на количество ссылок в выдаче плюс один.
9. Вновь протестируйте настройки несколько раз, изменяя значения маркеров и проверьте, чтобы
было достигнуто полное соответствие получаемых результатов заданным Вами значениям.
10. Если результаты верны - нажмите кнопку "Сохранить". Имейте в виду, что сохранение
доступно на любом этапе настройки.
Created with the Personal Edition of HelpNDoc: Write EPub books for the iPad
Тестеирование настроек
X-Parser-Light 1.0.1
Автоматический парсер контента
51 / 66
Тестирование настроек поисковых систем
Описание:
Тестер настроек поисковых систем предназначен для облегчения процесса настройки параметров
получения ссылок и сниппетов из выдачи ПС. Получение ссылок и сниппетов требует привязки к
шаблону поисковика, тестер предоставляет все необходимое для быстрого поиска нужных участков
шаблона, а так же показывает на сколько полученные данные соответствуют заданным параметрам.
Состоит он из двух форм: форма настроек значений маркеров URL и формы результатов.
Внешний вид формы настроек значений маркеров в URL:
Настройка значений маркеров:
Чтобы произвести проверку корректности настроек поисковой системы, укажите какой-нибудь
кейворд, желательно на том языке, на использование которого настроена текущая ПС, выберите
количество документов на странице отличное от 10 (если Вам нужно проверить корректность
{NUM}), а так же Базовую страницу. Если, после нажтия кнопки "Начать тест", результаты будут
полностью соответствовать значениям маркеров, значит все настройки корректны. Если же нет ищите ошибки в настройках, исправляйте их и снова тестируйте.
Внешний вид формы результатов тестирования:
52 / 66
Описание элементов формы:
Форма результатов содержит четыре вкладки: Браузер, Исходный код, Ссылки и Сниппеты.
Вкладка сниппеты в текущей версии парсера не используется. Назначение вкладок:

Браузер - отображает выдачу выбранного поисковика, полученную в результате подстановки на
место маркеров в "Шаблон URL" занных Вами значений маркеров. Если отображаемая
страница выдачи, кейворд и количество ссылок в выдаче соответствуют указанным Вами
значениям маркеров, значит можно судить о том что шаблон URL: был задан верно.

Исходный код - отображает исходный код выдачи, отображаемой на первой вкладке. С
помощью исходного кода Вы можете находить шаблоны для настройки параметров поисковой
системы. Быстро найти нужное место в исходном коде Вам поможет строка поиска внизу формы.
Так же Вы можете кликать по любым ссылкам в браузере или на вкладке "Ссылки", в
результате чего Вы сразу же будуту перемещены на соответствующее место в исходном коде.

Ссылки - отображает ссылки полученные из выдачи ПС, которая отображена на первых двух
вкладках. Если количество ссылок соответствует количеству ссылок на странице выдачи и
ссылки соответствуют ссылкам в выдаче, то можно сказать, что все настройки указаны верно.

Сниппеты - не используется в данной версии X-Parser.
Created with the Personal Edition of HelpNDoc: Produce Kindle eBooks easily
Шаблоны вывода
53 / 66
X-Parser-Light 1.0.1
Автоматический парсер контента
Настройка шаблонов вывода
Описание:
Форма настроек шаблонов вывода позволит Вам легко настроить любой формат текста для
обеспечения совместимости с любыми программами экспорта контента. Для формирования
шаблона Вам доступны несколько макросов, которые можно вставлять в шаблон. Ниже приведен
внешний вид формы и пример шаблона для вывода контента в XML.
Внешний вид формы:
Создание шаблона:
54 / 66
Ниже приведено руководство по созданию пользовательского шаблона вывода:



Для начала Вам нужно нажать на кнопку "Новый шаблон" вверху формы.
Указать название шаблона.
В поле "Шаблон вывода" сверстать шаблон используя следующие маркеры:
o
o
{KEYWORD} - выводит кейворд по которому были отпарсены статьи.
[articles] - указывает начало блока статей. Весь текст шаблона до этого маркера будет
указан в файле один раз.
o {TITLE} - заголовок страницы-донора (значение из тега <title>...</title>).
o {KEYWORDS} - кейворды страницы-донора (значение из метатегов).
o {DESCRIPTION} - описание кейворды страницы-донора (значение из метатегов).
o {CONTENT} - тело статьию.
o {SOURCE} - ссылка источник.
o [/articles] - указывает конец блока статей. Весь текст шаблона после этого маркера
будет указан в файле один раз.
Created with the Personal Edition of HelpNDoc: Free help authoring environment
55 / 66
Тестер
X-Parser-Light 1.0.1
Автоматический парсер контента
Тестер настроек парсера
Описание:
Тестер настроек позволяет Вам протестировать настройки парсера, которые Вы задали на главной
форме. Во время тестирования Вы можете просмотреть результаты парсинга постранично, при этом
контент сохраняться не будет. Особенно это актуально при настройке фильтров. Кроме того тестер
позволяет сформировать черный список страниц, которые парсятся не корректно и отправить его
разработчикам на анализ.
Внешний вид тестера:
56 / 66
Created with the Personal Edition of HelpNDoc: Free PDF documentation generator
Панель инструментов
X-Parser-Light 1.0.1
Автоматический парсер контента
Панель инструментов тестера настроек
Описание:
Панель инструментов тестера настроек парсера состоит из двух компонентов. Это адресная строка
и самп панель инструментов. В адресной строке Вы можете указать для теста абсолютно любой
URL, а панель инструментов позволяет быстро получить доступ к любому донору из выдачи по
любому заданному в настройках парсера кейворду и с любой страницы выдачи.
Внешний вид панели инструментов:
Назначение элементов панели:
URL - Адресная строка в которую вводится тестируемый URL, который может быть введен
вручную или подставлен при помощи описанных ниже инструментов.
- Подставляет в адресную строку предыдущий URL из списка загруженных URL.
- Подставляет в адресную строку следующий URL из списка загруженных URL.
- Запускает тестирование URL, введенного в адресную строку.
- На вкладах "Получееный контент" и "Исходный код донора" переключает браузер и
исходный код. Когда активен браузер принимает вид
.
- Добавляет текущий URL в черный список. Если Вы обнаружили страницу, контент которой
был отпарсен не корректно, добавьте его в черный список и отправьте список разработчикам с
помощью кнопки
.
57 / 66
- Выбирает предыдущий кейворд из списка кейвордов, загруженных в тестер.
- Делает предыдущую страницу выдачи ПС активной для загрузки.
- Делает следующую страницу выдачи ПС активной для загрузки.
- Выбирает следующий кейворд из списка кейвордов, загруженных в тестер.
- Загружает текущую активную для загрузки страницу выдачи и парсит ссылки.
Список загруженных кейвордов:
Как пользоваться тестером:
Пользоваться тестером просто: сначала Вы выбираете кейворд из спика, показанного выше, и
указываете страницу выдачи, которую хотите отпарсить при помощи кнопок
кнопку
и нажмите
. В результате будет получен список ссылок из выдачи ПС. Выведен список на третьей
вкладке тестера. Выбирите любой URL из этого списка, кликнув на него левой кнопкой мыши, и
нажмите кнопку
. В результате на первой вкладке тестера вы сможете увидеть полученный
контент и оценить его соответствие настройкам парсера, а на второй - внешний вид и исходный код
донора. Если Вы обнаружите несоответствие полученного контента контенту донору - добывьте URL
донора в черный список и отправьте его разработчикам.
Created with the Personal Edition of HelpNDoc: Easy EBook and documentation generator
Вкладки
X-Parser-Light 1.0.1
Автоматический парсер контента
58 / 66
Вкладки формы тестера настроек
Описание:
Тестер настроек содержит четыре вкладки: "Полученный контент", "Исходный код донора",
"Ссылки из Выдачи ПС" и "Черный список".
Внешний вид вкладок:
Created with the Personal Edition of HelpNDoc: Free iPhone documentation generator
Полученный контент
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Полученный контент"
Описание:
На данной вкладке Вы можете увидеть результаты парсинга контента. С помощью кнопки
, на
панели инструментов Вы можете переключать отображение контента и видеть, как он выглядит в
виде текста и как он смотрится в браузере.
Внешний вид вкладки:
59 / 66
Created with the Personal Edition of HelpNDoc: Write EPub books for the iPad
Исходный код донора
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Исходный код донора"
Описание:
На данной вкладке Вы сможете видеть как выглядит страница-донор, с которой был получен
контент, а так же ее исходный код. Это может быть полезным, если вдруг Вы обнаружили
некорректный текст на выходе. В этом случае бывает необходимым проверить соответствие
полученного контента контенту страницы-донора.
Внешний вид вкладки:
60 / 66
Created with the Personal Edition of HelpNDoc: iPhone web sites made easy
Ссылки из выдачи ПС
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладк "Ссылка из выдачи ПС"
Описание:
На данной вкладке Вы сможете видеть ссылки, загруженные из выдачи ПС. Нажимая на ссылки Вы
сможете добавлять их в адресную строку. Не забывайте, что для получения списков ссылок, Вам
нужно выбрать кейворд, указать какую страницу выдачи Вы хотите отпарсить и нажать кнопку
Внешний вид вкладки:
61 / 66
.
Created with the Personal Edition of HelpNDoc: Create HTML Help, DOC, PDF and print manuals from 1
single source
Черный список
X-Parser-Light 1.0.1
Автоматический парсер контента
Вкладка "Черный список"
Описание:
На данной вкладке Вы сможете видеть ссылки, загруженные из выдачи ПС. Нажимая на ссылки Вы
сможете добавлять их в адресную строку. Не забывайте, что для получения списков ссылок, Вам
нужно выбрать кейворд, указать какую страницу выдачи Вы хотите отпарсить и нажать кнопку
Внешний вид вкладки:
62 / 66
.
Created with the Personal Edition of HelpNDoc: Full featured EPub generator
Строка состояния
X-Parser-Light 1.0.1
Автоматический парсер контента
Строка состояния
Описание:
Строка состояния позволяет Вам видеть следующие данные: текущий выбранный кейворд,
текущий номер страницы, которая будет отпарсена и объем контента, который сейчас загружен.
Внешний вид строки состояния:
Created with the Personal Edition of HelpNDoc: Easily create Help documents
63 / 66
Парсинг и обработка контента
X-Parser-Light 1.0.1
Автоматический парсер контента
Парсинг и обработка контента
Описание:
В данном разделе справки приведена информация о том, как настроить и запустить парсер.
Как запустить парсер:
Если Вы только что запустили X-Parser и еще не умеете его настраивать и у Вас нет сохраненных
настроек, то для запуска Вам понадобиться призвести всего 3 действия:
1. Указать хотябы один кейворд в списке кейводров.
2. Указать папку, в которую нужно сохранить контент на вкладке настроек парсера.
3. Нажать кнопку запуска парсера в нижней части формы на панели быстрого запуска или в
главном меню в подменю парсер.
В результате парсер будет запущен с настройками по умолчанию.
Created with the Personal Edition of HelpNDoc: Produce electonic books easily
Запуск процесса сбора контента
X-Parser-Light 1.0.1
Автоматический парсер контента
Как запустить процесс сбора контента
Описание:
Для запуска парсера существует несколько вариантов действий с Вашей стороны. Ниже приведены
64 / 66
все эти варианты, начиная от простого к сложному.
Запуск парсера с настройками по умолчанию:
Если Вы только что запустили X-Parser и еще не умеете его настраивать и у Вас нет сохраненных
настроек, то Вы можете использовать настройки по умолчанию. В этом случае для запуска Вам
понадобиться призвести всего 3 действия:
1. Указать хотябы один кейворд в списке кейводров.
2. Указать папку, в которую нужно сохранить контент на вкладке настроек парсера.
3. Нажать кнопку запуска парсера в нижней части формы на панели быстрого запуска или в
главном меню в подменю парсер.
В результате парсер будет запущен с настройками по умолчанию.
Запуск парсера с пользовательскими настройками:
Кроме настроек по умолчанию Вы можете использовать собственные настройки. Для настройки
парсера Вам нужно перейти на вкладку Параметры, и указать как собственные значения для всех
полей. Форма настроек имеет интуитивно понятний интерфейс, который позволит Вам без труда
понять за что какой параметр отвечает. Для удобства рядом с каждым полем установлена подсказка
, которая расскажет Вам о назначении данного поля. Если вдруг Вам понадобится полная
информация о настройке парсера, найти ее можно здесь. Так же Вы можете настроить собственные
условия фильтрации контента.
Когда парсер и фильтры настроены, порядок запуска тот же самый:
1. Указать хотябы один кейворд в списке кейводров.
2. Нажать кнопку запуска парсера в нижней части формы на панели быстрого запуска или в
главном меню в подменю парсер.
Для удобства настройки можно сохранять и загружать, как это делается описано здесь и здесь.
Created with the Personal Edition of HelpNDoc: Write eBooks for the Kindle
Обработака отпарсенного ранее контента
X-Parser-Light 1.0.1
Автоматический парсер контента
Обработка отпарсенного контента
Описание:
65 / 66
Во время процесса сбора контента Вы можете не проверять контент сразу, а оставить это на потом,
даже не сохраняя процесс. Если Вы завершили парсинг и у Вас нет желания проверять полученный
контент, то Вы можете прибегнуть к двум вариантам действий:
1. Сохранить завершенный процесс, для чего есть соответствующие кнопки на панели
инструментов менеджера визуализации процесса, а так же в главном меню главной формы и
здесь. За тем в будущем открыть его и непосредственно в менеджере визуализации процесса
продолжить обработку и конвертацию контента.
2. Если Вы забыли сохранить процесс, или не захотели его сохранять (не важно), то для этого
случая предусмотрен менеджер обработки контента, который позволит Вам вернуться к
редактированию любого ранее отпарсенного контента. Найти его можно в подменю Парсер
главного меню главной формы.
Created with the Personal Edition of HelpNDoc: Easily create EBooks
Конвертация контента
X-Parser-Light 1.0.1
Автоматический парсер контента
Конвертация контента
Описание:
Всегда, когда Вы выбираете в настройках парсера в Параметрах проверки контента ручную
проверку контента, Вы будете получать только временные файлы контента, которые имеют
расширение .bin и находятся в папке Temp_Content в выбранноой Вами категории. Этот контент
служит для удобства редактирования и ручной фильтрации статей в Менеджере контента. Когда Вы
произведете проверку временных файлов контента, Вы можете произвести конвертацию контента в
конечный формат. При этом Вы можете выбирать любой формат.
Осуществить конвертацию контента можно двумя способами: в Менеджере визуализации процесса
и в Менеджере обработки контента. В обеих случаях конвертация производится при помощи
нажатия кнопки
на панели инструментов. В результате контент появится в папке, которую Вы
указали в настройках.
Created with the Personal Edition of HelpNDoc: Easily create EPub books
66 / 66
Download