1. Станция мониторинга

advertisement
Система мониторинга «ПУЛЬС»
Краткое описание
Система мониторинга «ПУЛЬС» (далее СМ «ПУЛЬС») разработана в ОАО
«РТКомм.РУ» с целью обеспечения мониторинга качества предоставляемых услуг
виртуальных частных сетей (ВЧС) на базе сети IP/MPLS и предоставления Заказчикам
средств контроля. СМ «ПУЛЬС» обеспечивает мониторинг доступности оборудования и
параметров качества состояния сети.
В работе СМ «ПУЛЬС» используется технология IP SLA, обеспечивающей оценку
количественных показателей качества передачи трафика между двумя сетевыми
устройствами. При этом используется программный агент, встроенный в операционную
систему Cisco IOS. СМ «ПУЛЬС» отслеживает такие параметры как
- доступность, загрузка интерфейсов, загрузка процессора, загрузка памяти,
задержка, вариация задержки (джиттер), процент потерянных пакетов – для оборудования
Cisco
- доступность, загрузка интерфейсов, загрузка процессора, загрузка памяти – для
оборудования Cisco и Juniper.
Использование СМ «ПУЛЬС» обеспечивает непрерывный контроль параметров
качества предоставления виртуальных частных сетей (VPN), что позволяет постоянно
поддерживать высокий уровень обслуживания за счет своевременного обнаружения
превышения пороговых значений параметров передачи трафика и предотвращения
возможных проблем еще на стадии их возникновения.
СМ «ПУЛЬС» имеет сертификат № ОС-3-СУ-0225 от 29.09.2010г. соответствия
«Правилам применения оборудования автоматизированных систем управления и
мониторинга сетей электросвязи. Часть III. Правила применения оборудования
автоматизированных систем управления и мониторинга средств связи, выполняющих
функции систем коммутации и маршрутизации пакетов информации», утв. приказом
Министерства связи и массовых коммуникаций Российской Федерации от 12.01.2009 г.,
№ 2. Зарегистрирован в Минюсте России 2 февраля 2009 г., регистрационный № 13240».
СМ «ПУЛЬС» состоит из нескольких функциональных блоков:
1. Система сбора статистики, первичной обработки и сигнализации (далее Станция
мониторинга);
2. Интерактивная контрольная панель центра управления сети (далее Пульт);
3. Система контроля и управления проектом (СКУП).
1. Станция мониторинга
Станция мониторинга отвечает за сбор метрик, прием и предварительную
обработку событий, оповещение служб эксплуатации в случае выхода какого либо из
контролируемых параметров за установленные предельные значения. Имеет возможности
ассоциации событий с конкретным объектом, трансляции события с одного объекта на
другой и механизмы базовой корреляции событий.
Станция мониторинга обеспечивает мониторинг доступности и сбор SNMP статистики
для любой ВЧС Заказчика. В частности обеспечивается:
 сбор статистики с портов коммутаторов, маршрутизаторов;
 сбор и предоставление загрузки порта согласно профилю (cbqos);


автоматизированное построение конфигурации для большинства устройств;
поддержка расписания запланированного прекращения сервиса “planned
outage”. В эти моменты устройства не опрашиваются и события недоступности
не создаются.
Для устройств Сisco собирается большинство параметров содержащихся в базе
CISCO-RTTMON-MIB. При конфигурировании пределов” (thresholds) функционирует
гибкая фильтрация по “admin tag”.
Станция мониторинга обеспечивает обработку и фильтрацию событий
поступающих с любых устройств, поддерживающих SNMP traps, syslog. К ним относится
большинство типовых событий для устройств Cisco, Juniper и т.д. Событие
“привязывается” к конкретному объекту. Возможна фильтрация как по oid (SNMP), так и с
помощью регулярных выражений (regex) для syslog.
Станция мониторинга позволяет осуществлять гибкую настройку «пределов
измерений» (thresholds), которые могут устанавливаться на любые данные, собранные
опросом SNMP:
 пределы (thresholds) могут быть относительные, абсолютные и с применением
математических выражений (expression based);
 для всех типов возможна гибкая фильтрация с помощью регулярных
выражений (regex);
 возможно создание собственных уникальных типов событий, что позволяет
гибко управлять уровнями и эскалацией.
Станция мониторинга имеет развитую систему уведомлений пользователей о
происходящих событиях. Основным способом уведомлений является отправка e-mailсообщений пользователю, но существует и ряд других методов, например, отправка
POST/GET-запросов на веб-сервер, отправка уведомлений по протоколу XMPP (jabber),
пересылка уведомлений посредством запуска внешней программы (подобным образом
можно отправить SMS-сообщение с помощью GSM-модема) и уведомления с помощью
формирования SNMP traps. Существует возможность гибкой настройки извещений
(notices: email, sms, sound) при обработке событий (traps, syslog) и срабатывании
thresholds:
 извещения могут быть с требованием подтверждения и с автоматическим
подтверждением;
 для каждого события и для группы событий могут быть созданы собственные
типы извещений с различным приоритетом;
 извещения могут быть адресованы как сотруднику, так и группе сотрудников;
 существует функция расписания (сотруднику не отправляется извещение, если
в данный момент он не в смене);
 имеется развитая система эскалации. Если оператор не подтвердил получение
извещения, приоритет может быть повышен и извещение будет эскалировано
на назначенную группу или сотрудника.
Основные компоненты станции мониторинга:
 Poller - опрос сервисов на объекте ICMP (доступность), HTTP, FTP и т.д.;
 Collectd - сбор метрик с устройств доступных по SNMP;
 Threshd - контроль пороговых значений для собираемых метрик;
 Eventd - сбор аварийных сообщений с устройств (SNMP traps);
 Syslogd - сбор сообщений с устройств по протоколу syslog;
 Notifd - механизм оповещения о событиях, по различным протоколам smtp, sms;
 Discovery/capsd - механизм автоматического нахождения устройств сети и
описания их конфигурации.
Оборудование Станции мониторинга.
Физический сервер(ы) - сервер под управлением ОС Solaris, сетевые интерфейсы
которого подключены к портам коммутатора РТКОММ в режиме trunk. На сервере
сконфигурированы виртуальные машины (VM), в которые экспортированы виртуальные
сетевые интерфейсы (vnic), принадлежащие определенному vlan. Такое разделение
необходимо, так как внутри ВЧС Заказчиков встречается пересекающаяся адресация. В
каждой VM функционирует отдельный экземпляр станции мониторинга.
Система хранения - дисковый массив, включенный в Storage Area Network (SAN)
РТКОММ, доступ к которому имеют как экземпляры станции мониторинга, так и сервер
приложений, на котором функционируют порталы (web frontend). На массиве расположен
архив SNMP статистики в виде rrd (jrd) файлов.
2. Интерактивная контрольная панель Пульт
Пульт - инструмент визуализации состояния контролируемых объектов. Позволяет
осуществлять контроль неподтвержденных или необработанных оператором событий.
Содержит механизм принятия в работу, закрепления за оператором произошедшего и
квалифицированного как аварийное событие. Имеет средства быстрого перехода в
карточку объекта, из которой возможны:
 контроль произошедших ранее событий;
 первичная диагностика;
 открытие Trouble Ticket (TT), привязанного к данному объекту;
 создание календаря запланированных работ для исключения ложных событий;
 создание необходимых комментариев по данному объекту для сотрудников NOC.
Пульт предоставляет следующие возможности:
 отображать состояние объектов, превышения контрольных значений, аварийных
событий и т.д. с использованием web-технологий, не требующих установки
специального ПО (достаточно обычного браузера);
 группировать объекты по заранее описанным правилам. Группировка может
задаваться иерархически (в виде дерева);
 регистрировать комментарии по объектам;
 подтверждать нежелательное событие при приеме его в работу;
 открывать запланированный отказ сервиса или отключать уведомления и проверку
контрольных пределов.
Одним из ключевых компонентов Пульта является подсистема Минидеск
(MiniDesk). Минидеск - это область пульта на которую выводятся данные по объекту,
основные события для обработки, требуемые графики, а также кнопки вызова основных
диагностических инструментов. Минидеск имеет механизмы открытия ТТ с привязкой к
объекту, а также получения требуемой информации по ним. Ссылка на Минидеск может
быть передана в письме, sms и других видах оповещений.
3. Система контроля и управления проектом (СКУП)
СКУП является источником данных по сетевой и административной части проекта.
Объекты для контроля создаются в Станции мониторинга автоматически согласно
адресному плану ВЧС. В случае изменений в СКУП они синхронизируются
автоматически. В свою очередь Станция мониторинга предоставляет в СКУП данные о
результатах мониторинга, перерывах сервиса и прочих событиях. Синхронизация в обоих
направления работает непрерывно. СКУП предоставляет возможность всем
заинтересованным своевременно получать
возникающих проблемах и их решении.








информацию
о
состоянии
проекта,
СКУП отвечает за описание активов проекта (asset info), таких как:
оборудование Заказчика, использованные ресурсы РТКОММ и их конфигурация;
контакты Заказчика, РТКОММ, субподрядчика и т.д.;
параметры контракта;
топология сети Заказчика;
комментарии менеджера, Заказчика, РТКОММ, субподрядчика и т.д.
дополнительные параметры специфичные для проекта;
календарь запланированных событий отсутствия сервиса;
хранение ресурсов (результатов измерений) необходимых для построения
исторических отчетов.
Центральная база данных, содержит информацию о проекте, данные об активах
(asset info), топологию ВЧС, данные о последней миле и операторе. Формирует
конфигурацию объектов в ВЧC для каждого экземпляра станции мониторинга.
Наполнение портала происходит по мере согласования проекта на этапе заключения
контракта посредством выгрузки универсального шаблона в формат Excel. После его
заполнения и подписания контракта данные загружаются в портал через универсальный
механизм обмена. Дальнейшая работа по проекту осуществляется через интерфейс
портала.
Интеграция.
Из СКУП в Станцию мониторинга автоматически реплицируются данные об
объектах (asset info).
Из Станции мониторинга в СКУП принимается информация о текущем состоянии
объектов и событиях.
Имеется возможность заполнения информации об активах проекта по ссылкам на
заказы из автоматизированной системы управления заказами (OMS).
Основные функции СКУП:
 предоставление менеджеру, Заказчику и ЦУС РТКОММ данных о текущем
состоянии проекта и интерфейса для их изменения;
 универсальный экспорт/импорт в форматы CSV, Excel, параметров требующих
массовых изменений;
 репликация asset info в соответствующий экземпляр станции мониторинга;
 получение данных о состоянии контролируемых объектов и их параметрах;
 ограниченное управление устройствами, участвующими в контроле параметров
качества (SLA), создание проб;
 отображение и учет ТТ, соответствующего данному объекту в случае наличия
такового;
 ведение календаря плановых событий отсутствия сервиса, со стороны Заказчика и
РТКОММ.
Web-интерфейс СКУП.
Web-интерфейс СКУП предоставляет доступ Заказчику к информации о своей
ВЧС: активы, конфигурация, адресный план, топология и т.д. Также предоставляется
доступ к результатам мониторинга доступности и параметров качества, привязанным к
объектам. Имеется возможность генерации различных настраиваемых отчетов и
получение детализации по загрузке и параметрам качества (IP SLA).
Блок отчетности.
Блок отчетности предназначен для предоставления отчетов по текущему состоянию
и историческим срезам ВЧС Заказчика как на участке опорной сети, так и на “последней
миле”. Данный компонент имеет доступ к необработанной статистике соответствующего
экземпляра Станции мониторинга, но имеет возможность накладывать сформированную
бизнес логику, для агрегирования событий, математической обработки метрик,
вычисления корреляции и т.д. Данный блок включает в себя три механизма отчетов:
фиксированный, интерактивный и графическое отображение состояния.
Фиксированные отчеты.
Такими видами отчетов являются наиболее часто используемые виды отчетов. Они
имеют заранее согласованный формат и следующие возможности:
 устанавливать отчетные периоды: сутки, неделя, месяц, квартал, год;
 формировать отчеты в наиболее распространенных форматах: HTML, Excel, PDF;
 отправлять отчеты по расписанию (как менеджеру РТКОММ, так и Заказчику);
Интерактивные отчеты.
Данные виды отчетов позволяют пользователю самостоятельно формировать
запрос по всем необходимым из имеющихся данных по заданному объекту или группе
объектов, “подсвечивать” определенные комбинации и группировать вывод по требуемым
правилам.
Графическое отображение.
Позволяет в удобном виде контролировать изменение состояния ВЧС и ее объектов
за указанный период (по умолчанию 24 часа). Возможен переход в детализированную
статистику выбранного объекта. Объекты могут быть сгруппированы по Федеральным
округам, Регионам, Городам или по дополнительным специфичным признакам.
Download