Распределенные методы обнаружения спама. Презентация

advertisement
Распределенные системы
обнаружения спама
Существующие решения
и перспективы
Алексей Тутубалин
ЗАО «Ашманов и Партнеры»
Определения

Спам (спам-рассылка) – массовая
анонимная незапрошенная рассылка
электронной почты

Легальная рассылка - рассылка
электронной почты, произведенная по
запросу ее получателей

Обычная (легальная) электронная
почта - обмен не массовыми сообщениями
между пользователями и/или
автоматическими системами

Обнаружение спама – синоним для
«борьбы со спамом»
Популярные способы
обнаружения спама

Черные списки IP-адресов (RBL и ведущиеся
вручную)
Анализ технической информации сообщения
Анализ тела сообщения (контентный анализ)
методами лингвистики, либо статистики
Системы с квитированием

Отказ (частичный отказ) от E-mail



Большинство методов рассматривают сообщение
отдельно от общего контекста. Накопление данных если
и ведется, то локально - в рамках одного списка либо
почтовой системы
Свойства спам-рассылок

Распределенность - рассылки производятся со
многих IP-адресов

«Персонализация» - каждое отдельное
сообщение уникально

Мимикрия – техническая информация
максимально похожа на легальную
Свойства спам-рассылок (2)

Сообщения содержат рекламу от заказчика
рассылки и не могут содержать слишком
много другого текста

Сообщения должны быть читаемы
получателем без напряжения

Уникальность сообщений обеспечивается
машинным путем, сообщения в одной
рассылке похожи друг на друга
Распределенные
антиспам-системы

Сбор информации о происходящих сейчас
рассылках из максимально-возможного
количества точек в сети

Быстрая централизованная или
распределенная обработка

Максимально быстрая доступность
информации об идущих рассылках
Имеющиеся на сегодня системы принципиально
отличаются методами сбора данных, остальные их
свойства похожи.
Методы сбора данных

Ловушки (honeypots) – E-mail адреса,
предназначенные только для приема спама

Голосование пользователей

Анализ всей проходящей почты
Каждый из методов используют 1-2 лидера в данной
области.
Системы небольшого размера неэффективны и не
выживают (исключение – антиспам-системы на крупных
почтовых сервисах, таких как Яndex.Почта, Mail.RU и
т.д)
Системы с ловушками
почты



Сбор спама в заранее созданные и
«засвеченные» (известные спамерам)
почтовые ящики.
Обработка – составление сигнатур, образцов
спама и т.п.
Передача результатов обработки
пользователям для использования при
анализе почты.
Два лидера: BrightMail и MessageLabs; сети с похожими
характеристиками (около 1 млн. адресов для сбора,
похожие методы обработки сообщений).
Голосование
пользователей



Почтовая система рассчитывает сигнатуру
принятого письма, передает ее на сервер
системы, получает ответ – спам это или нет.
Пользователь, получивший спам, может
проголосовать «против» него (передав
сигнатуру сообщения на сервер).
Сигнатура, получившая много голосов,
считается спамом, все сообщения с такой
сигнатурой – тоже спам.
Лидер: Razor/SpamNet (Cloudmark). Альтернативная
система Pyzor – не развивается и не имеет большого
охвата
Razor/SpamNet





Бесплатное ПО для UNIX и бесплатное право
на его использование
Платная подписка для Windows-клиентов
(серверное и клиентское ПО)
~600000 голосующих пользователей
~100 млн. обрабатываемых сообщений в сутки
Рейтинги доверия к голосующим клиентам
Уровень обнаружения российского спама невысок –
порядка 10%, что объясняется малой
распространенностью метода в Рунете, соответственно
малым числом голосов.
Анализ всей транзитной
почты

Подсчет сигнатур для всех сообщений

Передача сигнатур на сервер системы,
получение в ответ данных о частотности

Частотные сообщения считаются массовой
рассылкой

Невозможно отличить легальные рассылки от
спама – необходимы белые списки
принимаемых легальных рассылок
Система DCC





Распределенная система сбора статистики по
почте
Обрабатывается вся транзитная почта
Бесплатное ПО в открытых кодах
~40 млн. «уникальных» сообщений в сутки (с
учетом повторяемости – порядка 100 млн.)
Дополнительный механизм голосований,
похожий на Razor/SpamNet
Уровень обнаружения российского спама – около 25%
при отсутствии ложных срабатываний (по тестам автора
доклада).
Возможности
компрометации

Ухудшение качества работы.
Может быть результатом «персонализации» спама
Может быть результатом не попадания спама в систему
сбора.

Увеличение доли ложных срабатываний
Может быть результатом попадания в систему сбора
сообщений, которые не являются спамом. Потенциально
возможно для всех распределенных систем.
Проблемы
распределенных систем

«Персонализация» спама – добавление
мусора, HTML-трюки и т.п.
Пути решения – использование аппарата поиска схожих
текстов, возможно с выделением частотных, либо
словарных слов.

Ложные срабатывания
Пути решения – создание белых списков легальных
массовых рассылок, возможно – массовое внедрение
авторизации при проведении легальных рассылок
Пути развития
распределенных систем
Распределенные системы анализа спама накапливают
огромный объем данных, которые могут быть
использованы для:
 Автоматического построения черных списков IP-адресов
 Анализ активности отдельных машин, рассылающих
спам. Построение spam-patterns
 Анализ вариаций текста внутри одной рассылки
Оборотная сторона – потенциальная возможность
использования накапливаемых данных во вред. Чтобы
этого избежать, данные о персональной не-массовой
почте накапливаться не должны.
Спасибо за внимание
Пожалуйста задавайте вопросы
Download