В Е С Т Н И К П...

advertisement
ВЕСТНИК ПЕРМСКОГО УНИВЕРСИТЕТА
2011
Математика. Механика. Информатика
Вып.2(6)
ИНФОРМАТИКА.
ИНФОРМАЦИОННЫЕ СИСТЕМЫ
УДК 004.912
Методы обнаружения писем-трансформеров
Л. М. Ермакова
Пермский государственный университет, Россия, 614990, Пермь, ул. Букирева, 15
liana87@mail.ru; (342) 2-396-164
Проведен анализ сообщений-трансформеров. Предложены методы детектирования писемтрансформеров, устойчивые к небольшим изменениям текста и темы сообщения. Особо
рассматривается проблема обнаружения намеренно искаженных фрагментов. Достоинством
контентного подхода является его универсальность, так как он не опирается на служебную
информацию и применим к классификации документов не только в электронной почте, но и
в системах мгновенного обмена сообщениями, блогах, форумах, социальных сетях.
Ключевые слова: спам; корпусная лингвистика; фишинг; фильтрация; категоризация
текстов.
Введение
Спам – это анонимные незапрошенные
массовые рассылки электронной почты [2].
Специалисты Лаборатории Касперского
подсчитали, что в последнем квартале 2010 г.
спам составил 77,1% в общем почтовом трафике [3]. Кроме того, отмечается, что российские спамеры стали больше заботиться о
внешнем виде рассылок: короткие текстовые
письма начали уступать место сообщениям в
формате HTML [4]. Однако в последнее время
в России стал популярен также спам в социальных сетях и системах мгновенного обмена
сообщениями (IM). Ведение черных списков
дает наибольшее количество ложных срабатываний [5]. Анализ заголовков сообщений
является достаточно эффективным только для
электронной почты, но он является малоприменимым для фильтрации спама в социальных сетях и IM. Здесь больше всего подходят
контент-методы и техники, основанные на
анализе ссылок.
Рассылки спама появились в 90-е гг.
XX в. На ранних этапах спамеры делали
рассылки с собственных адресов. Первые
спам-сообщения были одинаковыми. Такой
спам легко фильтруется.
Рассмотрим понятие спама и дадим обзор способов фильтрации. В настоящее время
существуют две группы спам-фильтров: техники, базирующиеся на тестовых выборках, и
мониторинг почтового потока [1]. Актуальными являются методы улучшения сигнатурного подхода [1]. В рамках исследования было проведено сравнение спама на русском,
английском и французском языках. Частично
были рассмотрены также рассылки на испанском и итальянском языках. Проведен анализ
сообщений-трансформеров. Предложен метод
обнаружения писем-трансформеров, не зависящий от языка и устойчивый к небольшим
изменениям текста и темы сообщения.
1. Понятие спама, эволюция
спам-рассылок и методов борьбы
с ними
Лаборатория Касперского дает следующее определение спама:
© Л. М. Ермакова, 2011
77
Л. М. Ермакова
Появление средств обнаружения спама,
основанных на анализе содержания письма
(контентный анализ), привело к эволюции содержания спамерских писем: их стали готовить
таким образом, чтобы автоматический анализ
был затруднен. Сообщения можно сделать
разными, например путем персонализации
("Hello, joe! " – в начале письма на адрес
joe@user.com). В качестве метода борьбы были
предложены нечеткие сигнатуры – устойчивые
к небольшим изменениям текста и статистические обучаемые методы фильтрации (байесовская фильтрация).
В начало или конец письма может быть
помещен отрывок из классического текста
или просто случайный набор слов. В HTMLсообщение может быть введен "невидимый"
текст (очень мелким шрифтом или цветом,
совпадающим с цветом фона). Эти добавления затрудняют работу нечетких сигнатур и
статистических методов. В ответ появился
поиск цитат, детальный разбор HTML и другие методы углубленного анализа содержания
письма. Во многих случаях можно определить
сам факт использования "спамерского трюка"
и классифицировать сообщение как спам, не
анализируя его текст в деталях.
Рекламное сообщение может быть прислано пользователю в виде графического
файла. В качестве ответной меры появляются
способы анализа изображений, выделяющие
из них текст.
Письма-трансформеры – это сообщения, имеющие сходное содержание, но различные по форме. Каждое отдельное письмо выглядит как обычный связный текст, и только
имея много копий сообщения, можно установить факт перефразировки. Таким образом, эффективно настроить фильтры можно только
после получения существенной части рассылки.
Сегодня основная масса рассылок производится с взломанных пользовательских
компьютеров. Спамеры широко используют
три последних метода (вставка "невидимого"
текста, использование графического вложения,
письма-трансформеры), и далеко не все антиспам-средства могут с ними эффективно бороться, что дает возможность доставлять спам
тем пользователям, которые используют недостаточно надежные средства фильтрации [6].
Яндекс приводит следующие методы
автоматического детектирования спама:
 техники, опирающиеся на тестовые
выборки (их применение затруднительно изза трудоемкости построения и поддержания в
актуальном состоянии);
 ручной анализ и мониторинг почтового потока (сигнатурный подход) [1].
В настоящее время, помимо всего прочего, Яндекс использует ведение белых списков
[1]. Ограничение этого метода заключается в
том, что доставка письма адресату, которому
раньше письма не отправлялись, затруднительна. Некоторые системы вводят подобие
авторизации. Однако практика показывает, что
ведение белых списков не является эффективным методом в IM (например qip, icq) и социальных сетях (ВКонтакте, Facebook). Многие
исследователи считают, что спам может быть
отфильтрован только получателем [7]. Однако
согласно другому исследованию, также проведенному компанией Яндекс, в 40 процентах
случаев люди не могут отличить спам от легального сообщения [8].
Актуальными являются методы улучшения сигнатурного подхода. Можно выделить
"синтаксические" (т.е. оперирующие с цепочками слов) и "лексические" (т.е. оперирующие со
словарем) (например, метод опорных слов) методы расчета сигнатур [1]. Современные "синтаксические" методы, основанные на шинглах
[9; 10], используют идею вычисления контрольных сумм для всех подцепочек текста ("шинглов") и последующего построения случайной
выборки из полученного набора. По шинглам
можно с высокой вероятностью судить о сходстве текстов, их вложенности, плагиате и т.д.
Однако для практических задач, в том числе для
обнаружения массовых рассылок, требуется
слишком большое количество шинглов, что
предъявляет непреодолимо высокие требования
к ресурсам для проведения процедуры кластеризации [1]. Недостаток любого "лексического"
метода, включая байесовский классификатор, в
том, что он не применим для других языков.
В литературе также приводятся методы
анализа последовательности заголовков [11],
однако на нашей выборке метод оказался неэффективным, так как нам не удалось выявить
уникальную для спама последовательность
заголовков.
78
Методы обнаружения писем-трансформеров
2. Особенности спама
на различных языках
тексте сообщения свойственно как деловой
переписке, так и фишинговому спаму. Идея
мошенничества заключается в том, что пользователь ответит на сообщение. Таким образом, спамер поймет, что адрес "действующий", а на рынке спамерских баз такие адреса
ценятся гораздо выше. Списки являются классическим показателем рекламы. Они позволяют обратить внимание на предлагаемые
услуги или товары. Даже не читая сообщение,
пользователь может легко понять, что именно
рекламируется. Восклицательные или вопросительные предложения также могут свидетельствовать о рекламном спаме. Но надо
быть внимательным: во-первых, они могут
использоваться и в легальных рассылках, вовторых, в русском языке принято ставить "!"
после обращения. Графическое выделение
отдельных слов также связано с расстановкой
акцентов. Однако подобный прием часто используется в личной переписке для того, чтобы обратить внимание собеседника на некоторый аспект. К формулам вежливости в данном случае были отнесены разного рода приветствия, обращения и пр. Они характерны
для персонализированной переписки.
Во французском спаме наблюдается
меньшее содержание местоимений и притяжательных детерминативов, для английского
такой тенденции не наблюдается.
Таким образом, признаки спама могут
проявляться или отсутствовать в зависимости
от темы письма, его структуры или цели.
Выборка для каждого языка состояла
примерно из тысячи сообщений.
По структуре спам делится на три категории:
 спам, замаскированный под личную
корреспонденцию;
 спам, замаскированный под легальные
массовые рассылки;
 рекламный спам.
Нигерийские письма на французском
языке составлены согласно узусу деловой переписки, но если для официальной переписки характерно использование конструкции "à
l’attention de" с указанием должности и/или фамилии, то здесь мы видим "à votre attention".
Очевидно, что такой признак неприменим для
рекламного спама или для "писем счастья".
Узуальное употребление прямого императива
ограничено во французском языке, так как считается не достаточно вежливой формой, но почти повсеместно встречается в спаме. Это связано с тем, что спамер пытается контролировать
действия получателя письма и лишить его выбора (особенно часто прямой императив встречается именно в цели сообщения: "push the
button now", "achetez maintenant"). То же самое
касается форм изъявительного наклонения.
Действие, выраженное формой реального времени, мыслится как реальное (ср. "когда будет
написана статья" и "если статья будет написана", в первом случае предполагается, что она
все-таки будет написана, во втором есть сомнения). В рекламном спаме, как правило, присутствует предложение больше не получать подобные письма. Если пользователь решит воспользоваться этой "услугой", то спамер, во-первых,
узнает, что адрес действующий, во-вторых, перейдя по ссылке, пользователь может загрузить
себе вредоносное программное обеспечение.
Большое количество ссылок характерно
для массовых рекламных рассылок, в том
числе и спама, особенно французского. Французский спам, в отличие от английского и тем
более русского, очень аккуратно оформлен.
Как и в русском спаме, в нем много англицизмов. Наличие адреса электронной почты в
3. Методы трансформирования
сообщения
Метод опорных слов малопригоден для
русскоязычного спама, так как часто здесь
применяется транслитерация и намеренные
искажения слов (вставка лишних символов
внутри слова, намеренные опечатки, введение
латиницы в текст, написанный кириллицей).
Однако названные признаки не являются однозначными. Причин использования транслитерации может быть несколько. В основном
его применяют эмигранты и путешественники, у которых нет клавиатуры с русской раскладкой. Возможны также проблемы с кодировками. Кроме того, пользователи далеко не
всегда руководствуются одинаковыми правилами транслитерации.
79
Л. М. Ермакова
Рис. 2. Доля сообщений, написанных помощью
транслитерации, в неспаме
Рис. 1. Доля сообщений, написанных с помощью
транслитерации, в спаме
Спам
Неспам
pRODAVA email BAZ pRODAVA BAZ email
ADRESOW (ADRESA DLQ email RASSYLOK)
eSLI wY OBLADAETE SOBSTWENNYMI INSTRUMENTAMI
PROWEDENIQ
email
RASSYLOK, TO DLQ wAS MY MOVEM PREDLOVITX BAZY DANNYH SOBSTWENNOGO
SBORA. <…> cENA ZA 1 MLN. - 50$ cENA ZA
WS@ BAZU - 500$ <…>PO L@BYM WOPROSAM: tELEFON:
Privet , zolotze. Nakonez-to posylayu tebe fotki. Ya
vybrala nemnozhko bolshe , chto-by ty vybrala kakie
hochesh i posmeyalas nemnozhko. Ya kogda smotrela, u menya srazu podnyalos nastroenie. Vse- taki
my klassno s toboj syezdili v Ust- Kachku. Esli
hochesh, ya tebe vse ostalnye tozhe pereshlu. Pishu
tebe iz doma pervyj raz. Ladno, pobezhala delat chtonibud. A - to zeloe utro za kompiuterom sizhu.
Lublu, zeluyu. Mame i koshkam privet!
Приведем примеры частей трансформеров, написанных кириллицей и с помощью транслитерации.
sWEVIE
email
BAZY
pRODAVA
BAZ
email
ADRESOW (ADRESA DLQ
email RASSYLOK) <...>
sWEVIE
email
BAZY
pRODAVA
BAZ
email
ADRESOW (ADRESA DLQ
email RASSYLOK) <...>
aDRESA DLQ email RASSYLOK pRODAVA BAZ email
ADRESOW (ADRESA DLQ
email RASSYLOK) <...>
В начале года всегда возникает потребность в "свежих" выписках
ЕГРЮЛ и справках Госкомстата. Предлагаем Вам: получение выписки
ЕГРЮЛ за 1,2ОО рублей справки Госкомстата за 1 200 руб. заказ выписки ЕГРЮЛ + справки Госкомстата составит всего 2.0ОО рублей
Доставка курьером, оплата по факту. Контактная информация + 7495
222+07.68
В начале года всегда возникает необходимость в "свежих" выписках
ЕГРЮЛ и справках Госкомстата. Мы предлагаем Вам: получение выписки ЕГРЮЛ за 1 2ОО рублей справки Госкомстата за 1 тыс. 200 р.
заказ выписки ЕГРЮЛ + справки Госкомстата составит всего 2 тыс.
0ОО руб-й. Доставка курьером, оплата по факту. Телефон: + 7495
222_07;68
В начале года всегда возникает потребность в "свежих" выписках
ЕГРЮЛ и справках Госкомстата. Мы предлагаем Вам: получение выписки ЕГРЮЛ за 1 тыс. 200 руб-й справки Госкомстата за 1 200 рублей. заказ выписки ЕГРЮЛ + справки Госкомстата составит всего
2,000 р. Доставка курьером, оплата по факту. Контакты + 7(495) 22207-68
 Введение дополнительных символов
("Вы хотите вернуть вашего любимо го человека
навсегда и полностью избавиться от измен?").
Особенность русскоязычного спама заключается в широком использовании так
называемых спамерских трюков:
 Замена букв цифрами и наоборот (4-ч,
0-о, 3-з, 1-l).
 Замена кириллических символов схожими символами латиницы (k-к, а-a, Н –H и т.д.).
 Чередование различных символов
(например, в номерах телефонов).
Если внимательно посмотреть на примеры, то можно выделить еще один метод
трансформации сообщения – синонимичные
конструкции (sWEVIE email BAZY = sWEVIE
80
Методы обнаружения писем-трансформеров
ем Вам, необходимость = потребность).
Варьироваться может только адрес:
email
BAZY=aDRESA
DLQ
email
RASSYLOK, Предлагаем Вам = Мы предлага-
<...> La preghiamo di rispondere solo alla mia personale e-mail:khhaykanush@yahoo.com Tua amica Haykanush.
<...>La preghiamo di rispondere solo alla mia personale e-mail:haykanusharm@yahoo.com Tua amica Haykanush.
<...>La preghiamo di rispondere solo alla mia personale e-mail:khaykanush@yahoo.com Tua amica Haykanush.
Максимальная изменчивость наблюдается в рекламе медикаментов. Здесь варьируется как тема сообщения, так и текст. Тема и
часть текста могут меняться местами. Помимо
этого, все ссылки уникальны (обычно они автоматически создаются на бесплатных хостингах). При этом смысл практически не меняется.
Тема
Текст
Desire to impress and please your lover tonight
Gain in size and win your wife's addiction
Wish to act like a porn-director Nail a blu colored
med!
Dream to act like a porn-director Bang a blu colored pil!
The only bluepill you need to get bigger python.
http://wanzulkifli.com/c6ave6lc.html
Desire to act like a pornstar? Bang a magicpilule!
http://bpyasociados.com.ar/9vh6w3lf.html
0%
amorous
failure
risk
http://mikloswowmobile.com/uaagzeib.html
Long
manliness
is
great
http://antalyagunlugu.com/d4zz8qan.html
То же самое можно сказать о рекламе
казино. В целом нужно отметить, что французский и английский спам является более
изощренным, чем русский или итальянский.
Особенно это касается таких тематик, как казино, медикаменты, игры на бирже, порно и
программное обеспечение. В испаноязычном
спаме вариативность почти отсутствует.
Тема
Текст
Comme Faire _200 de _20 nous APPRENDRONS
Bonne journee Jessikaparsons, {http://yxaqih983.o-f.com/kerizev.html} Accueillez la fortune dans votre vie avec de grandes opportunitйs de gagner, avec
l’assurance que vos informations personnelles sont protйgйes et vos gains seront payйs rapidement. Une demi-heure et Ђ200 dans ta poche
Du jour reussi Shirley_patel, {http://gamingworldshop.ru} Il y a de grandes
promotions auxquelles vous pouvez participer et qui vous promettent encore
plus de plaisirs et de faзons de gagner. Faire Ђ100 pour une demi-heure Apprendre?
Bonne journee Nvshamshik, {http://beluwulod.maddsites.com/abimogek.html}
Il y a de grandes promotions auxquelles vous pouvez participer et qui vous
promettent encore plus de plaisirs et de faГons de gagner. Gagner -100 pour
une demi-heure c'est rИel
{http://opakypiwel.dreamstation.com/jededila.html} On ne peut pas faire plus
simple, il suffit de vous inscrire, de faire un versement et vous recevez un fantastique bonus de bienvenue - alors foncez et gagnez ! La meilleure selection
de jeu sur internet ! Jouez ici
Salut Shea.swan Des options bancaires sыres qui conviendront а tous sont disponibles. Relaxez-vous et soyez certains que vos informations confidentielles
sont
sйcurisйes
et
ne
seront
p&
#97;s
divulguйes.
{http://durl.me/554k6}Comment aimeriez-vous commencer au mieux dans le
jeu en ligne avec 1,200 Gratuits? Ils sont dйjа а vous, rйclamez-les, jouez et
gagnez!
Gagner _100 pour une demi-heure c'est rйel
Faire -100 pour une demiheure - Apprendre
Jouer ici, c'est le bonheur !
Telechargez maintenant
Jouez plus, gagnez plus
81
Л. М. Ермакова
4. Использование триграмм для
определения трансформеров
В предложенном методе мы объединили техники, основанные на триграммах и
квантитативных характеристиках, таких как
доля полнозначных и служебных слов, доля
предложений, слов и абзацев определенной
длины, доля вхождения каждой части речи
(краткие и полные формы мы считали различными), количество знаков препинания,
совстречаемость частей речи и т.д. (рис. 3).
Общее число признаков – 135.
Метод триграмм был несколько модифицирован. Во-первых, мы считали последовательности из трех подряд идущих слов и
определяли их части речи по грамматическому словарю Зализняка.
Существуют многочисленные подходы
для вычисления меры сходства двух документов (коэффициент Жаккарда, Хэммингово
расстояние, расстояние редактирования) [12].
Мы определяли меру сходства посредством
триграмм.
Традиционно триграммы используются
для выявления плагиата [13; 14], а также для
определения языка и кодировки [15; 16].
Другая группа методов установления авторства основана на квантитативных характеристиках [17–19]. Количественные признаки
учитывались в индексе Флеша и Флеша–
Кинкейда [20].
Рис. 3. Доли последовательностей частей речи
Второе применение триграмм – поиск
одинаковых подстрок в сообщениях и вычисление меры сходства по формуле
T2 – количество триграмм во втором
тексте.
Эта величина не является нормирован-
S  2  M /T1  T2 ,
ной. Мера сходства для русскоязычных и ита-
где
льянских трансформеров велика и слабо варь-
S – мера сходства;
M – количество совпадений;
T1 – количество триграмм в первом тек-
ируется, в то время как для французского и
английского языков она значительно меньше
и имеет большой разброс (рис. 4–9).
сте;
82
Методы обнаружения писем-трансформеров
Рис. 4. Мера сходства, вычисленная для рассылки "ЕГРЮЛ" при помощи триграмм
Рис. 5. Мера сходства, вычисленная для рассылки "Email базы" при помощи триграмм
Рис. 6. Мера сходства, вычисленная для рассылки
"Медикаменты" при помощи триграмм
Рис. 7. Мера сходства, вычисленная для рассылки
"Свидания" при помощи триграмм
Рис. 8. Мера сходства, вычисленная для рассылки "Сигареты" при помощи триграмм
Рис. 9. Мера сходства, вычисленная для
рассылки "Forex" при помощи триграмм
83
Л. М. Ермакова
С первого взгляда может показаться,
что использование триграмм неэффективно,
так как слова можно переставлять произвольным образом, однако в естественных языках
даже с относительно свободным порядком
слов (например в русском) существуют синтагматические закономерности. Нарушение
этих закономерностей либо выполняет эмфатическую функцию, либо приводит к тому,
что текст становится практически нечитаемым.
Метод опорных векторов для квантитативных характеристик писем на русском языке
помогает с большой точностью выявить трансформеры (параметры приведены в табл. 1. Но
можно использовать и другие классификаторы (например нейронные сети, которые также
являются эффективными).
Таблица 1. Параметры машины опорных векторов для определения
писем-трансформеров на русском языке
Sample size = 707 (Train), 236 (Test), 943 (Overall)
Support Vector machine results:
 SVM type: Classification type 1 (capacity=10,000)
 Kernel type: Radial Basis Function (gamma=0,007)
 Number of support vectors = 118 (0 bounded)
 Support vectors per class: 94 (0), 16 (1), 8 (2)
Class. accuracy (%) = 100,000(Train), 100,000(Test), 100,000(Overall )
Таким образом, выявление писемтрансформеров проходит в два этапа:
 На основе квантитативных характеристик с применением машины опорных векторов новое сообщение относится к той или
иной категории.
 Уточняющим признаком может быть
расстояние триграмм.
дительности за счет использования методов
Монте–Карло.
Предложенный двушаговый метод обнаружения писем-трансформеров в почтовом
потоке является улучшением сигнатурного
метода. На первом шаге документы рубрикуются исходя из квантитативных характеристик
текста, на втором – делается дополнительная
проверка при помощи триграмм. Достоинство
метода в том, что он применим практически к
любому языку (в языках с иероглифической
письменностью, где деление на слова является
затруднительным, можно в качестве элементов
брать отдельные иероглифы).
Выводы
В настоящее время существует достаточно много методов борьбы со спамом, но
они либо являются недостаточно эффективными, либо слишком трудоемки. В отличие от
большинства методов, контентная фильтрация
применима для различных систем обмена сообщениями (электронная почта, IM, социальные сети), так как она не опирается на служебную информацию. Классификация текстов
проводится на основе достижений компьютерной лингвистики и машинного обучения.
Особо рассматривается проблема обнаружения намеренно искаженных фрагментов.
Предлагается метод детектирования массовых
сообщений, фильтрация которых затруднительна из-за меняющегося контента. Рассматриваются возможности увеличения произво-
Список литературы
1. Яндекс. Некоторые автоматические методы
детектирования спама, доступные большим почтовым системам // Компания
Яндекс, 2010. URL:
http://company.yandex.ru/public/articles/anti
spam.xml.
2. Лаборатория Касперского. Что такое
спам // Securelist, 2010. URL:
http://www.securelist.com/ru/encyclopedia/s
pam?chapter=151.
84
Методы обнаружения писем-трансформеров
3. Наместникова М. Спам в декабре 2010
года // Securelist. 2011. URL:
http://www.securelist.com/ru/analysis/20805
0676/Spam_v_dekabre_2010_goda.
4. Лаборатория Касперского. Спам в первом
квартале
2010
года //
Лаборатория
Касперского. 2010. URL:
http://www.kaspersky.ru/news?id=207733226
5. Электронный журнал "Спамтест" № 29 //
Лаборатория Касперского. 2003. URL:
http://www.kaspersky.ru/news?id=144772578
6. Лаборатория Касперского. Эволюция
спама // Securelist. 2009. URL:
http://www.securelist.com/ru/encyclopedia/s
pam?chapter=155.
7. Сегалович И., Тейблюм Д., Дилевский А.
Принципы и технические методы работы
с незапрашиваемой корреспонденцией //
Яндекс. 2010. URL:
http://download.yandex.ru/company/spamoo
borona-latest.pdf.
8. Лаборатория Касперского Электронный
журнал "Спамтест". 2009. URL:
http://www.kaspersky.ru/news?id=143937135
9. Manber U. Finding similar files in a large file
system // USENIX Conference. 1994.
10. Broder A. On the resemblance and containment of documents // Digital Systems
Research Center. 2003. URL:
http://ftp.digital.com/pub/Digital/SRC/public
ations/broder/positano-final-wpnums.pdf.
11. Львов А.А. Обнаружение массовых рассылок
электронной почты // Math-Net.Ru. 2004.
12.
13.
14.
15.
16.
17.
18.
19.
20.
URL:
http://www.mathnet.ru/links/ab1f0c1f87f337
1bf5990d535a6fd32b/mmkz129.pdf
Chakrabarti S. Mining the Web: Discovering
Knowledge from Hypertext Data, 2003.
Coulthard M. Author Identification, Idiolect
and Linguistic Uniqueness. 2004.
Halteren H. Linguistic Profiling for Author
Recognition and Verification// Proceedings
of the 42nd Annual Meeting on Association
for Computational Linguistics, 2004.
Сотник С.Л. Идентификация языка UNICODE-текста по N-граммам длиной до 4-х
включительно (квадрограммам)// Математичне моделювання. 2006. С.111–114.
Cavnar W.B., Trenkle J.M. N-Gram-Based
Text Categorization // Proceedings of Third
Annual Symposium on Document Analysis
and Information Retrieval. 1994. С.161–175.
Мещеряков Р.В., Васюков Н.С. Идентификация авторства методами искусственного интеллекта // Научная сессия
ТУСУР, 2005.
Фоменко В.П., Фоменко Т.Г. Авторский инвариант русских литературных текстов //
Методы качественного анализа текстов. 1983.
Рахимова А.А. Лингвистическая экспертиза // Вестник КАСУ. 2005.
Галяшина Е.И. Основы судебного речеведения. 2003.
Transforming message detection
L. M. Ermakova
Perm State University, Russia, 614990, Perm, Bukirev st., 15
liana87@mail.ru; 89630113497
Within the bound of this research a content analysis of transforming messages was carried out.
Transforming messages detection technique was developed. This method is resistant to small text
changes. The advantage of content approach is the fact that it is suitable not only for email filtering but also to spam detection in IM, social networks, blogs, forums etc. since it is not based on
header analysis.
Key words: spam; corpus linguistics; phishing; filtering; text categorization.
85
Download