СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ТЕКСТОВЫХ ДОКУМЕНТОВ А.А. Трегубов, О.Ю. Пескова ВВЕДЕНИЕ

advertisement
СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ТЕКСТОВЫХ ДОКУМЕНТОВ
А.А. Трегубов, О.Ю. Пескова
Таганрогский государственный радиотехнический университет
г. Таганрог
ВВЕДЕНИЕ
В настоящее время, информация, являясь основным ресурсом деятельности высокотехнологичного
общества, требует разработки эффективных методов и алгоритмов обработки, хранения и контроля.
Информационной единицей таких ресурсов является электронный документ. Поэтому разработка новых
методов направлена именно на работу с документами, с их текстовым содержанием.
С большой интенсивностью поступления информации, с огромным ее объемом связаны определенные
проблемы обработки. Практически все методы обработки потока или массива текстовых документов
требуют огромных программно-технических ресурсов. В связи с этим, на первый план выдвигаются задачи,
так называемой предобработки текстовых документов.
Системы обработки документов при работе используют как непосредственно методы, так и уже готовые
результаты предварительного анализа. В системах поиска, фильтрации, классификации активно
используются предварительно разработанные автоматические словари словоформ или словари
канонических форм, тезаурусы, применяются различные методы статистического и семантического анализа
текстов, собирающих статистические и семантические характеристики терминов документа, в частности, и
текста документа, в целом. Широко распространен в системах поиска метод статистического
индексирования (сжатия) tf  idf . Системы распознавания текстовых документов (факсимильных
сообщений) применяют различные вероятностные методы, использующие вероятности появления в тексте
документа терминов, отдельных букв или сочетаний букв.
На данный момент методы предобработки являются обязательной частью систем обработки текстовых
документов.
СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ТЕКСТА
Вообще, под статистическими характеристиками текстов понимаются различные признаки,
определяющие структуру документа, смысловую и содержательную нагрузки. Смысловую нагрузку несут
ключевые слова, выявление которых основано на определении статистических параметров терминов
документа. В качестве терминов могут выступать как отдельные слова, так и словосочетания.
Под статистическими характеристиками понимаются, прежде всего, количество употребления термина в
тексте или относительная частота встречаемости, а также место употребления. Понятно, что наибольший
вес имеют термины, встречающиеся не только по тексту, но и в заголовках, подзаголовках, внутри основных
разделов.
В системах, в которых минимальной единицей обработки является символ (буква), необходим сбор
статистики не только по терминам, но и отдельно по буквам и их сочетаниям.
ОПРЕДЕЛЕНИЕ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК
В рамках проекта создания поисковой системы, разработки методов статистического и семантического
анализа текстов документов был проведен сбор и анализ статистических характеристик слов, букв и их
сочетаний.
За основу была взята частота встречаемости слов документа. Для создания более полной статистической
базы, было принято решение попутно провести определение частот встречаемости букв и их комбинаций.
Отдельно были рассмотрены заглавные буквы, встречающиеся в начале слова. При обработке слов были
определены все возможные комбинации букв. Длина комбинаций находится в пределах от 2 до N, где N —
максимальная длина обработанного слова, которая составляет 25 букв.
Была обработана коллекция текстовых документов разнообразной тематической направленности:
– классическая художественная литература русских и зарубежных авторов;
Опубликовано:
Трегубов А.А., Пескова О.Ю. Статистические характеристики текстовых документов // Технологии
информационного общества — Интернет и современное общество: труды VII Всероссийской
объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во
Филологического ф-та СПбГУ, 2004. С. 74 – 76.
ISBN 5-8465-0294-6
– фантастика российских и зарубежных авторов;
– фэнтези;
– техническая литература, охватывающая направления механики, электрики, программирования и т.д.;
– медицина;
– спорт;
– экономика.
Общее число обработанных документов — около 2000. Размер файлов колеблется в пределах от
десятков килобайт и до нескольких мегабайт. Средний размер файла — 700 Кб. Общий объем обработанных
документов составляет около 1,2 Гб.
В результате обработки документов была построена статистическая база в виде текстового файла. В
файле содержатся списки букв (прописных и заглавных), комбинаций букв, слов с подсчитанным
количеством их встречаемости в текстах. В целях сокращения объема базы, относительные частоты не были
рассчитаны и не были внесены в базу. При необходимости относительную частоту встречаемости можно
рассчитать по формуле:

n
,
N
где
n — количество встречаемости данного элемента,
N — количество встречаемости всех элементов.
Число n указано в файле, число N   n ,
i
где i — число обработанных элементов.
Размер полученного файла составляет порядка 70 Мб.
Обработанные элементы в файле сгруппированы (заглавные, буквы, комбинации, слова), комбинации
дополнительно сгруппированы по длине, слова дополнительно сгруппированы по первой букве. В каждой
группе элементы отсортированы по убыванию количества встречаемости. Ниже представлены некоторые
фрагменты файла:
Заглавные буквы
1571094
Н
1552124
В
1411788
О
1400967
П
1283644
С
Буквы
77652027
о
59049389
е
55972447
а
47930600
и
46852800
н
то
ст
на
но
по
10002110
8969197
8439276
8262369
7713800
что
ост
про
его
ого
было
бы
был
были
была
455648
405940
359763
188868
187885
и
из
их
или
им
Комбинации букв
2256020
каза
2176969
енно
2066282
льно
1857358
тель
1784650
ного
Слова
4538646
по
663146
под
325470
потом
271824
при
106355
после
830150
797629
654391
651873
638027
казал
котор
олько
сказа
тельн
628496
586693
544093
513574
472245
656677
173883
142248
122230
118324
то
так
ты
только
теперь
781438
483598
478765
338242
164423
Опубликовано:
Трегубов А.А., Пескова О.Ю. Статистические характеристики текстовых документов // Технологии
информационного общества — Интернет и современное общество: труды VII Всероссийской
объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во
Филологического ф-та СПбГУ, 2004. С. 74 – 76.
ISBN 5-8465-0294-6
ПРИМЕНЕНИЕ
Как видно, данная статистика собрана для русскоязычных текстовых документов. В дальнейшем
аналогичная статистика будет собрана и для англоязычных документов.
Данная статистическая информация была использована в ряде работ.
Вычисленные относительные частоты встречаемости или вероятности появления символов и их
сочетаний в тексте были использованы в задаче распознавания факсимильных сообщений [1].
При разработке поисковой системы, в задаче статистического индексирования [2], а также при
построении автоматического словаря канонических форм [3] была использована информация о статистике
встречаемости слов. В частности, были определены общеупотребительные и малоупотребительные слова,
которые слабо отражают тематическую направленность документов. В дальнейшем базу необходимо
расширить за счет информации о встречаемости словосочетаний.
Статистический анализ проводился в рамках проекта, поддержанного грантом РФФИ № 03-07-06036 и
грантом № 04-04-12009в.
ЛИТЕРАТУРА
1. Трегубов А.А., Цопкало Н.Н. Контекстное нейросетевое распознавание символов с учетом словаря и
переходных вероятностей //Сборник трудов научно-практической конференции «Информационная
безопасность», Таганрог, 28–31 мая 2002 г. С. 288–292.
2. Трегубов А.А., Кононова Т.С. Алгоритмические основы разработки поисковой системы //Четвертая
Всероссийская конференция «Электронные библиотеки: перспективные методы и технологии,
электронные коллекции», Дубна 15–17 октября 2002 г. С. 170–177.
3. Трегубов А.А. Разработка автоматического словаря машинных основ в системе анализа текста
//6 всероссийская научная конференция молодых ученых и аспирантов «Новые информационные
технологии: Разработка и аспекты применения», 27–28 ноября 2003 г. С. 482–485.
Опубликовано:
Трегубов А.А., Пескова О.Ю. Статистические характеристики текстовых документов // Технологии
информационного общества — Интернет и современное общество: труды VII Всероссийской
объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во
Филологического ф-та СПбГУ, 2004. С. 74 – 76.
ISBN 5-8465-0294-6
Download