СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ТЕКСТОВЫХ ДОКУМЕНТОВ А.А. Трегубов, О.Ю. Пескова Таганрогский государственный радиотехнический университет г. Таганрог ВВЕДЕНИЕ В настоящее время, информация, являясь основным ресурсом деятельности высокотехнологичного общества, требует разработки эффективных методов и алгоритмов обработки, хранения и контроля. Информационной единицей таких ресурсов является электронный документ. Поэтому разработка новых методов направлена именно на работу с документами, с их текстовым содержанием. С большой интенсивностью поступления информации, с огромным ее объемом связаны определенные проблемы обработки. Практически все методы обработки потока или массива текстовых документов требуют огромных программно-технических ресурсов. В связи с этим, на первый план выдвигаются задачи, так называемой предобработки текстовых документов. Системы обработки документов при работе используют как непосредственно методы, так и уже готовые результаты предварительного анализа. В системах поиска, фильтрации, классификации активно используются предварительно разработанные автоматические словари словоформ или словари канонических форм, тезаурусы, применяются различные методы статистического и семантического анализа текстов, собирающих статистические и семантические характеристики терминов документа, в частности, и текста документа, в целом. Широко распространен в системах поиска метод статистического индексирования (сжатия) tf idf . Системы распознавания текстовых документов (факсимильных сообщений) применяют различные вероятностные методы, использующие вероятности появления в тексте документа терминов, отдельных букв или сочетаний букв. На данный момент методы предобработки являются обязательной частью систем обработки текстовых документов. СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ ТЕКСТА Вообще, под статистическими характеристиками текстов понимаются различные признаки, определяющие структуру документа, смысловую и содержательную нагрузки. Смысловую нагрузку несут ключевые слова, выявление которых основано на определении статистических параметров терминов документа. В качестве терминов могут выступать как отдельные слова, так и словосочетания. Под статистическими характеристиками понимаются, прежде всего, количество употребления термина в тексте или относительная частота встречаемости, а также место употребления. Понятно, что наибольший вес имеют термины, встречающиеся не только по тексту, но и в заголовках, подзаголовках, внутри основных разделов. В системах, в которых минимальной единицей обработки является символ (буква), необходим сбор статистики не только по терминам, но и отдельно по буквам и их сочетаниям. ОПРЕДЕЛЕНИЕ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК В рамках проекта создания поисковой системы, разработки методов статистического и семантического анализа текстов документов был проведен сбор и анализ статистических характеристик слов, букв и их сочетаний. За основу была взята частота встречаемости слов документа. Для создания более полной статистической базы, было принято решение попутно провести определение частот встречаемости букв и их комбинаций. Отдельно были рассмотрены заглавные буквы, встречающиеся в начале слова. При обработке слов были определены все возможные комбинации букв. Длина комбинаций находится в пределах от 2 до N, где N — максимальная длина обработанного слова, которая составляет 25 букв. Была обработана коллекция текстовых документов разнообразной тематической направленности: – классическая художественная литература русских и зарубежных авторов; Опубликовано: Трегубов А.А., Пескова О.Ю. Статистические характеристики текстовых документов // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004. С. 74 – 76. ISBN 5-8465-0294-6 – фантастика российских и зарубежных авторов; – фэнтези; – техническая литература, охватывающая направления механики, электрики, программирования и т.д.; – медицина; – спорт; – экономика. Общее число обработанных документов — около 2000. Размер файлов колеблется в пределах от десятков килобайт и до нескольких мегабайт. Средний размер файла — 700 Кб. Общий объем обработанных документов составляет около 1,2 Гб. В результате обработки документов была построена статистическая база в виде текстового файла. В файле содержатся списки букв (прописных и заглавных), комбинаций букв, слов с подсчитанным количеством их встречаемости в текстах. В целях сокращения объема базы, относительные частоты не были рассчитаны и не были внесены в базу. При необходимости относительную частоту встречаемости можно рассчитать по формуле: n , N где n — количество встречаемости данного элемента, N — количество встречаемости всех элементов. Число n указано в файле, число N n , i где i — число обработанных элементов. Размер полученного файла составляет порядка 70 Мб. Обработанные элементы в файле сгруппированы (заглавные, буквы, комбинации, слова), комбинации дополнительно сгруппированы по длине, слова дополнительно сгруппированы по первой букве. В каждой группе элементы отсортированы по убыванию количества встречаемости. Ниже представлены некоторые фрагменты файла: Заглавные буквы 1571094 Н 1552124 В 1411788 О 1400967 П 1283644 С Буквы 77652027 о 59049389 е 55972447 а 47930600 и 46852800 н то ст на но по 10002110 8969197 8439276 8262369 7713800 что ост про его ого было бы был были была 455648 405940 359763 188868 187885 и из их или им Комбинации букв 2256020 каза 2176969 енно 2066282 льно 1857358 тель 1784650 ного Слова 4538646 по 663146 под 325470 потом 271824 при 106355 после 830150 797629 654391 651873 638027 казал котор олько сказа тельн 628496 586693 544093 513574 472245 656677 173883 142248 122230 118324 то так ты только теперь 781438 483598 478765 338242 164423 Опубликовано: Трегубов А.А., Пескова О.Ю. Статистические характеристики текстовых документов // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004. С. 74 – 76. ISBN 5-8465-0294-6 ПРИМЕНЕНИЕ Как видно, данная статистика собрана для русскоязычных текстовых документов. В дальнейшем аналогичная статистика будет собрана и для англоязычных документов. Данная статистическая информация была использована в ряде работ. Вычисленные относительные частоты встречаемости или вероятности появления символов и их сочетаний в тексте были использованы в задаче распознавания факсимильных сообщений [1]. При разработке поисковой системы, в задаче статистического индексирования [2], а также при построении автоматического словаря канонических форм [3] была использована информация о статистике встречаемости слов. В частности, были определены общеупотребительные и малоупотребительные слова, которые слабо отражают тематическую направленность документов. В дальнейшем базу необходимо расширить за счет информации о встречаемости словосочетаний. Статистический анализ проводился в рамках проекта, поддержанного грантом РФФИ № 03-07-06036 и грантом № 04-04-12009в. ЛИТЕРАТУРА 1. Трегубов А.А., Цопкало Н.Н. Контекстное нейросетевое распознавание символов с учетом словаря и переходных вероятностей //Сборник трудов научно-практической конференции «Информационная безопасность», Таганрог, 28–31 мая 2002 г. С. 288–292. 2. Трегубов А.А., Кононова Т.С. Алгоритмические основы разработки поисковой системы //Четвертая Всероссийская конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», Дубна 15–17 октября 2002 г. С. 170–177. 3. Трегубов А.А. Разработка автоматического словаря машинных основ в системе анализа текста //6 всероссийская научная конференция молодых ученых и аспирантов «Новые информационные технологии: Разработка и аспекты применения», 27–28 ноября 2003 г. С. 482–485. Опубликовано: Трегубов А.А., Пескова О.Ю. Статистические характеристики текстовых документов // Технологии информационного общества — Интернет и современное общество: труды VII Всероссийской объединенной конференции. Санкт-Петербург, 10 – 12 ноября 2004 г. — СПб.: Изд-во Филологического ф-та СПбГУ, 2004. С. 74 – 76. ISBN 5-8465-0294-6