Автоматизация решения задач почерковедческих экспертиз

advertisement
Автоматизация решения задач почерковедческих экспертиз
Д.А. НИКОНЕЦ, Е.В. РЫКОВА, Н.Г. КОРОЛЕВА, К.В. ЛЕПЕНКОВ
Национальный исследовательский ядерный университет «МИФИ»
АВТОМАТИЗАЦИЯ РЕШЕНИЯ ЗАДАЧ ПОЧЕРКОВЕДЧЕСКИХ ЭКСПЕРТИЗ
Рассмотрена задача определения национального языка рукописного и печатного текста. Дан анализ существующих программ для определения языка текста. Описана разработка подсистемы «LSFHWE v.1.0» АРМ экспертакриминалиста для принятия решения о национальном языке текста. Представлены результаты разработки для АРМ эксперта-криминалиста (почерковеда) “FHWE v. 1.0” справочника частных признаков букв русского языка. Приведен пример разработанной нейронной сети, позволяющей определить пол исполнителя рукописного текста.
Важную роль в деле раскрытия преступлений, проведения следственных действий и оперативно-розыскных мероприятий играют результаты различного рода криминалистических исследований [1-8]
По данным ЭКЦ МВД РФ за 2004 год следует, что всего по России было проведено 8369
осмотров мест происшествий с изъятием документов. Выполнено 20794 почерковедческих исследований (в том числе способствовавших раскрытию преступлений 17795). Выполнено 63659 почерковедческих экспертиз (в том числе 47354 идентификационных), количество экспертиз, результаты которых установили причастность лиц к совершению преступления, – 47354.
Количество проводимых почерковедческих экспертиз также растет и за рубежом. Так, в 50
крупнейших криминалистических лабораториях США в 2002 году поступило 5231, а выполнено
5013 заявок на проведение исследований документов (QDE), в том числе почерковедческих экспертиз [1].
Эти данные говорят о росте количества судебно-почерковедческих экспертиз, что свидетельствует об актуальности рассмотрения вопросов, касающихся проведения судебнопочерковедческих экспертиз.
Необходимо совершенствование существующих методик проведения почерковедческих
экспертиз и повышение эффективности работы экспертов-криминалистов почерковедов. Так, в
США при ожидаемом нормативном количестве 60 выполненных заявок на экспертизу документов
в год на одного эксперта-криминалиста почерковеда в 2002 году поступило 98 заявок [1].
Анализ доступных источников показал, что существующее программное обеспечение для
автоматизации работы эксперта-почерковеда не решает все задачи, стоящие перед экспертами, в
частности, нет комплексного программного обеспечения для поддержки принятия решения эксперта по кратким рукописным текстам. Состояние дел в области почерковедческих экспертиз убедительно показывает на необходимость разработки новых почерковедческих методик и создания
комплексных автоматизированных средств поддержки почерковедческих экспертиз. Для этого
принято решение о разработке АРМ эксперта-криминалиста (почерковеда) “FHWE v. 1.0”
[2–8].
Определение языка текста рукописного документа. Первой задачей при разработке
АРМа “FHWE v. 1.0” было создание алгоритма определения языка текста рукописного документа.
Известно, что каждый язык имеет ряд отличительных характерных признаков, по которым
этот язык на практике возможно достаточно точно идентифицировать (распознать). Такими характерными признаками могут быть символы алфавита языка, наличие их уникальности, частота использования в алфавите, а также факт причастности алфавита к определенному семейству языков,
использование специальных характерных слов (служебных слов), характерные (уникальные) сочетания символов и т.п. Практика показывает, что в некоторых языках алфавиты могут быть очень
схожими или вообще одинаковыми, в самих алфавитах может не быть уникальных символов или
служебных слов. В этих и подобных им случаях выделенные из текста признаки (символы) при
экспертном исследовании текста могут не однозначно идентифицировать язык написания документа.
В настоящее время разработаны различные автоматизированные определители языка текста
(табл. 1). Основным недостатком существующих программ является невозможность использовать
их для определения языка рукописного текста, а следовательно, и в работе эксперта почерковеда.
Автоматизация решения задач почерковедческих экспертиз
Таблица 1
Сравнительная характеристика ПО для определения языка
№
п/п
1
2
3
Характеристики
Количество
распознаваемых языков
Доступность
Необходимое количество
введенных букв
4
Формат
5
Определение нескольких
языков в тексте
Языки, не относящиеся к
латинице или кириллице
Поддержка русского
языка в интерфейсе
Возможность загрузки
текста из файла
6
7
8
Полиглот
3000
XRCE Language
Identifier
Language
Guesser Demo
Eidetica
Guesser
400
47
76
70
Бесплатно
Зависит от
размера текста
Оконное приложение
Бесплатно
Бесплатно
Зависит от
размера текста
Бесплатно
Веб-интерфейс
Веб-интерфейс
Веб-интерфейс
Нет
Нет
Нет
Нет
100
Нет
20
10
Да
Нет
Нет
Есть
Ручной ввод
Ручной ввод
От 5 букв
От 8 букв
Нет
Ручной ввод
В текущей версии АРМа определение национального языка текста исследуемого документа
реализовано для различных языков, некоторые из них специалистами относятся к семейству кириллицы, например: русский, белорусский, сербский, болгарский, украинский, македонский. Следующие реализованные в АРМе языки относятся к семейству латиницы: испанский, немецкий,
итальянский, французский, английский, турецкий. Также реализовано определение языка текста и
для относящихся к другим семействам языков: для армянского, грузинского, арабского, персидского, тана и др.
Приведем пример уникальных (характерных) символов для языков семейства кириллицы.
Так, алфавит украинского языка состоит из 33 символов, а характерными символами этого языка
являются следующие символы: Ґґ, Єє, Її. Алфавит белорусского состоит из 32 символов. Характерным символом этого языка является символ Ўў («У краткое» или «У неслоговое»). Алфавит
сербского языка состоит из 30 символов. Характерными символами этого языка являются следующие символы: Ђђ (русская транскрипция «дьже»), Jj (русская транскрипция «йе»), Љљ (лигатура
«ль», русская транскрипция «ле»), Њњ (лигатура «нь», русская транскрипция «не»), Ћћ (русская
транскрипция «че»), Џџ (русская транскрипция «дже»).
Следует отметить, что при работе с АРМом для принятия решения о национальном языке
текста исследуемого документа желательно иметь размер этого текста как можно больше (если в
тексте не встречаются характерные символы). Однако в некоторых случаях возможна однозначная
идентификация даже по одному символу. Алгоритм определения языка текста был успешно реализован в АРМе эксперта-криминалиста.
При реализации подсистемы «LSFHWE v.1.0» [7,8] АРМ эксперта-криминалиста для принятия решения о национальном языке текста также был разработан алгоритм определения языка текста, использующий N-Gram статистику. Алгоритм создан для автоматического определения языков текста в кодировке юникод.
Разработка нейросетевого алгоритма определения пола по почерку. Следующей задачей
была разработка нейросетевого алгоритма определения пола исполнителя рукописного текста. Для
этого совместно с экспертами-почерковедами был сформирован справочник частных признаков
букв русского языка, используемых в качестве характеристик почерковых объектов. Для чего использовано разбиение 28 прописных букв (не рассматривались признаки для букв «Е», «Й», «Ь»,
«Ы», «Ъ») на элементы.
В качестве групп частных характеристик прописных букв на основании опыта экспертов
были выбраны:
• строение буквы в целом;
• форма движения при выполнении отдельных элементов букв;
• форма движения при соединении отдельных элементов букв;
• протяженность по вертикали и горизонтали движения при выполнении элементов букв;
• вид соединения движений при выполнении элементов букв;
• количество движений при выполнении элементов букв;
Автоматизация решения задач почерковедческих экспертиз
• относительное размещение точек начала, конца и соединения движений при выполнении
отдельных элементов букв;
• порядок движений при выполнении элементов букв.
Всего для 28 прописных букв русского языка было выделено 1846 частных признаков. Также в справочник были добавлены некоторые частные признаки строчных букв. В результате
сформированный справочник частных признаков букв русского языка, используемых в качестве
характеристик почерковых объектов, содержит около 2000 элементов. Для 690 рукописных документов, для которых известен пол, возраст, рост исполнителя, из базы данных образцов рукописных объектов АРМа экспертами-почерковедами был составлен список встречающихся в этих документах частных признаков. Всего экспертами было выделено около 130000 соответствий признаков образцам.
База данных образцов и справочник частных признаков букв используются при разработке
различных подсистем АРМа, позволяющих определить пол, возраст и идентифицировать исполнителя рукописного текста.
Для определения подходящего нейросетевого алгоритма определения пола исполнителя рукописного текста по почерку была использована специальная программа Neuro Solutions 5.05
(нейропакет). Так как общее количество признаков (входов нейронной сети), а следовательно, и
время обучения сети достаточно большое, было решено провести исследование в два этапа. На
первом этапе использовалось меньшее количество признаков, всего 698 (признаки первых 10
букв). Было решено использовать несколько различных вариантов топологий нейронных сетей:
многослойные персептроны (MLPs), обобщенные многомерные сети, модульные многомерные
сети, машина опорных векторов (SVM). Для каждого вида нейронной сети исследования проводились для различного количества слоев и нейронов в слое, также использовались различные функции активации.
Обучающая выборка состояла из 590 различных образцов рукописных документов, в том
числе 270 выполненных мужчинами и 320 женщинами. Для проверки корректности работы построенных сетей использовалась контрольная выборка, состоящая из 100 образцов (50 мужских и
50 женских), выбранных случайным образом.
В результате исследования получили, что минимальная ошибка была достигнута для двухслойной сети прямого распространения (персептрон) с 10 нейронами в первом слое и 2 во втором
слое.
Для такой топологии сети было выполнено итоговое исследование (второй этап). Для итогового исследования была использованы признаки всех букв (всего 1846 признаков для 28 прописных букв).
Из 690 различных образцов рукописных документов в качестве проверочной выборки использовалось 96 случайно выбранных программой Neuro Solutions 5.05 образцов (14% от общего
числа образцов), которые не принимали участия в процессе обучения нейронной сети. Результаты
итогового исследования предоставлены в табл. 2.
Таблица 2
Результаты итогового исследования
Процентное соотношение
Женщина
Мужчина
Обучение
Определено как
женщина
99,68
2,85
Женщина
Мужчина
Обучение
Определено как
женщина
312
8
Контрольная выборка
Определено как
Определено как
Определено как
мужчина
женщина
мужчина
0,32
Женщина
78,57
21,43
97,15
Мужчина
20
80
Количественное соотношение
Контрольная выборка
Определено как
Определено как
Определено как
мужчина
женщина
мужчина
1
Женщина
44
12
273
Мужчина
8
32
Выводы. Разработан обобщенный алгоритм определения языка текста. Выполнена реализация этого алгоритма в рамках АРМа эксперта-криминалиста. Экспериментальная проверка показала что, алгоритм работоспособен и с его помощью можно реально определять язык текста исследуемого документа.
Автоматизация решения задач почерковедческих экспертиз
По результатам итогового исследования, была выбрана топология и структура нейронной
сети: двухслойная сеть прямого распространения (персептрон) с 10 нейронами в первом слое и 2
во втором слое.
Для этой нейронной сети на контрольной выборке из 96 образцов было получено 76 правильных (79.2 %) и 20 (20.8 %) ошибочных результатов. Такое количество ошибок удовлетворяет
заданным требованиям для выполнения почерковедческих исследований.
Итогом проделанной работы стала разработка хранимой процедуры на языке Firebird PSQl
реализующая работу данной нейронной сети и позволяющая определить пол исполнителя рукописного текста по почерку.
СПИСОК ЛИТЕРАТУРЫ
1.
Matthew J. Hickman, Joseph L. Peterson 50 Largest Crime Labs, 2002. U.S. Department of Justice, 2004.
2.
Никонец Д.А. // Нейрокомпьютеры разработка применение. 2009. № 4. С. 26.
3.
Никонец Д.А. // Труды РНТОРЭС им. А.С. Попова, 10-я Международная конференция и выставка Цифровая обработка сигналов и ее применение. Выпуск Х-2. М.: РНТОРЭС, 2008. С. 693.
4.
Никонец Д.А. // Труды РНТОРЭС им. А.С. Попова, 11-я Международная конференция и выставка Цифровая обработка сигналов и ее применение. Выпуск ХI-2. М.: РНТОРЭС, 2009. С. 586.
5.
Кулик С.Д., Никонец Д.А. // Материалы IV Всероссийской научно-практической конференции по криминалистике и судебной экспертизе 4-5 марта 2009 г. М.: ЭКЦ МВД России, 2009. С. 239.
6.
Кулик С.Д., Ткаченко К.И., Никонец Д.А. // Безопасность информационных технологий.
2009. № 3. С. 29.
7.
Кулик С.Д., Никонец Д.А. Свидетельство на программу Российской Федерации
№2008611838 "Подсистема определения языка печатного или рукописного текста для автоматизированного
рабочего места эксперта-криминалиста v.1.0" (LSFHWE)/ С.Д. Кулик, Д.А. Никонец (Россия). Заявка
№ 2008610891; Заяв. 06.03.2008; Зарегистр. 14.04.2008. (РОСПАТЕНТ).
8.
Кулик С.Д., Никонец Д.А. Свидетельство на базу данных Российской Федерации
№ 2008620168 "База данных подсистемы определения языка печатного или рукописного текста для автоматизированного рабочего места эксперта-криминалиста v.1.0" (DBLSFHWE) / С.Д. Кулик, Д.А. Никонец
(Россия). – Заявка № 2008620050; Заяв. 06.03.2008; Зарегистр. 14.04.2008. (РОСПАТЕНТ).
Download