Лекции по судебной фонетике

advertisement
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ
ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ ЛИНГВИСТИЧЕСКИЙ
УНИВЕРСИТЕТ
С.Н. Плотникова
ЛЕКЦИИ
ПО СУДЕБНОЙ ФОНЕТИКЕ
Иркутск
2006
3
Печатается по решению редакционно-издательского совета Иркутского государственного лингвистического университета
ББК 81.00
Плотникова С.Н. Лекции по судебной фонетике. – Иркутск:
ИГЛУ, 2006. – 58 с.
Рецензенты: д.ф.н., профессор А.М. Каплуненко
к.ф.н., доцент Л.Ц. Рабдано
Пособие предназначено для студентов отделения теоретической и прикладной лингвистики и направлено на обучение новой
прикладной дисциплине – судебной лингвистике. В пособии представлены пять лекций, первая из которых посвящена общим вопросам судебной лингвистики, а остальные – проблемам судебной фонетики как наиболее разработанному к настоящему моменту разделу судебной лингвистики. Лекции сопровождаются вопросами для
повторения и темами для дискуссий, которые могут быть предложены для обсуждения на семинарских занятиях.
© Плотникова С.Н., 2006
4
СОДЕРЖАНИЕ
Лекция 1. Судебная лингвистика как научная дисциплина
и ее проблематика
4
Лекция 2. Судебно-фонетическая экспертиза на основе
профессионального аудирования
13
Лекция 3. Судебно-фонетическая экспертиза на основе
анализа спектрограмм
24
Лекция 4. Автоматическое распознавание говорящего по
голосу
35
Лекция 5. Распознавание умышленно измененного голоса
44
Литература
55
5
Лекция 1
Судебная лингвистика
как научная дисциплина и ее проблематика
Судебная лингвистика представляет собой раздел прикладной лингвистики. Судебная лингвистика – это дисциплина, в которой научные знания о языке, накопленные теоретической лингвистикой, используются в сфере судопроизводства.
Термин судебная лингвистика (forensic linguistics – от лат. forum (сущ.), forensis (прил.): место для дебатов, суд) был изобретен
британским лингвистом Яном Свартвиком. В 1968 г. он произвел
лингвистический анализ судебных документов по делу Тимоти
Эванса, повешенного за пятнадцать лет до этого за убийство его
жены и ребенка. Анализ выявил непричастность Эванса к данному
преступлению, и он был посмертно оправдан1. Для обозначения новой области применения лингвистических знаний – защиты тех, кто
был несправедливо обвинен и наказан, – Свартвик и предложил
термин судебная лингвистика. Впоследствии значение этого термина было расширено; он стал употребляться по отношению ко всем
аспектам судопроизводства, требующим лингвистических знаний,
как в сфере защиты, так и в сфере обвинения, и судебного разбирательства в целом.
Начиная с 70-х годов двадцатого века, отдельные публикации по судебной лингвистике стали все чаще появляться в разных
научных журналах. В основном, они представляли собой сообщения лингвистов о проведенных ими экспертизах показаний, письменных документов, магнитофонных записей и т.д. Постепенно
судебная лингвистика оформилась как самостоятельное научное
направление.
Методы судебной лингвистики как прикладной дисциплины
соответствуют методологии основных разделов теоретической
лингвистики – фонетики, грамматики, лексикологии, стилистики,
лингвистики текста и дискурса. Являясь специалистом в какойлибо из этих теоретических областей, судебный лингвист использует свои знания для решения той или иной поставленной перед ним
конкретной задачи. Например, специалист в области фонетики мо1
Svartvik J. The Evans Statements: A Case for Forensic Linguistics. Göteborg: University of
Gotenburg, 1968.
6
жет взять на себя задачу провести экспертизу голоса с целью определения человека, которому он принадлежит. Специалист в области
стилистики может, с помощью анализа стиля речи, помочь в идентификации человека, написавшего тот или иной документ. В частности, Ян Свартвик сделал вывод о невиновности Тимоти Эванса
на том основании, что его признание в убийстве отличалось по стилю от всех его остальных показаний. Разница в стиле записанных
полицейскими высказываний позволила Свартвику сделать заключение о том, что признательные показания были составлены самими полицейскими и навязаны Эвансу.
На начальном этапе развития судебной лингвистики круг ее
интересов ограничивался лингвистической экспертизой устных и
письменных документов с целью установления их авторства. Однако со временем стали разрабатываться и другие проблемы. Их возникновение было связано с появлением еще одной прикладной
лингвистической дисциплины – критической лингвистики (critical
linguistics).
Зарождение критической лингвистики относится к 1979 г.,
когда была опубликована книга «Язык и контроль», где и был
предложен данный термин2. В книге была поставлена задача анализа циркулирующего в обществе публичного дискурса. Этот анализ
должен был способствовать обнаружению закодированной в дискурсе идеологии, с помощью которой осуществляется скрытое воздействие на адресата и контроль над ним. Язык стал изучаться для
понимания «чего-то еще»; этим «чем-то еще» являются типы социального и экономического устройства общества, способы организации социального порядка, структуры межличностных отношений.
Критическая лингвистика подвергает сомнению понятие объективности в его социальном аспекте, выдвигая тезис о том, что любой
социальный порядок только маскируется под объективную действительность. Все, что в нем представлено, могло бы быть представлено и каким-то иным образом. Иными могли бы быть экономические, политические, этнические, гендерные и прочие отношения.
Тематика исследований, ведущихся в русле критической
лингвистики, разнообразна и включает в себя анализ того, каким
образом язык способствует созданию и поддержания сложных со2
Fowler R., Hodge B., Kress G., Trew T. Language and Control. London: Routledge & Paul,
1979.
7
циальных явлений. Изучаются такие вопросы, как политическая и
этическая корректность и некорректность в использовании языка,
закрепление в сознании посредством языка таких негативных явлений, как этноцентризм, расизм, сексизм, угнетение, неравенство.
Исследуются языковые способы осуществления власти, манипуляции, пропаганды, доминирования, дискриминации, социального
влияния.
Австрийский лингвист Рут Водак пишет: «Критическая
лингвистика
может
быть
определена
как
проблемноориентированная дисциплина, поскольку ее цель состоит не в том,
чтобы внести вклад в отдельную дисциплину, парадигму, школу
или теорию дискурса, а в том, чтобы обратиться к насущным социальным проблемам, которые в результате анализа будут лучше поняты и, возможно, начнут решаться»3. Водак исследует такие конкретные вопросы, как предубеждения австрийцев против своих восточно-европейских соседей, дискурс враждебности по отношению
к иностранцам, языковое воплощение национал-социализма, расистский и антисемитский дискурс, отражение этнических стереотипов в политической коммуникации и школьных учебниках и т.д.
Представители критической лингвистики подчеркивают, что
ученые, занимающиеся вышеперечисленными вопросами, должны
иметь социальные и политические обязательства перед обществом,
твердо выступать в защиту угнетенных и обездоленных. Они отмечают, что при исследовании взаимодействия языка и общества личная ответственность ученых является наивысшей, поскольку знания
и власть при их содействии могут быть либо справедливо распределены в обществе, либо несправедливо узурпированы.
В целом, подход к языку с позиций критической лингвистики требует определения и анализа социальных процессов, которые
привели к порождению языкового сообщения. В результате такого
анализа должны быть вскрыты зависимости между социальными и
лингвистическими структурами. Критическая лингвистика доказывает, что выбор языковых знаков мотивируется соответствующей
идеологией и что это приводит к возникновению как выраженных,
так и скрытых смыслов. Деятельность специалистов в этой области
прикладной лингвистики находит практическое воплощение в виде
различных консалтинговых услуг (например, в виде разработки
принципов политически корректного недискриминационного рече3
8
Водак, Р. Язык. Дискурс. Политика. Волгоград: Перемена, 1997. С. 10.
вого поведения государственных служащих, рекомендаций по общению с клиентами в сфере институциональной коммуникации,
путей решения социальных конфликтов, ведения переговоров и
т.п.).
Выход проблематики критической лингвистики в сферу судебной лингвистики был впервые осуществлен в связи с постановкой задачи создания текстов законов, понятных простым гражданам. В 1982 г. Рут Водак организовала «лингвистическую команду», которая в течение трех лет проводила тесты на понятность австрийских законов для простых людей. Было обнаружено, что для
большинства опрошенных законы непонятны, при этом «несведущий человек чувствует себя изолированным, обойденным и часто
одураченным»4. Ученые выявили и дифференцировали факторы,
необходимые для понимания законов и использования их содержания на практике. В последующем подобные исследования текстов
законов и понятности юридического языка в целом стали проводиться и в других странах.
Критическому анализу подверглись различные аспекты коммуникации во время судебного процесса. Лингвистов заинтересовало, понимают ли присяжные те инструкции, которые они получают перед вынесением вердикта, и может ли незнание ими важных
юридических терминов реально влиять на их решение5. Изучение
этих вопросов показывает, что многие присяжные, не владея юридической терминологией, не понимают полностью значимость
предъявляемых им доказательств, аргументацию участвующих в
процессе сторон, равно как и обращенные к ним инструкции и вопросы судьи.
Была также поставлена проблема адекватной интерпретации
смысла того или иного слова или языкового выражения, употребленного обвиняемым или свидетелем. Один из ведущих специалистов в области судебной лингвистики Малкольм Култхардт провел
лингвистическую экспертизу по делу Дерека Бентли, повешенного
в 50-х годах двадцатого века за подстрекательство к убийству полицейского. Бентли, задержанный во время ограбления и находящийся в окружении полицейских, прокричал другому участнику
4
Там же. С. 34.
Levi J. Evaluating jury comprehension of Illinois capital sentencing instructions // American
Speech, 1993, 65 (4); Tiersma P. Dictionaries and death: do capital jurors understand mitigation?
// Utah Law Review, 1995, 1.
5
9
ограбления, Крису Крэгу, держащему в руках револьвер: “Let him
have it, Chris”. Вскоре после этого Крэг выстрелил и убил полицейского. Во время судебного разбирательства обвинение настаивало
на инкриминирующей интерпретации высказывания Бентли (“shoot
him”), в то время как защита настаивала на смягчающей вину интерпретации (“give him the gun”). Суд принял интерпретацию обвинения, в то время как формальные лингвистические методы анализа
коммуникативного акта и ситуации общения подтверждают интерпретацию защиты (в результате повторного рассмотрения дела Дерек Бентли был посмертно оправдан)6.
В настоящее время проводятся многочисленные, базирующиеся на лингвистических методах экспликации неявно выраженных смыслов исследования по интерпретации двусмысленных,
многозначных и туманных языковых выражений, употребляемых в
ходе судебного процесса. Подобная экспертиза применяется не
только в уголовных, но и в гражданских судах, например, при рассмотрении исков к производителям продуктов и лекарств, недостаточно честно и эксплицитно предупреждающих потребителей об их
составе, возможной опасности для здоровья и побочных эффектах
их действия.
В сферу интересов судебной лингвистики был вовлечен человек говорящий и пишущий – языковая, дискурсивная и коммуникативная личность. Была поставлена проблема изучения в аспекте
судебной коммуникации различных видов человеческой неискренности – обмана, дезинформации, клеветы и т.п.7 В качестве особой
проблемы в этой области выделяется изучение плагиата как типа
дискурсивной деятельности и плагиатора как дискурсивной личности8. Исследуются лингвистические трудности, испытываемые некоторыми говорящими в процессе судебной коммуникации: детьми, людьми, говорящими на диалекте, иностранцами и т.д.9 Начинает привлекать к себе внимание проблема судебного перевода и
6
Coulthard R.M. Forensic discourse analysis // Advances in Spoken Discourse Analysis. Ed. by
R.M. Coulthard, London: Routledge, 1992.
7
Плотникова С.Н. К основам судебной лингвистики: Дискурс, представляющий собой
обман // Язык в эпоху знаковой культуры. Иркутск: ИГПИИЯ, 1996.
8
Olsson J. Forensic Linguistics. An Introduction to Language, Crime and the Law. London,
New York: Continuum, 2004. P. 107-119.
9
Gibbons J. Forensic Linguistics. An Introduction to Language in the Justice System. Oxford:
Blackwell, 2003. P. 200-228.
10
необходимости подготовки квалифицированных судебных переводчиков10.
Итак, в настоящее время судебная лингвистика решает следующие основные проблемы:
 установление авторства того или иного устного или письменного текста;
 установление смысла того или иного слова, высказывания,
текста;
 критический анализ лингвистических аспектов взаимодействия юридической системы и общества;
 выявление юридически значимых типов дискурса (неискреннего, угрожающего и т.д.);
 судебный перевод и иные виды лингвистического обеспечения судебного процесса.
Решение данных проблем относится к компетенции профессиональных лингвистов, то есть людей, получивших специальное
образование в области лингвистики, владеющих теоретическими
знаниями о языке и методологией лингвистического анализа. Судебные лингвисты никоим образом не могут занять место профессиональных юристов – во время следствия и судебного процесса
они приглашаются юристами или заинтересованными участниками
в качестве экспертов, призванных дать анализ и квалифицированное заключение по тому или иному факту, связанному с употреблением языка. Поэтому судебных лингвистов можно сравнить с
экспертами-криминалистами, привлекаемыми правоохранительными органами для различных экспертиз (экспертизы оружия, технических устройств, отпечатков пальцев, химических веществ, анализа крови и других биологических материалов и т.д.). Будучи экспертом в своей области знания, лингвист становится подобен любому другому эксперту-криминалисту; не случайно, поэтому, что
судебную лингвистику иногда называют лингвокриминалистикой11.
Как сугубо лингвистическая дисциплина судебная лингвистика не занимается природой права и правосудия – это является прерогативой юридической науки. Необходимо подчеркнуть, что профессия юриста самым тесным образом связана с использованием
языка; юрист – это, прежде всего, профессиональный говорящий и
10
Carrol J. The use of interpreters in court // Forensic Linguistics. 1995, 2 (1).
Фонетика и лингвокриминалистика (Интервью Г.Е. Кедровой с проф. Л.В. Златоустовой) // Вестник МГУ. Сер. 9. Филология, 2001, № 3.
11
11
пишущий. Однако профессиональное говорение и письмо входят в
компетенцию самих юристов, а не лингвистов; никто не может указывать юристам, как им нужно осуществлять свою языковую деятельность. Обучение юриспруденции предполагает обучение праву
во всех его тонкостях, в результате которого формируется специалист, владеющий пониманием права как совокупности юридических дискурсов и дискурсивных практик.
Юристов обучают особым дискурсивным технологиям на
каждом этапе судебного разбирательства – предварительного следствия, судебного следствия, судебных прений, постановления приговора. На этапе предварительного следствия юристу необходимо
уметь формулировать стратегические вопросы, вести допрос, систематизировать доказательства, проводить критический анализ
фактов и т.д. Судебное следствие должно соответствовать всем
процессуальным и дискурсивно-ритуальным требованиям. В судебных речах могут использоваться только те доказательства, которые были представлены в суде, должно проводиться тщательное
исследование, «обговаривание» доказательств, накопление юридически значимой информации. В речевом сообщении нужно выделять существенное – факты, имеющие отношение к делу. Юрист
должен уметь взаимодействовать с коллегами и участниками процесса, корректно задавать вопросы, убедительно аргументировать
свои доводы. В судебных прениях юристу необходимо четко выразить свою процессуальную позицию и доказать ее. При ведении судебного спора и прокурор, и адвокат должны вести себя корректно,
не проявлять агрессивность и излишнюю эмоциональность. Судья
призван придавать судебному разбирательству конструктивный характер, обеспечивать возможность состязательного, но не конфликтного взаимодействия сторон. Вся деятельность суда направлена на установление истины в результате верификации доказательств и вынесение законного, обоснованного приговора.
Таким образом, правовой профессионализм юриста включает
в себя адекватную дискурсивную деятельность. Дисциплина, обучающая этой деятельности в процессе юридического образования,
тоже может быть названа судебной лингвистикой12, однако в данном случае речь идет о ее другом понимании. А.С. Александров,
разрабатывающий юридические аспекты языковой природы права,
12
Александров А.С. Введение в судебную лингвистику. Нижний Новгород: Нижегородская
правовая академия, 2003.
12
пишет: «Судебная лингвистика – это юридическая наука, которая
непосредственно примыкает к так называемому «судебному праву». Почему «судебная»? Потому, что эта наука имеет предметом
своего исследования судоговорение, судебный дискурс. Именно
судебный дискурс мы ставим в центре правовой проблематики. Это
обусловлено нашей трактовкой права как права=текста. Судебный
дискурс – это единственный возможный модус бытия права=текста.
Поэтому основу науки «судебная лингвистика» составляет учение о
юридическом дискурсе и Тексте=Праве»13.
В своей книге А.С. Александров рассматривает основополагающую роль языка в уголовно-процессуальном праве, проблемы
речевой коммуникации в ходе судебного заседания, технологии доказывания, аргументации и убеждения в уголовном суде, правила
судоговорения, порядок судебного разбирательства, технологии
прямого и перекрестного допроса, способы установления судебной
истины. А.С. Александров представляет позицию юриста - концепцию судебной лингвистики как юридической науки, делающей акцент на связи права и языка.
Как уже указывалось, с позиции лингвиста судебная лингвистика – это прикладная лингвистическая дисциплина, рассматривающая совершенно иную, не правовую проблематику. Судебный
лингвист занимается, по мере необходимости, лингвистическим
анализом судебных документов; он принимает участие в судебном
разбирательстве в качестве эксперта, призванного сделать научно
обоснованное заключение по поводу интересующих суд языковых
фактов.
Термин судебная лингвистика принимается не всеми лингвистами. Кроме уже упоминавшегося термина лингвокриминалистика
эту дисциплину называют также юридической лингвистикой или
юрислингвистикой14. Питер Тирсма, активно выступающий против
термина судебная лингвистика, отмечает, что для ученых, чьи
научные интересы находятся на стыке языка и права, этот термин
слишком узок, поскольку он предполагает лишь две проблемы:
применение лингвистических знаний в доказывании преступной
деятельности, либо, наоборот, в оправдании от участия в ней. Од13
Там же. С. 6.
Глинская Н.П. Западная юридическая лингвистика: проблемы и перспективы // Вестник
МГУ. Сер. 19. Лингвистика и межкультурная коммуникация, 2003, № 4; Юрислингвистика: Проблемы и перспективы. Барнаул: Издательство Алтайского государственного университета, 2000.
14
13
нако Тирсма признает, что большинство лингвистов с ним не согласны, в частности, его предложение переименовать Международную Ассоциацию Судебных Лингвистов (International Association of
Forensic Linguists) в Международную Ассоциацию Языка и Права
(International Language and Law Association) было забаллотировано
на заседании этой организации15. Можно предположить, что это
произошло по причине того, что слишком широкое понимание
проблематики выводит судебную лингвистику за пределы лингвистических дисциплин, заставляет ее вторгаться в юридическую
науку, то есть в другую профессиональную сферу, находящуюся
вне компетенции лингвистов.
Практическое приложение лингвистической теории к сфере
правосудия требует от лингвиста применения определенных лингвистических методов. В каждом конкретном случае эти методы будут особыми. Поэтому задачи, осуществляемые судебными лингвистами, классифицируются в дальнейшем изложении в соответствии
с используемым при их решении методом. Классификация методов
производится на основе уровневой организации языковой системы
– будут последовательно описаны методы фонетического, лексического, стилистического анализа, методы анализа высказывания, речевого акта, текста, дискурса.
Вопросы для повторения
1. Какова этимология термина судебная лингвистика и есть ли
у него термины-конкуренты?
2. Как и когда зародилась судебная лингвистика?
3. Чем занимается судебная лингвистика?
Темы для дискуссий
1. Обобщите этапы становления судебной лингвистики.
2. Что представляет собой критическая лингвистика и какое
отношение она имеет к судебной лингвистике?
3. Объясните, в чем различие между анализом соотношения
языка и права в юридической и лингвистической науке.
15
Tiersma P. What is forensic linguistics? // http://www.languageandlaw.org/forensic.html
14
Лекция 2
Судебно-фонетическая экспертиза на основе
профессионального аудирования
Судебная фонетика (forensic phonetics) – самая развитая к
настоящему моменту область судебной лингвистики. Первая конференция, посвященная проблемам судебной фонетики, состоялась
в Великобритании в 1989 г., в 1991г. была образована Международная Ассоциация Судебной Фонетики и Акустики (International
Association for Forensic Phonetics and Acoustics), а после этого в
1992 г. была образована Международная Ассоциация Судебных
Лингвистов, которая с 1994 г. начала издавать свой журнал «Судебная Лингвистика» (“Forensic Linguistics”).
Судебная фонетика занимается вопросами методологии в области профессиональной слуховой оценки звучащей речи, а также
технологиями инструментальной обработки звучащей речи, ее анализа и интерпретации16.
Судебно-фонетическая экспертиза представляет собой экспертное заключение о фрагменте звучащей речи, сделанное профессиональным фонетистом. Известный российский специалист в
области судебной фонетики Р.К. Потапова выдвигает следующие
требования к эксперту-фонетисту. «Для профессионального проведения экспертизы по судебной фонетике эксперт должен быть компетентен в области акустики речи, фундаментальной и прикладной
фонетики, социофонетики, психофонетики, лингвистики. Он обязан
владеть методологией проведения криминалистических идентификационных экспертиз в области судебной фонетики, а также обладать необходимыми психофизиологическими качествами: хорошим
акустическим слухом, аналитическим складом ума, развитым интеллектом, наблюдательностью, устойчивым вниманием, аккуратностью в выполнении аналитических операций17.
Профессиональный фонетист владеет навыками так называемого избирательного слушания, согласно которому, во-первых,
вначале нужно слушать не слова, а звуки и их фонетические при16
Потапова Р.К. Речь: Коммуникация, информация, кибернетика. М.: Эдиториал УРСС,
2001. С. 516, 517.
17
Потапова Р.К. На какие вопросы отвечает судебно-фонетическая экспертиза? // Российская юстиция, 2000, №1. С. 47.
15
знаки; во-вторых, в каждый момент нужно слушать только один
признак или одну совокупность признаков; в-третьих, нужно постепенно переходить от более простых для восприятия признаков и
фонов к более сложным18.
Профессиональный фонетист владеет также инструментом
фиксации звучащей речи на письме – техникой транскрибирования
в знаках универсальной фонетической транскрипции. Нотация (запись) одного и того же речевого сигнала, сделанная разными фонетистами, при должном качестве их работы должна быть одной и
той же. Это обеспечивает объективность и научную достоверность
проведенного фонетического анализа.
Кроме того, профессиональный фонетист владеет знанием
существенных для восприятия характеристик речи, моделями активного и пассивного восприятия, приемами различения значимых
и случайных сигналов и восприятия речи в условиях помех.
От теоретической подготовки фонетиста зависит как объем,
так и точность полученной им фонетической информации. Важность теоретических знаний нельзя недооценивать. «Мнение, что
можно «непредвзято» наблюдать языковые факты и что сами эти
факты навяжут схему их описания, является опасным заблуждением. Нет основания недооценивать влияния данных, но в действительности процесс познания глубинных закономерностей, лежащих
в основе данных, всегда предполагает наличие не одного, а двух
феноменов: данных и некоторого эталона (теории), которым эти
данные оцениваются»19.
Профессиональное слушание является индивидуальнотворческим процессом, в связи с чем представленное заключение
нельзя принимать как нечто абсолютно бесспорное. Это не означает, однако, что судебно-фонетическая экспертиза, проведенная по
технологии профессионального аудирования, ненадежна. Квалифицированный фонетист ручается за научную достоверность полученных им результатов, как и любой эксперт-криминалист, работающий в своей области знаний.
Если фонетисту необходимо произвести транскрибирование
речи с какого-либо технического устройства, то соблюдение следующих условий будет способствовать достижению ее максималь18
Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: КомКнига,
2005. С. 265.
19
Там же. С. 263.
16
ной точности: 1) запись должна осуществляться незаинтересованным лицом, чтобы избежать влияния на процесс слушания на
уровне подсознания; 2) эксперт должен иметь как можно меньше
предварительной информации о природе и содержании звучащей
речи, в этом случае его способность понять непредсказуемые аспекты речи будет свидетельствовать о точности ее интерпретации;
3) чем дольше звучание речи, тем лучше, запись одного-двух предложений, без какого-либо контекста, гораздо ненадежнее записи
продолжительного фрагмента связной речи; 4) надежность записи
повышается, если записывается целая беседа (или монолог) с одними и теми же участниками и если эти участники не меняют своего
положения по отношению к записывающему устройству – тогда,
даже если пленка будет плохого качества, она будет, по крайней
мере, содержать связный текст; 5) для особо важных или трудных
экспертиз обязательно привлечение по крайней мере еще одного
эксперта, который, конечно, ничего не должен знать об экспертизе,
уже проведенной его коллегой; 6) некоторые материалы для прослушивания настолько плохого качества, что даже опытный фонетист не может их интерпретировать, о чем он должен прямо заявить20.
Рассмотрим некоторые примеры судебно-фонетических экспертиз, проведенных на основе профессионального аудирования.
Одним из них является экспертиза американского лингвиста Роберта Родмана по делу о торговле наркотиками21. Родман был привлечен к этому делу защитой уже после вынесения приговора, в процессе подачи апелляции. Гражданин США, родившийся на Гаити,
был приговорен к двенадцати годам тюрьмы за торговлю кокаином.
Основным доказательством послужила запись телефонного разговора между продавцом кокаина и покупателем – работавшим под
прикрытием агентом. Хотя торговец наркотиками на пленке говорил на афро-американском диалекте английского языка, а подсудимый говорил по-английски с гаитянско-креольским акцентом, обвинение убедило присяжных, что подсудимый умышленно изменил
свое произношение, перестав говорить с акцентом. Его способность
совершить подобное была объяснена тем, что когда-то он работал
20
Fraser H. Issues in transcription: Factors affecting the reliability of transcripts as evidence in
legal cases // Forensic Linguistics, 2003, 10 (2).
21
Rodman R. Linguistics and the law: how knowledge of, or ignorance of, elementary linguistics
may affect the dispensing of justice // http://www.outreach.utk.edu/ljp/IAFL2001/robert rodman.html
17
переводчиком для американской армии на Гаити, следовательно, он
был «лингвистом» (“a linguist”), а посему знал, что такое «звуковой
сдвиг» (“sound change”). Это знание, по мнению обвинения, помогло ему изменить свое произношение, опустив акцент. Как указывает Родман, эта цепочка абсурдных доводов, вызванная лингвистической наивностью, привела к несправедливому приговору. Этого
бы не случилось – пишет он, – если бы суд знал, что «переводчик»
необязательно значит «лингвист» и что «звуковой сдвиг» – это термин, относящийся к историческому развитию языка. Кроме этого,
выяснилось, что подсудимый начал изучать английский язык в возрасте 18 лет. Как хорошо известно всем лингвистам, если человек
начинает изучать второй язык после «критического» возраста 13
лет, он будет говорить на нем с акцентом в виду интерференции
хорошо усвоенного к этому моменту родного языка. Если же такой
человек попытается говорить на втором языке с меньшим акцентом
или изменить свое произношение, его акцент станет утрированным
и еще больше увеличится. Родман делает вывод, что, если бы на
этом суде присутствовал фонетист в качестве свидетеля-эксперта,
он, скорее всего, смог бы убедить присяжных в непричастности
подсудимого к данному преступлению.
С позиции лингвиста выводы Родмана не вызывают сомнений.
Его экспертизу можно дополнить и другими соображениями. Мнение обвинения о том, что подсудимый мог говорить по-английски
без акцента, опровергается знаниями в области социофонетики, а
именно: звучание речи имеет автоматический характер, усвоенный
в определенной социальной среде. Речь подсудимого звучит с гаитянско-креольским акцентом потому, что таковой была его социальная среда, где он приобрел общие со всеми фонетические признаки речи. Говорящий принадлежит к одной из заданных социальных групп и имеет свойственные этой группе особенности произношения. Он не может являться ни носителем стандартного английского языка, ни носителем афро-американского диалекта, поскольку изначально, то есть с раннего детства, он не принадлежал к
соответствующим социумам.
Воистину лингвистически наивным является мнение о том,
что как «лингвист» подсудимый мог, если бы захотел, говорить на
неродном языке без акцента. Даже для очень квалифицированного
лингвиста-преподавателя это сложно. А.Е. Кибрик объясняет данный факт следующим образом. «Широко известна проблема «ак18
цента» при изучении иностранного языка, устранить который бывает очень трудно, а иногда и невозможно. Произношение на данном языке характеризуется не только полезными признаками, использующимися в качестве репрезентантов различительных, но и
большим количеством избыточных фонетических признаков, точное воспроизведение которых необходимо для устранения акцента»22. Таким образом, устранение акцента возможно, однако оно
требует длительной профессиональной работы над своим произношением – осознанного анализа и устранения интерферирующих избыточных фонетических характеристик речи, свойственных родному языку. Не имея соответствующего образования, подсудимый не
мог скорректировать свое произношение.
Рассмотренный пример доказывает, что, действительно, имеются такие судебные дела, которые требуют судебно-фонетической
экспертизы при помощи профессионального аудирования в целях
осуществления правосудия. Еще одним таким примером является
дело «доктора Шнайдера» – преступника, более года скрывавшегося под другой фамилией и разоблаченного благодаря неосторожно
данному им интервью для средств массовой информации. Обнаруженная судебным фонетистом в процессе профессионального аудирования незаметная для обычного восприятия легкая шепелявость
позволила идентифицировать преступника, что дало юридическое
основание для его ареста23.
Все более расширяющейся сферой применения профессионального аудирования являются гражданские дела о незаконной
иммиграции. Правоохранительные органы некоторых стран, принимающих иммигрантов, обращаются в фирмы, в штат которых
входят лингвисты, владеющие языками и диалектами тех стран, из
которых прибывают беженцы. В эти фирмы предоставляется запись
беседы с человеком, чья искренность относительно страны его происхождения вызывает сомнения. Одно из подобных дел слушалось
в Федеральном Суде Австралии в 2002 г.24 Беженец, прибывший в
Австралию из Индонезии, заявил, что он гражданин Афганистана и
покинул страну из-за политических преследований. Магнитофонная запись беседы с этим человеком была отправлена в одно из
22
Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: КомКнига,
2005. С. 266.
23
Hermann J. Identifying Dr. Shneider’s voice: An adventure in forensic speaker identification //
Forensic linguistics, 1996, 3 (1).
24
Linguistic evidence in immigration appeal // Official Court Report, 10 Sept., 2002.
19
шведских агентств, оказывающих услуги по переводу и лингвистическому анализу документов. В предоставленном экспертном заключении утверждалось, что данный человек говорил на одном из
пакистанских диалектов. По мнению экспертов, с большой долей
уверенности можно было утверждать, что говорящий являлся
гражданином Пакистана, а не Афганистана. На основании данной
экспертизы, а также ряда других фактов, этому человеку было отказано в праве на иммиграцию.
По данным британской прессы правительство Великобритании практикует обращение к шведским и голландским лингвистическим фирмам для проверки людей, просящих политического
убежища и заявляющих, что они прибыли из таких стран, как Сомали, Афганистан, Шри-Ланка и т.д. Эти фирмы подвергаются критике за допускаемые ими ошибки в экспертизе, в результате чего
некоторых людей высылали не на родину, а в другую страну. Со
своей стороны, лингвистические фирмы пытаются доказать компетентность привлекаемых ими экспертов. Менеджер фирмы
“Sprakab” говорит: «Мы работаем на очень профессиональном
уровне и полностью осознаем стоящие перед нами трудности. Но
мы действуем очень успешно. Мы привлекаем несколько экспертов
одновременно по каждому делу. Когда мы уверены в том, из какой
страны прибыл говорящий, мы делаем свое заключение, но когда
есть шанс, что мы ошибаемся, мы никогда этого не скрываем»25.
В последние годы правления Саддама Хуссейна большой поток беженцев из Ирака потребовал от правительства Великобритании массового лингвистического тестирования вновь прибывающих для того, чтобы определить, действительно ли они являлись
гражданами Ирака. Эта мера понадобилась в связи с тем, что многие турецкие и сирийские курды выдавали себя за иракских курдов.
До этого подобная практика проводилась для различения албанцев
и албанских жителей Косово26.
Такое массовое применение судебно-фонетической экспертизы посредством профессионального аудирования свидетельствует о
ее государственной и политической значимости в решении определенных социальных проблем. Имеющиеся в этой области ошибки и
недостатки активно обсуждаются. Группа лингвистов из разных
25
Barnett A., Brace M. Voice experts to root out false asylum claims // The Observer, 5 May,
2002.
26
Travis A. Language tests to uncover bogus Iraqi asylum seekers // Guardian, 3 March, 2003.
20
стран и университетов предложила следующие рекомендации по
проведению лингвистического анализа в делах об установлении
страны происхождения беженца: 1) лингвисты советуют, правительства решают вопрос о национальной принадлежности; 2) анализ должен производиться только квалифицированными лингвистами, имеющими научные звания и публикации; 3) лингвистическая экспертиза должна дополняться другими фактами; 4) сам
лингвист решает, какие языковые факты необходимы для его анализа; 5) носители языка, не имеющие лингвистического образования, не могут привлекаться в качестве экспертов 27.
Технологии профессионального аудирования применяются
также для подготовки процедуры опознания голоса. Она используется в тех случаях, когда пострадавший или свидетель не видел
преступника, но слышал его голос. Чаше всего подобное происходит в преступлениях на сексуальной почве.
Большинство людей, если их спросить, могут ли они легко
определять говорящих по голосу, ответят утвердительно. Все мы в
состоянии различать голоса знакомых людей, например, мы узнаем
голос в телефонной трубке, даже если в последний раз слышали его
давно; мы узнаем голос знакомого нам человека, говорящего за закрытой дверью, знакомый голос, записанный на магнитофонную
ленту и т.п. В то же самое время эту нашу способность не следует
преувеличивать; мы часто ошибаемся при определении голосов даже очень близких нам людей.
Дэниел Ярми проверил экспериментальным путем точность
определения говорящего по голосу так называемым наивным слушающим (то есть обычным человеком, не имеющим специальной
подготовки в области фонетики). В первом эксперименте участвовали 160 мужчин и женщин, отобранных их нескольких населенных пунктов. Им было предложено внимательно прослушать записанный на магнитофон голос условного преступника, якобы совершившего ограбление. Через две минуты после прослушивания каждого из участников эксперимента попросили описать характеристики голоса грабителя, вспомнить, что точно он сказал, а затем попытаться опознать этот голос в составе двух групп говорящих из шести человек, в одной из которых голос грабителя присутствовал, а в
27
Guidelines for the use of language analysis in relation to questions of national origin in refugee cases // www.eades.hawaii.edu
21
другой отсутствовал. Половина участников эксперимента прослушала тот же самый текст, что говорил преступник, а другая половина участников прослушала иной текст. Точность определения голоса преступника участниками эксперимента была выше, чем уровень простой случайности. Выяснилось также, что определение голоса не зависит от того, произносит ли говорящий те же самые слова или другие28.
Во втором эксперименте участников попросили опознать голос молодой женщины, с которой они разговаривали за пять минут
до этого либо в непосредственном общении, либо по телефону.
Вначале участникам было предложено прослушать запись одного
голоса – или голоса искомой молодой женщины, или другого очень
похожего голоса. Затем им были предъявлены две записи из шести
голосов в каждой; первая группа из шести голосов содержала искомый голос, а вторая нет. Результаты опознания искомого голоса
были плохими – как для непосредственного общения, так и для разговора по телефону, однако они были вдвое выше для записи шести
голосов по сравнению с записью одного голоса29.
Из этих экспериментов следует вывод, что несмотря на ненадежность свидетельских показаний по опознанию голоса, если оно
все же проводится, то для достижения более точных результатов
необходимо, во-первых, предъявлять свидетелю иные высказывания, чем те, которые были произнесены преступником, и, вовторых, предъявлять ему голос подозреваемого в составе группы из
не менее чем шести голосов. Благодаря этим факторам происходит
некоторое повышение эффективности восприятия при непрофессиональном слушании.
Судебными фонетистами разработана процедура так называемого «парада голосов» (“voice parade”) – наиболее надежного способа опознания голоса потерпевшим или свидетелем из всех известных на сегодняшний день30. Сущность «парада голосов» заключается в следующем. Так же как и при визуальной идентифи28
Yarmey D. Earwitness descriptions and speaker identification // Forensic Linguistics, 2001, 8
(1).
29
Yarmey D. Earwitness identification over the telephone and in field settings // Forensic Linguistics, 2003, 10 (1).
30
Künzel H. On the problem of speaker identification by victims and witnesses // Forensic Linguistics, 1994, 1 (1); French P. An overview of forensic phonetics with particular reference to
speaker identification // Forensic Linguistics, 1994, 1 (2); Nolan F., Grabe E. Preparing a voice
line-up // Forensic Linguistics, 1996, 3 (1); Nolan F. Case report: a recent voice parade // Forensic Linguistics, 2003, 10 (2).
22
кации перед потерпевшим или свидетелем выстраивается «парад»,
или «колонна» участников для опознания, с той разницей, что при
визуальном опознании участниками являются люди, а при аудитивном опознании их голоса.
Проводящий процедуру опознания лингвист должен дать четкое указание опознающему следующего содержания: «Лучше сказать, что гóлоса преступника среди представленных голосов нет,
чем сказать «да», не будучи твердо уверенным в истине этого
утверждения». Необходимость такой инструкции объясняется тем,
что опознающий может сказать «да» наугад и сделать это не из злого умысла, а руководствуясь принципом речевого сотрудничества,
свойственным человеческому общению в целом. Вступив в речевое
взаимодействие со следователями, свидетель или жертва преступления начинает испытывать подсознательное желание сотрудничать с ними, находить общие ответы на возникающие вопросы.
Принцип сотрудничества играет в процедуре опознания негативную роль, поскольку опознающий может указать на того или иного
человека либо голос лишь на основе подсознательного желания
помочь, внести свой вклад в речевое сотрудничество, ответить
«да», а не «нет» следователю как собеседнику, указав на когонибудь наугад. Поэтому опознающему необходимо объяснить, что
он должен действовать, исходя не из принципа сотрудничества, а из
принципа истины.
Все высказывания, используемые для опознания, должны
быть спонтанной, а не прочитанной речью. В британской юридической системе, где была разработана процедура «парада голосов»,
высказывания подозреваемого отбираются из записей его допросов
в полиции. Подозреваемого нельзя заставить прочитать какие-либо
высказывания, включая и те, которые были услышаны в момент
преступления. Даже если бы это было юридически допустимым,
виновный мог бы попытаться изменить голос, в связи с чем для
опознания должны быть отобраны, в тайне от подозреваемого, его
спонтанные, произнесенные естественным образом высказывания.
Соответственно, высказывания подставных участников опознания
тоже следует отбирать из спонтанных бесед, чтобы речь подозреваемого не контрастировала с ними.
Методика подбора подставных голосов должна отвечать тем
же требованиям, что и методика подбора подставных фигур при визуальном опознании. Подставные фигуры должны походить на по23
дозреваемого – как шутят следователи, идеальная колонна для опознания должна состоять из подозреваемого и его девяти идентичных клонов, что, конечно же, нереально. В конкретном опознании
подставные фигуры должны удовлетворять определенным характеристикам подозреваемого – и его голоса, – как их описывает жертва
или свидетель преступления.
Поскольку пока судебно-фонетическая экспертиза во всем
мире не имеет силы юридического доказательства, а осуществивший ее судебный фонетист привлекается судом лишь в качестве
свидетеля-эксперта, то для обоснования своих выводов ему необходимо доступно объяснить суду и присяжным научные основания
проведенной экспертизы и свидетельства ее надежности. В качестве примера можно привести экспертизу по методу «парада голосов», проведенную британским лингвистом Фрэнсисом Ноланом в
деле о сексуальном нападении, при котором жертва преступления
не видела преступника, но слышала его голос. Подготовленная Ноланом колонна голосов была подвергнута им двум предварительным тестам. Независимые слушающие должны были подтвердить:
в первом тесте, что голос подозреваемого не выделялся какимнибудь образом из подставных голосов, не отличался от них какойнибудь яркой характеристикой; во втором тесте, что голос подозреваемого не воспринимался как стереотипный голос сексуального
маньяка. Нолан объяснил суду, что этим он обеспечил и подтвердил чистоту и объективность будущего опознания. Когда подготовленную таким образом колонну голосов предъявили потерпевшей,
она идентифицировала подозреваемого с высокой степенью уверенности, и, хотя защита во время суда оспаривала результаты опознания, присяжные вынесли обвинительный вердикт31.
Оценивая перспективы использования судебно-фонетической
экспертизы на основе профессионального аудирования, можно сказать, что, несмотря на раздающуюся критику по поводу ее ненадежности, потребность в ней, скорее всего, будет возрастать.
Восстановление дословного содержания разговора, тайно записанного агентом, работающим под прикрытием; восстановление
некачественно сделанной записи, содержащей посторонние шумы;
обнаружение вмонтированных в подлинный разговор иных разговорных фрагментов; определение говорящего по голосу – в решении этих и других подобных проблем работники правоохранитель31
Nolan F. Case report: a recent voice parade // Forensic Linguistics, 2003, 10 (2).
24
ных органов все меньше склонны полагаться на собственную интуицию и все чаще обращаются к фонетистам как экспертам в этой
области.
Вопросы для повторения
1. Когда возникла судебная фонетика и чем она занимается?
2. Что такое профессиональное аудирование?
3. Что представляет собой судебно-фонетическая экспертиза?
4. Соблюдение каких условий способствует достижению максимальной точности записи звучащей речи?
5. Что такое «парад голосов»?
Темы для дискуссий
1. Какими профессиональными качествами должен обладать
судебный фонетист?
2. Судебные дела какого типа требуют судебно-фонетической
экспертизы при помощи профессионального аудирования?
3. В каких странах осуществляется фонетическая экспертиза
прибывающих в страну иммигрантов и по какой технологии? Как
вы думаете, актуальна ли эта проблема для современной России?
4. Надежна или ненадежна, на ваш взгляд, технология опознания подозреваемого по голосу жертвой или свидетелем преступления? Обоснуйте свою точку зрения.
25
Лекция 3
Судебно-фонетическая экспертиза
на основе анализа спектрограмм
Спектрограмма – это способ графической репрезентации звучащей речи на основе спектрального анализа, то есть разложения
звуковых колебаний на отдельные составляющие. Спектрограмма
представляет анализируемый звуковой фрагмент в трех измерениях: время – частота – амплитуда. Спектральное изображение речи
производится при помощи специальных технических устройств, а
также современных компьютеров, имеющих соответствующее программное обеспечение. Профессиональные фонетисты умеют «читать» спектрограммы, то есть определять зафиксированные на них
речевые сигналы и интерпретировать их параметры.
Проблема определения говорящего по голосу с помощью
спектрального анализа начала разрабатываться в 60-е гг. двадцатого века32. Исходная гипотеза заключалась в признании уникальности каждого человеческого голоса. Было выдвинуто предположение
о том, что, подобно отпечаткам пальцев (fingerprints), которые неповторимы у каждого человека и идентифицируют его практически
со стопроцентной вероятностью (за исключением ряда особых случаев типа произведенной на пальцах хирургической операции), человека характеризует такой же неповторимый отпечаток голоса
(voiceprint). Эта гипотеза, однако, не нашла подтверждения в последующих фонетических исследованиях33. Было обнаружено, что
голос человека характеризуется пластичностью и варьируется в зависимости от возраста, физического и эмоционального состояния и
других факторов. Благодаря подвижности органов речи ни одно из
высказываний, произнесенных определенным человеком, не является идентичным, в строгом смысле, ни одному его другому высказыванию по физическим параметрам. Более того, речь каждого человека пересекается по своим спектральным характеристикам с речью многих других людей (одного с ним пола, возраста, нацио32
Kersta L.D. Voiceprint identification // Nature, 1962, 196.
Ladefoged P., Vanderslice R. The voiceprint mystique // UCLA Working Papers in Phonetics,
1967, 7; Bolt R.M., Cooper F.S., David JR, E.E., Denes P.B., Pickett J.M., Stevens K.N. Identification of a speaker by speech spectrograms // Science, 1969, 166; Ladefoged P. An opinion on
“voiceprints” // UCLA Working Papers in Phonetics, 1971, 19.
33
26
нальной
и
региональной
принадлежности,
культурнообразовательного уровня и т. д.). Термин отпечаток голоса был отвергнут теоретической фонетикой на том основании, что оказалось
принципиально невозможным отграничить каждого говорящего от
всех остальных, исходя из его индивидуальных произносительных
особенностей.
Вместе с тем этот термин был принят развивающейся судебной фонетикой как удобное и точное обозначение конечного результата, достигаемого при спектральном анализе того или иного
заданного голоса. В судебной фонетике спектрограмма голоса подозреваемого сравнивается не с голосами всего населения в целом,
а с ограниченным количеством голосов других подозреваемых или
подставных фигур. В этих условиях качество каждого голоса будет
особым, что найдет соответствующее отражение на спектрограммах34.
На основе полученной спектрограммы – отпечатка голоса подозреваемого – судебный фонетист может осуществить фонетическое профилирование говорящего (phonetic speaker profiling), то
есть дать его речевой портрет, описать данного человека, исходя из
характеристик его голоса35. Различие мужского и женского голоса
зависит от анатомических и физиологических особенностей речевого тракта, прежде всего от строения и особенностей функционирования гортани и голосовых связок, придающих своеобразие спектральной картине звуков речи; в частности, меняется положение
формант на шкале частот36. Поэтому судебный фонетист способен
определить по спектрограмме пол говорящего.
Ряд спектральных показателей, в частности, показатель сниженной скорости речи, как признак пожилого возраста, позволяет
делать предположения о возрасте говорящего, а также синтезировать типичный и даже стереотипный эталон каждого возраста на
основании фонетической информации, систематизированной в ре-
34
Nolan F. The Phonetic Bases of Speaker Recognition. Cambridge: Cambridge University
Press, 1983; Baldwin J., French P. Forensic Phonetics, London: Printer, 1990.
35
Tanner P.C., Tanner M.E. Forensic Aspects of Speech Patterns: Voice Prints, Speaker Profiling, Lie and Intoxication Detection. Tucson: Lawyers & Judges Publishing Company, 2004.
36
Потапова Р.К. Сексолект как составляющая экспертной фоноскопии в криминалистике
// Гендер как интрига познания. М.: Рудомино, 2000.
27
зультате обобщения больших массивов фонетических данных, собранных у людей одного возраста37.
Спектральный анализ позволяет также установить, находился
ли говорящий в спокойном или эмоционально-возбужденном состоянии. Экспрессивность речи влияет на артикуляцию звуков, в
частности, спектральная картина звуков меняется, когда говорящий
улыбается, смеется, плачет и т. д.38
При помощи спектрограмм определяются различные специфические характеристики голоса, например, выявляется хриплый
голос, шепелявость, придыхание и другие особенности39. Определяются также временные специфические характеристики, например, голос при алкогольной или наркотической интоксикации40.
Итак, при осуществлении фонетического профилирования судебному фонетисту предоставляется запись звучащей речи, произнесенной определенным говорящим, которая подвергается спектральному анализу по множеству параметров с целью обнаружения
фонетической информации, позволяющей составить представление
о его биологических, физических и психо-эмоциональных характеристиках.
Применение спектрального анализа позволяет также в ряде
случаев установить человека, совершившего преступление, в буквальном смысле «указать на него пальцем», назвав его имя и фамилию. Это крайне необходимо тогда, когда у правоохранительных
органов, во-первых, имеется запись угроз или шантажа по телефону, запись сообщения о готовящемся террористическом акте, запись перехваченного телефонного разговора между террористами и
т. п. и, во-вторых, имеется группа подозреваемых, среди которых
может находиться (или не находиться) преступник. В задачу судебного фонетиста входит сравнение имеющегося инкриминирующего
фрагмента звучащей речи и образцов речи подозреваемых с целью
идентификации среди них автора криминальной речи.
37
Schötz S. Towards synthesis of speaker age: A perceptual study with natural, synthesized and
resynthesized stimuli // Phonum 2003, 9.
38
Svanfeldt G., Nordstrand M., Granström B., House D. Measurements of articulatory variation
in expressive speech // Phonum 2003, 9.
39
Wagner I. A new jitter-algorithm to quantify hoarseness: An exploratory study // Forensic
Linguistics, 1995, 2 (1).
40
Hollien H., Martin C.A. Conducting research on the effects of intoxication in speech // Forensic Linguistics, 1996, 3 (1).
28
Необходимо подчеркнуть, что на настоящий момент абсолютно надежной методики идентификации преступника по голосу
нет, однако некоторые существующие методики дают высокие результаты точности – 90% и выше. Одна из таких методик разработана исследовательской группой Роберта Родмана; эксперименты
по установлению ее эффективности показали, что она составляет
97% и выше.41
Сущность этой методики состоит в сравнении «похожего с
похожим» (“like-with-like”). Идентификация говорящих основана на
сравнении отобранных вручную из их речи изофонетических последовательностей (isophonetic sequences). Эти последовательности
могут состоять из одного фона, нескольких фонов (например, гласного и согласного); слога, нескольких слогов, целого слова, словосочетания. При этом произнесение говорящими одних и тех же
слов необязательно: можно сравнивать фонетическую последовательность “enny” у двух говорящих, один из которых сказал
“penny”, а другой – “Jenny”. Выявленное различие – некоторые люди произносят данную последовательность “inny” – будет не лингвистическим, а индивидуальным. Фонетист может, используя автоматический редактор речи типа “Sound Forge”, отделить “enny” в
тот момент произнесения гласного звука, в который коартикуляционное воздействие согласных “j” и “p” является минимальным.
Изофонетические сравнения эффективны при сопоставлении
речевых образцов, принадлежащих большому числу говорящих,
поскольку даже фрагмент, состоящий из трех секунд звучания, может содержать около десятка слогов и двадцати фонетических единиц и тем самым обеспечить необходимый материал для отграничения искомого говорящего от всего множества других говорящих.
Разработчики рассматриваемой методики приводят следующий пример судебно-фонетической экспертизы условного преступления. Предположим, что поступила телефонная угроза о том, что в
Олимпийском Парке заложена бомба, которая взорвется через десять минут (“There’s a bomb in Olympic Park and it’s set to go off in
ten minutes”). С несколькими подозреваемыми в телефонном терроризме провели беседы, возможно, длительные и многочисленные,
не относящиеся к данному преступлению; эти беседы были записаны на пленку. Содержание бесед должно быть таким, чтобы подо41
Rodman R., McAllister D., Blitzer D., Cepeda L., Abbit P. Forensic speaker identification
based on spectral moments // Forensic Linguistics, 2002, 9 (1).
29
зреваемые произнесли достаточное количество изофонетических
последовательностей из криминального фрагмента – речи преступника. Например, подозреваемый сказал во время беседы: “We met
to go to the ball game”. Из этого высказывания вычленяется последовательность “[m]et to go”, изофонетичная последовательности
“[s]et to go” в криминальном образце. Следователь должен задавать подозреваемым такие вопросы, ответы на которые будут содержать искомые слова. Например, вопрос “What took place in Sydney, Australia last summer?” даст в ответе слово “Olympics”. Следователь может также прямо потребовать от подозреваемых произнести то или иное слово, либо высказывание типа “Let’s take a break in
ten minutes”. Выделенное курсивом словосочетание в этом высказывании изофонетично и изолексемно словосочетанию в криминальном образце. Конечно, возможность допроса подобного рода
зависит от наличия соответствующего закона в данном государстве,
однако ситуация описывается здесь с точки зрения судебного фонетиста и условий, необходимых для его эффективной работы.
После записи бесед, все они и криминальный образец переводятся в цифровые данные, которые загружаются в компьютер. Фонетист производит вычленение изофонетических последовательностей при помощи речевого редактора. После этого начинается компьютерная спектральная обработка каждой изофонетической последовательности – автоматическое обнаружение ее спектральных
параметров и их общий синтез в виде спектрограмм – отпечатков
голоса каждого из говорящих.
Выясняется, что, хотя все говорящие произносят одни и те же
звуки, у каждого их произнесение имеет свою специфику, и это аппаратно фиксируется. Структурный вектор артикуляции имеет базовую для каждого звука частоту, амплитуду, константу роста синусоиды, время звучания, однако эти элементы не полностью идентичны у разных говорящих. Огибающая спектра для каждого звука
имеет несколько иную форму в зависимости от говорящего.
Как уже указывалось, человеческий голос характеризуется
пластичностью – ни одна из фонаций не бывает полностью идентичной ни одной другой фонации. Поэтому и в данном случае
наблюдается вариативность внутри множества произнесений одной
и той же фонетической последовательности одним и тем же говорящим (intraspeaker variation). Например, если один и тот же говорящий десять раз произнес “et’s go”, все десять спектрограмм будут
30
несколько отличаться друг от друга. Однако эту внутреннюю вариативность удается устранить, если представить полученные результаты в двухмерном пространстве в виде следов (tracks). В этом случае все десять произнесений одного и того же говорящего сводятся
воедино – в единый общий след, то есть в усредненный контур в
виде изогнутой и изрезанной линии определенной конфигурации.
Следы одной и той же изофонетической последовательности у
разных говорящих варьируются и очень сильно отличаются друг от
друга по контуру (interspeaker variation). Это очень разные, характерные для каждого говорящего рисунки. Они отличаются по тому
месту, которое след занимает на спектрограмме, по форме следа, по
«центру тяжести» следа, по его ориентации, по занимаемой им
площади.
Контурные следы, полученные в результате анализа бесед с
подозреваемыми, совпадающие со следами криминального образца,
идентифицируют личность преступника, с учетом того, что такое
совпадение выявляется для всех изофонетических последовательностей данного образца.
Надежность этой методики еще больше повышается благодаря
ее кумулятивному характеру. В процессе анализа база фонетических данных расширяется, в системе циркулирует все больше информации, специфической для каждого говорящего, благодаря чему вероятность ошибки практически нисходит на нет. Единственное ограничение в применении этой методики – недостаточное количество фонетических данных в криминальном образце. Однако,
как отмечают разработчики, даже в таком коротком высказывании,
как “There’s a bomb in Olympic Park and it’s set to go off in ten
minutes” можно вычленить для анализа по меньшей мере 12 фонетических последовательностей. Обычно в реальных судебных делах
правоохранительным органам удается собрать объем данных, достаточный для проведения спектрального анализа. Перспективы его
применения в судебной практике выглядят обнадеживающе, тем
более, что разработки в этой области не останавливаются и в будущем можно ожидать новых впечатляющих результатов.
В этой связи показательно мнение Фрэнсиса Нолана, который
одним из первых начал исследования в области судебной фонетики
в начале 80-х гг. двадцатого века. В то время, говорит он42, он до42
Nolan F. Speaker identification: its forms, limitation, and roles. – Proceedings of the conference “Law and Language”, Dec. 2001, Finland // http://www.cus.cam.ac.uk/~fjn1/LawLang.doc
31
вольно скептически оценивал надежность судебно-фонетического
анализа. В частности, он выступал против того, чтобы судебные
фонетисты употребляли в своих экспертизах «сильные» выражения,
типа: «Мое твердое мнение, что…», «Без какого-либо сомнения я
делаю вывод, что…» и т.п. Выражения типа: «С высокой вероятностью можно утверждать, что…» он считал недопустимыми, поскольку степень вероятности вычисляется относительно всего
населения в целом, а не относительно нескольких образцов. Нолан
считал единственно правомерным для судебно-фонетического заключения выражения типа: «Является полностью возможным,
что…», поскольку, чтобы быть вероятными, факты должны вначале
быть возможными. Нолан указывал, что эксперт может к радости
своего сердца перечислить совпадения в двух образцах, но это перечисление ничего не скажет о вероятности того, что эти образцы
принадлежат одному говорящему, разве что только в них одновременно встречается редкое заикание, шепелявость, характерно низкая частота основного тона и другие редкие характеристики. Нолан
говорит, что в момент зарождения судебной фонетики он думал,
что фонетисты мало что могут доказать в суде, однако их участие
необходимо, поскольку иначе заинтересованные в фонетической
экспертизе участники процесса начнут обращаться к непрофессионалам. Такие случаи имели место – юристы обращались к звукооператорам, дилетантам, самостоятельно изучающим диалекты,
просили прослушать голос на пленке присяжных и т.п. За прошедшее время судебная фонетика добилась таких успехов – продолжает Нолан, – что сейчас он настроен оптимистично и даже считает,
что когда-нибудь удастся собрать статистические данные у всего
населения об акустических, фонетических, социофонетических и
других параметрах, и тогда голосовые улики будут включены в общую вероятностную модель преступления.
Понимание того, каким образом идентичность человека запечатлена в его голосе, нуждается в дальнейшем развитии. Анализ
фонетических фактов по каждому конкретному делу, с одной стороны, облегчает работу суда по их включению в общий баланс улик
по данному делу и одновременно делает очередной шаг в изучении
глубинных закономерностей распознания человека по голосу.
Рассмотрим в этой связи дело, получившее широкую огласку
в средствах массовой информации в Великобритании и во всем ми-
32
ре43, по которому проводили судебно-фонетическую экспертизу
Питер Френч и Филипп Харрисон44. События, как они отражены в
прессе, разворачивались следующим образом. 10 сентября 2001 г.
происходила запись шоу «Кто хочет стать миллионером?» на лондонском телевидении. Игроком был Чарльз Инграм, 39 лет, майор
королевских инженерных войск. В студии за него болела его жена
Диана, 38 лет. В этой игре Чарльз Инграм выиграл 1 миллион фунтов стерлингов. Однако шоу с его участием так и не вышло в эфир,
а участники съемочной группы обратились в полицию с иском о
своих подозрениях. У них создалось впечатление, что один из шести участников предварительного конкурса «Кто быстрее нажмет
кнопку» Теквен Уитток, 53 года, помогал Инграму давать правильные ответы при помощи кашля.
В марте-апреле 2003 г. состоялся суд по этому делу в королевском суде Саутверка, на котором в качестве главного экспертафонетиста выступал Питер Френч. Будучи представлен судье и
присяжным, Френч сказал, что он уже дважды производил судебнофонетическую экспертизу: в расследовании дела, известного как
«Кровавое воскресенье» (The Bloody Sunday Inquiry) и в расследовании преступлений, совершенных в 90-х годах двадцатого века во
время войны на Балканах. Относительно рассматриваемого дела
Френч сказал, что анализ кашля – это целина (virgin territory), практически неизученная территория и что на этом процессе он сам как
эксперт и вместе с ним суд и присяжные вспахивают эту целину,
делая в ней первую борозду (We are ploughing a virgin furrow here).
Френч разъяснил присяжным сущность методики, которой он
пользовался, чтобы получить свои выводы. Он объяснил, что такое
основной тон, каковы его составные части, что такое цифровые рекордеры, предварительные усилители звука и что представляет собой звуковая спектрография. Он также объяснил, каким образом
были распределены микрофоны в студии во время записи шоу.
Микрофоны были на ведущем Крисе Тарранте, на подозреваемом и
его жене в зале, и отдельные, не связанные с залом микрофоны были на каждом из шести участников конкурса «Кто быстрее нажмет
кнопку».
43
Millionaire Man Admits Coughs (A Bizarre Case of Cheating on Quiz Show) // BBC, 17
March, 2003; Millionaire Trio Guilty (Outcome of the “Who wants to be a Millionaire” Trial) //
BBC, 7 April, 2003.
44
French P., Harrison P. Case report: R-V-Ingram, C., Ingram, D. and Whittock, T. The Who
Wants to be a Millionaire? Fraud trial // Forensic Linguistics, 2004, 11 (1).
33
Обвинение прокрутило перед присяжными запись 19 кашляний, в которых, по его мнению, были закодированы сообщения.
Теквен Уитток признал, что это его кашель, однако отрицал, как и
супруги Инграм, обвинение в сговоре с целью получения путем
мошенничества выигрыша в 1 миллион фунтов стерлингов. Он заявил, что в день записи шоу его мучила аллергия на пыль и сенная
лихорадка. Давший показания врач Уиттока подтвердил, что тот
страдал от постоянной аллергии на пыль, сенной лихорадки и что у
него были положительные анализы на астму. Врач сказал, что аллергическое состояние Уиттока могло усугубиться из-за повышенной температуры в телевизионной студии.
Адвокат Уиттока Дэвид Обри сказал в связи с предоставленной записью кашля, что обвинение проигнорировало кашель, не
совпавший с правильными ответами, и не приняло в учет другие
моменты, когда его подзащитный не кашлял. Адвокат настаивал на
невиновности Уиттока.
Адвокат Чарльза Инграма Соня Вудли заявила о его невиновности и охарактеризовала своего подзащитного как «преданного
солдата, жившего честной, порядочной, трудовой жизнью». Выступившие в качестве свидетелей обвинения члены съемочной группы
заявили, что во время кашля подозреваемого, он показался им
умышленным, чересчур громким и наводящим Инграма на правильные ответы.
В своем выступлении в качестве свидетеля-эксперта со стороны обвинения Питер Френч сказал следующее: 1) что он полагает,
что все кашляния исходили из одной части студии; 2) в связи с
определением местоположения ясно, что кашлял один из участников предварительного конкурса «Кто быстрее нажмет кнопку» и
что совершенно непохоже на то (extremely unlikely), чтобы кашляла
единственная среди них женщина; 3) самое негромкое из прослушанных 19 кашляний было в 5 раз громче, чем любое другое кашляние из зала; 4) звуковая спектрограмма показала, что среди 19
кашляний была большая вариативность, но были также объединяющие их точки в терминах энергетической частоты (points of connection in terms of energy frequency); 5) фонетическое измерение
энергетических пиков выявило в записи произнесенное при помощи кашля слово «нет» (“no”), оно было прокашляно в тот момент,
когда Инграм склонялся в своих рассуждениях к неправильному
ответу на вопрос, стоивший 500 000 фунтов стерлингов; 6) в от34
дельной записи разговоров между участниками предварительного
конкурса «Кто быстрее нажмет кнопку» был обнаружен разговор
шепотом после того, как Инграму был задан вопрос, стоивший
250 000 фунтов стерлингов: «Какой вид одежды носит имя Энтони
Иден? (“What type of garment is an Anthony Eden?”). Мужчина с
лондонским произношением сказал: «Это шляпа. Боже, хотел бы я
быть там сейчас» (“It’s a hat. Jesus, I wish I was up there”). Мужчина
с уэльским акцентом повторил (Теквен Уитток проживает в Кардиффе): «Это шляпа, да это шляпа» (“It’s a hat, yes it’s a hat”). И
сразу же последовало специфическое кашляние под номером 11.
Таковы были основные пункты экспертного заключения,
предоставленного суду фонетистом Питером Фрэнчем. Следует отметить, что Френч строго придерживался указанного выше принципа – он не употреблял «сильных» языковых выражений, говорящих о его уверенности в том, что кашлял именно подозреваемый.
Теквен Уитток активно защищался и заявлял, что любые корреляции между его кашлем и выбором ответа Чарльзом Инграмом были
совпадениями. Когда Питеру Френчу задали вопрос, исходили ли
все кашлянья от подозреваемого, он ответил, что ему бы было затруднительно выбрать определенного человека (“Listening to them
all, I would be hard put to pick the odd man out”). Таким образом, судебный фонетист квалифицированно собрал и проанализировал
имеющиеся фонетические данные, но, поскольку применяемая им
методика не предполагала сравнительного анализа образцов по вероятностной модели, он мог говорить лишь о фактах, но не о личности преступника.
Все подсудимые были единогласно признаны виновными жюри присяжных после трех дней размышлений. Муж и жена Инграм
были оба приговорены к штрафу и 18 месяцам тюрьмы условно;
Уитток был приговорен к штрафу и 12 месяцам тюрьмы условно (в
обоих случаях с испытательным сроком в два года). При оглашении
приговора судья Джеффри Ривлин сказал, что они публично опозорили себя и сравнил их преступление с убогой выходкой школьников.
Ведущий шоу «Кто хочет стать миллионером?» Крис Таррант
сделал заявление, в котором назвал сговор с целью обмануть шоу
очень циничным планом, мотивированным чистой жадностью. Этот
план, по его мнению, чрезвычайно оскорбителен для сотен других
35
участников, которые приходят на это шоу, чтобы честно выиграть
свои деньги.
Можно предположить, с определенной долей уверенности, что
эти весьма интеллектуальные и хорошо образованные люди спланировали свое преступление как «идеальное» – ведь Теквен Уитток
действительно был аллергиком, а если бы кто-то заподозрил его
(как это и произошло), то презумпция невиновности и невозможность доказать, что кашель был секретным кодом, заставили бы в
конце концов руководство программы выплатить якобы выигранную сумму в 1 миллион фунтов стерлингов. Тем не менее преступники ошиблись – правоохранительные органы Великобритании
оказались подготовленными к этому «идеальному» преступлению,
начав применять в своей практической деятельности судебнофонетическую экспертизу. Приговор по данному делу базировался
в основном на доказательствах, добытых судебными фонетистами.
Применение подобных продвинутых технологий отвечает духу современности. Современные люди уважают себя и защищают свои
права. Что почувствовали бы члены съемочной группы, если бы им
пришлось под давлением обстоятельств пойти на поводу у мошенников? Они почувствовали бы себя незащищенными со стороны
правоохранительной системы. Однако этого не произошло благодаря проведенной судебно-фонетической экспертизе.
Таким образом, даже если применение судебно-фонетической
экспертизы ограниченно и она требуется в каких-то единичных и
уникальных случаях, она необходима для всеобъемлющего ответа
гражданского общества и его правоохранительной системы на вызовы преступного мира, необходима для того, чтобы ни одно преступление не осталось нераскрытым и безнаказанным.
Вопросы для повторения
1. Что такое спектрограмма?
2. Что такое отпечаток голоса и какова история этого термина?
3. Что представляет собой фонетическое профилирование говорящего?
Темы для дискуссии
36
1. Что вы думаете по поводу возможностей и перспектив применения спектрального анализа в судебно-фонетической экспертизе? Существуют ли надежные методики такого анализа?
2. Может ли судебно-фонетическая экспертиза принести какую-либо реальную пользу в раскрытии преступлений? Известны
ли вам примеры подобных экспертиз?
37
Лекция 4
Автоматическое распознавание
говорящего по голосу
Рассмотренные выше два вида судебно-фонетической экспертизы – на основе профессионального аудирования и на основе анализа спектрограмм – оба предполагают участие человека, фонетиста-эксперта. В профессиональном аудировании задействован лишь
сам эксперт, использующий свои знания для анализа конкретных
языковых фактов. Для получения спектрограммы эксперт использует в процессе проведения экспертизы определенные технические
устройства, а затем интерпретирует полученные результаты. Автоматическое распознавание говорящего по голосу не предполагает
участия человека – компьютер, действующий по определенной
программе и на основе определенной базы данных, должен сам
определить, кто говорит.
Современные системы распознавания голоса используются в
деятельности коммерческих и правоохранительных структур. В
коммерческих структурах их основное назначение – ограничить доступ на ту или иную закрытую для посторонних территорию. Хотя
доступ на закрытые территории может быть проконтролирован и
ограничен с помощью замков, магнитных карт, систем сигнализации, заборов и ограничений, просматриваемых подъездных зон,
камер слежения и т. д., все эти средства не являются абсолютно
надежными. Ключи и магнитные карты можно потерять, они могут
быть украдены, замки могут быть взломаны, система ограждений
преодолена. Особенно часто это происходит благодаря так называемому человеческому фактору, когда у злоумышленника имеется
сообщник на охраняемой территории.
Распознавание говорящего по голосу дает альтернативный или
дополнительный контроль доступа на охраняемую территорию. Голос, в отличие от замков и шифров, нельзя украсть или на время
передать другому человеку. Это устраняет для владельцев закрытых территорий проблему вербовки злоумышленниками сообщников из числа их сотрудников. Правда, хотя голос нельзя украсть,
его можно подделать под голос того или иного сотрудника, поэтому применяемая система распознавания говорящих должна иметь
защиту против этого. Защита обеспечивается варьированием тек38
ста, который должен произносить входящий человек. Соединение
этих двух факторов – распознавания голова и распознавания содержания речи – значительно повышает надежность системы допуска.
Кроме физических охраняемых территорий в охране нуждаются компьютерные системы, в частности доступ к ним через терминалы, телефонные линии и т. д. Обычная система контроля допуска связана здесь с необходимостью знать пароль или личный
идентификационный номер. Однако, современная жизнь такова,
что криминальная деятельность становится все более интеллектуальной. Ведется изощренный промышленный и коммерческий
шпионаж, в котором бывают задействованы опытные программисты, взламывающие самые защищенные системы. Хакеры находят
способы доступа в базы данных банков, коммерческих предприятий, государственных учреждений и даже спецслужб. Поэтому во
многих организациях внедрение систем распознавания пользователей по голосу становится жизненно необходимым, поскольку оно
обеспечивает надежную безопасность компьютерных сетей.
В правоохранительных структурах автоматическое распознавание говорящего по голосу необходимо для идентификации авторов записанных на пленку сообщений, чьи голоса хорошо известны
правоохранительным органам (типичный пример – идентификация
голоса разыскиваемого террориста Усамы бен Ладена, который регулярно выступает с угрозами в адрес США и других стран; аутентичность этих сообщений каждый раз официально подтверждается
или опровергается правительственными органами США).
Автоматическое распознавание говорящего по голосу может
помочь определить преступника, требующего выкуп по телефону за
человека, при условии, что преступник находится в числе круга подозреваемых, чьи голоса могут быть записаны (тайно или открыто)
для введения в компьютерную программу опознания.
Эта программа может помочь также в опознании телефонных
террористов, поскольку она эффективно действует не только в выборе голоса из ограниченного количества других голосов, но и из
их большего количества. С ее помощью можно, к примеру, определить школьника или студента, терроризирующего свое учебное заведение ложными звонками о заложенной в нем бомбе.
Результаты автоматического распознавания голоса не всегда
абсолютно доказательны, тем более, они не всегда с готовностью
39
принимаются как доказательства в суде, но они направляют следствие, а именно: от совершенно неподходящих, маловероятных подозреваемых к более вероятным подозреваемым. Как и все другие
технологии судебно-фонетического анализа, эта технология постоянно совершенствуется, а судебные органы начинают понимать ее
перспективность. Новой областью ее применения становится
предотвращение краж мобильных телефонов, которые во всем мире
приняли угрожающие масштабы. В некоторых странах эта система
практикуется как одно из средств контроля за передвижениями человека, находящегося под домашним арестом.
Разработки по автоматическому распознаванию голоса начались в 60-х гг. двадцатого века, однако первые успешные функционирующие системы появились позже – в 80-х гг. двадцатого века.
Первой компьютерной программой, используемой для автоматического распознавания голоса, была программа калибровки временных и частотных фонетических параметров, извлеченных из речевого сигнала. Эта программа действует на базе большого количества структурных векторов, полученных от каждого известного системе говорящего. Средние и варьирующиеся показатели каждого
компонента вектора создаются отдельно для каждого вводимого в
компьютер голоса после соответствующей обработки фрагмента
речи. Проблема сходства голосов решается за счет введения критериев дистанцирования генерализованных структурных векторов
друг от друга45.
Скрытые модели Маркова (Hidden Markov Models) также используются для распознавания говорящих; их вероятностная природа позволяет им более точно, чем остальным моделям, распознавать вариативные характеристики речи. В последние годы начали
использоваться искусственные нейронные сети (Artificial Neural
Networks). В таких системах для каждого говорящего создается отдельная саморазвивающаяся сеть. Каждая сеть обучена активизироваться на выходе только для своего говорящего. Для идентификации голоса его входящий вектор «прогоняется» через всю систему,
через все имеющиеся сети. Сеть с наиболее высокими показателями
соответствий на выходе определяет идентификацию46.
45
Furui S. Research on individuality features of the speech waves and automatic speaker recognition techniques // Speech Communication, 1986, 5 (2).
46
Lee C.-H., Soong F.K., Paliwal K.K. Automatic Speech and Speaker Recognition: Advanced
Topics. Norwell, MA: Kluwer Academic Publishers, 1996.
40
В математических терминах идентификация говорящего – это
определение того, кто из множества известных системе говорящих
более всего похож на неизвестного говорящего, чье высказывание
X дано системе на входе. Это множество может быть закрытым
(closed set) и открытым (open set)47. Система, работающая по принципу закрытого множества, предполагает, что незнакомец обязательно находится в нем. При классификации говорящих система
устанавливает, что незнакомец – «один из наших». Это актуально, в
частности, для организации пропускного режима. При индивидуации говорящих система устанавливает, что незнакомец – «тот, кто
нам нужен среди этих людей». Идентификация говорящего по его
высказыванию X в системе, действующей по принципу закрытого
множества, происходит по формуле X[1…N].
Система, работающая по принципу открытого множества,
предполагает, что незнакомец, произнесший высказывание X, может быть, либо не быть в множестве известных системе говорящих.
Идентификация в данном случае происходит по формуле
X[0,1…N], где X=0 означает, что неизвестный говорящий не принадлежит к имеющемуся в системе множеству говорящих.
Автоматическое распознавание говорящего тесно связано с
автоматическим распознаванием речи. Фактически распознавание
говорящего является особой, дополнительной областью распознавания речи и во многом строится на тех же компьютерных методах.
Однако распознавание речи (например, пароля на входе) не должно
зависеть от говорящего, то есть программа должна целенаправленно игнорировать любые специфические характеристики говорящего
и концентрироваться на тех аспектах речевого сигнала, которые
важны для синтеза единого смысла (в частности, смысла пароля).
Программа распознавания говорящего, наоборот, должна усиливать специфику его речи и быть сосредоточенной на тех фонетических признаках, которые индивидуализируют данного человека,
отграничивают его от всех остальных. Как и в случае перцептивного распознавания, когда, чем лучше мы знаем человека, тем легче
узнаем его голос, так и в случае компьютерного распознавания, чем
больше база данных о характеристиках каждого голоса, тем больше
уверенности, что так «звучит» именно этот человек.
Системы распознавания голоса могут быть зависящими и
независящими от текста. Зависящие от текста системы обучаются
47
Там же.
41
на основе того, что каждый говорящий начитывает в соединенный с
компьютером микрофон короткий, специально составленный текст.
Обычно это одно высказывание, состоящее не более чем из нескольких слов. Текст может быть повторен два-три раза, но больше
не требуется – современные системы являются быстрообучающимися. Во время фазы распознавания говорящий должен произносить этот же самый текст. В процессе автоматической обработки из
имеющегося множества текстов {T1...Tn} выделяются их акустические характеристики. Таким же образом из предъявленного на входе текста выделяются его акустические характеристики. При помощи алгоритма сравнения устанавливается, похож ли какойнибудь из наборов характеристик {T1...Tn} на набор характеристик
предъявляемого текста. Идентификация основана на сходстве акустических характеристик и может быть установлена с тем или
иным вероятностным коэффициентом ошибки.
Независящая от текста система способна идентифицировать
говорящего даже в том случае, если произнесенный им текст не содержится в компьютерной базе данных. Однако такая система требует, чтобы весь диапазон звуков, производимых данным говорящим, был учтен.
Для улучшения работы системы распознавания в ней предусматривается система верификации распознанного говорящего. Система верификации должна не допускать двух типов ошибки: ошибочного недопуска и ошибочного допуска. Ошибочный недопуск
происходит, в частности, когда система не пропускает на охраняемую территорию человека, имеющего на это право. Более серьезной ошибкой является ошибочный допуск. Это происходит тогда,
когда система пропускает нарушителя, человека, не имеющего права вхождения на территорию. Проектировщики систем верификации говорящих должны программировать критерии решения о допуске таким образом, чтобы ошибочный допуск встречался максимально редко, но чтобы это не привело к недопустимо высокому
уровню ошибочного недопуска.
Система распознавания голоса, действующая по принципу закрытого множества, должна просто выбрать из него известного говорящего, который ближе всего по своим голосовым данным к неизвестному говорящему, которого система должна идентифицировать. По этой причине в закрытом множестве не должно быть конкурентов – очень похожих друг на друга голосов.
42
Идентификация говорящего по принципу открытого множества гораздо сложнее и менее эффективна, чем идентификация по
принципу закрытого множества. В этом случае система действует
следующим образом. Вначале происходит выбор в закрытом множестве какого-либо «победителя» – голоса, наиболее близкого к
устанавливаемому. Затем следует процедура верификации, с помощью которой проверяется соотношение между «незнакомцем» и
«победителем». Результатом служит один из двух ответов: «Незнакомый голос – это голос-победитель» либо «В данном множестве
незнакомого голоса нет».
В программах для открытых множеств предусмотрен так
называемый порог дистанцирования (distance threshold). Если ни
одна из анализируемых акустических характеристик не проникает
за этот порог, тогда компьютер устанавливает зависимость Г=0, то
есть определяет, что данного голоса в его банке голосов нет.
Для судебного автоматического распознавания голоса имеет
значение ряд факторов48. Самый главный фактор состоит в том, что
это должно быть распознавание по принципу открытого множества;
то есть должна учитываться возможность того, что никто из подозреваемых не произносил записанной на пленку криминальной речи. То же время некоторые дела требуют только закрытого множества, например, в случае промышленного шпионажа, связанного с
прослушиванием телефонной линии, доступ к которой имеет ограниченный круг людей, в случае сексуального домогательства или
оскорблений на расовой почве со стороны знакомого человека и т.
п.
Во-вторых, система судебного автоматического распознавания
голоса должна быть способной анализировать очень короткие
фрагменты звучащей речи, возможно, менее пяти секунд звучания.
Преступники часто умышленно стараются оставлять краткие сообщения; краткими могут оказаться и сообщения, полученные оперативным путем, например, работающим под прикрытием агентом.
В-третьих, система судебного автоматического распознавания
голоса должна быть способной функционировать даже тогда, когда
в записанном фрагменте речи содержатся фоновые шумы. Шумы
возникают, если во время записи в комнате или на улице было
шумно, если магнитофон был у агента под одеждой, если говоря48
Special Issue on Speaker Recognition and its Commercial and Forensic Applications // Speech
Communication, 2000, 31 (2-3).
43
щий пользовался радиопередатчиком и т.д. Записанные данные могут быть изменены каналом передачи сообщения, например, на запись телефонного разговора может повлиять плохое качество телефонных сетей. Судебная система распознавания не может функционировать только в идеальных условиях, как коммерческая, и
должна уметь работать как с «чистыми», так и с «грязными» данными.
В-четвертых, судебная система должна быть независящей от
текста. Другими словами, идентификация голоса должна производиться без того, чтобы заставлять подозреваемого повторять криминальный текст. Даже если бы это было разрешено законом, то
это бы вряд ли помогло. Подозреваемый в этом случае, скорее всего, попытается изменить голос (возможно изменение ритма путем
изменения длины гласных звуков и ударений, переход на другой
диалект у би- и мультидиалектных говорящих, имитация акцента и
т. п.).
Судебная система распознавания говорящего является более
сложной по сравнению с коммерческой по целому ряду факторов.
Однако у нее есть и преимущество. В отличие от коммерческой системы у нее есть время; от нее не требуется мгновенный ответ,
мгновенная идентификация голоса. Возможно проведение расширенного анализа, сбор новых данных. Каждая вновь полученная
звуковая последовательность может внести свой вклад в процесс
различения фонетических структур и идентификации говорящего.
Автоматическое распознавание говорящего – широкая и
сложная проблема; дальнейшие разработки в этой области связаны
с развитием систем, способных функционировать в самых различных условиях, в том числе и неблагоприятных.
Вопросы для повторения
1. Чем отличается автоматическое распознавание говорящего
по голосу от профессионального аудирования и анализа спектрограмм?
2. Когда начали разрабатываться системы автоматического
распознавания говорящего и какие компьютерные программы в них
применяются?
44
3. В чем состоит отличие систем, работающих по принципу
закрытого множества, от систем, работающих по принципу открытого множества?
4. Чем отличаются друг от друга системы зависящие и независящие от текста?
Темы для дискуссий
1. В каких областях жизни применяются системы автоматического распознавания говорящего по голосу? Выскажите ваше мнение о целесообразности их использования.
2. Какие факторы имеют значение для судебной системы автоматического распознавания говорящего по голосу?
45
Лекция 5
Распознавание умышленно измененного голоса
Обычный сценарий судебно-фонетического расследования заключается в следующем: 1) имеется криминальный текст – запись
звучащей речи, ассоциируемой с преступлением (например, запись
с угрозой о готовящемся теракте); 2) определяется группа (открытое или закрытое множество) подозреваемых, у которых берутся
образцы голоса; 3) проводится слуховой анализ или анализ с использованием технических средств, доказывающий вероятность того, что один из подозреваемых является говорящим на пленке или
ни один из подозреваемых не является таковым.
На практике оказывается, что преступники часто умышленно
изменяют свои голоса. В лингвистических терминах умышленное
изменение голоса (voice disguise) заключается в том, что Fx, то есть
акустические признаки криминальной речи переделываются таким
образом, чтобы они как можно меньше походили на Ffactual, то есть
на подлинные акустические признаки неизмененного, нормального
голоса49.
Умышленное изменение преступником своего голоса вносит
дополнительные сложности в проведение судебно-фонетического
расследования. От эксперта, осуществляющего профессиональное
аудирование, требуется умение отличать на слух нормальные голоса от измененных, определять причины, вызвавшие изменение голоса, устанавливать соотношение между нормальным и измененным голосом и давать общую характеристику нормального голоса
на основе измененного. Эксперт, применяющий технические средства, должен уметь пользоваться имеющимися компьютерными
программами по распознаванию умышленно измененного голоса,
интерпретировать спектрограммы измененного голоса и определять
на их основе базовые характеристики нормального голоса данного
говорящего.
Как слуховой, так и технический анализ умышленно измененного голоса является на настоящий момент несовершенным и во
многом основанным на профессиональной интуиции экспертафонетиста. Поэтому его результаты могут пока быть приняты лишь
49
Künzel H. Effects of voice disguise on speaking // Forensic Linguistics, 2000, 7 (2).
46
в качестве предварительных, направляющих следствие от маловероятных к более вероятным подозреваемым. Однако, как и все другие направления судебной фонетики, этот вид судебнофонетического анализа интенсивно развивается, что обещает в скором времени появление новых технологий в этой области.
Под изменением голоса в судебной фонетике понимается любое отклонение от нормального голоса, вне зависимости от его
причин. Это определение несовершенно, однако им приходится
пользоваться в виду отсутствия других определений. Во-первых,
оно несовершенно, поскольку базируется на таких трудно определимых понятиях, как норма и аномалия. Во всех сферах жизни граница между нормой и аномалией может быть как четкой, так и размытой. Например, врач в своей области медицины может определить границу между нормальным состоянием человеческого организма и болезнью, производитель того или иного продукта знает
разницу между его нормальным и ненормальным (плохим, неудачным, некачественным) образцом. В повседневной жизни мы все
«видим» разницу между нормальным и девиантным поведением,
нормальным и необычным ростом или весом человека, «нормальной», то есть обычной, как у всех, и необычной одеждой и т.д. С
другой стороны, наше восприятие нормы и аномалии субъективно,
границы этих понятий часто размыты и сильно варьируются – то,
что для одного человека норма, для другого может быть аномалией.
Во-вторых, определение измененного голоса через понятие
отклонения от нормы несовершенно, поскольку оно не объясняет,
является ли нормальным голос человека в состоянии болезни
(например, ангины), эмоционального возбуждения, алкогольного
или наркотического опьянения. Для человека естественно модифицировать свой голос в процессе общения – повышать его, переходить на крик, на шепот, заставлять его звучать особым образом –
успокаивающе, ласково, умиротворенно, угрожающе, презрительно, насмешливо и т. п.
На интуитивном уровне мы понимаем, что нормальный голос
у нас самих, как и у каждого другого человека, существует – это,
так сказать, наш голос «номер один», которым мы разговариваем
большую часть времени. Наш модифицированный голос (в состоянии болезни, стресса и т. д.) тоже воспринимается как нормальный
для соответствующего состояния (это наш нормальный шепот, крик
и т. д.). Именно эти параметры, как указывалось выше, определя47
ются при фонетическом профилировании говорящего, когда эксперт определяет, находился ли он в спокойном или возбужденном
состоянии, был ли он трезв или в состоянии опьянения и т. д.
В качестве критерия нормального голоса можно признать его
спонтанность, которая означает, что в процессе артикуляции и фонации человек не контролирует голосообразование ни при помощи
волевых усилий, ни при помощи определенных приемов или приспособлений. Голос, изменившийся благодаря особому состоянию
человеческого организма, однако остающийся при этом спонтанным, следует считать нормальным для данной модификации
(например, нормальным голосом данного конкретного человека для
состояния алкогольного опьянения).
Голос, изменившийся естественным образом, следует отличать от умышленно измененного голоса. Такой голос для человека
аномален. Критерием аномального голоса является его контролируемость. Человек не может говорить умышленно измененным голосом спонтанно, не концентрируя на нем внимания и не делая над
собой усилий.
Итак, нормальный голос у каждого человека существует – это
неконтролируемый им его спонтанный голос, который может изменяться в зависимости от различных состояний его организма.
Умышленно измененный голос – это голос, контролируемый осознанными усилиями воли, а также при помощи определенных
ухищрений, приспособлений и технических средств.
Изучение умышленно измененного голоса началось в 70-х гг.
двадцатого века с анализа голосовой имитационной деятельности
профессиональных подражателей50. Подражание – это не только
изменение человеком своего голоса, но также и его попытка представить и сделать узнаваемым голос другого говорящего. Было обнаружено, что профессиональные подражатели (в частности, пародисты, играющие роль другого человека, агенты спецслужб и т. д.)
должны иметь особый талант к подражанию, наподобие таланта,
который имеют профессиональные певцы к пению. Как и в случае с
пением, с талантом к подражанию нужно родиться, его нельзя приобрести по своему желанию, а можно только развить и усовершен50
Lummis R.C., Rosenberg A.E. Test of an automatic speaker verification method with intensively trained professional mimics // Journal of the Acoustical Society of America, 1972, 51; Hall
M., Tosi O. Spectrographic and aural examination of professionally mimicked voices // Journal
of the Acoustical Society of America, 1975, 58.
48
ствовать. Подражатели имеют очень гибкий речевой аппарат – хорошую динамику мышц языка, губ, мягкого нѐба, гортани, дыхательной мускулатуры. У них лучше, чем у обычных людей, развита
дыхательная функция, в связи с чем артикуляция, то есть произнесение звуков, и фонация, то есть их голосовое сопровождение,
имеют расширенный и гибкий диапазон. Двигательные жесты другого человека находят у подражателя адекватную акустическую
выраженность. Подражатель может воспроизводить у себя те же
самые позиции, которые занимают речевые органы другого человека при образовании определенных звуков и звуковых последовательностей. Он умеет также имитировать громкость, мелодику и
временную протяженность, свойственную процессу речепорождения другого человека. Как уже указывалось, современные системы
допуска на охраняемые территории, работающие по технологии автоматического распознавания говорящего, могут оказаться бессильными перед хорошим подражателем. Это свидетельствует о
том, что хороший подражатель с высокой точностью воспроизводит характерные признаки речевой артикуляции и интонации имитируемого им человека.
В судебной сфере подражание голосу конкретного говорящего
может происходить в случаях, связанных с подменой человека
(например, с подменой говорящего по телефону). Однако чаще всего преступники не подражают кому-либо конкретно, а изменяют
свой голос по принципу «как получится», пользуясь разнообразными приемами.
В литературе описываются следующие приемы:
1. Зажатые ноздри. При этом происходит повышение основного тона, повышение назальности, изменение интонации, переход на
фальцет, голос воспринимается как искусственный, «инопланетный», как некий диалект или голос с «иностранным» акцентом.
2. Сжатые челюсти. При этом происходит понижение основного тона, изменение в ударении, голос воспринимается как «гулкий», «бормочущий», как голос с необычным, странным акцентом.
3. Неподвижный язык, с двумя вариантами: суженной или чересчур открытой ротовой полостью. Говорящий воспринимается
как имеющий дефект речи или умственно отсталый человек.
4. Втянутые щеки. При этом происходит повышение назальности. Человек воспринимается как говорящий с придыханием;
49
иногда мужчина, использующий этот прием, воспринимается как
гомосексуалист или трансвестит.
5. Вытянутые вперед губы. При этом происходит замедление
темпа речи, придыхание, иногда такая речь воспринимается как
шепот или речь умственно отсталого человека.
6. «Объекты во рту»; «С трубкой во рту». Если трубка находится глубоко, то голос воспринимается как скрипучий, если трубка неглубоко, имитируется шепелявость, речь с дефектом.
7. «Разное»: говорение через платок, со стуком зубов, причмокиванием, имитация акцента, диалекта, речи в состоянии алкогольного опьянения и т. п.
В последнее время в коммерческой сфере появились технические средства изменения голоса, так называемые войсченджеры
(voice changers). Их работу можно наблюдать, в частности, по телевидению, когда по просьбе интервьюируемого при съемках затемняют его изображение и изменяют его голос. Это необходимо в тех
случаях, когда, например, говорит секретный сотрудник спецслужбы или просто человек, который не хочет, чтобы его узнали по голосу. Применение войсченджеров оправдано в тех организациях,
сотрудникам которых приходится озвучивать неприятные для собеседника решения – об увольнении, отказе от контракта, выселении,
конфискации имущества и т.п. Когда имеются опасения относительно возможного агрессивного реагирования со стороны собеседника, применение войсченджера в общении с ним становится
одним из средств обеспечения личной безопасности. Забота о ней
является приоритетом жизни современного человека, поэтому применение соответствующих технических средств (камер слежения,
определителей телефонного номера, речезаписывающих устройств,
а сейчас и войсченджеров) вполне объяснимо.
В войсченджерах производится изменение основного тона голоса при сохранении его темпа. При этом войсченджер дает вполне
естественно звучащий голос (например, женщина через войсченджер может говорить как мужчина, басом). Это становится возможным благодаря использованию алгоритмов, растягивающих или
сжимающих фрагменты звучащей речи. При растягивании некоторые, не очень важные фрагменты (паузы хезитации), удаляются, в
этом случае основной тон понижается, а естественный темп речи
сохраняется. В случае сжатия некоторые фрагменты повторяются
дважды, при этом основной тон повышается.
50
Преступник, использовавший войсченджер, может оказаться
за пределами идентификации, поскольку даже опытный фонетист
может не обнаружить на слух такой прием изменения голоса. Однако пока массового использования подобных технических
устройств в криминальной деятельности не зафиксировано. Преступники продолжают применять, в основном, традиционные приемы умышленного изменения голоса, перечисленные выше.
Статистики относительно доли преступлений с умышленным
изменением голоса в общем количестве преступлений, в которых
преступник мог опасаться, что его голос будет записан, не существует. Однако имеются исследования относительно некоторых
стран.
За период с 1989 по 1994 гг. в Германии преступник умышленно изменял голос в 52% преступлений, при совершении которых
он мог ожидать, что его голос записывается на пленку. В делах,
связанных с шантажом, этот процент был особенно высоким – 69%.
Из числа тех преступников, которые умышленно изменяли свой голос, 55% использовали какой-то один прием, например, подражание иностранному акценту, изменение высоты естественного тона и
т.п. Оставшиеся 45% использовали сразу несколько приемов, в
частности 15% изменяли фонацию и интонацию, еще 15% – фонацию и артикуляцию, оставшиеся 15% – артикуляцию и интонацию51. В Бразилии умышленное изменение голоса преступником
типично для ситуаций, в которых он может ожидать, что его голос
будет записан. В последние годы в Бразилии возрос процент похищений людей с целью выкупа (kidnapping); в большинстве таких
преступлений требования о выкупе делаются умышленно измененным голосом52.
Хотя для других стран статистики нет, есть основания полагать, что вряд ли она будет существенно отличаться от приведенных цифр и что подобная ситуация в эпоху глобальной интеграции
и прозрачности границ одинакова везде в мире.
Исследования умышленно измененного голоса в судебной фонетике идут по трем основным направлениям: 1) изучается соотношение нормального и умышленно измененного голоса; 2) анализируется способность непрофессиональных слушающих определять
51
Masthoff H. A report on a voice disguise experiment // Forensic Linguistics, 1996, 3 (1).
Figueiredo de R.M., Suoza Britto de H. A report on the acoustic effects of one type of disguise
// Forensic Linguistics, 1996, 3 (1).
52
51
умышленно измененный голос и его типы; 3) ведутся разработки по
автоматическому распознаванию умышленно измененного голоса.
Поскольку исследования в этой области находятся пока на начальном этапе, все эти три направления представлены лишь единичными работами.
В рамках первого из указанных направлений ведется поиск
корреляций между нормальным и умышленно измененным голосом. Так, Херманн Кюнцель установил, что умышленно измененный голос содержит в себе ключи к неизмененному, нормальному
голосу данного человека. Он провел долгосрочный эксперимент,
продолжавшийся полгода, в котором принимали участие 100 испытуемых. В течение этого срока, с перерывами, каждый из испытуемых пять раз начитал один и тот же текст: первый раз своим нормальным голосом, а затем по два раза одним из типов умышленно
измененного голоса. Типы изменения голоса, предложенные участникам на выбор, включали в себя: 1) повышение частоты основного
тона; 2) понижение частоты основного тона; 3) повышение назальности посредством зажатия ноздрей. Эксперимент фокусировался
на исследовании частоты основного тона (FO). Результаты эксперимента показали, что испытуемые, действительно, были способны
устойчиво изменять частоту своего основного тона в соответствии
с выбранным ими типом подделки голоса. Наблюдалось устойчивое
соотношение между FO нормального голоса говорящего и типом
подделки голоса, избираемым им для условного инкриминирующего звонка по телефону. Говорящие с показателями FO выше средних были склонны к еще большему их увеличению. Другими словами, люди с высоким голосом еще больше повышали его основной
тон – женщины начинали «пищать», мужчины переходили на
фальцет. Говорящие с показателями FO ниже средних еще больше
понижали их и начинали говорить скрипучим голосом (creaky
voice). Женщины, в отличие от мужчин, неохотно изменяли свой
основной тон, кроме того, наблюдались гендерные различия в выборе артикуляторных стратегий при изменении голоса. В целом,
эксперимент подтвердил, что умышленно измененный голос имеет
устойчивые корреляции с нормальным голосом человека; эти корреляции необходимо выявлять и систематизировать 53.
В качестве еще одного примера можно привести эксперимент
Сильвии Мусмюллер по изучению соотношения скрипучего и нор53
Künzel H. Effects of voice disguise on speaking // Forensic Linguistics, 2000, 7 (2).
52
мального голоса. Эксперимент базировался на предположении, что
женщина при совершении преступления может имитировать мужской голос. Это ведет, с одной стороны, к понижению частоты основного тона и, с другой стороны, к продуцированию скрипучего
голоса в целом или «скрипучести» протяженных звуковых фрагментов в общем речевом сообщении. Было проведено сравнение
750 скрипучих и нормальных гласных у нескольких женщин. Оказалось, что женские скрипучие гласные отличались от их же нормальных гласных по второй форманте; изменений в третьей форманте при этом не наблюдалось54. Каждый из подобных экспериментов вносит свой вклад в изучение природы умышленно измененного голоса и устойчивых моделей его взаимодействия с нормальным голосом.
Относительно способности непрофессиональных слушающих
определять факт умышленного изменения голоса было установлено, что такой голос фиксируется воспринимающими как неестественный, странный, необычный. На вопрос к воспринимающим о
причине, вызвавшей, по их мнению, необычность услышанного голоса, были получены ответы об общей странной манере говорения,
странности звуков, странном ударении и т.д.55. Другими словами,
как бы ни старались люди, умышленно изменяющие свой голос,
чтобы он звучал естественно, это у них не получается – такой голос
воспринимается окружающими как аномальный.
Ответ на вопрос, почему это происходит, заключается в том,
что по своим основным спектральным параметрам поддельный голос имеет много общего с нормальным голосом данного человека.
Джон Олссон описывает случай, когда преступник, чьим родным
языком был английский, имитировал немецкий акцент, произнося
требование о выкупе. Анализ спектрограмм показал, что общая
структура ударений в криминальной речи соответствовала английскому языку. Форманта F1 на спектрограммах голоса подозреваемого без «акцента» и с «акцентом» была в одной и той же позиции.
Длина слогов на обеих спектрограммах была одинаковой. Олссон
отмечает, что люди укоренены в своем голосе как таковом (stuck
with their voice as it is) и именно это делает любую подделку неесте54
Moosmüller S. The influence of creaky voice on formant frequency changes // Forensic Linguistics, 2001, 8 (1).
55
Reich A.R., Duke J.E. Effects of selected vocal disguise upon speaker identification by listening // Journal of the Acoustical Society of America, 1979, 66; Reich A.R. Detecting the presence
of vocal disguise in the male voice // Journal of the Acoustical Society of America, 1981, 69.
53
ственной. Голос, в котором человек укоренен, прячется за поддельным голосом, просвечивает через него, делает его двойственным,
что и фиксируется в процессе восприятия56.
Исследования по компьютерной обработке умышленно измененного голоса малочисленны по сравнению с работами по автоматическому распознаванию голоса в целом; в основном, анализ того,
каким образом компьютер может быть запрограммирован для
определения умышленно измененного голоса и его типа, бывает
включен в такие работы в виде небольших подразделов.
Отмечается57, что перед началом процедуры автоматического
распознавания голоса необходимо понять, не прибег ли говорящий
к умышленному изменению голоса. Компьютерная система должна
суметь определить, что голос был тем или иным способом изменен.
Это можно достичь при помощи одной из двух технологий: 1) компьютер может сравнить образцы нормального и измененного голоса говорящего; 2) компьютер может провести прямую обработку
параметрической информации, извлеченной из речевого сигнала, и
установить факт изменения голоса.
В обоих случаях требуется создание особых компьютерных
программ – рекогнайзеров (recognizers)58. Эти программы должны
быть способны фиксировать так называемые центроиды (centroids),
то есть контурные точки, типичные для каждого типа умышленно
измененного голоса, и их местонахождение в определенных областях параметрического пространства спектрограммы. К примеру,
факт зажатия ноздрей при говорении фиксируется на спектрограмме в виде скопления центроидов в строго заданном участке, и эта
спектральная характеристика устойчиво повторяется у всех подобных говорящих.
Программа-рекогнайзер базируется на средних спектральных
параметрах, она действует, исходя из средней частоты всех формант, средней амплитуды и ширины полосы всех формант. На этой
основе происходит дальнейшее обучение программы, целью которого должна стать ее способность к бинарному решению: неизмененный голос vs. измененный голос. Во время обучения образцы
многих типов поддельного голоса, полученные от многих говоря56
Olsson J. Forensic Linguistics. An Introduction to Language, Crime and the Law. London,
New York: Continuum, 2004. P. 184, 185.
57
Klevans R.L., Rodman R. Voice Recognition. Boston, MA: Artech House, 1997.
58
Там же.
54
щих, используются в качестве позитивного подкрепления, в то время как образцы подлинного голоса используются для негативного
подкрепления.
Одна программа-рекогнайзер вряд ли окажется способной
определить все типы подделки голоса из-за необходимости чересчур обширного обучения программы. Поэтому целесообразнее создавать отдельные рекогнайзеры для каждого типа умышленно измененного голоса. Например, можно обучить многоуровневую саморазвивающуюся нейронную сеть отличать шепот от нормы, шепот от скрипучего голоса, шепот от фальцета и т. д. Другую
нейронную сеть можно обучить различать говорение с зажатыми
ноздрями, третью нейронную сеть – различать фальцет и т. д.59
Во время обучения каждая такая сеть будет обрабатывать в
качестве позитивного подкрепления образцы речи многих говорящих, использующих один и тот же способ изменения голоса – тот
самый, распознаванию которого данная нейронная сеть и обучается. В качестве негативных примеров в рекогнайзер будут вводиться
как образцы нормальных голосов, так и голосов измененных посредством других приемов, отличающихся от усваиваемого приема.
Поскольку каждый рекогнайзер будет более специализированным,
он будет давать более точные результаты. Еще одним положительным свойством такой системы программного обеспечения является
то, что в нее могут быть введены новые типы измененного голоса
без того, чтобы кардинально менять все уже существующие программы.
В процессе распознавания образца голоса преступника он вводится во все имеющиеся в системе рекогнайзеры и определяется
как умышленно измененный голос в том случае, если какой-либо из
рекогнайзеров выдал положительный ответ.
Если говорящий использует сразу два или более типов подделки голоса, процесс распознавания усложняется. Выходом в данном случае будет обработка каждого смешанного типа по его отдельным составляющим. К примеру, фальцет и одновременное с
ним изменение голоса при помощи объекта во рту должны обрабатываться каждый по отдельности60.
Имеющиеся работы по изучению умышленно измененного голоса носят пока неполный характер и рассматривают лишь отдель59
60
Там же.
Там же.
55
ные аспекты этого сложного явления, однако они закладывают основу для дальнейших исследований и их прикладного приложения
в судебной фонетике.
Вопросы для повторения
1. Какие сложности вносит умышленное изменение голоса
преступником в сценарий судебно-фонетического расследования?
2. Что понимается под умышленно измененным голосом? Какому голосу он противопоставляется и почему? Возможно ли неумышленное изменение голоса?
Темы для дискуссий
1. Проанализируйте известные вам приемы умышленного изменения голоса.
2. По каким направлениям идут исследования умышленно измененного голоса в судебной фонетике? Каково ваше мнение о
перспективах таких исследований?
56
Литература
Александров А. С. Введение в судебную лингвистику. Нижний
Новгород: Нижегородская правовая академия, 2003.
Александров А. С., Гришин С. П. Перекрестный допрос. М.:
Проспект, 2005.
Водак Р. Язык. Дискурс. Политика. Волгоград: Перемена,
1997.
Гальперин И. Р. Текст как объект лингвистического исследования. М.: Наука, 1981.
Глинская Н. П. Западная юридическая лингвистика: Проблемы
и перспективы // Вестник МГУ. Сер. 19. Лингвистика и межкультурная коммуникация, 2003, № 4.
Златоустова Л. В., Потапова Р. К., Трунин-Донской В. Н.
Общая и прикладная фонетика. М.: Издательство МГУ, 1986.
Касевич В. Б. О восприятии речи // Вопросы языкознания,
1974, № 4.
Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М.: КомКнига, 2005.
Леонтьев А. А., Базылев В. Н., Бельчиков Ю. А., Сорокин Ю. А.
Понятие чести и достоинства, оскорбления и ненормативности в
текстах права и средств массовой информации. М.: Фонд защиты
гласности, 1997.
Плотникова С. Н. К основам судебной лингвистики: Дискурс,
представляющий собой обман // Язык в эпоху знаковой культуры.
Иркутск, ИГПИИЯ, 1996.
Потапова Р. К. На какие вопросы отвечает судебнофонетическая экспертиза? // Российская юстиция, 2000, №1.
Потапова Р. К. Сексолект как составляющая экспертной фоноскопии в криминалистике // Гендер как интрига познания. М.:
Рудомино, 2000.
Потапова Р. К. Речь: Коммуникация, информация, кибернетика. М.: Эдиториал УРСС, 2001.
Трубецкой Н. С. Основы фонологии. М.: Издательство иностранной литературы, 1960.
Фонетика и лингвокриминалистика (Интервью Г.Е. Кедровой
с проф. Л.В. Златоустовой) // Вестник МГУ. Сер. 9. Филология,
2001, № 3.
57
Юрислингвистика: Проблемы и перспективы. Барнаул: Издательство Алтайского государственного университета, 2000.
Baldwin J., French P. Forensic Phonetics, London: Printer, 1990.
Bolt R. M., Cooper F. S., David JR, E. E., Denes P .B., Pickett J.
M., Stevens K. N. Identification of a speaker by speech spectrograms //
Science, 1969, 166.
Carrol J. The use of interpreters in court // Forensic Linguistics.
1995, 2 (1).
Coulthard R. M. Forensic discourse analysis // Advances in Spoken Discourse Analysis. Ed. by R.M. Coulthard, London: Routledge,
1992.
Figueiredo de R. M., Suoza Britto de H. A report on the acoustic
effects of one type of disguise // Forensic Linguistics, 1996, 3 (1).
Fowler R., Hodge B., Kress G., Trew T. Language and Control.
London: Routledge & Paul, 1979.
Fraser H. Issues in transcription: Factors affecting the reliability of
transcripts as evidence in legal cases // Forensic Linguistics, 2003, 10
(2).
French P. An overview of forensic phonetics with particular reference to speaker identification // Forensic Linguistics, 1994, 1 (2).
French P., Harrison P. Case report: R-V-Ingram, C., Ingram, D.
and Whittock, T. The Who Wants to be a Millionaire? Fraud trial // Forensic Linguistics, 2004, 11 (1).
Furui S. Research on individuality features of the speech waves
and automatic speaker recognition techniques // Speech Communication,
1986, 5 (2).
Gibbons J. Forensic Linguistics. An Introduction to Language in
the Justice System. Oxford: Blackwell, 2003.
Hall M., Tosi O. Spectrographic and aural examination of professionally mimicked voices // Journal of the Acoustical Society of America, 1975, 58.
Hermann J. Identifying Dr. Shneider’s voice: An adventure in forensic speaker identification // Forensic linguistics, 1996, 3 (1).
Hollien H., Martin C. A. Conducting research on the effects of intoxication in speech // Forensic Linguistics, 1996, 3 (1).
Kersta L. D. Voiceprint identification // Nature, 1962, 196.
Klevans R. L., Rodman R. Voice Recognition. Boston, MA: Artech
House, 1997.
58
Künzel H. Effects of voice disguise on speaking // Forensic Linguistics, 2000, 7 (2).
Künzel H. On the problem of speaker identification by victims and
witnesses // Forensic Linguistics, 1994, 1 (1).
Ladefoged P. An opinion on “voiceprints” // UCLA Working Papers in Phonetics, 1971, 19.
Ladefoged P., Vanderslice R. The voiceprint mystique // UCLA
Working Papers in Phonetics, 1967, 7.
Lee C.-H., Soong F.K., Paliwal K.K. Automatic Speech and Speaker
Recognition: Advanced Topics. Norwell, MA: Kluwer Academic Publishers, 1996.
Levi J. Evaluating jury comprehension of Illinois capital sentencing instructions // American Speech, 1993, 65 (4).
Lummis R.C., Rosenberg A.E. Test of an automatic speaker verification method with intensively trained professional mimics // Journal of
the Acoustical Society of America, 1972, 51.
Masthoff H. A report on a voice disguise experiment // Forensic
Linguistics, 1996, 3 (1).
Moosmüller S. The influence of creaky voice on formant frequency
changes // Forensic Linguistics, 2001, 8 (1).
Nolan F. Case report: a recent voice parade // Forensic Linguistics,
2003, 10 (2).
Nolan F. The Phonetic Bases of Speaker Recognition. Cambridge:
Cambridge University Press, 1983.
Nolan F., Grabe E. Preparing a voice line-up // Forensic Linguistics, 1996, 3 (1).
Olsson J. Forensic Linguistics. An Introduction to Language,
Crime and the Law. London, New York: Continuum, 2004.
Reich A. R. Detecting the presence of vocal disguise in the male
voice // Journal of the Acoustical Society of America, 1981, 69.
Reich A. R., Duke J. E. Effects of selected vocal disguise upon
speaker identification by listening // Journal of the Acoustical Society of
America, 1979, 66.
Rodman R. Linguistics and the law: how knowledge of, or ignorance of, elementary linguistics may affect the dispensing of justice //
http://www.outreach.utk.edu/ljp/IAFL2001/robert rodman.html
Rodman R., McAllister D., Blitzer D., Cepeda L., Abbit P. Forensic
speaker identification based on spectral moments // Forensic Linguistics,
2002, 9 (1).
59
Schötz S. Towards synthesis of speaker age: A perceptual study
with natural, synthesized and resynthesized stimuli // Phonum 2003, 9.
Special Issue on Speaker Recognition and its Commercial and Forensic Applications // Speech Communication, 2000, 31 (2-3).
Svanfeldt G., Nordstrand M., Granström B., House D. Measurements of articulatory variation in expressive speech // Phonum 2003, 9.
Svartvik J. The Evans Statements: A Case for Forensic Linguistics.
Göteborg: University of Gotenburg, 1968.
Tanner P. C., Tanner M. E. Forensic Aspects of Speech Patterns:
Voice Prints, Speaker Profiling, Lie and Intoxication Detection. Tucson:
Lawyers & Judges Publishing Company, 2004.
Tiersma P. Dictionaries and death: do capital jurors understand
mitigation? // Utah Law Review, 1995, 1.
Tiersma
P.
What
is
forensic
linguistics?
//
http://www.languageandlaw.org/forensic.html
Wagner I. A new jitter-algorithm to quantify hoarseness: An exploratory study // Forensic Linguistics, 1995, 2 (1).
Yarmey D. Earwitness descriptions and speaker identification //
Forensic Linguistics, 2001, 8 (1).
Yarmey D. Earwitness identification over the telephone and in field
settings // Forensic Linguistics, 2003, 10 (1).
Плотникова Светлана Николаевна
ЛЕКЦИИ ПО СУДЕБНОЙ ФОНЕТИКЕ
Печать офсетная
Цена договорная
Тираж 100 экз.
Заказ №
Иркутск, мини-типография «Документ-сервис»
ул. Карла Маркса. 22 оф. 51
60
Download