Microsoft также активно производит сделки M&A с компаниями

advertisement
Конкурс Русских Инноваций
Аудио-визуальный распознаватель речи «Орал рекогнитор»
1. Титульная страница:
Номинация: Проект «Белой книги»
Тема проекта: Аудио-визуальный распознаватель речи «Орал рекогнитор»
Организация, представляющая проект: Руководитель проекта: Осетров Виктор Петрович, руководитель команды «Леонко», студент 4
курса МарГУ, ИФ.
2. Аннотация проекта:
Описание товара, технологии, продукта, услуги (далее - продукт)
Аудио-визуальный распознаватель речи "Орал рекогнитор" - это принципиально новое
поколение распознавателей речи, основанное на двухстороннем алгоритме аудио-визуальной
синхронизации (параллельная обработка аудио (частота голоса) и видео изображения
(определение мимики)). При этом база данных программы собирается за счет загрузки новых слов
и выражений самими пользователями (такой метод позволяет определять максимально верно
человеческую речь (решает проблемы с пониманием диалектов, сленгов, сокращений, дефектов
артикуляции и т.д.)). Для создания такой программы мы разрабатываем 4 совершенно новые
технологии:
1.Лип детекшн. Распознавание движения мимики человека. Система позволяет
определять и транслитировать мимику в зашифрованную форму сигналов. Тем самым,
обеспечивая высокую скорость работы для последующего анализа речевого потока.
2.Абертально-тембровый анализ. Декодер программы, представляющий собой
двухсторонний алгоритм, анализирующий голос (частоту) и движение мимики человека. Для
верного вычисления речевого потока создается гибрид искусственной нейронной сети со скрытой
марковской моделью. Такая система позволяет, самой программе высчитывать вероятность
определения фонем, слов и выражений.
3.Натурал спич компилар. База данных программы. При абертально-тембровом анализе
речевого потока происходит определение наиболее подходящего слова, выражения, исходя из
накопленной базы данных.
4.Спич мэйк технолоджи. Технология, позволяющая каждому пользователя быть
создателем, то есть спич мэйкером новой программы. Система позволяет пополнять базу данных
программы всем пользователям. В декодированном сжатом виде форма преобразованного
речевого потока будет поступать на сервер программы, для последующего анализа.
Пользователи, загружающие, действительно, новые слова и выражения будут всячески
поощряться. Такая политика должна способствовать более скорому накоплению большой базы
данных. А это должно, в свою очередь, обеспечить программе высокое качество распознавания
речи.
Описание рынка продукта
Потребителями нашего продукта мы видим всех пользователей компьютеров, которые
ценят свое время. Cо временем количество компьютеров еще более возрастет. Естественно
возникнет проблема управления такими системами. Так, много времени уходит на изучение
инструкции по эксплуатации или поиска необходимой информации. Система голосового
дистанционного управления поможет облегчить эту проблему. Сегодня еще не существует
программ для аудио-визуального распознавания речи. Среди аудио распознавателей речи,
наиболее известными являются: Dragon NaturallySpeaking, Windows Speech Recognition, MacSpeech
Dictate и др. Несмотря на заявляемую ими точность 98-99%, программы-конкуренты неспособны
ее достигнуть в обычных условиях, хотя бы потому, что существуют аудио помехи. Аудиовизуальный распознаватель речи априори более совершенен, чем аудио распознаватель речи.
При невысокой конечной стоимости продукта и ее высоком качестве такая программа может быть
установлена везде, где имеется компьютерная система с микрофоном и вэб-камерой.
На какой стадии находится проект в настоящее время
Проект находится на посевной стадии. В данный момент разработана матрица и
принцип работы программы. Ведутся работы над созданием технологий: лип детекшн
(распознавание движения мимики), абертально-тембровый анализ обработки аудио-визуальных
сигналов (декодер).
Описание организации выполнения проекта и вывода продукта на рынок
В течение 2010 года мы планируем завершить работу над созданием технологии Лип
Детекшн. Для реализации новой технологии мы изучаем опыт производителей цифровой фотовидео техники. Платформы arc soft smile detection, smile shutter, face detection, а также
используем мультимедийные фреймвокеры Direct show, Media foundation, quick time и другие. В
течение 2011-2012 года завершим создание абертально-тембрового анализа обработки аудиовидео сигналов. Работа в медиа-лингвистической лаборатории. Далее патентизация технологий.
Разработка опытного образца - 2013. Выход на start up стадию. Поиск стратегического инвестора.
2014 - 2015 разработка технологии Спич мэйк технолоджи. Накопление базы данных Натурал спич
компилар. 2015-2016 - выход на рынок.
Главные препятствия реализации проекта
1. Финансовая (ограниченность в материальных ресурсах). Проект держится на
энтузиазме. Члены нашей команды работают или учатся, а в свободное время занимаются
проектом;
2. Техническая. Для реализации абертально-тембрового анализа обработки фото-видео
изображения нам необходима медиа-лингвистическая лаборатория с самым современным и
качественным оборудованием.
Размер средств, необходимых для завершения проекта:
Этап
Степень
завершенности, %
Требуемая
сумма, тыс. $
Срок
выполнения, мес.
НИР
90
240
1-12
НИОКР
80
800
12-24
Создание опытного
образца
30
1900
36
Промышленная
реализация
Нет данных
360
48
Весь проект
2-3
3300
60-72
3. Информация о заявителе:
Осетров Виктор Петрович, МарГУ, ИФ, студент 4 курса
Почтовый адрес: 424 006, республика Марий Эл, г. Йошкар-Ола, ул. Деповская д.3, кв. 9
e-mail: victorosetrov@gmail.com
моб. Тел. : + 79278733321
4. Современное состояние исследований и разработок в области реализации проекта,
новизна предполагаемого подхода по сравнению с известными:
Созданием аудио-визуального распознавателя речи впервые занялись японские коллеги в
нач. 90-х г.г. 20 века.1 Позже к решению этой проблемы приступил целый ряд научноисследовательских институтов, в т.ч. в США и в Европе (в т.ч. в Великобритании, Франции и в
других странах).2 На данный момент создать аудио-визуальный распознаватель речи дои сих пор
не удалось. К настоящему времени разработаны либо голосовые распознаватели речи
(программы Dragon NaturallySpeaking, IBM ViaVoice, Mac Speech Dictate и другие3), либо
визуальные распознаватели речи (Cued Speech, которые определяют движение мимики
совместно с движением жестов рук: язык глухонемых - язык жестов).4
Современные программы аудио-распознаватели речи отличаются как разнообразием, так
и различной точностью.
В целом аудио-распознаватели речи можно разделить на две группы:
1. Дикторозависимые распознаватели. Они создаются под конкретного человека. Программы
часто используются в военной сфере, главным образом, разрабатываются для навигации,
управления военными машинами (истребителями, кораблями, подводными лодками).
1
http://www.sciencedirect.com/science/article/B6V14-48MPMB9-12S/2/da5731f05547ca3d4a59b1739afa196a
http://www.computer.org/portal/web/csdl/doi/10.1109/CVPR.1999.784617,
http://cat.inist.fr/?aModele=afficheN&cpsidt=2855950
3
http://www.consumersearch.com/voice-recognition-software
4
http://www.sciencedirect.com/science/article/B6V14-4JP9FPT-5/2/e7e8846e3bbb972ecbd9f50c91e3af4b
2
Самые известные такие программы разрабатываются военным ведомством США по
программе Advanced Fighter Technology Integration (AFTI).5 Их количество незначительно,
стоят они дорого. Много времени уходит для их создания и «обучения». Как правило,
такие программы отличаются высокой точностью, но имеют очень небольшой,
ограниченный словарь. Поэтому такие программы имеют узкую сферу распространения и
не имеют перспективы для широкого использования в будущем.
2. Дикторонезависимые распознаватели. Дикторонезависимые распознаватели начали понастоящему разрабатываться в конце 80-х годов 20 века в связи с началом массового
использования компьютеров и компьютерных технологий. В данный момент таких
программ существует несколько десятков: Dragon NaturallySpeaking, IBM ViaVoice,
MacSpeech Dictate, Philips Speech Magic, Speech Works, Tellme Networks, Speereo Software,
Pocket Voice Translator и другие, среди российских Речевые технологии «Горыныч» и Центр
Речевых Технологий (ЦРТ) и другие.
Их в свою очередь также можно разделить на несколько групп: Массовые программы
распознаватели речи Dragon NaturallySpeaking, IBM ViaVoice и другие. Утилитарные программы:
Speech Magic (медицинская сфера: для людей имеющих дефекты речи), Tellme Networks
(голосовая навигация в call-центрах). Программы переводчики: Speereo Software, Pocket Voice
Translator и другие. Также существуют еще более специализированные программы: так
называемые интерактивные голосовые системы (IVR), голосовой поиск, преобразование текста в
речь (TTS), голосовые сайты на основе Voice XML и прочее.
Иными словами все это ярко свидетельствует о том, что над созданием
высококачественных распознавателей речи работают ведущие научно-технические институты во
многих странах мира. Несмотря на огромную проделанную работу и огромные затраты создать
высокоточные распознаватели речи не удалось по сей день. А появляющаяся спекулятивная
информация о том, что точность распознавания близка к 100%, на самом деле, мало соответствует
действительности.
Приведем такой пример. Компания Nuance Communications заявляет высокопарно, что их
программа Dragon NaturallySpeaking имеет точность 98-99%.6 Но на практике она ниже. И на это
существует как минимум три причины:
1. звуковые помехи (требуется работа с программой в лабораторных бесшумных
условиях);
2. не возможность программы адаптироваться к манере и особенностям голоса
конкретного пользователя (дефекты речи, сокращения, сленги, не верное, не
грамотное произношение слов, говор и прочее).
3. Не возможность программы правильно «понять» речь (не распознать, а понять) из-за
не значительного запаса слов, выражений и предложений в базе данных софта. Так как
программа ориентирована на конкретные слова и выражения, которые загружают
специалисты. Все особенности конструкции предложений учесть невозможно
5
6
http://www.sae.org/technical/papers/871348
http://www.nuance.com/naturallyspeaking/products/editions/default.asp
(особенно в русском языке, где широко распространенно хаотичное построение
предложений, образность, иносказательность речи и прочее).7
Таким образом, точность аудио-распознавателей речи не достаточно высока и она не в
состоянии удовлетворить запросам и требованиям основной массы пользователей
компьютерами. Этим обусловлено их не значительное применение и утилитарный характер
использования (программы распознаватели в военной сфере отвечают за косвенные работы не
связанные с управлением машинами; очень эффективные программы электронного голоса в callцентрах заточены под конкретные приказы и не понимают разговорной речи).
Создание программы, способной понимать 95% и более человеческой речи в любой
произвольной форме, это задача будущего. Именно такой психологический барьер «свыше 95%»
по мнению руководителей компании Microsoft приведет к «голосовой революции» и смогут
существенно изменить компьютерные технологии: сделать распознаватель речи более массовым.
Наша команда предлагает решить существующую проблему за счет принципиально нового
принципа распознавания речи.
Так как наша задача – это создание высокоточного распознавателя речи. Поэтому мы
принялись за создание не аудио, а аудио-визуального распознавателя речи, который априори
более совершенен, чем аудио распознаватель речи. Хотя бы потому, что определение мимики
нивилирует проблему постороннего шума. То есть в случае если имеются определенные
проблемы, связанные с аудио распознаванием речи (определение частоты голоса), то
определение движение мимики способно скорелировать аудио-помехи.
Само по себе отдельное видео распознавание речи (определение движения мимики) не
способно дать высокую точность распознавания речи. Например, согласно данным
исследователей, даже высокое качество «чтения» движения мимики, без знания семантики
(аудио-распознавания речи) не способно дать точность выше 40-60% для определения звуков
американского английского и только 10-30% для определения слов.8
Таким образом, отдельные аудио и видео распознаватели речи как теоретически, так и
практически ниже нового поколения аудио-визуальных распознавателей речи.
Но учитывая, что впервые об аудио-визуальном распознавании речи задумались еще в 90е годы 20 века (то есть 20 лет назад) и до сих пор не создан опытный практический образец.
Следовательно, напрашивается вопрос: почему это не удалось сделать? И почему это должно
получиться у нас?
О сущности предлагаемой разработки остановимся ниже. Сейчас я поясню специфику
нового подхода, который предлагает наша команда.
7
http://www.i2osig.org/speech.html
8
http://docs.google.com/viewer?a=v&q=cache:LVrBq1buxU8J:www.idiap.ch/ftp/reports/1996/nato96.pdf+A.A.Mo
ntgomery+and+P.L.Jackson+"Physical&hl=ru&gl=ru&pid=bl&srcid=ADGEESgiOMzCauQZt8C0qqcd0BVg3oKSHrI2qV
6WZ_vWe6xezmZSb-Jd5nMWAkibar6EohrMMN_mI4baBTtgn7tMMWXDdoAKPTmQJOLRiDGg7N8aac7CzcFCyvfLHdoVujnD9916mdY&sig=AHIEtbSDZtxFkiovEm4ehMSNOXk43Pb-g
Для начала нужно пояснить, что загрузка новых букв и слогов – это очень тяжелая и
кропотливая работа для разработчиков распознавателей речи, не говоря уже о словах,
выражениях и тем более предложениях. Например, для того, чтобы загрузить звук [:a]
испытуемому программы следует произнести этот звук 100 и более раз. Чтобы программа сумела
уловить особенность произношения этого звука у конкретного испытуемого. Для того чтобы
точность распознавания была выше, необходимо произнести этот звук как можно большему
количеству людей, имеющих различные языковые особенности произношения данного звука. При
совместном аудио-визуальном распознавании речи необходимо также учитывать не только
произношение, но и движение мимики. Чем больше будет зафиксирована программой мимичнозвуковая особенность произношения отдельного звука, тем больше шансов его верно определить.
А есть еще слоги, слова, выражения и предложения…
То есть сама сложность человеческой речи привела к тому, что научно-исследовательские
работы в этой области затянулись. А конечный продукт явно не стоил таких затрат. На наш взгляд,
именно эта причина не позволяла аудио-визуальным распознавателям речи не то, чтобы
конкурировать, даже получить право на создание опытного образца.
Наша команда нацелена на создание программы, где ее испытуемыми и разработчиками
базы данных будут сами пользователи. То есть все эти опыты с загрузкой слов и выражений, на
основе определения движения мимики и частоты голоса будут производить не только штатные
разработчики компании (сотрудники фирмы), но и внештатные, то есть все пользователи. Такая
технология уже не плохо себя зарекомендовала для создания научно-популярных,
лингвистических и юмористических сайтов: Wikipedia, lurkmore, lingvo - а также социальных сетей .
Эта технология называется web 2.0. Ее пользователи сами заполняют базу данных сайта
бесплатно. Такая технология еще не применялась для создания программ. Имеется в виду,
редакциями пользователями базы данных программы на сервере, а не на собственном ПК.
Наша команда не только намерена впервые использовать такую технологию для создания
полезной программы, но мы также планируем довести ее до уровня web 3.0. В частности, мы
планируем, что каждый пользователь за создание программы будет получать вознаграждение.
Например, возможность загрузить для себя бесплатно более совершенную и новую версию
продукта. Безусловно, баллы будут засчитываться, если потенциальный пользователь-разработчик
будет загружать действительно новые слова и выражения на сервер программ, в ее базу данных.
Что это дает? Это, прежде всего, приведет к тому, что аудио-визуальные распознаватели
речи станут действительно доступными и высококачественными. Они будут способны
распознавать не только слова, но и понимать речь. Например, если в распознанном тексте
встречается слово «ключ», то семантический анализ накопленной базы моделей вычислит,
например, слова «гаечный», «железный». Все это позволит не только верно распознать, но и
понять слово. А это уже само по себе относится к сфере искусственного интеллекта. Но не
решение трудно формализуемых задач, выдвижение и опровержение гипотез и так далее. Это
невозможно. А моделирование искусственного мышления на основе накопленной базы данных.
Это вполне возможно.
Создание нового поколение распознавателей речи сделает такие программы более
точными, доступными, следовательно, массовыми, а значит опять точными и доступными. Такие
программы станут всеобъемлющими и будут способны решать множество задач, в т.ч.: навигацию
(управление машинами человеческим голосом) и использоваться везде. Мы предполагаем, что
это «общение» будет происходить в интерактивной форме.
Вот некоторые сферы применения аудио-визуального распознавателя речи нового
поколения:
Автоматический перевод (распознавание слов и его перевод на другой иностранный
язык);
Автомобильные системы распознавания речи. Существующие программы, например Ford
Sync9, отвечают только за дополнительную навигацию не связанную непосредственно с
управлением автомобиля. В будущем, на наш взгляд, с помощью высокоточного
распознавателя можно будет вести машину голосом, а то и автопилотом (за счет верного
определения пожелания водителя системой автомобиля). Также такая система актуальна
для управления сложными машинами (судами, самолетами, поездами минимальным
количеством людей).
Он-лайн голосовая запись. Голосовая речь сразу же будет фиксироваться в письменной
форме. Например, в суде, речь участников процесса будет фиксироваться и переводиться в
письменную форму.
Управление компьютером с помощью голоса (поиск информации, быстрое включение и
выключение нужной программы, мгновенно определение причины неполадки и многое
другое).
То есть применение такой программы будет крайне широким. Следовательно, создание
аудио-визуального распознавателя речи является само по себе очень актуальным и
перспективным для всей науки.
Проект аудио-визуального распознавателя речи стал разрабатываться с 1 марта 2009 года.
Он был представлен на целом ряде конкурсов. За это время он сильно преобразовался и
эволюционировал. Поэтому его современная презентация имеет не много общего с проектами
“Oral translator”10, а затем “Oral recognitor”. Эти проекты были представлены: на БИТ-конкурс2009, The Russian Tech Tour-2009, Технокап-2009.11 Например, в первоначальном нашем проекте
речь шла о создании плагина устного переводчика для VoIP программ (голосовая интернеттелефония), затем речь шла уже о аудио-визуальном распознаватели речи, основанном на 2-х
стороннем алгоритме аудио-визуальной синхронизации. В современной трактовке аудиовизуальный распознаватель речи “Oral recognitor” впервые представлен на конкурсе.
5. Сущность предлагаемой разработки.
Для того, чтобы создать высокоточный аудио-визуальный распознаватель речи
основанный на двухстороннем алгоритме аудио-визуальной синхронизации (с параллельной
обработкой аудио (частота голоса) и видео изображения (определение мимики)), с функцией
загрузки новых слов и выражений всеми пользователями, необходимо решить целое множество
сложных задач.
9
http://www.ford.com/about-ford/news-announcements/press-releases/press-releases-detail/pr-ford-sync-goeswifi-turning-car-31640
10
http://www.bit-konkurs.ru/article/OID_653f92bd-0c4a-4638-b937-ac06c2cbf305
11
http://www.technocup.ru/index.php?id=190&projectId=164
В частности наша команда приступила к реализации 4 совершенно новых технологий:
- распознавание движения мимики;
- абертально-тембровый анализ обработки аудио-визуальных сигналов;
- создание базы данных программы;
- реализация технологии, которая позволит каждому пользователю загружать новые слова
и выражения в базу данных программы.
Только качественная реализация каждой из этих технологий, вкупе с результатами и
достижениями современной науки, способна позволить нам создать такую программу, которая
будет способна максимально точно и быстро распознавать человеческую речь.
Для начала поясню, как будет происходить принцип работы программы.
Человеческая речь имеет сложную волновую структуру, включающая различные частоты и
колебания, к тому же, естественно, одно и то же слово различные люди произносят по-своему:
разный тембр голоса (звуковая окраска), разные интонации, разная чистота произношения,
разное движение мимики. К тому же для человеческой речи характерна коартикуляция, то есть
наложение артикуляции характерная для последующего звука на весь предшествующий.12
Получение голосового сигнала или дескредизация голоса определяется как процесс
получения и преобразования акустического сигнала. Голос представляется как процесс получения
и преобразования акустического сигнала. Голос представляется как колебание акустического
давления в микрофоне, характеризуемые относительно низкочастотными сигналами в диапазоне
примерно от 0 до 4 кГц. Есть 2 типа звуков: звонкие и глухие. Звонкие порождаются вибрацией
голосовых связок при прохождении воздуха. Этот акустический сигнал моделируется
напряжением голосовых связок. Вибрации резонируют в речевом канале (это нос, горло, полость
рта). Поток воздуха, создающий звук, называется «волной, образованной в голосовой щели». Этот
сигнал квазипериодический, а его период называется периодом основного тона. Резонансный
сигнал звонких звуков обычно состоит из четырех частотных компонентов, называемых
формантами. Форманты служат «голосовой печатью» различных звуков, производимых речевым
аппаратом человека. Глухие звуки образуется при прохождении воздуха через речевой канал при
отсутствии колебаний голосовых связок. Оба вида звуков рассматриваются как временные ряды
данных, взятые за регулярные интервалы времени. Для изоляции нужного интервала
используются пространственные окна. Некоторые оконные функции рассчитывают среднюю
амплитуду, число пулевых пересечений и трансформации Фурье сигнала за интервал. Для
устранения шума используются различные методы фильтрации.
Наибольший эффект в точности дает изучение динамики изменения колебания частот
голоса. То есть для качественного распознавания речи необходимо иметь огромную базу данных
целых слов, а лучше выражений и предложений, но не отдельных фонем. Ибо коартикуляция
приводит к накладыванию фонем, что, следовательно, может привести к неправильному
определению слов и к неправильной трактовки предложения. Также современные методы
фильтрации неспособны полностью защитить систему от попадания постороннего шума в
микрофон. Именно поэтому аудио распознавание речи не способно гарантировать 100%
теоретическую точность распознавания, не говоря уже о практической точности.
12
http://ru.wikipedia.org/wiki/Коартикуляция
Наша команда занимается изучением движения мимики человека во время
произношения звуков. В частности установлено, что каждое слово имеет уникальное движение
губ, языка, лица.
Современное развитие программ по анализу фото-видео изображения свидетельствуют
о том, что точность и доступность таких систем за последние годы существенно возросла. Так в
2005 году фото-видео камеры были наделены системами face detection (определение лица
человека). С 2008 года все известные фото-видео камеры уже имеют систему smile detection
(определение улыбок) не говоря уже о системе стабилизации shutter и повышении четкости
изображения.
Мы также, с командой томских видеоредакторов (Aximedia Movie Studio), занялись
созданием программы по определению движения мимики. Название разрабатываемой
программы Lip Detection (что значит определение движения губ). Уже само имя технологии
свидетельствует о нашей задумке – создать четкую качественную программу, способную
фиксировать мельчайшее движение мимики, в том числе движение губ.
Для реализации такой программы мы занимаемся изучением как программ
производителей цифровой фото-видео техники (платформы arc soft smile detection, smile shutter,
face detection, а также используем мультимедийные фреймвокеры Direct Show, Media Foundation,
Quick Time и другие).
Как уже было отмечено ранее, отдельное движение мимики само по себе хоть и
уникально, но, тем не менее, не дает четкое определение звука (также имеет место
коартикуляция). Поэтому для того, чтобы человеческая речь определялась максимально верно
необходимо, чтобы программа фиксировала звуки (как артикуляцию, так и мимику) в динамике.
Далее остановимся подробно на декодере. Декодер – это самая главная единица
программы, его мозг.
Для распознавания фонем, групп фонем и слов используются различные методы: как
скрытая марковская модель или (Hidden Markov Modelling), так и искусственные нейронные сети
(ИНС).
Наиболее часто и успешно при распознавании фонем и слов используется скрытая
марковская модель (HMM). HMM определяется как множество состояний и переходов из одного
состояния в другое. С каждым переходом из состояния i в состояние j связано распространение
результирующих (выходных) вероятностей N, которые определяют возможность того, что при
переходе произойдет состояние X из пространственных наблюдений. То есть если происходит
переход, то с определенной вероятностью будут наблюдаться некие выходные данные. Кроме
того, с каждым переходом связана вероятность A, представляющая собой вероятность перехода
из состояния i в состояние j. Существует множество начальных и множество конечных состояний.
Любая последовательность наблюдений является результатом перехода из одного из начальных
состояний в одно из конечных. Так как HMM хорошо описывает временные ряды со
стохастическими воздействиями, то эта модель обеспечивает довольно естественное
представление речи. HMM можно использовать для определения любой составляющей речевого
сигнала: фонемы или слова.
Поскольку для потока речи характерна строгая временная направленность, то
используется определенная топологическая схема направленного потока (слева направо). Прежде
чем удалось доказать работоспособность ИНС в задачах распознавания речи, пришлось проделать
огромную работу, как теоретическую, так и экспериментальную. Было доказано, что ИНС можно
использовать для усиления мощности тех распознавателей, чья структура основана на скрытой
марковской модели. В частности, ИНС с простой уровневой структурой может обеспечить
получение оценок вероятностей для HMM моделей. Как было доказано на контрольных тестах в
университете Небраска, основанные на этом подходе системы распознавания речи оказались
достаточно надежными и эффективными. Гибридные ИНС/HMM распознаватели речи повышают
точность традиционных HMM за счет моделирования корреляций между одновременными
параметрами речевого сигнала и между текущими и последующими параметрами.
Наша команда занимается разработкой абертально-тембрового нализа обработки аудиовидео изображения, то есть мы разрабатываем декодер на основе гибрида HMM и ИНС
способной фиксировать корреляции человеческого голоса в динамике. Иначе говоря, происходит
мгновенная синхронизация звуковой частоты и видео изображения у человека, который
произносит речь в декодер программы. Причем для того, чтобы обработка поступающей
информации происходила стремительно (от этого зависти скорость работы программы), мы
работаем над сжатием и декодированием аудио-визуальной информации поступающей от
человека. То есть человек произносит речь, компьютер фиксирует динамику частоты голоса в
микрофоне и определяет движение мимики в отцифрованном декодированном сжатом виде:
динамика голоса и движение мимики переводиться в легкую зашифрованную систему символов и
знаков, которые поступают на декодер программы. При этом не происходит никакой записи
человеческого голоса. Такая система, как уже отмечалось, приводит к более оперативной работе
декодера, который синхронизирует абертально-тембровый анализ аудио-видео изображения в
зашифрованную систему двухсторонних алгоритмов и сравнивает ее с базой данных программы.
На основе гибрида HMM и ИНС декодер автоматически выбирает наиболее верно подходящий
перевод из полученных данных и переводит ее на человеческую речь (то есть распознает
человеческий голос).
Как уже отмечалось, наша команда помимо реализации совершенно новых технологий:
Лип Детекшн – распознавание движения мимики человека и абертально-тембровый анализ
обработки аудио-видео изображения (декодер) – над которыми мы уже работаем, также
планирует реализовать еще 2 совершенно новые технологии: Натурал Спич Компилар и Спич
Мэйк Технолоджи.
База данных нашей программы называется Натурал Спич Компилар. Она позволяет
обрабатывать речевые данные, учитывая накопленные знания. Все это называется семантическим
мышлением.
В чем специфика нашей базы данных и ее особенность?
Сигнал речевого потока будет фиксироваться в базе данных программы (в виде
письменной текстовой записи). Но это не все. Мы планируем провести систематизацию базы
данных. То есть разложить полученные данные по полкам для того, чтобы их можно было
использовать не только для распознавания текста, но и для выяснения сути речи конкретного
испытуемого. Здесь как раз снова уместен пример с «ключом». Семантический анализ
накопленной базы моделей позволит зафиксировать в тексте с «ключом» слова, например,
«железный», «гаечный», то есть определить специфику текста.
Почему это важно? Прежде всего, потому, что грамотно построение базы данных
программы позволит максимально верно определить не только слова, но и их значения. Это в
будущем способствует реализации самой главной задаче человечества – создание искусственного
мышления на основе семантического анализа накопленной базы. Не путать с понятием
искусственного мозга. Программа будет «понимать» о чем идет речь.
Также она способна интерактивно отвечать на поставленные вопросы. К тому же перевод
текстовой речи в электронный голос уже в настоящее время неплохо себя зарекомендовал.
Программа способна читать текст, грамматически правильно строя предложение, используя паузы
и ударения.13 Эту технологию мы также намерены использовать для нашей программы. Отмечу
лишь, что компьютер будет интерактивно отвечать благодаря нашей программе, только исходя из
семантического анализа, накопленной базы моделей.
Следующая технология, которая очень важна для нашей программы - это Спич Мэйк
Технолоджи. Спич Мэйк Технолоджи – это технология, которая позволяет каждому пользователю
быть создателем спич-мэйкером программы.
Как уже было сказано, речевой поток конкретного человека (частота голоса и движение
мимики будет декодироваться в особую систему цифр и знаков, которая приведет к сжатию
поступающего аудио-видео сигнала). Это очень важно. Так как всю базу данных языка (множество
языков, сленгов и прочее) нет смысла хранить на каждом компьютере. Мы планируем создать
наш сервер базы данных, который смогут использовать виртуально все пользователи. То есть, как
это будет происходить. Пользователь для того, чтобы пользоваться нашим сервером загружает
специальную нашу программу, которая будет фиксировать речевой поток и переводить ее в более
легкую систему зашифрованных знаков и сигналов, которые по специальному каналу должны
будут поступать на сервер нашей программы и сверяться с базой данных. А сервер в свою очередь
будет передавать полученный перевод сигнала в текстовой форме на компьютер к пользователю.
А программа, которая была загружена пользователем, будет переводить текстовый сигнал в
звуковую форму.
Такая методика работы защитит пользователя от необходимости загружать огромную базу
данных программы на свой компьютер (он будет пользоваться ей виртуально). Также она
обеспечит высокую скорость работы, так как предварительный анализ и сжатие сигнала уже
будет осуществлено на компьютере пользователя (также не будет происходить записи аудиовидео сигнала, а будет его трансформация в зашифрованную систему символов и знаков). В таком
случае будет обеспечена высокая скорость и оперативность работы. Это в свою очередь
обеспечит серверу бесперебойную и быструю загрузку новых слов и выражений, то есть
стремительное пополнение базы данных программы. Также положительным моментом следует
признать то, что такая система обезопасит сервер от потери информации. Все новые загружаемые
слова и выражения будут пополняться на сервере программы, а не будут задерживаться на
компьютере пользователя.
Чтобы привлечь пользователей и заставить их активнее пользоваться нашей программой,
мы намеренны искусственно стимулировать пользователей чаще загружать новые слова и
выражения. Ибо за каждые новые слова и выражения пользователь будет получать баллы,
которые он может обменять на загрузку части базы данных программы. Пока мы не определились
13
http://en.wikipedia.org/wiki/Speech_synthesis
с объемом базы данных программы. Либо в эту базу данных будут входить слова и выражения,
которыми пользуется конкретный пользователь. Либо это база данных будет наделена
стандартными разговорными словами и выражениями. Безусловно, это база данных может быть
использована без подключения пользователя к сети интернет.
Зачем это нужно? Но, если коротко, такая технология непосредственно влияет на точность
программы, ведь чем больше пользователь загружает слова, тем больше база данных, чем
больше база данных, тем больше точность распознавания речи. Это замкнутый круг. Такая
политика позволит нашей программе максимально быстро пополнять базу данных программы,
привлечь пользователей, снизить затраты, сделать переводчик доступным для всех.
К тому же положительным моментом следует признать мгновенную реакцию на
изменение речи, а именно: точное распознавание сленгов, сокращений, дефектов артикуляции,
использование неологизмов и прочее.
На наш взгляд, качественный и доступный распознаватель речи может существенно
повлиять на развитие как речевых технологий, так и, вообще, на развитие искусственного
мышления.
Безусловно, очень сложно определить все возможные области применения предлагаемого
продукта. Ибо наверняка в будущем будут созданы какие-то новые ниши, где можно будет
применить предлагаемую программу. Тем не менее, мы попытаемся выделить некоторые самые
главные области применения нового распознавателя речи:
1. В здравоохранении программа позволит глухонемым понимать речь здорового
человека, посредством преобразования видео-акустической речи в текст;
2. Программа позволит вести всю документацию в письменной форме (за счет
преобразования устной речи в текст);
3. Программа позволит вести голосовой поиск информации. Достаточно произвести ввод
команды голосом;
4. Также голосовая навигация актуальна для людей, которые имеют повреждения и
травмы рук;
5. Развитие систем безопасности. Например, открытие сейфа за счет распознавания
голоса и мимики пользователя;
6. Управление машинами, станками, автомобилями, самолетами, кораблями и так далее
– голосом. Также программа облегчает управление подобной техникой. Так как для
навигации особенно сложных машин может быть задействовано минимальное
количество людей;
7. В телефонии. Создание автоматических call-центров, автоматических секретарей,
которые будут отвечать на телефонные вопросы;
8. Развитие программ-переводчиков. Создание устного переводчика, который
автоматически будет переводить речь человека уже на другой иностранный язык;
9. Создание на основе программы системы, которая будет как распознавать речь, так и ее
«понимать», с помощью семантического анализа накопленной базы моделей. То есть
вести интерактивную беседу, отвечать на вопросы;
10. Домашняя и производственная автоматизация. Управление оборудованиями и
приборами с помощью голоса (создание «умного дома», «предприятия-автомата» и
прочее);
11. Развитие робототехники;
12. Развитие систем, которые будут переводить тексты в речь;
13. Развитие мобильной телефонии. Например, можно будет использовать телефон как
гаджет для программы. Ибо большинство современных телефонов наделено
видеокамерой, телефоном и имеют выход в Интернет;
14. И многое другое.
На данном этапе нам достаточно сложно определить как все возможные сферы применения
продукта, так и качественные параметры программы. Так как в настоящий момент мы еще
находимся на посевной стадии, и у нас еще не разработан опытный образец. Также нам сложно
говорить о возможных технологических, социально-экономических, экологических последствиях,
которые произойдут на Земле.
Мы считаем, что наша технология является глобально-применимой, подрывной. Она
способна существенно изменить мир: развить технологии, ускорить рабочий процесс, увеличить
прибыли и снизить затраты, повысить качество жизни. С другой стороны, мы отлично понимаем,
что наш проект, как и любой другой, имеет отрицательные стороны. В частности исчезнет
необходимость писать, люди станут менее деятельными (за счет голосовой навигации). Все
основные трудовые процессы будут производить машины. Люди будут лишь командовать ими.
Исчезнут многие профессии. В конечном итоге – это может привести к падению человека. Хотя все
может быть иначе. Это лишь самое критичное предположение.
6. Права на интеллектуальную собственность
Права на интеллектуальную собственность проекта принадлежат Осетрову Виктору
Петровичу. Проект пока не имеет охранного патента.
Команда планирует запатентовать технологию, а не идею. Так как, как показывает
мировая практика, патентизация идеи не защищает правообладателя от кражи интеллектуальной
собственности (за исключением США).
Именно поэтому мы планируем выходить на патентизацию технологии. Причем всей, а не
по отдельности. Только такой подход позволит нам защитить интеллектуальную собственность.
Так как потенциальному конкуренту или недоброжелателю придется также патентовать всю
технологию. А это хлопотно и дорого.
Планируем выйти на патентизацию технологий, как только будет готов опытный образец
программы, то есть приблизительно в 2013году.
7. Конкурентные преимущества
Создание нового аудио-визуального распознавателя речи «Орал рекогнитор» это очень сложная задача, требующая много сил и времени. Наша команда планирует выйти на
рынок с готовым продуктом в 2015-2016 году. Причем эти сроки напрямую обусловлены от целого
ряда обстоятельств, прежде всего, от финансирования и от реалий технического развития. Нас
интересуют достижения в сферах обработки аудио-видео изображения, декодирования сигналов,
развития высокоскоростного интернета, совершенствование семантического мышления и всего
иного, что, так или иначе, может повлиять на реализацию проекта.
Исходя из сказанного, нам крайне сложно предвидеть все реалии, которые могут
отразиться на нашем проекте в перспективе 3-5 лет. Тем не менее, определенные тенденции в
развитии науки мы улавливаем. Также наша команда твердо убеждена в том, что в ближайшие
годы актуальность в создании аудио-визуального распознавателя речи только возрастет.
Если говорить о наших конкурентах, то мы условно разделим их на три группы:
1. Прямые – непосредственно сосредоточены на распознавании речи;
2. Косвенные - занимаются смежными областями, но так или иначе, их деятельность связана
с распознаванием речи;
3. Перспективные – научные институты, занимающиеся созданием распознавателей речи.
Наши прямые конкуренты – это реально существующие компании, которые занимаются
созданием реальных программ аудио распознавателей речи. Их несколько десятков. Нас
интересуют флагманы отрасли.
Самым успешным производителем аудио-распознавателей речи традиционно считается
американская компания Nuance Communications. Nuance Communications – это крупная
международная компания, занимающаяся созданием программ, а также приложений для
обработки изображений и речи. Ее линейка продукции представляет собой встроенные серверсистемы распознавания речи, системы управления телефонными вызовами, автоматизированные
телефонные системы-справочники, медицинское программное обеспечение (на основе речевой
транскрипции), программное обеспечение распознавания символов и программное обеспечение
определения и обработки изображений. Также имеется небольшое отделение, которое
занимается созданием программ для военных нужд и государственных учреждений. Naunce
Communications имеет представительства в целом ряде стран (более 35 офисов): Австралия,
Бельгия, Бразилия, Германия, Канада, Венгрия, Израиль, Великобритания, Японии. Численность
штата компании превышает 6 тысяч. профессиональных служащих. Доход компании за 2008
финансовый год превысил 919 млн. $.14 При этом компания достаточно активно проводит
политику M&A (то есть слияния и поглощения) на рынке. Например, самыми крупными
поглощениями следует считать покупку SpeechWorks в 2003 году за 132 млн.$, Dictaphone
Corporation в 2006 за 357 млн.$, BeVocal, Inc и Tegic Communications, Inc. в 2007 году за 140 млн.$ и
265 млн. $, eScription, Inc. и SNAPin Software, Inc. в 2008 за 340 млн.$ плюс акции и 180 млн. $ плюс
акции. 16 февраля 2010 года компания Nuance Communications приобрела MacSpeech – ведущего
производителя программ аудио-распознавателей речи для пользователей операционной системы
от Apple Macintosh.15 Также отличным индикатором, показывающим что (несмотря на кризис)
дела у компании идут отлично, служит информация о катировках акции компаний. Они в плюсе и
инвесторы рекомендуют их покупать.16
14
http://www.nuance.com/company/fastfacts/
http://www.nuance.com/macspeech/
16
http://quotes.nasdaq.com/asp/SummaryQuote.asp?symbol=NUAN&selected=NUAN
15
Ведущей программой компании Nuance является их аудио-распознаватель речи Dragon
NaturallySpeaking 10 Preferred. Последняя версия совместима с ОС Windows7 и может теперь
работать на 64 битной карте (раньше на 32). Также программа поддерживает функцию загрузки
слов и выражений на карту памяти программы, которая расположена на компьютере или на
отдельном гаджите (сейчас она интегрированная и «весит»64 Мб.). Но речи не идет о
возможности редакции базы данных на сервере. То есть пользователь может только сам
загружать слова, и только сам их использовать. Это существенный минус. Программа может
распознавать шесть языков: датский, английский, французский, немецкий, итальянский,
испанский. Также компания активно продает свои «движки» Dragon для других менее известных
распознавателей речи, в том числе для российского «Горыныча». Но качество такой продукции
крайне не высокое, а база данных небольшая, к тому же используются старые «ядра».
В целом качество распознавания у флагмана индустрии производителей аудиораспознавания речи высокое. Речь, конечно, не идет о 99% точности. Она ниже на порядок. Но в
целом она приличная (70-90%). Также имеется большая линейка продукции, которая варьируется
от сугубо медицинской (Speech Magic) до повседневного использования (Dragon,MacSpeech).
Разброс в цене от 99$ до 1199$.
Традиционно после Nuance Communications на второе место в области распознавания
речи ставят компанию Microsoft. Не будем останавливаться на компании, поговорим о ее
бесплатном приложении Windows Speech Recognition, которая входит в комплект ОС Windows
Vista и Windows 7. Windows Speech Recognition является наследницей Microsoft Dictation и
Microsoft Voice Command. Безусловным плюсом такой системы является то, что она
интегрирована в ОС и подходит для компьютерной навигации (в том числе для распознавания
слов в Office – Microsoft Speech API). Минус крайне ограниченный словарный запас (понимает
только то, что связано с Windows и плохо понимает разговорную речь) и не имеет функцию
загрузки новых слов и выражений в базу данных программы, но есть Microsoft Speech Engine –
загрузка новых команд для выполнения специальных действий на свой ПК. Считается, что
«потолок» программы Windows Speech Recognition 95%, но она фактически ниже. Программа
также понимает 6 языков: английский (британский и американские варианты), немецкий,
французский, испанский, японский, китайский (как традиционный, так и упрощенный вариант).17
Также большим плюсом является то, что программа, как в прочем и у Nuance, способна
интерактивно трансформировать текстовую речь в голос. Такая система у Microsoft считается
самой передовой.
Microsoft также активно производит сделки M&A с компаниями аудиораспознавателями речи. Так она приобрела британскую HTK еще в 1999 году, а также в 2007 году
Tellme Networks за 800 млн.$ (данная компания являлась в то время одним из лидером услуг
автоматизации телефонных звонков).
Помимо Microsoft и Nuance Communications созданием и поддержкой аудио
распознавателей речи также занимаются корпорации IBM (IBM ViaVoice), Sun Microsystems
(Sphinx), AOL (Quack.com) и целый ряд других производителей программ.
Компания IBM в последнее время не развивает свой распознаватель речи IBM ViaVoice.
Об этом в частности свидетельствует отсталые системные требования: 16 битная аудио карта и
старые ОС Embedded Linux, Linux, Other, QNX, Windows 2000, Windows CE, Windows Mobile,
Windows XP Professional.18 То есть такой программой могут пользоваться обладатели винрарных
17
18
http://www.microsoft.com/enable/products/windowsvista/speech.aspx
http://www-01.ibm.com/software/pervasive/embedded_viavoice/reqs/
ОС и старых компьютеров. Словарь ViaVoice состоит из 200000 слов. О высокой точности не может
быть и речи. В целом IBM остановился в области аудио распознавания речи на уровне 2007 года.19
Компания Sun Microsystems активно поддерживает программу 4 Sphinx, которая была
полностью написана на языке программирования Java.20 Особенностью этой программы (как и
программы Julius) является то, что она распространяется бесплатно и написана с открытым
исходным кодом распознавания речи. Над реализацией этой программы работают несколько
университетов США (Carnegie Mellon University, Massachusetts Institute of Technology, Mitsubishi
Electric Research Laboratories). Их задача – это выработка новой акустической модели,
осуществление системы адаптации к речи пользователя (MLRR), совершенствование
конфигурации, создание нового интерфейса. Программа имеет как частное, так и государственное
финансирование. Она динамично развивается и периодически обновляется.21 Такой проект
следует признать флагманом группы перспективных аудио-распознавателей речи. Программа
Sphinx, как и Julius имеет лицензию BSD (программную лицензию университета Бернли), то есть
является свободной программой (общественным достоянием).
America Online - мировой лидер коммуникаций и интернет-сервис технологий приобрела
Quack.com в 2000 году за 200 млн. $. На основе Quack.com AOL разрабатывает
автоматизированные call-центры и приложения, программы маршрутизации звонков, которые
способны распознавать конкретные просьбы пользователей и отвечать на них. Технология
достаточно эффективна, но она направлена только на распознавание строго определенных
приказов пользователей.
Помимо распознавателей речи существуют аудио-распознаватели-переводчики. Самые
известные: Speereo Software, Pocket Voice Translator. Speereo Software UK это маленькая
британская компания, которая занимается производством приложений для мобильных
телефонов. Нас интересует их переводчик Speereo Voice Translator, который может распознавать и
переводить речь на другой язык. Словарь такой программы маленький (всего 4 тысячи фраз и
выражений). Точность распознавания речи крайне низкая.22
Также существуют еще более специализированные программы: так называемые
интерактивные голосовые системы (IVR), голосовой поиск, преобразование текста в речь (TTS),
голосовые сайты на основе Voice XML и прочее.
Таким образом, из всего сказанного можно сделать вывод:
1. Программы распознаватели речи, динамично развиваются;
2. Над созданием подобных программ работают как ведущие мировые корпорации, можно
сказать, с неограниченными финансовыми и людскими ресурсами (Nuance
Communications, Microsoft, Sun Microsystems и другие), так и научно-исследовательские
институты и маленькие частные фирмы;
3. Современные программы имеются у большинства пользователей компьютерами (в ОС
Windows);
19
http://www-01.ibm.com/software/pervasive/embedded_viavoice/
http://research.sun.com/speech/
21
http://cmusphinx.sourceforge.net/
22
http://www.speereo.com/Home/index.html
20
4. Но, точность распознавания все равно недостаточно высока (иначе бы не было
конкуренции);
5. Количество активных пользователей такими программами определить невозможно;
6. Есть шанс ворваться на рынок, имея принципиально иной подход в распознавании речи, а
также располагая высокоточной и доступной программой;
7. Рынок не насыщен, имеются большие перспективы для развития.
8. Рынок сбыта.
Как уже отмечалось, нам достаточно сложно предсказать, что будет представлять рынок
распознавателей речи в 2015-2016 году (время выхода проекта на рынок). Тем не менее, мы
предполагаем, что к этому времени ни одна из крупных компаний, занимающихся
распознаванием речи, не выведет на рынок аудио-визуальный распознаватель речи идентичный
нашему проекту. Почему мы так считаем?
Прежде всего, потому что все ведущие производители подобных технологий (Nuance
Communications, Microsoft, IBM, Sun Microsystems) целиком и полностью сосредоточены на аудиораспознавании речи. Для того, чтобы создать аудио-визуальный распознаватель речи им нужно
будет полностью изменить алгоритм, то есть создать подобную программу заново, с нуля. Думаю
маловероятно, что эти компании пойдут на такой шаг.
Поэтому у нашей команды появляется шанс. С другой стороны, мы отлично понимаем, что у
нашей команды по сравнению с вышеуказанными корпорациями различные стартовые площадки.
И успех дела напрямую зависти от нашей способности собрать профессиональную команду и,
конечно, от финансовых вливаний в наше дело.
Если говорить о рынке сбыта, то он, по всей видимости, достаточно обширен. И, как было
сказано ранее, современные компании пока не достигли 100% точности в распознавании речи, то
есть рынку есть куда расти. Также рынок не насыщен, в него могут войти даже небольшие
компании, предлагая свои услуги как в распознавании речи, так и в автоматизации,
маршрутизации звонков, услуги автоматического перевода и прочее.
Рынок сбыта аудио-визуальный распознаватель речи сможет найти там, где эта технология
может быть полезной для пользователя:
1. В здравоохранении программа позволит глухонемым понимать речь здорового
человека, посредством преобразования видео-акустической речи в текст;
2. Программа позволит вести всю документацию в письменной форме (за счет
преобразования устной речи в текст);
3. Программа позволит вести голосовой поиск информации. Достаточно произвести ввод
команды голосом;
4. Также голосовая навигация актуальна для людей, которые имеют повреждения и
травмы рук;
5. Развитие систем безопасности. Например, открытие сейфа за счет распознавания
голоса и мимики пользователя;
6. Управление машинами, станками, автомобилями, самолетами, кораблями и так далее
– голосом. Также программа облегчает управление подобной техникой. Так как для
навигации особенно сложных машин может быть задействовано минимальное
количество людей;
7. В телефонии. Создание автоматических call-центров, автоматических секретарей,
которые будут отвечать на телефонные вопросы;
8. Развитие программ-переводчиков. Создание устного переводчика, который
автоматически будет переводить речь человека уже на другой иностранный язык;
9. Создание на основе программы системы, которая будет как распознавать речь, так и ее
«понимать», с помощью семантического анализа накопленной базы моделей. То есть
вести интерактивную беседу, отвечать на вопросы;
10. Домашняя и производственная автоматизация. Управление оборудованиями и
приборами с помощью голоса (создание «умного дома», «предприятия-автомата» и
прочее);
11. Развитие робототехники;
12. Развитие систем, которые будут переводить тексты в речь;
13. Развитие мобильной телефонии. Например, можно будет использовать телефон как
гаджет для программы. Ибо большинство современных телефонов наделено
видеокамерой, телефоном и имеют выход в Интернет;
14. И многое другое.
Наша команда еще не проводила маркетинговых исследований и поэтому мы не называем
объем рынка и не говорим о размере возможной прибыли, которую может получить программа,
если нам удастся ее создать. Для этого существуют как минимум две причины:
- во-первых, реализация проекта займет у нас 5-6 лет, плюс еще какое-то количество
времени у нас уйдет на раскрутку и продвижение продукта. То есть, как поведет себя рынок через
7-8 лет никто не знает.
- во-вторых, рынок сбыта нашей программы напрямую зависит от соотношения цены и
качества продукта. Думаю об этом рано говорить, так как у нас еще не готов образец продукта, а
мы пока находимся на посевной стадии.
Вообще, мы уверены в том, что высокоточный аудио-визуальный распознаватель речи с
функцией загрузки новых слов и выражений на сервер программы будет все-таки создан в
будущем. Хотелось бы, чтобы основателями такой технологии, а не только идеи, были российские
разработчики, то есть мы.
Думаем, если наши планы осуществляться, то программа получит стремительное развитие
и в короткие сроки будет усовершенствована: повыситься значительно качество распознавания
речи и снизиться цена – так как редакторами программы станут все ее пользователи. Также все
пользователи программы будут ее рекламодателями. То есть, на наш взгляд, никаких
дополнительных мероприятий по продвижению продукта на рынок проводить не стоит, кроме,
естественно, искусственной стимуляции пользователей к редакции программы. Под
искусственной стимуляцией мы имеем в виду политику вознаграждения, поощрения
пользователей за загрузку действительно новых слов и выражений на сервер программы. За
подобные, полезные действия пользователь будет получать баллы, которые он может обменять
на загрузку части базы данных программы. Пока мы не определились с объемом базы данных
программы. Либо в эту базу данных будут входить слова и выражения, которыми пользуется
конкретный пользователь. Либо это база данных будет наделена стандартными разговорными
словами и выражениями. Безусловно, это база данных может быть использована без
подключения пользователя к сети интернет.
9. Порядок коммерциализации результатов разработки.
Проект находиться на посевной стадии. В данный момент разработана матрица и
принцип работы программы. Также происходит формирование и набор команды, поиск
источников финансирования.
Нами получена устная договоренность от лица руководителя томской команды Aximedia
Movie Studio Глеба Геннадьевича Сапункова оказать команде «Леонко» содействие в реализации
технологии Лип Детекшн. Aximedia Movie Studio – это команда высокопрофессиональных
видеоредакторов, которая занимается исследованиями в области редакции и обработки видеоизображения.
Также получено согласие принять участие в реализации проекта со стороны Буздалова
Максима и Исенбаева Владислава. Оба являются победителям всемирной олимпиады по
программированию – 2009. Они также являются студентами факультета Информационных
технологий и программирования Санкт-Петербургского государственного университета
информационных технологий механики и оптики (СПбГУ ИТМО). Владислав Исенбаев занимает 10
место в рейтинге Top Coder и также имеет «гроссмейстерский рейтинг» - 3073. Условием
вступления в проект вышеуказанных специалистов, является окончательное формирование
команды и получение финансирования.
Также ведутся переговоры с группой студентов-математиков Московского университета о
вступлении в нашу команду. Окончательное решение будет принято позже.
В данный момент команда «Леонко» состоит из студентов и аспирантов МарГУ и МарГТУ.
В целом наша команда планирует к началу 2011 года завершить работу над созданием
технологии Лип Детекшн (которая по последовательности кадров будет отслеживать движение
лица, в том числе губ, и будет фиксировать определенные положения).
В течение 2011-2012 года мы планируем завершить создание абертально-тембрового
анализа обработки аудио-видео сигналов. На это время у нас запланирована работа в
медиалингвистической лаборатории. Мы намерены разработать декодер программы, который
будет способен фиксировать и распознавать аудио-визуальную речь. Также в это время начнет
формироваться база данных программы.
В 2013 году у нас должен быть готов опытный образец, который будет способен
распознавать аудио-визуальную речь. Также мы намерены запатентовать наши промежуточные
результаты и заняться поиском стратегического инвестора. В идеале хотелось бы создать
программу самостоятельно, но в зависимости от развивающейся ситуации, мы не исключаем
продажи доли компании заинтересованному инвестору. К данному времени проект выйдет на
start up стадию.
2014-2015 годы – это разработка технологии Спич мэйк технолоджи, а также накопление и
систематизация базы данных программы Натурал спич компилар.
2015-2016 годы – выход на рынок с готовым продуктом.
Успех в реализации проекта напрямую зависит от его финансирования, а также технических
и организационных моментов.
Прежде всего, нас интересует финансовая сторона вопроса. Для того, чтобы создать
вышеуказанные технологии необходимо пригласить в команду (главное заинтересовать)
специалистов экстра-класса: в сфере обработки аудио-видео изображения, декодирования и
сжатия сигналов, разработчиков алгоритма и кодеров, специалистов лингвистики и филологии.
Безусловно, каждому специалисту необходимо платить зарплату и создать такие условия, чтобы
он полностью мог быть сосредоточен на проекте.
Во-вторых, техническая сторона. Все реалии развития техники предсказать невозможно.
Научные достижения как могут ускорить процесс создания программы, так могут и поставить на
проекте крест. Однозначно лишь одно, что для реализации проекта необходимы все технические,
современные условия (в том числе нам необходима медиалингвистическая лаборатория).
И третье, организационный момент – команда. В IT сфере главными элементами в бизнесе
являются не технологии, а люди. Наша задача – создать супер-команду для того, чтобы создать
супер-технологии.
10. Организация работ.
В данный момент, команда «Леонко» состоит из трех человек:
Осетров Виктор Петрович – организатор проекта, студент 4 курса ИФ, МарГУ. Опыт работы: в
2008 году занимался разработкой новых интеллектуальных услуг для компании «Волгателеком». С
2008 года занимается инновационной деятельностью. Первый проект «Синхронный телеперевод» (СТП). На Основе СТП возник научный интерес к средствам ввода информации с
помощью голоса. 1 марта 2009 года приступил к разработке распознавателя речи нового
поколения.
Богданов Антон Игоревич – преподаватель МарГТУ. Научный интерес: философия, фонетика,
программирование. Выпускник историко-филологического факультета МарГУ, аспирант
философского отделения МарГТУ, дополнительное профессиональное образование – системный
администратор ПК.
Исаков Иван Валерьевич – аспирант филологического отделения МарГУ. Специалист по
фонетике финно-угорских народов. Выпускник историко-филологического факультета МарГУ.
Также в проект, возможно, войдут Буздалов Максим и Исенбаев Владислав, если будет
решен вопрос с финансированием и произойдет окончательное укомплектование команды.
Буздалов Максим, Исенбаев Владислав – студенты факультета информационных технологий
и программирования СПбГУ ИТМО. Они являются победителями всемирной олимпиады по
программированию – 2009. Научные интересы Буздалова Максима: программирование, научные
исследования по применению генетических алгоритмов, прикладная математика. Интересы
Исенбаева Владислава: прикладная математика, программирование. Исенбаев Владислав
занимает 10 место в рейтинге TOP Coder и также имеет «гроссмейстерский рейтинг» - 3073.
Также ведутся переговоры с группой математиков МГУ им. М.В. Ломоносова. Окончательное
решение по данному вопросу будет предоставлено позже.
Существует договоренность с командой томских видеоредакторов Aximedia Movie Studio и ее
руководителем Сапунковым Глебом Геннадьевичем. Они готовы оказать нам содействие в
реализации технологии Лип Детекшн на условиях аутосоринга.
Проект пока не имеет официального юридического адреса. Базой для создания проекта
может стать МарГТУ, так как в данном университете имеется всемирно известная лаборатория
мультимедийных систем Михаила Морозова. Но данная лаборатория работает над реализацией
проектов виртуальных миров. Другой предположительной базой для проекта может быть МарГУ,
факультет информатики и вычислительных технологий. Но мы еще не обращались к ним за
сотрудничеством. Также мы не исключаем возможности расположиться в технопарке Татарстана
или в ином научно-техническом институте.
11. Состояние и источники инвестирования в реализацию проекта.
В данный момент финансирование не ведется. Проект держится на энтузиазме и существует
за счет личных средств, усилий и времени членов команды.
Осетров Виктор на разработку проекта потратил 42 тысячи рублей личных средств (поездка на
конференции и конкурсы, в том числе The Russian Tech Tour, 4 международная научная школа –
2009 озеро Яльчик, приобретении программ, расходных материалов, учебных пособий и другое).
Дополнительные инвестиции для реализации проекта пока не привлекались. Мы намерены в
2010 году получить государственный грант на научно-исследовательскую работу (УМНИК,
Зворыкинский проект, ИДЕЯ-1000 или что-то еще), не исключаем также частного инвестирования.
Так как наша команда намерена сохранить контроль над проектом. Поэтому доля частного
капитала инвестора в уставном капитале компании не должна превышать 50%. Для реализации
проекта необходимо, по нашим подсчетам, около 110 млн. руб. денежных вложений.
12. Предстоящие затраты по проекту.
Размер средств, необходимых для завершения проекта:
Этап
Степень
завершенности, %
Требуемая
сумма, тыс. $
Срок
выполнения, мес.
НИР
90
240
1-12
НИОКР
80
800
12-24
Создание опытного
образца
30
1900
36
Промышленная
реализация
Нет данных
360
48
Весь проект
2-3
3300
60-72
Лип Детекшн
НИР, НИОКР
Реализация
Общие расходы
Время (месяцы)
3-5
4-5
7-10
Люди
3-5
3
6-8
Деньги (тыс.руб)
540 - 950
Абетрально-тембровый анализ обработки аудио-видео изображения
НИР, НИОКР
Реализация
Общие расходы
Время (месяцы)
6-9
12-24
18-35
Люди
5-7
12-20
17-27
Деньги (млн.руб)
8,1 - 25
База данных Натурал спич компилар
НИР, НИОКР
Реализация
Общие расходы
Время (месяцы)
Люди
Деньги (млн.руб)
36-48
36-48
20-30
20-30
28,8 – 57,6
Спич мэйк технолоджи
НИР, НИОКР
Реализация
Общие расходы
Время (месяцы)
12-24
24-48
36-72
Люди
8-12
16-24
24-36
Деньги (млн.руб)
28 - 71
Расходы на весь проект
Время (месяцы)
Люди
Деньги (млн.руб)
НИР, НИОКР
60-72
Реализация
60-72
Общие расходы
60-72
79 - 121
65,4 – 154,6
«+» расходы на заимствование достижений науки в сфере перевода речи в текст, «+»
расходы на руководство проекта в целом.
По нашим подсчетам на реализацию проекта необходимо примерно 110 млн. руб. (среднее
арифметическое от минимальной и максимальной суммы затрат). Также, необходимо заметить,
что мы рассчитывали среднее количество времени необходимое для реализации проекта
(технологий) и для проведения научно-исследовательской работы. Также мы не брали в расчет
расходы на аренду помещения (медиа-лингвистической лаборатории), так как надеемся, что нам
удастся получить ее бесплатно (либо в вузе, в технопарке, в научно-исследовательском институте).
В общей сложности к реализации проекта на разных стадиях может быть привлечено от 79
до 121 человек. При этом на реализацию технологии Лип Детекшн 6-8 человек, Абертальнотембрового анализа 29-47 человек, Натурал спич компилар 20-30, Спич мэйк технолоджи 24-36
человек.
Также мы рассчитывали динамику средней заработной платы программистов в нашем
регионе и уровень сложности создания той или иной технологии. Заработная плата колеблется от
20 до 70 тысяч рублей в месяц.
Столь пристальное внимание к человеческому фактору не случайно. Ибо в IT технологиях
главной движущей силой являются люди. Именно от них, в первую очередь, зависит перспектива
реализации проекта. Разработчики программы – это главный капитал проекта.
В целом мы дали достаточно грубые оценки. Ситуация на рынке может меняться, как и само
развитие технологий. Предсказать динамику рынка на 5-7 лет вперед невозможно. К тому же
нами не проводились специальные маркетинговые исследования в данной области.
Download