Summarization

advertisement
Министерство образования и науки Российской Федерации
Московский физико-технический институт (государственный университет)
Факультет инноваций и высоких технологий
Проект Summarization
(автоматическое аннотирование текстов)
Документация по проекту, предлагаемому для участия в Инновационном
практикуме ФИВТ:
 Краткое описание ключевых моментов
 План разработки (в т.ч. список задач для летней практики)
 План работ по маркетингу и продвижению проекта
Долгопрудный
2013
Summarization
Описание проекта.
Создание популярного веб-сервиса для построения аннотаций текстов.
Предпосылки к запуску проекта.
Популярное в прошлом решение этой задачи - Текст Аналист - после покупки прав на
него у первоначального владельца было переориентировано на корпоративных клиентов.
Ниша решения для сектора B2C освободилась и ее можно попробовать занять.
Почему веб-сервис.
1) Тенденция всё делать в интернете.
2) Не нужно ничего устанавливать.
3) Можно оценить качество и полезность решения в демонстрационном режиме.
4) Одна из вероятных стратегий - открыть свободное пользование решением до
определенного времени, а затем уже урезать до демонстрационного варианта. В случае
веб-сервиса проще ограничить использование бесплатной версии - достаточно сделать
изменения на нашем сайте.
Человеческие ресурсы.
Для запуска проекта необходимо от 2 до 3 человек, которые будут уделять всё время
разработке + 1 человек, совмещающий её с наработкой контактов, поиском
потенциальных клиентов, и в целом продвижением проекта. Т.е. это должен быть
разработчик с неплохими навыками коммуникации и готовый их совершенствовать.
Терминология и требования.
В ходе первого года работ будем различать три состояния проекта: макет, прототип и
альфа-версия.
Примечание 1. Обычно макетом приложения считают некое графическое описание
взаимодействия с ним (например, несколько иллюстраций: начальный экран, результаты
нажатия на различные кнопки). Однако мы будем иметь ввиду под макетом некоторую
рабочую демонстрацию, но без требований к качеству аннотирования.
Примечание 2. Здесь и далее описано то, как я вижу проект сейчас. Это первое
приближение требований и плана. По мере работы будет производиться уточнение
деталей.
1. Требования к макету:
1.1. Текст для аннотирование вставляется в форму на веб-странице
1.2. Для данного текста генерируется некоторым образом краткая версия, которая в
какой-то степени отражает его содержание
1.3. Макет не подразумевает использование сложных композиций сильных
алгоритмов, а лишь дает представление о начальном качестве аннотирования
(получаемом некоторыми базовыми методами)
1.4. Ввиду замечания, сделанного в п.1.3. в случае, если качество аннотирования не
окажется неожиданно высоким, показ макета допускается с компьютеров
разработчиков, а запуск сайта происходит уже на стадии разработки прототипа.
2. Требования к прототипу:
2
2.1. В аннотации некоторые предложения сокращены по сравнению с
оригинальными
2.2. Выводится некоторая вспомогательная информация, облегчающая работу с
аннотацией (Например, подсвечиваются в тексте действующие лица / организации /
места).
2.3. Запущен сайт с демонстрацией (соответственно, качество аннотации должно
оправдывать запуск).
3. Требования к альфа-версии:
3.1. В решении использованы методы, выбранные как наиболее удачные среди
нескольких вариантов. В том числе должны быть рассмотрены композиции из
нескольких алгоритмов, как наиболее перспективные в отношении качества
работы. Т.е. альфа-версия подразумевает, что в основе лежат некоторые серьезные
технологии, причем ключевые задачи были решены несколькими способами, чтобы
обеспечить высокое качество.
3.2. Разработка альфа-версии считается законченной, если в результате альфатестирования не менее 50% участников допускают, что будут пользоваться
сервисом (недостатки работы алгоритмов можно преодолеть, качество работы
приемлемо). В противном случае требуется доработка алгоритмов.
3.3. Количество участников альфа-тестирования при этом должно быть не менее 20
человек.
3
План разработки.
Этап I. Создание макета приложения.
до 15 марта:
1. Базовая (простая) версия предварительной обработки текста
1.1. Токенизация (выделение слов и фраз в тексте)
1.2. Лемматизация (восстановление начальной формы слова)
1.3. Стеммирование (выделение основы слова)
2. Baseline по морфологии и распознаванию именованных сущностей.
2.1. Определение части речи слова.
2.1.1. Создание обучающей выборки для русского языка
2.1.2. Построение признакового описания токенов (представление их в виде
векторов в многомерном пространстве, позволяющее дальнейший
морфологический анализ).
2.1.3. Классификация по частям речи с помощью биграммных Марковских
моделей
2.2. Поиск именованных сущностей (терминов, мест, имен, названий организаций,
стран)
2.2.1. Построение обучающей выборки
2.2.2. Реализация окна, парсящего кандидатов в именованные сущности.
2.2.3. Построение признакового описания именованных сущностей
2.2.4. Бинарная классификация фраз (выделять/не выделять)
до 1 апреля:
3. Базовый алгоритм построения аннотации.
3.1. Определение именованных сущностей, содержащихся в "важных"
предложениях (которые в дальнейшем будут задействованы в аннотации).
3.2. Выделение предложений, составляющих аннотацию.
4. Реализация макета приложения
4.1. Страница, на которой загружается текст и для него строится аннотация.
На текущем этапе - запуск с нашего компьютера.
Этап II. Разработка прототипа.
до 1 мая:
5. Морфология
5.1. Триграммное теггирование частями речи.
5.2. Построение смеси уни-, би- и триграмм.
5.3. Расширение возможностей анализа морфологии (добавление не только части
речи)
5.4. Лемматизация с помощью машинного обучения.
6. Доработка макета.
6.1. Запуск сайта с демонстрацией
6.2. Доработка функционала (вывод некоторой дополнительной к аннотации
информации).
4
до окончания весеннего семестра:
7. Синтаксис.
7.1. Применение машинного обучения для определения окончания предложения.
Пояснение: правильное определение конца предложения критично, т.к. в случае
(пусть и редкой) ошибки в аннотации могут появиться незаконченные
предложения, что в целом будет сильно портить впечатление при прочтении.
7.2. Начало работы над деревом разбора предложения.
Задачи, выносящиеся на летнюю практику.
В течение летней практики студентам предлагается выбрать интересные для них задачи из
списка, либо предложить свои. Для обеспечения приемлемого для прототипа качества
аннотаций должно быть достаточно выполнения лишь части задач, список нужен только,
чтобы предоставить возможность работать в соответствие со своими интересами.
Такое решение предлагается, т.к. от летней практики ожидается, что она должна быть
достаточно интересной, чтобы студент мог захотеть уменьшить продолжительность своих
каникул и заниматься работой.
При желании, разумеется, можно просто идти дальше по плану на осенний семестр.
Список задач:









Снятие омонимии
Сглаживание в скрытых марковских моделях
Поиск связей между предложениями (например, на основе деревьев разбора и
выделенных именованных сущностей).
Трекинг местоимений и других случаев разных названий одной и той же сущности.
Мультиклассовая классификация именованных сущностей (определение имен,
контактов, названий организаций)
Поиск связей между сущностями
Реализация распознавания именованных сущностей с помощью других методов
(например, байесовских сетей) и сравнение результатов
Анализ эмоциональной окраски частей текста. Пояснение: если доля позитивно
окрашенных мыслей в аннотации будет заметно больше, чем в тексте, то это
может дать неправильное представление о тексте.
Иерархическое тематическое моделирование. Выделение в текстах и их частях
нескольких тематик и построение их иерархии. Один документ может попасть в
несколько тем, у тем могут быть подтемы. Может быть использовано для
структурирования текста и более интеллектуального сокращения.
до 1 октября:
8. Доработка выделения именованных сущностей
8.1. Добавление эвристик
8.2. Расширение признакового пространства
8.3. Сравнение имеющихся решений (на датасетах и людьми)
9. Доработка алгоритма построения аннотации.
9.1. Реализация любого метода сокращения предложения.
9.2. Применение полученного алгоритма в демонстрационной версии, завершение
работ над прототипом.
5
Этап III. Разработка альфа-версии и проведение альфатеста.
(укрупненный план)
до конца семестра:
10. Применение методов анализа формальных понятий для задач обработки текстов
11. Применение методов вероятностного тематического моделирования для выделения
ключевых фраз, шума и общеупотребительных слов.
12. Сравнение разных методов и построение их композиций.
13. Проведение альфа-тестирования
14. Структурирование сведений об ошибках, полученных за счет обратной связи,
составление плана по их устранению.
6
План работ по маркетингу и продвижению проекта.
1. Анализ рынка
Работа с аналогами
Поиск аналогов и запрос недостающих сведений (цены, демо-версии)
Изучение и документирование особенностей аналогов (функционал, технологии,
бизнес-модель, ниша и целевая аудитория)
Примечание: особое внимание продукту «Текст Аналист».
Первичный SWOT-анализ конкурентов
Место проекта на рынке
Сегментация рынка
Формирование начального представления о нише проекта
Целевая аудитория: составление портретов основных групп пользователей,
обоснование и примеры использования продукта в виде user-stories.
2. Интеллектуальная собственность
Поиск патентов
Уточнение анализа конкурентов по результатам п.2.1.
Расширение списка аналогов.
Сбор сведений по новым аналогам.
Дополнение SWOT-анализа и конкурентных преимуществ
Определение стратегии защиты интеллектуальной собственности.
Примечание: Анализ рынка в п.1 представлял взгляд на проблему поиска аналогов со
стороны пользователей, а изучение патентов – со стороны технологий. Т.к. цель –
создать пригодный к использованию продукт, а не технологию, которую может быть
кто-то когда-то использует, изначально при анализе конкурентов отталкиваемся от
найденной в Интернете информации о похожих проектах, а не от патентов.
3. Коммерциализация
Описание бизнес-модели
Ключевые виды деятельности
Потребительские сегменты
Ценностные предложения
Каналы сбыта
7
Взаимоотношения с клиентами
Ключевые ресурсы
Ключевые партнеры
Потоки поступления доходов
Структура издержек
Разработка стратегии выхода на рынок
Наработка базы потенциальных первых клиентов
4. Оценка проекта
Оценка необходимых ресурсов
Финансовые показатели (IRR, NPV и т.д.)
5. Управление рисками
Примечание: Этот пункт требует внимания не в один какой-то момент, а в течение
всей работы над проектом, т.к. помимо планирования проекта и наработок для бизнесплана существенно связан непосредственно с процессом разработки.
Идентификация рисков
Оценка рисков
Планирование ответов на риски
Мониторинг и документирование рисков, поддержание списка в актуальном
состоянии.
6. Презентационные материалы
Executive summary
Elevator Pitch
Презентации
Краткая версия (например, для использования с Elevator Pitch)
Версия на 10-12 слайдов для презентаций проекта
Версия для рассылки
Уточнение кратких версий по результатам выполнения п.6.3.3.
7. Бизнес-план
Объединение всех наработанных материалов в набросок бизнес-плана
Написание краткой версии приблизительно на 20 страниц, в случае, если результат
п.7.1 существенно больше по объему.
8
8. Поиск финансирования
Участие в конкурсах на гранты
Встречи с инвесторами и фондами
9
Download