2 Обзор существующих подходов к построению учебных курсов

advertisement
Московский государственный университет
им. М.В. Ломоносова
Факультет вычислительной математики и кибернетики
Лаборатория вычислительных комплексов
Дипломная работа
Выполнила: Белова Анастасия Александровна
«Разработка и исследование
эффективности алгоритма формирования
содержимого учебных курсов»
Научные руководители:
д.ф-м.н. Р.Л.Смелянский,
А.В. Максаков
Москва, 2006
-2-
Аннотация
С развитием вычислительной техники и Интернет, образование также стало
областью внедрения информационных технологий. На данный момент системы
дистанционного обучения получили широкое распространение. Вместе с тем растет
количество повторно используемых учебных материалов для таких систем. Средства,
использующиеся
при
составлении
курсов,
должны
обеспечивать
возможность
использования уже имеющихся учебных материалов при составлении учебных курсов. В
работе было рассмотрено несколько подходов к составлению содержимого курса на
основе заданной структуры курса и была показана эффективность применения метода
поиска по ключевым словам с использованием онтологии предметной области при
решении этой задачи.
-3-
Содержание
1
ВВЕДЕНИЕ ................................................................................................................................................... 1-5
1.1
1.2
1.3
1.4
1.5
2
ОБЗОР СУЩЕСТВУЮЩИХ ПОДХОДОВ К ПОСТРОЕНИЮ УЧЕБНЫХ КУРСОВ .............. 2-10
2.2
2.3
2.4
2.5
3
ЭЛЕКТРОННОЕ ОБУЧЕНИЕ ...................................................................................................................... 1-5
УЧЕБНЫЙ ПЛАН ...................................................................................................................................... 1-6
УЧЕБНЫЙ КУРС ....................................................................................................................................... 1-7
ЦЕЛИ И ЗАДАЧИ ДИПЛОМНОЙ РАБОТЫ .................................................................................................. 1-8
АКТУАЛЬНОСТЬ РАБОТЫ ........................................................................................................................ 1-9
ОСНОВНЫЕ РОЛИ В СИСТЕМАХ ДИСТАНЦИОННОГО ОБУЧЕНИЯ........................................................... 2-10
СОСТАВЛЕНИЕ КУРСОВ АВТОРАМИ ...................................................................................................... 2-11
ПОДХОДЫ К ОРГАНИЗАЦИИ ПОИСКА ................................................................................................... 2-12
ОБЗОР ОСНОВНЫХ СТАНДАРТОВ ОПИСАНИЯ МЕТАДАННЫХ ............................................................... 2-13
АВТОМАТИЗАЦИЯ ПРОЦЕССА СОСТАВЛЕНИЯ УЧЕБНЫХ КУРСОВ АВТОРАМИ ......... 3-20
3.1
3.2
3.3
3.4
ОПИСАНИЕ ОСНОВНОГО АЛГОРИТМА .................................................................................................. 3-21
ПОСТАНОВКА ЭКСПЕРИМЕНТОВ .......................................................................................................... 3-29
ЗАКЛЮЧЕНИЕ ....................................................................................................................................... 3-36
ЛИТЕРАТУРА......................................................................................................................................... 3-37
-4-
1 Введение
1.1 Электронное обучение
С развитием вычислительной техники и повсеместной компьютеризацией образование
также стало областью внедрения информационных технологий.
В
эпоху
бурного
развития
информационно-коммуникационных
технологий
образовательная информация становится востребованной частью информационных
ресурсов. С другой стороны, традиционные методы обучения дополняются и обогащаются
с помощью информационных технологий, и сам образовательный процесс выходит на
качественно новый уровень [2].
Учебные заведения сейчас находятся в стадии постоянного изменения. Под влиянием
информационных технологий меняются потребности и уровень требований потребителей
образовательных
продуктов
(учащихся,
студентов,
работодателей),
что
диктует
необходимость постоянного совершенствования образовательного процесса и для
успешной работы на образовательном рынке, и для удовлетворения потребности рынка
труда. Освоение информационных технологий не только позволяет учебным заведениям
идти в ногу со временем, но и предоставлять студентам новые возможности, новую
гибкость в обучении и качественно новое образование.
Термин “электронное обучение” (e-learning) получил широкое распространение в
последние годы. Чаще всего под ним понимаются различные формы использования
информационно-коммуникационных технологий в образовательной деятельности, а также
дистанционное обучение с помощью компьютеров и каналов связи.
Для организации учебного процесса применяются электронные системы обучения.
Популярность этой формы обучения объясняется тем, что она имеет ряд неоспоримых
преимуществ, по сравнению с традиционной. Во-первых, не требуется обязательной
очной
встречи
большого
количества
людей
с
преподавателем.
Использование
электронного обучения снижает расходы на организацию курсов, обустройство классов,
зарплату, транспортные расходы и многое другое.
Второе, крайне важное преимущество, состоит в том, что у людей появляется
возможность учиться в удобное для них время и в удобном темпе. При использовании
традиционных форм обучения человек, которому необходимо прослушать курс,
заключенный в рамки расписания, по которому читается данный учебный курс. В случае,
если речь идет о курсах лекций, читаемых в ВУЗах, привязанность к расписанию
студентов является обычным делом. Однако, если речь идет о компании, обучающей
своих сотрудников с целью, например, повышения квалификации, обучение не должно
-5-
мешать эффективной работе. В этом случае обучение является обязательным, оно
необходимодля успешной карьеры.
Организационных проблем удается избежать при внедрении электронных систем
обучения.
Кроме того, важно отметить, что при этой форме процесс обучения можно сделать
непрерывным. То есть, в случае появления новых учебных курсов (материалов) они
просто добавляются к уже имеющимся и становятся доступными для изучения.
1.2 Учебный план
У каждого человека свой стиль обучения, характеризующий наиболее оптимальный
для него механизм восприятия учебного материала. Существует определенный процент
людей, для которых единственно возможным способом восприятия учебного материала
является аудиторная форма обучения. Однако как показывают исследования [1], как
минимум 80% учащихся могут эффективно воспринимать учебные материалы в любой
форме. Это означает, что абсолютное большинство людей способны эффективно
обучаться электронным способом, естественно при условии наличия адекватного
учебного контента (содержания курсов).
Обучающая программа может состоять из одного или нескольких учебных курсов.
При самостоятельном выборе обучающей программы возможно включение также
отдельных глав в индивидуальный план обучения. Рассмотрим примеры:
Пример 1: необходимо обучиться администрированию СУБД (системы управления
базами данных). Для этого сначала нужно полностью пройти курс (из имеющихся в
общем
репозитарии)
«Администрирование
СУБД»
и
частично
ознакомиться
с
материалами по языку SQL.
Пример 2: необходимо обучиться некоторой отдельной функциональности в СУБД
различных производителей. Для этого достаточно изучить разделы, связанные с общим
представлением о СУБД, а также прочитать курсы об интересующей функциональности у
различных производителей.
При составлении учебного плана важно то, что прежде, чем приступить к изучению
курса, возможно, необходимо иметь некоторые навыки, а именно уже пройти несколько
других курсов. Т.е. внесение в собственный учебный план одного компонента может
повлечь внесение некоторых других. Также необходимо прибегать к мнению экспертов,
разбирающихся в материале на высоком уровне, для подбора наиболее подходящих
курсов/частей курса.
-6-
1.3 Учебный курс
Учебный курс можно разделить на блоки различного содержания: основных
содержательных (текстовых), упражнений на закрепление материала, тестовых заданий,
проверяющих степень усвоения пройденного материала. Таким образом, исходя из этого
деления, учебный курс можно представить набором компонент. Как правило, эти
компоненты описываются пунктами содержания. Т.е. между пунктами содержания и
компонентами существует связь. Каждому пункту содержания курса соответствует блок с
информацией, далее в работе называемый учебной компонентой.
-7-
1.4 Цели и задачи дипломной работы
1.4.1 Цели дипломной работы
1
Разработка и реализация алгоритма сопоставления содержимого учебных курсов
оглавлению курса с использованием онтологии предметной области.
2
Получение оценок эффективности работы алгоритма.
3
Экспериментально исследовать возможность применения алгоритма сопоставления
единиц знаний оглавлению курса.
1.4.2 Задачи дипломной работы
1
Проанализировать
существующие стандарты выделить особенности
описания
метаданных.
2
Разработать
алгоритм
сопоставления
единиц
знаний
оглавлению
курса
с
использованием онтологии предметной области.
3
Исследовать возможные подходы к организации поиска релевантных единиц знаний в
репозитарию.
4
Провести исследования свойств и эффективности работы алгоритма нахождения
соответствующих компонент.
5
Оценить возможность увеличения скорости составления курса при использовании
алгоритма сопоставления единиц знаний оглавлению курса в процессе работы
составителя.
-8-
1.5 Актуальность работы
Составление индивидуального курса для личного использования требует просмотра
всех курсов, имеющихся в наличии. Задача выбора единиц знаний из репозитария
является тривиальной, если количество курсов невелико, исчисляется единицами,
десятками. При увеличении количества курсов временные затраты на его составление
значительно увеличиваются, что является основной проблемой, рассматриваемой в
данной работе.
Начальный этап в составлении учебного курса – составление его структуры,
оглавления. Задачей разрабатываемого алгоритма является автоматизированный подбор
учебных компонент, наиболее полно описывающих необходимую структуру курса. Т.е.
перед алгоритмом ставится задача выбора из репозитария наиболее подходящих
компонент под описания листовым элементам дерева содержания.
Терминология в представлении создателя оглавления курса и создателей учебных
материалов может существенно отличаться. По этой причине актуально создание методов
поиска и ранжирования, отличных от метода поиска по ключевым словам.
Поиск по ключевым словам заключается в полнотекстовом просмотре всех учебных
компонент на предмет наличия в них слов, соответствующих описанию листового
элемента в содержании курса. Таким образом, при нахождении учебной компоненты,
термины которой наиболее близки пункту содержания, эта компонента будет выбрана для
внесения в учебный курс.
При такой организации поиска возникает проблема, которая заключается в
существовании нескольких авторов учебных компонент, находящихся в репозитарии.
Сложность будет состоять в отличии в терминологии у каждого их авторов или, проще
говоря, в наличии синонимов, чье толкование может повлиять на выбор наиболее
подходящей компоненты. Выделим два варианта возможного решения данной проблемы:

При возникновении спорных ситуаций можно обращаться к мнению экспертов, что,
по-прежнему, остается неудобным при больших объемах доступной информации.

Учитывать синонимы при определении ключевых слов. Надо помнить, что не только
синонимы в этом случае будут представлять трудность расшифровки, но и слова,
употребляемые в переносном значении.
Таким образом, актуальна разработка алгоритма, автоматизирующего составление
курса по его оглавлению на основе репозитария учебных материалов. При этом важно
учитывать возможность использования различной терминологии авторами учебных
компонент и составителем курса, так называемых, «единиц знаний».
-9-
2 Обзор существующих подходов к построению учебных
курсов
2.1.1 Подход к представлению используемых исходных данных
Термин «единица знаний» принят в области электронного обучения. Единицами
знаний (Knowledge Unit) принято называть часть знаний, которые представляют собой
самостоятельную единицу. Т.е. могут выступать как отдельные знания: на что можно
ссылаться и что можно связывать с остальными единицами. [19] Кроме текста, несущего
смысловую нагрузку, имеется дополнительная информация о нем (о тексте). Такой
дополнительной информацией являются любые метаданные, такие как:

Информацию о научной специализации, к которой он относится.

Основные термины, определяющие данный KU.

Ссылки на близкие по содержанию знания.

Ссылки на следующий и предыдущий UNIT'ы знаний, а также много другой
метаинформации.
В статье «Computational Semiotics» Р.Гудвина [20] дается следующее определение:
единица знаний – частица информации, заключенная в структуру.
Понятие «единицы знаний» не включает в себя определение формата представления
данных, структур. Таким образом, не накладывается никаких ограничений на
представление единиц знаний, используемых в работе.
Репозитарий - множество ЕЗ, которые состоят из основной и описательной частей –
информационных учебных файлов и файлов с метаинформацией.
2.2 Основные роли в системах дистанционного обучения
В настоящее время электронное обучение очень популярно, разрабатывается
большое количество систем обучения. В рассмотренных системах (СДО “Redclass”,
“WebTutor”, “eLearning Server”, “Прометей” и проч.) имеется несколько групп
пользователей, ролей с одинаковой семантикой для всех систем, которые работают в
соответствии с теми требованиями и целями, которые стоят перед ними.
Под ролями будем понимать группы пользователей, для которых определен круг
полномочий пользователя в системе и виды решаемых им задач. В различных системах
они имеют различные названия, однако несут одинаковую смысловую нагрузку. При
названии ролей не будем придерживаться теримнологии какой-либо системы, лишь
- 10 -
обозначим их некоторую фукнциональность. Например, рассмотрим роли – Студент,
Администратор, Автор.

Студент - человек, который проходит обучение в СДО. Основные функции
которого, заключаются в изучении материала предмета с помощью электронного
варианта и прилагаемых методических пособий на бумажном носителе. Обучается
по месту проживания или прямо дома, если имеется компьютерная техника
соответствующего класса.

Администратор – человек, который назначает курсы для обучения Студентам,
выбирая из списка имеющихся в системе курсов, необходимые для индивидуального
обучения студента или обучаемой группы студентов. Также указывается время
обучения, возможно, назначается тестирование.

Автор – человек, который занимается составлением курсов для обучения
посредством конкретной системы. Прежде, чем попасть в систему, курсы должны
быть составлены экспертом в области знаний, к которому относится курс.
2.3 Составление курсов авторами
Рисунок 1: Процесс создание курса для обучения автором
На рисунке показан процесс создания учебного курса, он разделен на этапы: подбор
материала по одной тематической области; составление множества единиц знаний
(небольших отрывков одной тематики); создание тематического репозитария; составление
курсов по заданной тематике из имеющихся единиц знаний; помещение курса в систему
электронного обучения. По этому разделению может быть разделение обязанностей
между исполнителями. Рассмотрим два варианта выполнения данного процесса: когда он
выполняется одним человеком и когда несколькими.
Два варианта процесса составления курсов имеют ряд важных различий. В первом
случае, составлением с самого начала и до конца занимается один человек, а значит

весь материал прошел единообразную подготовку;
- 11 -

автору известен объем имеющейся информации по рассматриваемой предметной
области;

при составлении курсов автору легко ориентироваться в материале.
Во втором случае объем материала и охват им предметной области составителю
не известен.

Даже поверхностное изучение займет какое-то время.

При увеличении объема используемого материала его просмотр потребует больших
временных затрат.
2.4 Подходы к организации поиска
При большом объеме репозитария подход к организации поиска в репозитарии
требует особо внимания. Рассмотрим три подхода к организации поиска, которые можно
применить при решении рассматриваемой задачи.
1. Полнотекстовый поиск:

Производится
просмотр
содержимого
документов,
в
данном
случае,
содержательных частей учебных материалов.

При наличии хорош-о сформированной метаинформации, ее объем существенно
меньше объема самих документов

Невозможен в том случае, когда недоступно в текстовом виде содержимое учебной
части единицы знаний.
2. Поиск по метаданным

позволяет повысить качество поиска по сравнению с поиском по ключевым словам
[24].

Не требует просмотра содержимого документов.
3. Поиск с использованием онтологии

Позволяет решить проблему использования различной терминологии авторами
учебных компонент и составителем курса.

При использовании онтологии предметной области позволит найти если не в
точности соответствующие документы, то очень близкие по смыслу, т.к. в
онтологии задаются связи между терминами.

В настоящее время существует множество проектов, в основу которых положены
онтологии, данное направление активно исследуется [28, 29].

Эксперименты показали, что благодаря использованию онтологии можно
формировать более эффективных запросов для поисковой системы [30].
- 12 -
Целью данной работы является оценка эффективности применения подхода поиска
по метаданным с использованием онтологии при решении задачи составления курса.
Под метаданными, в основном, понимается информация или данные о других
данных или объектах [3]. Метаданные могут быть категориальными, описательными или
определяемыми пользователем и отражать отношения, рабочие условия и особенности,
содержание или структуру описываемых данных. В качестве причин использования
метаданных при поиске можно рассматривать следующие:
1. Для сокращения количества просматриваемой информации: поиск по ключевым
словам можно производить не по самим смысловым частям учебных компонент, а по их
метаданным.
2. Использование метаданных при поиске позволяет повысить качество поиска [24]
3. В случае, когда учебные компоненты представляют собой “черные ящики”,
соответственно невозможно получить доступ к текстовому содержимому этих компонент.
Приведем общий обзор существующих на данный момент стандартов описания
метаданных.
2.5 Обзор основных стандартов описания метаданных
Краткое описание данных, метаданные, имеют значение при работе с большим
количеством информации одного формата или различных. При работе с различными
форматами данных типизированные метаданные облегчают обращение и поиск по самим
исходным материалам, упрощая обращение. При однотипных данных обращение с ними
также может быть упрощено при обращении к метаданным, которые, во-первых,
типизированы, а, во-вторых, существенно меньшего объема. Большим объемом даже
нецифровой
информации
большого
объема
может
быть
библиотека.
Широкое
распространение метаданные получили в библиотечном деле, далее распространяя
область распространения. В этом разделе рассмотрены стандарты описания наборов
метаданных, получивших широкое распространение, также выделены особенности
каждого из них.
2.5.1 Машиночитаемые библиографические записи (Machine-Readable
Cataloging Records, MARC)
Машиночитаемые
библиографические
записи
(Machine-Readable
Cataloging
Records, MARC) являются один из первых наиболее известных форматов метаданных для
подготовки данных о данных в электронной форме[4, 3].
Сфера
применения
данного
формата,
прежде
всего,
ограничивалась
библиографическими метаданными, метаданными, раскрывающими содержание, и, в
- 13 -
очень редких случаях, метаданными поступающих материалов. Подобно традиционно
используемым карточкам библиотечного каталога, от которых и произошел формат
MARC, эти метаданные размещаются вне информационного ресурса. Это отличает
данный тип метаданных от остальных, разработанных в соответствии с необходимостью
расположения метаданных внутри самого информационного ресурса.
2.5.2 Служба указателей правительственной информации
Служба указателей правительственной информации (Government Information Locator
Service, GILS) [5] - набор метаданных, разработанный различными подразделениями
Правительства США для идентификации электронных версий официальных публикаций,
включающий структурные метаданные равно как библиографические метаданные и
метаданные, раскрывающие содержание. В рамках GILS требуется описывать не только
книги и наборы данных, но также людей, события, собрания, артефакты и т. д. GILS
поддерживает гиперссылки для доступа к взаимосвязанным ресурсам.
GILS создается с целью интеграции библиотечных и сетевых ресурсов на основе
сочетания
библиотечной
практики
библиографических
описаний
с сетевыми
и
компьютерными технологиями. Поскольку GILS является важной составной частью
Национальной
информационной
инфраструктуры,
его
идеологи
ставят
широкомасштабные цели реализации права на информацию в рамках создания
глобального информационного сообщества.
2.5.3 Инициатива метаданных Дублинское ядро
Является первым простым и легким в использовании набором метаданных,
основанным на формате HTML, и, вместе с тем, совместимым с категориями баз данных и
т.д. Инициатива метаданных Дублинское ядро (Dublin Core Metadata Initiative, DCMI) [6]
DCMI представляет "ядро" или абсолютный минимум метаданных, необходимых
для отыскания ресурсов (и не может быть применен при описании заказа, абонементного
обслуживания, лицензирования или условий и обстоятельств доступа, и т.д.)
Следующие элементы составляют набор метаданных Дублинского ядра. Все
элементы являются необязательными, могут повторяться. Основная смысловая нагрузка
заключена в представленных ниже полях, они приняты за основу не только в Дублинском
ядре, но и многих других форматах описания метаданных:
Title (Заголовок) — название, присвоенное ресурсу создателем или издателем.
- 14 -
Creator (Автор) — человек или организация, изначально ответственная за
интеллектуальное содержание ресурса (в случае рукописного документа это авторы;
исполнители, фотографы или иллюстраторы в случае визуальных ресурсов).
Subject (Предмет) — тема ресурса. Обычно предмет выражается в ключевых словах
или
фразе,
описывающей
предмет
или
содержание
ресурса.
Приветствуется
использование контролируемых словарей и формальных схем классификации.
Description (Описание) — текстовое описание содержания ресурса, включая реферат
в случае документов или описание содержания в случае визуального ресурса.
Publisher (Издатель) — организация, ответственная за создание ресурса в его
нынешней форме — например, издательский дом, университетский департамент или
корпорация.
Contributor (Участник создания материала) — человек или организация, которые не
являются авторами (не обозначены в элементе “автор”), но внесли значительный
интеллектуальный вклад в ресурс, или чей вклад вторичен по отношению к любому
человеку или организации, указанной в числе авторов — например, редактор, переводчик,
иллюстратор.
Date (Дата) — дата, указывающая на создание или появление (в доступном виде)
ресурса.
Type (Тип) — категория ресурса — например, домашняя страничка, роман, поэма,
статья, препринт, технический отчет, эссе, словарь.
Format (Формат) — формат представления данных ресурса (обычно указывается
тип программного обеспечения и — возможно — тип компьютера, которые могут быть
необходимы для отображения и работы с ресурсом).
Identifier (Идентификатор) — набор букв или цифр, который обычно используется
для уникальной идентификации ресурса. В случае сетевых ресурсов примерами являются
URL и URN.
Source (Источник) — информация о вторичном источнике, из которого был получен
настоящий ресурс.
Language (Язык) — язык, на котором изложено интеллектуальное содержание
ресурса.
Relation (Связь) — идентификатор вторичного ресурса и его связь с настоящим
ресурсом. Этот элемент позволяет связывать между собой близкие ресурсы, а также
описания ресурса, которые необходимо показать. Примеры — издание книги и глава
книги.
- 15 -
Coverage
(Охват)
—
характеристики
местонахождения
и
временной
продолжительности ресурса.
Rights (Права) — утверждение об авторских правах и управление ими;
идентификатор, связанный с таким утверждением; идентификатор, связанный с сервисом,
представляющим информацию об управлении правами на данный ресурс. [7]
2.5.4 Интероперабельность
данных
в
системах
электронной
коммерции
Интероперабельность данных в системах электронной коммерции (Interoperability of
Data in E-Commerce Systems, INDECS) [8] - набор метаданных, который развился из
потребностей издания музыкальной литературы и зрелищных искусств, и представляет
собой наиболее сложный набор метаданных, определяющий правовое регулирование
(интеллектуальная собственность "создателя", "владельца", лицензионные сборы, оплата
концертной деятельности, перечисление средств правообладателям и т.д.). Хотя в
настоящее время проект INDECS формально закрыт, работы в этом направлении не
прекращаются. Его участники основали некоммерческую организацию Indecs Framework
Ltd, продолжается сотрудничество с International DOI Foundation (IDF). В любом случае
этот проект является наиболее продвинутым в направлении систем метаданных,
ориентированных на управление правами на цифровые объекты. В связи с этим ведутся
исследованию по сопоставлению системы метаданных INDECS c другими системами
метаданных. Наиболее подробный анализ в этом направлении сделан в [8]. Внедрение
стандартов метаданных в различных областях, таких как искусство и музеи, привело к
созданию гибридных метаданных путем комбинации отдельных наборов из метаданных
Дублинского ядра и INDECS, а также путем добавления других атрибутов, необходимых
для описания специфики данной области. Другие специфические области, такие как
пространственно-географические метаданные [9], образовательная информация и
учебные материалы, также пришли к разработке наборов метаданных (Дублинское ядро
– образование, IMS, ARIADNE и т.д.) [6].
2.5.5 Стандарт IMS
IMS - это проект, объединяющий усилия 29 представителей промышленности,
государственного аппарата и образовательных учреждений для создания пакета
- 16 -
стандартов в 6 областях: профили, метаданные, содержимое, тесты, управление,
компетентность [17].
Проект
объединяет
достижения
разработок
в
дистанционном
образовании
и
специфицирует их в формате XML [11]. Многие фирмы и государственные организации,
занимающиеся дистанционным образованием, приняли этот стандарт, и сейчас он
позиционируется как формат обмена данными между образовательными организациями.
Информационная модель управления (IMS Enterprise Information Model) описывает
структуры
данных,
использованием
специфицирующих
интернета
и
систем
взаимодействие
обслуживающих
обучающих
реальное
систем
с
образовательное
учреждение. Основными классами приложений поддерживаемой этой моделью является
системы:
1. управление обучающим процессом;
2. администрирование студентов;
3. администрирование библиотеки;
4. управление человеческими ресурсами.
Эта
модель
главным
образом
специфицирует
взаимодействие
с
системами,
находящимися внутри одного учреждения. Этот стандарт не специфицирует обмен
данными между различными учреждениями.
Информационная модель управления поддерживает следующие 4 процесса, которые
обычно требуются для взаимодействия обучающих систем с местными системами
администрирования:
1. Хранение персональных данных. Это данные, хранящиеся в местных системах
администрирования реального образовательного учреждения и необходимые
электронным обучающим системам.
2. Управление группами. Управление и хранение данных о группах студентов.
3. Управление регистрацией. Управление регистрацией - это операции над такими
видами
данных, как назначения преподавателей
курсам или
назначение
инструктора для проведения занятия.
4. Обработка конечных результатов. Этот процесс заключается в обработке и
сохранении результатов групп (рейтинг, выполнение курса).
Спецификации для метаданных являются описанием данных об учебных ресурсах. Они
облегчают поиск учебных ресурсов. Стандарт IMS Metadata состоит из 3 частей:
1. IMS Core - ядро метаданных;
2. IMS Standart Extension Library - стандартная библиотека расширений метаданных;
3. IMS Taxonomy and Vocabulary Lists - словари метаданных.
- 17 -
Словари метаданных сгруппированы по темам и могут являться значениями элементов
метаданных.
Спецификация содержимого определяет оформление интерактивных, независимых от
платформы материалов. Эта спецификация определяет добавочную информацию к
содержимому, которая облегчает осуществление над ним следующих операций:
1. авторам создавать интерактивный образовательный материал;
2. администраторам управлять и распределять материал;
3. обучаемым взаимодействовать и изучать материал.
Модель представления данных, используемая в IMS удобна для организации системы
тестирования по следующим причинам:
1. Иерархичность объектов модели.
2. Отделение настроек тестирования от материалов тестов.
3. Правильные ответы хранятся в виде условных выражений, что позволяет легко
записывать правильные ответы для большого подмножества типов вопросов.
4. Отделение логического типа вопроса от способа его представления.
5. Общность представления вопроса, что позволяет делать комбинации нескольких
типов вопросов.
6. Модель описана на языке XML.
7. Спецификация Q&TI позволяет постепенный переход на нее. IMS поддерживает
облегченную версию спецификации.
Название
Выделенные особенности
MARC

Сфера
применения
данного
библиографическими
формата,
метаданными,
прежде
всего,
метаданными,
ограничивалась
раскрывающими
содержание, и, в очень редких случаях, метаданными поступлений
GILS

метаданные размещаются вне информационного ресурса

разработан
публикаций,
для
идентификации
включающий
электронных
структурные
версий
метаданные
официальных
равно
как
библиографические метаданные и метаданные, раскрывающие содержание
DCMI

поддерживает гиперссылки для доступа к взаимосвязанным ресурсам

представляет "ядро" или абсолютный минимум метаданных, необходимых
для отыскания ресурсов (и не может быть применен при описании заказа,
- 18 -
абонементного обслуживания, лицензирования или условий и обстоятельств
доступа, и т.д.)

INDECS
систем метаданных, ориентированных на управление правами на цифровые
объекты.
IMS

сложный набор метаданных, определяющий правовое регулирование

формат обмена данными между образовательными организациями.

производителям программного обеспечения трудно сразу поддерживать весь
стандарт. IMS разделил все элементы метаданных LOM на две части

Словари метаданных сгруппированы по темам и могут являться значениями
элементов метаданных.
Таблица: Выделенные особенности рассмотренных стандартов метаданных.
2.5.6 Выводы
При решении рассматриваемой задачи подход с использоваием предметноориентированных онтологий позволяет решить проблему использования различной
терминологии авторами учебных компонент и составителем курса. Использование
метаданных в качестве пространства поиска позволяет повысить итоговое качество поиска
и сократить время поиска.
Рассмотренные наборы метаданных обладают множеством общих черт, но в
контексте
рассматриваемой
задачи
оправданным
является
рассмотрение
набора
стандартов IMS (Core + Taxonomy) , используемого на практике для описания курсов и
единиц знаний – !!! остается вопрос – в тексте этот стандарт не упоминается. Нужна
какие-то слова про метаданные в разделе реализации. При этом в стандарте допускается
использование онтологий (с группировкой словарей по темам) – !!! обязательно
разобраться. Таксономия – вообще-то просто иерархия понятий, насколько я понял.из
описаний стандарта IMS.
- 19 -
3 Автоматизация процесса составления учебных курсов
авторами
В данной работе предлагается механизм, позволяющий частично автоматизировать
процесс составления учебных курсов, а именно, этап составления курса с использованием
репозитария, который обозначен на рисунке 1 красным цветом.
Упрощенная схема работы механизма, позволяющего составить курс, выглядит
следующим образом:
1. Пользователь (составитель учебного курса) описывает содержание курса.
2. Каждый пункт оглавления, к которому предполагается сопоставить единицу знаний
необходимо дополнить ключевыми словами. Структура оглавления представляет собой
дерево, листовым вершинам которого приписаны элементы, содержащие смысловую
нагрузку. Например: рассмотрим содержание курса, имеющее следующие пункты - Глава,
Параграф. При таком разделении Главы и Разделы не подразумевают смысловую часть, а
задают иерархию курса, а Параграфы содержат смысловую нагрузку. Рассмотрим
конкретный пример:
Глава1: Введение в теорию сложности
Параграф1: Понятие о сложности решения задач
Ключевые слова: индивидуальная задача, массовая задача,
кодировка, алгоритм решения массовой задачи,
временная сложность алгоритма, класс P, класс NP
Параграф2: NP-полные (универсальные) задачи
Ключевые слова: экспоненциальная оценка, класс co-NP,
характеризация, полиномиальная сводимость, класс NPC,
теорема Кука, NP-полнота
Также в качестве дополнительной информации для
более точного определения
нужной учебной компоненты могут использоваться и другие поля метаданных,
определенные в стандарте (в данной работе рассматриваются поля стандарта IMS).
3. Далее запускается механизм обработки содержания, который на выходе получает
один или несколько фрагментов, имеющихся в репозитарии, для каждого пункта
содержания,
подразумевающего
содержимое.
Таким
образом,
при
однозначном
определении каждой листовой вершины содержания получается готовый курс, иначе –
небольшой объем вариантов для одного или нескольких пунктов содержания. В
рассматриваемом примере будет подбираться содержимое параграфов.
Поисковый механизм для удобства использования материала, осуществляет поиск по
репозитарию, состоящему из единиц знаний.
- 20 -
3.1 Описание основного алгоритма
3.1.1 Работа основного алгоритма
При составлении пользователем оглавления, ключевые слова добавляются только
тем пунктам, которым соответствует текст в создаваемом учебном курсе.
Итерационный алгоритм подбора ЕЗ описан ниже. Рассмотрим одну итерацию
работы алгоритма, т.е. работу, проводимую над одним пунктом содержания и
повторяемую необходимое количество раз.
ШАГ 1: Формирование запроса по оглавлению, введенному пользователем
Ключевые слова, внесенные пользователем вместе с курсом в оглавление, читаются
механизмом. Эти слова формируют запрос, каждому слову в котором приписывается
весовой коэффициент {pi}, i =1..n, n – количество слов в запросе.
Пусть множество слов запроса Wq = {W1, W2, W3}; тогда весовой вектор будет
записываться следующим образом: pq = {p1, p2, p3}. В начальном запросе Wq,
составленном автором-экспертом, все веса pi = 1.
ШАГ 2: Поиск по репозитарию
По запросу производится поиск по репозитарию ЕЗ. Поиск идет по метаописаниям, а
не основным текстам ЕЗ. Ключевым словам в метаописаниях также приписываются веса
{pj}, j =1..m, m – количество ключевых слов в документе.
ШАГ 3: Условие завершимости алгоритма
Если найдено единственное полное соответствие запроса – работа алгоритма
окончена. Если найдено несколько полных соответствий – пользователю выдается список,
ограниченной длины. Если полное соответствие не найдено – выполняется шаги 3 и 4.
ШАГ 4: Определение релевантности найденных ЕЗ
Если слова файлах и слова из запроса частично совпадают, то выводится список
наиболее релевантных компонент. Релевантность определяется скалярным произведением
векторов, соответствующих запросам и документам.
Пример:
Пусть Wq = {W1, W2, W4}– запрос;
По нему найдено 2 документа с частичным вхождением слов:
Wd1 = {W1, W3, W4}– набор слов в пером документе;
- 21 -
Wd2,= {W1, W3, W5}– набор слов во втором документе.
Распишем вектора полностью:
p
1
W
p
2
p
3
p
4
p
5
1
1
0
1
0
1
0
1
1
0
1
0
1
0
1
q
W
d1
W
d2
Вычислим скалярное произведение fi = (pq, pdi ):
f1 = (pq, pd1) = 2
f2 = (pq, pd2 ) = 1
Более релевантной ЕЗ соответствует большее fi.
Найденные результаты упорядочиваются в соответствии со значением фукнции
релевантности fi = (pq, pdi ). Результат поиска: d1, d2.
ШАГ 5: Работа с онтологией
Работа с онтологией осуществляется следующим образом:
 Слово из запроса находится в онтологии
 В запрос добавляются слова-синонимы;
 В запрос добавляются слова-обобщения, уточнения.
Подходы к формированию производных запросов из исходного
Подход 1: Логическое расширение запросов
Если среди слов в файлах нет слов из запроса, то запрос расширяется посредством
обращения к онтологии. Словам, добавляющимся к запросу добавляются весовые
коэффициенты в зависимости от вида связи в онтологии, по которому они были
добавлены в запрос.
Пусть Wq = {W1, W2, W4}– запрос;
Этот эапрос можно преобразовать в булевскую форму: Wq = {W1  W2  W4}
Wq’ = {(W1  Wo1  Wo1)  (W2  Wo2,)  (W4  Wo4)}, где Woi – расширение,
полученное посредством онтологии. В зависимости от типа связи, использованного для
- 22 -
расширения запроса, для вычисления веса данного слова в расширенном запросе вводятся
различные коэффициенты согласно исследованиям, проведенным в работе [24].
В зависимости от того, какой связью связан концепт онтологии с изначально
искомым словом, формируется вес.
ps = 0.9 для синонимичных связей;
pl = 0.7 для обобщающих;
pe = 1/Np, где Np – количество уточняющих определений, имеющихся в используемой
онтологии.
Подход 2: Дополнение весов коэффициентами инверсной частоты терминов (idf)
Второй подход к учету весовых коэффициентов, является расширением основного
принципа и заключается в использовании коэффициентов инверсной частоты термов (idf),
которые вычисляются следующим образом:
ki = log (N/dfi),
ki = 0 при dfi = 0,
где N – общее количество документов в используемом репозитарии;
dfi - количество документов, в которых встречается i-ый термин.
Таким образом, весовой коэффициент для i-го концепта вычисляется следующим
образом:
pi = po * ki
Обоснование использования коэффициентов инверсной частоты терминов idf:
Обоснование использования коэффициентов инверсной частоты терминов idf
заключается в следующем:

При умножении веса концепта на коэффициент idf учитывается встречаемость
в документах рассматриваемой коллекции (репозитария).

Показано [24], что большая встречаемость слов в коллекциях документов
говорит об их незначительности.

В то время слова, редко встречающиеся в документах являются специальными
терминами, на которое стоит обратить большее внимание.
Специфика работы алгоритма относительно использования вышеизложенных
принципов заключается в работе со словами, которые и так являются ключевыми в
документах.
Таким образом, использование документов является правомерным при репозитарии,
охватывающем некоторую область знаний с достаточной полнотой. Также можно сделать
- 23 -
вывод о некорректности использования второго расширенного подхода к вычислению
весовых коэффициентов при работе с небольшим репозитарием.
Подход 3: Использование подмножеств исходного запроса
Третий подход к формированию расширенных запросов и их использовании
заключается в учете запросов, полученных из начального отбрасыванием одного или
нескольких слов запроса. Т.о. получается множество подмножеств слов исходного набора
ключевых слов, внесенного пользователем. Тогда вторым шагом после поиска по
начальному запросу идет поиск по полученным множествам. Отличие от предыдущих
подходов заключается учете меньшего количества слов в запросе. При это происходит
расширение набора документов, образующих область поиска.
Подход 4: Поиск по ключевым словам
Поиск по ключевым словам является базовым. Данный вид поиска использован в
экспериментах для сравнения с предыдущими с целью выявления разницы выигрыша в
качестве поиска с использованием онтологии и без нее. В данном подходе онтология не
используется.
***
Далее выполняются действия, начиная с ШАГА 2. Таким образом обрабатывается
каждый пункт оглавления курса.
*************************************************************************
В процессе работы алгоритма, для каждого пункта содержания при неполном
соответствии ЕЗ выдается список возможных вариантов. Дальнейший подбор единственно
подходящей учебной компоненты осуществляется экспертом, т.к. только эксперт в
области, по которой составляется учебный курс может наилучшим образом подобрать тот
или иной материал для обучения. В этом случае алгоритм, реализованный в данной
работе, применяется для сужения области поиска учебной компоненты – уменьшения
репозитария. Работа эксперта при значительном уменьшении просматриваемых учебных
компонент сводится к минимуму.
Необходимость вмешательства эксперта в процесс составления курса по оглавлению
обуславливается
возможностью
алгоритма
определения
единственно
возможных
вариантов составления курса, что, в свою очередь, зависит от

точности выделения ключевых терминов как из учебных компонент, так и
составителем курса;

полноты используемой онтологии, ее точности;
- 24 -

соответствия терминологии, используемой составителем, и терминологии, которая
использована при составлении учебных компонент.
3.1.2 Описание реализации
Реализация алгоритма написана на языке Java. при написании программы
использовались
стандартные
библиотеки
java.util,
java.io,
а
также
lucene
[12]
(http://jakarta.apche.org/lucene) для работы с текстом.
Так при подсчете коэффициентов инверсной частоты терминов (idf) для получения
частот вхождения терминов использовались программные вызовы библиотеки Lucene.
Встроенные в нее средства работы с текстом реализуют с математической точки зрения
простые, но с точки зрения программирования объемные функции, например, подсчет
статистической информации о текстах документов, которые находятся в репозитарии.
Основными
компонентами
программной
реализации
являются
механизм
ранжирования ЕЗ, механизм поддержки репозитария и механизм поддержки операций с
онтологией. Механизм ранжирования ЕЗ – Algorithm работает с репозитарием при поиске
ЕЗ, с использованием различных подходов к организации поиска. Механизм поддержки
репозитария (индексирование, поиск) - включает в себя адаптер для работы с библиотекой
индексирования и поиска Lucene – класс LuceneIdfedRepository, реализующий интерфейс
Repository.
- 25 -
Рисунок 2: Диаграмма классов, связанных с обработкой текста
- 26 -
Для расширения поисковых запросов используется механизм поддержки операций с
онтологией – CSVOntology. С использованием связей, описанных в онтологии,
реализованы различные подходы к расширению запросов.
Рисунок 3: Механизм поддержки работы с онтологией
- 27 -
На схеме, расположенной ниже, изображены основные классы алгоритма.
Рисунок 4: Диаграмма классов основного алгоритма
- 28 -
3.2 Постановка экспериментов
Эксперименты, описанные ниже, проводились с учетом мнения эксперта в области, по
которой составлен репозитарий. Последовательность действий при постановке
экспериментов была следующей:
1. Репозитарий был просмотрен экспертом.
2. Экспертом была составлена структура содержания учебных курсов и сопоставлен
набор ключевых терминов для пунктов.
3. Экспертом для каждого пункта содержания было определено множество релевантных
ЕЗ и выбрана наиболее релевантная единица знаний.
Были проведены две серии экспериментов:

В рамках первой серии оценивалось качество поиска наиболее релевантной ЕЗ, когда
поиск по репозитарию был нацелен на подбор конкретной ЕЗ.

В рамках второй серии экспериментов оценивалось качество поиска всего множества
ЕЗ. Т.е. оценивалось общее количество ЕЗ, тематика которых соответствовала
запросу.
При проведении экспериментов сравнивалось качество поиска предложенных ранее
4 подходов.
3.2.1 Типовые показали качества поиска
Традиционными показателями качества поиска являются полнота и точность.
Определим эти показатели. Предположим
Dc - множество УК, соответствующих
заданному пункту оглавления c ; s - множество документов, найденных алгоритмом
поиска.
Определение полноты поиска: Полнота (recall) поиска определяется как соотношение
количества ЕЗ, правильно отнесенных к заданному пункту оглавления к общему
количеству ЕЗ, релевантных этому пункту:
P( s ) 
| s  Dc |
| Dc |
(1)
- 29 -
Определение точности поиска: Точность (precision) поиска определяется как
соотношение количества ЕЗ, правильно отнесенных к заданному пункту оглавления к
общему количеству найденных ЕЗ:
R( s) 
| s  Dc |
|s|
(2)
При постановке экспериментов оценивались полнота и точность поиска всех
релевантных ЕЗ и полнота и точность поиска наиболее релевантной ЕЗ. При подсчете
полноты и точности во всех сериях экспериментов использовалось вычисление средних
значений, т.к. эксперименты были однотипными.
3.2.2 Цели экспериментов
При постановке экспериментов преследовались следующие исследовательские цели:
1. Оценить полноту и точность работы алгоритма.
2. Исследовать поведение алгоритма при различных подходах к вычислению весовых
коэффициентов запроса.
3.2.3 Описание используемых входных данных для экспериментов
3.2.3.1 Используемый репозитарий
В экспериментах использовался набор учебных текстов по математике, содержащий
тексты по математическому анализу, числовым методам, дифференциальным уравнениям
и др. Общее количество документов составляет порядка 400 документов.
Ключевые слова, описывающие единицы знаний были получены автоматическим
способом [25]. Файлы специального формата содержат непосредственно ключевые слова,
их частотные и описательные характеристики.
3.2.3.2 Используемая онтология
В качестве экспериментального материала была взята онтология разработанная
Научно-исследовательским вычислительным центром МГУ (НИВЦ МГУ) [ 23, 25], ее
часть по математике. Данная онтология состоит из 4500 слов-терминов или
терминологических выражений. Термины и терминологические выражения связаны
следующими типами связей:

«ВЫШЕ-НИЖЕ» - обобщение понятий или сужение рассматриваемой области;

«ЦЕЛОЕ-ЧАСТЬ» - вложенность понятий;

«АССОЦИАЦИЯ» - ассоциативная связь между понятиями предметной области;
- 30 -

Синонимичные связи.
Первые две пары связей являются взаимно-обратными. Например, если первое слово
со вторым связано связью «ВЫШЕ», то второе с первым – связью «НИЖЕ». Имеющиеся
типы связей позволяют выявить иерархию терминологии предметной области. Термины
можно рассматривать как вершины графа, в то время как ребрами, связывающими эти
термины, будут связи. Таким образом, возможно перемещение между вершинами графов
посредством различных типов связей. Перемещение может осуществляться, как на одном
уровне
–
посредством
перехода
по
синонимичным
связям
и
связям
типа
«АССОЦИЯЦИЯ»; так и между соседними уровнями иерархии - посредством связей
«ВЫШЕ-НИЖЕ», «ЦЕЛОЕ-ЧАСТЬ».
3.2.4 Эксперимент 1
Цель: Оценка полноты и точности работы алгоритма при использовании подхода 1:
Логическое расширение запросов
Результаты эксперимента:
Соответствие одного пункта
Количество
запусков
Количество
найденных ЕЗ
Из них верно
5
1
1
6
1
1
2
3
0
19
1
1
1
0
1
Полнота поиска множества
релевантных ЕЗ
Точность поиска множества
релевантных ЕЗ
73,3%
Полнота
наиболее
66,7%
поиска наиболее
43,1%
поиска
63,4%
релевантной ЕЗ
Точность
релевантной ЕЗ
3.2.5 Эксперимент 2
Цель: Оценка полноты и точности работы алгоритма при использовании подхода 2:
Дополнение весов коэффициентами инверсной частоты термина (idf)
Результаты эксперимента:
Соответствие одного пункта
Количество
3
6
1
3
1
1
1
0
2
3
19
4
1
0
1
1
1
1
запусков
Количество
найденных ЕЗ
Из них верно
Полнота поиска множества
релевантных ЕЗ
Точность
поиска
множества релевантных ЕЗ
66,7%
Полнота поиска наиболее
60%
релевантной ЕЗ
Точность
- 31 -
55,1%
поиска наиболее
релевантной ЕЗ
32%
3.2.6 Эксперимент 3
Цель: Оценка полноты и точности работы алгоритма при использовании подхода 3:
Использование подмножеств исходного запроса
Результаты эксперимента:
Соответствие одного пункта
Количество
7
3
1
2
1
1
Полнота поиска множества
релевантных ЕЗ
Точность
поиска
множества релевантных ЕЗ
0
1
2
3
19
4
Полнота поиска наиболее
запусков
Количество
66.7%
53,3%
54.5%
релевантной ЕЗ
найденных ЕЗ
Из них верно
0
1
1
1
1
Точность
1
поиска наиболее
30%
релевантной ЕЗ
3.2.7 Эксперимент 4
Цель: Оценка полноты и точности работы алгоритма без обращения к онтологии
Результаты эксперимента:
4
9
Полнота поиска множества
релевантных ЕЗ
Точность
поиска
множества релевантных ЕЗ
1
0
Полнота поиска наиболее
Соответствие одного пункта
Количество
запусков
Количество
25%
26.7%
релевантной ЕЗ
найденных ЕЗ
Из них верно
26.7%
1
Точность
0
поиска наиболее
25%
релевантной ЕЗ
3.2.8 Общие оценки эффективности
На представленных ниже диаграммах представлены оценки эффективности
результатов экспериментов. Отдельно отображены показатели качества поиска всего
множества релевантных ЕЗ и наиболее релевантной ЕЗ.
70
60
50
40
Полнота (%)
30
Точность (%)
20
10
0
Подход1
Подход2
Подход3
Без онтологии
Диаграмма 1: Эффективность поиска наиболее релевантной ЕЗ
- 32 -
80
70
60
50
40
Полнота (%)
30
Точность (%)
20
10
0
Подход1
Подход2
Подход3
Без онтологии
Диаграмма 2: Эффективность поиска множества релевантных ЕЗ
3.2.9 Выводы
1.
Эксперименты показали эффективность использования онтологии в подборе ЕЗ,
полнота при этом увеличится в 2,5 раза, точность – в 1,6 раза.
2.
В результате экспериментов наилучшие результаты по полноте и точности показал
подход основанный на логическом представлении поисковых запросов, без учета
возможных вариантов запросов из слов, входящих в состав основного набора
ключевых слов.
3.
В результате Эксперимента 2 была выявлена невысокая точность подхода с учетом в
весовых коэффициентах терминов их инверсной частоты idf. Как и предполагалось,
данный подход не является наиболее эффективным. Основная гипотеза заключается
в том, что данный подход будет являться наиболее эффективным
 при большом репозитарии по определенной предметной области;
 при полном описании предметной области с большой точностью.
4.
Ухудшение показателей полноты и точности в третьем подходе свидетельствует о
том, что подбор ЕЗ ухудшается при упрощении запроса отбрасыванием одного или
нескольких ключевых слов.
3.2.10
Оценка времени поиска
3.2.10.1
Условные обозначения
Для вычисления оценки времени поиска единиц знаний для получения курсов введем
следующие обозначения, относящиеся к используемому материалу и оценкам времен
работы программы и человека при работе с данными.
p – размер курса; количество пунктов содержания;
N – кол-во ЕЗ в репозитарии;
- 33 -
Tэ – время, необходимое эксперту для просмотра одной ЕЗ; допустим его оценку в
следующих пределах: [10сек , 2мин]
Для алгоритма подбора ЕЗ будем учитывать количество возможных вариантов для
пункта содержания, предложенных алгоритмом – n.
Tс – время, необходимое эксперту для составления оглавления учебного курса;
примем оценку этого времени во временном интервале [10мин, 20мин] с учетом оценок,
указанных выше.
Tм – время работы алгоритма подбора ЕЗ, которое мы примем во временном
интервале [10сек , 1мин].
3.2.10.2
Время составления курса экспертом
Вычислим время подбора ЕЗ содержанию курса экспертом с учетом обозначений,
принятых в п.7.4.9.1. Это время будет складываться из трех составляющих:
1.
Времени, необходимого эксперту для просмотра репозитария.
2.
Времени, необходимого эксперту для составления оглавления учебного курса.
3.
Времени, необходимого эксперту для подбора ЕЗ к одному пункту содержания.
Первая составляющая вычисляется умножением времени, необходимого эксперту
для просмотра одной ЕЗ, на количество ЕЗ в репозитарии Tэ*N. Третья составляющая
также означает просмотр репозитария, т.е. учета величины Tэ*N, но с дополнительным
коэффициентом k<1, который будет обозначать, что время повторного обращения к
репозитарию меньше времени первого обращения к нему и ознакомления с находящимися
в нем материалами. Таким образом, можем записать время подбора ЕЗ содержанию курса
экспертом T1 следующей формулой:
T1 = Tэ*N + Tс + p* ((Tэ*N)*k), k<1
3.2.10.3
Время работы с использованием автоматического подбора ЕЗ
Вычислим время работы с использованием автоматического подбора ЕЗ, используя
обозначения, принятые в п.7.4.9.1. Это время будет складываться также из трех
составляющих:
1.
Времени, необходимого эксперту для составления оглавления учебного курса.
2.
Времени работы алгоритма подбора ЕЗ.
3.
Времени, необходимого
эксперту для просмотра множества ЕЗ, подобранного
механизмом автоматического подбора ЕЗ к пунктам содержания.
Вычислить третью составляющую можно умножив время, необходимое эксперту для
просмотра одной ЕЗ, Tэ, на количество возможных подобранных вариантов ЕЗ, n, и на
- 34 -
количество пунктов содержания составляемого курса p. Таким образом, можем записать
время, затрачиваемое на оставление курса с использованием автоматического подбора ЕЗ
T2 следующей формулой:
T2 = Tс + Tм + p*( Tэ*n)
3.2.10.4
Сравнительный анализ оценки времени составления курсов
Сравним временные затраты на составление курса T1 и T2, описанные в пп. 3.2.10.23.2.10.3 проведем их оценки в условных обозначениях и с учетом принятых допущений в
п.3.2.10.1. Положим k = 0.1, n = 10.
Рассмотрим случай, когда использование автоматизированного поиска ЕЗ никак не
отражается времени, затрачиваемого на составление курса, т.е.
T1 = T2. Это будет
выполняться при N’ = (p*n)/(p*k + 1). С учетом значений, принятых выше, N~70. Т.е. при
количестве ЕЗ в репозитарии равном 70 автоматизированный подход к поиску является
неоправданным.
Будем считать, что оценка T2 не зависит от N, т.к. зависимость от N отражается
только во времени работы алгоритма - Tм которое сложно точно оценить и время работы
которого незначительно -
[10сек , 1мин] – по сравнению с остальными значениями
времен. Тогда при конкретных значениях остальных величин T2 = const, а T1 линейно
зависит от N. Изобразим на графике зависимости времени от количества ЕЗ в репозитарии
T(N) как будет изменяться время составления курса автоматически и вручную в
зависимости от размера репозитария:
Рисунок: Ручной и автоматизированный процессы составления курсов
- 35 -
3.3 Заключение
В ходе выполнения дипломной работы были получены следующие результаты:
1. Была предложена схема работы алгоритма сопоставления единиц знаний
оглавлению курса с использованием онтологии предметной области
2. Создана реализация предложенного алгоритма на языке Java.
3. Проведена экспериментальная оценка эффективности различных подходов к
организации поиска по репозитарию с расширением поисковых запросов при помощи
онтологии:

Подход 1: Логическое расширение запросов

Подход 2: Дополнение весов коэффициентами инверсной частоты терминов idf.

Подход 3: Использование подмножеств исходного запроса
Полученные оценки качества поиска позволяют говорить об эффективности
применения онтологии для автоматического составления курса на основе описания его
структуры.
4. Проведены оценки временных затрат при составлении курсов с использованием
автоматизированного подхода и без него.
В данной работе была показана эффективность применения метода поиска по
ключевым словам с использованием онтологии предметной области при решении задачи
подбора ЕЗ оглавлению курса. Использование разработанного алгоритма позволяет
сократить время составления учебного курса при условии работы с большим
репозитарием учебного материала.
- 36 -
3.4 Литература
[1]
А. Корольков Электронное обучение – история, технологии, эффективность
// Кадровый менеджмент 12.03.2003
[2]
«Электронное Обучение: Возможности, Трудности, Перспективы», Казаков
М.М., материал Международной конференции "Доступ к государственной информации,
являющейся общественным достоянием", 2005г.
[3]
Дианн Руш-Фейа Международные инициативы в области метаданных -
последние достижения // Электронные библиотеки 2000 Том 3 Выпуск 4
[4]
MARC - standard for the representation and communication of bibliographic and
related information in machine-readable form homepage (http://lcweb.loc.gov/marc/)
[5]
Global Information Locator Service Homepage (http://www.gils.net/)
[6]
Dublin
Core
Educational
Metadata
Homepage
(http://purl.org/dc/groups/education.html) http://purl.org/dc/
[7]
Arms W.Y. Digital Libraries //Poster presentation. in 6th European Conference on
Research and Advanced Technology for Digital Libraries (ECDL 2002), (Rome, September 1618, 2002 (перевод Арнаутова С.А.) 2002г.
[8]
Interoperability
of
Data
in
E-commerce
Systems
Homepage
(http://www.indecs.org)
[9]
Geospatial Metadata Standards (http://www.ifla.org/II/metadata.htm#geo)
[10]
Bearman, D., Sochats, K., Metadata Requirements for Evidence, University of
Pittsburgh, [HTML] (http://www.lis.pitt.edu/~nhprc/BACartic.html)
[11]
“RDF Схема Метаданных Исир. Роль технологий Semantic Web в
архитектуре ИСИР.”, А.А. Бездушный (МФТИ), А.Н. Бездушный (ВЦ РАН), А.Б.
Жижченко (ЦНТК РАН), М.В. Кулагин (ЦНТК РАН), В.А. Серебряков (ВЦ РАН), 2004г.
[12]
RDF/XML Syntax Specification [HTML] (http://www.w3.org/TR/rdf-syntax-
grammar/)
[13]
Resource Description Framework (RDF) Schema Specification [HTML]
(http://www.w3.org/TR/2000/CR-rdf-schema-20000327)
[14]
Deborah L. McGuinness, Frank van Harmelen OWL Краткий обзор [HTML]
(http://www.w3.org/TR/owl-features/ )
[15]
Michael
K.
Smith
OWL,
(http://www.w3.org/TR/owl-guide/ )
- 37 -
язык
веб-онтологий
HTML]
[16]
П. Михаленко “Новый язык, получивший название OWL, поможет запустить
автоматизированные инструменты для глобальной сети нового поколения, предлагая
такие усовершенствованные услуги, как более точный Web-поиск, интеллектуальные
программные агенты и управление знаниями.”,// “Открытые системы”, #02
[17]
Instructional Management Systems (IMS) (http://www.imsproject.org), the IMS
Metadata specifications (http://www.imsproject.org/metadata/index.html);
[18]
Проект KML, посвященный инструментам организации знаний [HTML]
(http://kml.mipt.ru/)
[19]
А. Ворожцов Индустрия знаний. //журнал “Информационные технологии и
вычислительные
системы”
,
2003,
4,
c.
145-148
http://kml.mipt.ru/RU/bin/view/Minds/KnowledgeIndustry
[20]
Ricardo
R.
Gudwin
«Computational
Semiotics»
[HTML]
(http://www.dca.fee.unicamp.br/~gudwin/compsemio/)
[21]
David A. Hull Information Retrieval Using Statistical Classification. 1994.
[22]
Боровикова О.И., Загорулько Ю.А. Организация порталов знаний на основе
онтологий. // Труды международного семинара Диалог'2002“Компьютерная лингвистика
интеллектуальные технологии”. Протвино, 2002. Т.2, С.76-82.
[23]
Добров Б.В., Лукашевич Н.В., Синицын М.Н., Шапкин В.Н., Разработка
лингвистической
онтологии
для
автоматического
индексирования
текстов
по
естественным наукам // Электронные библиотеки: перспективные методы и технологии,
электронные коллекции. Труды седьмой Всероссийской научной конференции (3-7
октября 2005г., г.Ярославль). - Ярославль: ЯрГУ, 2005 – С.70-79.
[24]
Агеев М.С. Методы автоматической рубрикации текстов, основанные на
машинном обучении и знаниях экспертов // Дис. канд. физ.-мат. наук : 05.13.11 : Москва,
2004 136 c. РГБ ОД, 61:05-1/511
[25]
Добров Б.В., Лукашевич Н.В., Сыромятников С.В. Формирование базы
терминологических словосочетаний по текстам предметной области // Труды пятой
Всероссийской научной конференции "Электронные библиотеки: перспективные методы
и технологии, электронные коллекции" - RCDL2003, Санкт-Петербург, 2003 – С.201-210
(http://www.cir.ru/docs/ips/publications/2003_rcdl_thes_creation.pdf)
[26]
Д. Ландэ Поиск знаний в Интернет // "Диалектика-Вильямс", стр. 272.; 2005
[27]
Д. Павлов Задачи OWL-based поисковой системы и пути их решения // 2004
[HTML] (http://www.md-it.ru/articles/?show=print&id=21)
[28]
Richard Fikes, Adam Farquhar (1997) Large-Scale Repositories of Highly
Expressive Reusable Knowledge, http://www-ksl.stanford.edu/yearindex.html#1997.
- 38 -
[29]
Nicola Guarino (1999) OntoSeek: Content-Based Access to the Web, IEEE
Intelligent Systems, May/June , pp. 70-80.
[30]
О.И. Россеева, Ю.А. Загорулько Организация эффективного поиска на
основе онтологий // Труды международного семинара Диалог'2001 по компьютерной
лингвистике и ее приложениям. -Т.2. -Аксаково, 2001. -с.333-342.
- 39 -
Download