А.А. РАСКИН Научный руководитель – П.И. РУДАКОВ, к.т.н., доцент ЧАСТИЧНО УПОРЯДОЧЕННЫХ МНОЖЕСТВ

advertisement
А.А. РАСКИН
Научный руководитель – П.И. РУДАКОВ, к.т.н., доцент
Национальный исследовательский ядерный университет «МИФИ»
СРАВНЕНИЕ И ОПРЕДЕЛЕНИЕ СРЕДНЕГО ЗНАЧЕНИЯ
ЧАСТИЧНО УПОРЯДОЧЕННЫХ МНОЖЕСТВ
Сравнение частично упорядоченных множеств является актуальной проблемой
при сравнении между собой рейтингов, результатов выдачи различных поисковых
машин. В работе представлены результаты работы исследуемых методов на искусственных данных, сгенерированных специально для тестирования алгоритмов.
В работе рассматривается задача сравнения упорядоченных множеств
между собой. Упорядоченным множеством могут быть представлены различные данные, например, расположенные в порядке приоритета задачи
для выполнения или составленный человеком рейтинг просмотренных им
фильмов. Еще одним примером может служить порядок ссылок на странице поисковой выдачи.
Сравнение между собой таких множеств позволит сравнивать предпочтения пользователей, что может повысить качество рекомендательных
систем, или улучшить качество поисковой выдачи.
Часто в данных целях используются расстояния Пирсона и Кенделла
[1], построенные на основе соответствующих коэффициентов корреляции.
Другим способом сравнения между собой таких множеств является векторизация и использование классических мер близости (или функций расстояния), например, косинусное расстояние. Один из таких методов представлен в [2].
Мы предложили использовать расстояние Левенштейна [3] как еще
один способ сравнения таких множеств между собой. Особенность данного расстояния заключается в том, что оно учитывает как порядок следования элементов, так и состав множества.
На искусственно сгенерированных данных были проведены исследования возможности использования расстояния Левенштейна и редакторского расстояния для сравнения частично упорядоченных множеств между собой. Для определения качества выбранной меры близости использовалась оценка качества кластеризации (индекса Ранда), которая проводилась с помощью выбранной функции расстояния.
Результаты показали, что расстояние Левенштейна может быть использовано при сравнении частично упорядоченных множеств между
собой. При этом расстояние позволяет оперировать упорядоченными
множествами в своем естественном состоянии (без векторизации) и
оставляет широкие возможности для расчета среднего значения (в
отличие от расстояния Кендалла и Пирсона).
Список литературы
1. Kamishima T., Fujiki J. Clustering Orders. // Discovery Science. Vol. 2843 of Lecture
Notes in Computer Science. Springer, 2003. P. 194–207.
2. Ukkonen A. Clustering Algorithms for Chains // J. Mach. Learn. Res. 2011. Vol. 12. P.
1389–1423.
3. Levenshtein V. Binary Codes Capable of Correcting Deletions, Insertions and Reversals
// Soviet Physics Doklady. 1966. Vol. 10. P. 707.
Download