непосредственно густо-достижима

Шевченко Алексей, 422 группа  Быстрый рост количества научных публикаций  Большой разброс публикаций по сети  Отсутствие какой-либо общей структуры научных работ  Отсутствие свободного доступа к публикациям некоторых электронных журналов  Улучшение возможностей доступа к публикациям  Различный формат документов (текст, html, PDF и т.д.)  Структуризация документов на основе взаимного цитирования  Создание базы данных, объединяющей существующие научные публикации  Полнота охвата данных в конкретной области  Низкая вероятность ошибок при связывании документов  Большое количество человеческих трудозатрат  Создание программного средства, обеспечивающего индексацию электронных документов  Полная автоматизация процесса индексации документов  Высокая вероятность ошибки  Возможность обрабатывать индексировать документы только на одном языке  Комбинированный подход: использование базы данных одновременно со средствами автоматической индексации  Поиск научных публикаций  Анализ полученных документов  Индексирование и связывание документов  Поиск с помощью существующих поисковых машин  Поиск по ключевым словам (например, “publication”, “paper”, “postscript”)  Получение информации из дружественных источников  Получение ссылок на документы по RSS или аналогичным способом  Непосредственная загрузка ссылок в базу данных системы автоматического индексирования авторами или издателями научных статей  Определение «научности» документа на основании наличия списка литературы или секции «Related works»  Поиск ссылочной секции по форматированию  Поиск непосредственно ссылок на прочие работы  Под словами «ссылка» или «цитата» подразумевается ссылка на статью вида год-автор-заголовок и т.д. Полнотекстовый поиск не производится.  Извлечение метаданных из цитат  Извлечение метаданных из документа  Сохранение метаданных документа в базе данных  Группировка цитат, относящихся к одном документу, и сопоставление ссылок и цитируемых документов на основании метаданных документа и цитаты  Данная задача является ключевой при построении графа цитирования  Существуют различные методы решения этой задачи. Можно выделить четыре основных способа ее решения:  На основании расстояний между строками или расстояний редактирования  На основании статистики слов (например, TFIDF)  Сопоставление подполей (subfield) цитат и метаданных (например, год издания)  Вероятностные модели, также использующие информацию подполей  А также комбинации вышеперечисленных методов Идеальный вариант – подполя цитаты полностью совпадают с метаданными документа  Различное написание ссылок на одни и те же документы  Ошибки и опечатки в имени автора, годе выпуска и т.д.  Два подполя с одинаковым значением могут ссылаться на различные данные Пример:  Aha, D. W. (1991), Instance-based learning algorithms, Machine Learning 6(1), 37-66.  D. W. Aha, D. Kibler and M. K. Albert, Instance-Based Learning Algorithms. Machine Learning 6 37-66, Kluwer Academic Publishers, 1991.  Aha, D. W., Kibler, D. & Albert, M. K. (1990). Instance-based learning algorithms. Draft submission to Machine Learning.  CiteSeer – известная программа, выполняющая ACI  CiteSeer использует алгоритм, основанный на нормализации     цитат, сортировки цитат по длине и сопоставления слов и фраз внутри подполей Алгоритм может быть улучшен методами машинного обучения, проводимого на существующих библиографических базах Кроме того, можно разрешить определенным пользователям вносить изменения CiteSeer позволяет классифицировать статьи как исследовательские, учебные и обзорные на основании информации о количестве цитат из широко цитируемых статей (hubs and authorities) CiteSeer предоставляет дополнительные функции, такие как навигация по графу цитирования, сбор статистики (например, за какие годы больше всего статей у определенного автора). Из индексации исключены «stop-words», например, «the», и т.д.  Самыми простыми методами группировки метаданных являются определение строковых расстояний и TFIDF-мера  Эти способы не учитывают информацию подполей; они рассматривают цитаты и, возможно, метаданные документов как текстовую строку  Существует множество различных строковых расстояний. Цитаты считаются относящимися к одной группе, если расстояние между ними не превышает некоторой эмпирически установленной величины. Одним из самых простых расстояний является расстояние Левеншайна, которое считается как количество удалений, вставок и замен, необходимый для преобразования одной строки в другую (расстояние редактирования). Существуют и гораздо более сложные метрики (например, LikeIt)  Для определения схожести текстов может использоваться tf *idf мера (Tf = term frequency, Idf = inverse document frequency):  Размерность вектора, представляющего текст, равна общему количеству термов (различных слов) во всей выборке текстов  J-й элемент вектора I, соответствующего I-му документу, равен tf*idf  Tf = ½ + ½ * TermFrequency/MaxTermFrequency, где TermFrequency – частота терма в тексте, MaxTermFrequency – максимальная частота термов в тексте  Idf = log(N/df), где N – число документов в выборке, df – число документов, в которых встречается терм  Схожесть текстов определяется как косинус угла между векторами, представляющими документы: n SimTfIdf  a b i 1 n a i 1 2 i i i n  i 1 bi2  Сначала для каждого документа p(i) выделяются все упоминаемые авторы a(i,j), каждый из которых соотносится с метазаписью  Для каждой записи выделяются подполя (атрибуты) t(i, j, k), 1<= k <= m  «Блочный» модуль группирует непротиворечивые цитаты (метазаписи) в «предварительные классы» (candidate classes)  Для каждой пары внутри класса строится поатрибутный вектор похожести, причем для разных типов атрибутов используются разные функции похожести (например, расстояние редактирования для URL и TFIDF для имен)  На основании этого вектора SVM (Support Vector Machine) определяет попарные расстояния между метазаписями  На основании данных DBSCAN проводит кластеризацию  Для обучения SVM- алгоритма используется обучающая выборка, состоящая из векторов похожести и их булевых меток. Задача алгоритма – поиск оптимальной гиперплоскости (w*x) + b = 0, w – Rn, b – R, разделяющей обучающую выборку. Для оптимизации ищется минимальное значение |w|^2, при условии, что Yi((w*xi) + b) >= 1 (Yi – булевая метка, +1 или -1)  LASVM – модификация SVM-алгоритма. В то время как SVM работает только с пакетами, LASVM способен работать в онлайн-режиме, т.е. при добавлении новых данных не нужно заново обрабатывать всю обучающую выборку. За счет этого можно использовать меньше оперативной памяти, т.о. LASVM применим к очень большим объемам данных  Для оптимизации обучающей выборки используются ASM – active sample selection, которая оставляет наиболее значимые данные и удаляет «шумы». Выборка считается тем более оптимальной, чем ближе она находится к гиперплоскости. Использование классической ASM в сочетании с SVM слишком дорого, однако можно использовать упрощенные методы без полного поиска; например, выбрать из каждый 50 сэмплов один наилучший  DBSCAN is Density Based Spatial Clustering of Applications with Noise  Попарная кластеризация с превышением порога создает проблему транзитивности, когда A и B и В и С попадают в один кластер, а А и С – нет. Эта проблема возникает из-за ошибок в извлечении метаданных и несовершенстве используемых метрик  DBSCAN – высокоэффективный метод кластеризации, основанный на густоте точек  Причины использования DBSCAN:  Довольно хорошее решение проблемы транзитивности  Моделирование кластеров любой формы; кроме того, границы кластеров более приближены к человеческому восприятию  Высокая эффективность метода, при вычислительной сложности O(N*logN) Для всех определений будем полагать заданными параметры Eps и MinPts.  Точка P непосредственно густо-достижима (directly densityreachable) из точки Q, если P лежит в Eps-окрестности Q и кол-во всех точек в этой окрестности >= MinPts. Q – центр (core point)  P густо-достижима из Q, если существует последовательность P1…Pn, где P1 = Q, Pn = P и Pi+1 непосредственно густо-достижима из Q  P густо-связанная с Q, если существует O, т.ч. P и Q густо-достижимы из O  Кластер - непустое подмножество C исходного множества точек, удовлетворяющее след. условиям:  1) Для любых P и Q, если P принадлежит C и Q г.-д. из P, то Q принадлежит C  2) Для любых P и Q из C, P густо-связана с Q  Шум – множество точек исходного множества, не принадлежащих ни одному кластеру Корректность следует из двух лемм:  Если в Eps-окрестности точки P находится не менее MinPts точек, то все густо-достижимые из P точки образуют кластер  Если C – кластер и P - центр, то C эквивалентен мно-ву всех густо-достижимых точек из P Общий принцип работы алгоритма кластеризации таков.  Алгоритм начинает работу в произвольной точке P  Если точка P является центром, то все густодостижимые из P точки образуют кластер  Если точка P не является центром, то выбирается следующая точка, и т.д.  Каждая цитата обрабатывается сразу же, при поступлении в систему, и, если соответствующий документ не был найден, в соответствие ставится некий виртуальный документ. При поступлении в систему подходящего документа виртуальный документ заменяется на реальный  Для извлеченных из каждой цитаты метаданных строится структура, состоящая из конъюнкции дизъюнкций всех полей, относящихся к имени автора, и конъюнкции прочих атрибутов  Далее, для заданного документа ищется список всех цитат, «похожесть» которых превышает некоторое значение, и для заданной цитаты ищется аналогичный список документов. На основании этих данных делается вывод, относится заданная цитата к документу или нет  Также ставится задача определения метаданных некоторого неизвестного документа на основании метаданных всех ссылающихся на него цитат. В таком случае из всех возможных вариантов строится «доверительный вектор», состоящий из вероятностей всех возможных вариантов. При появлении нового варианта вектор перерасчитывается с учетом нового возможного значения  Steve Lawrence, C. Lee Giles, Kurt Bollacker. Digital Libraries and Autonomous Citation Indexing. В данной статье описана проблема индексирования цитат и документов, а также описана работа системы для ACI CiteSeer  Anand Sivasubramaniam, C. Lee Giles, and others. Learning Metadata from the Evidence in an On-Line Citation Matching Scheme. В данной статье описан комбинированный подход к проблеме построения графа цитирования, основанный на вероятностных моделях и кластеризации.  Jian Huang1, Seyda Ertekin2, and C. Lee Giles. Efficient Name Disambiguation for Large-Scale Databases. В данной статье описана система, основанная на методах LASVM (обучаемый алгоритм, используемый для извлечения метаданных) и DBSCAN (метод кластеризации, основанный на понятии плотности)  Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. В данной статье приводится детальное описание алгоритма DBSCAN.

непосредственно густо-достижима

Related documents

Products

Support

непосредственно густо-достижима

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib