Полнотекстовый поиск в PostgreSQL за миллисекунды

Полнотекстовый поиск в PostgreSQL за миллисекунды Коротков А.Е, Бартунов О.С. Полнотекстовый поиск в базе данных: задача Найти документы, которые удовлетворяют запросу  Вернуть результаты в порядке релевантности  Полнотестовый поиск в базе данных: требования  Интеграция с ядром СУБД  Поддержка транзакций  Конкуретность, recovery  Обновление индекса «online»  Поддержка языка  Расширяемость, масштабируемость Что такое документ?    Произвольный текстовый атрибут Комбинация текстовых атрибутов Может быть полностью вирутальным. Например, результатом SQL объединения таблиц doc и autor Title || Abstract || Keywords || Body || Author Операторы полнотекстового поиска  Традиционные FTS операторы для атрибутов LIKE, ILIKE, ~, ~* Проблемы – Отсутствие поддержки языка (стемминг, стоп слова) – Отсутствие ранжирования – Последовательное сканирование документов Решение – Предварительная обработка документов – Поддержка индексов FTS в PostgreSQL     набор правил по преобразованию документа в его FTS представление – tsvector, tsquery набор функций для получения tsvector, tsquery из текста FTS операторы и индексы функции ранжирования, подсветки результатов FTS в PostgreSQL =# select 'a fat cat sat on a mat and ate a fat rat'::tsvector @@ 'cat & rat':: tsquery; – tsvector – представление документа, оптимизированное для поиска • отсортированный массив лексем • позиции и вес лексем – tsquery – тип данные для полнотекстового запроса • булевы операторы - & | ! () – поисковый оператор tsvector @@ tsquery Возможности FTS  Полная интеграция PostgreSQL  27 встроенный конфигураций для 10 языков  Поддержка пользовательских конфигураций     Встраиваемые словари (ispell, snowball, thesaurus), парсеры Ранжирование по релевантности GiST и GIN индексы с поддержкой concurrency и recovery Богатый язык запросов с поддержкой перезаписывания запросов FTS в PostgreSQL  OpenFTS — 2000, Pg как хранилище  GiST index — 2000, спасибо Rambler  Tsearch — 2001, contrib:без ранжирования  Tsearch2 — 2003, contrib:config  GIN —2006, спасибо JFG Networks  FTS — 2006, в ядре, спасибо EnterpriseDB  E-FTS — Enterprise FTS, спасибо??? Накладные расходы на ACID велики   Внешние решения: Sphinx, Solr, Lucene....  Скачивание БД в «поисковый движок» (задержка)  Затруднен доступ к атрибутам  Дополнительная сложность  НО: Очень быстро ! Можно ли ускорить встроенный FTS ? Можно ли ускорить встроенный FTS ? 1.Поиск релевантных документов: Index scan — как правило, довольно быстро 2.Расчет релевантности: Heap scan — как правило, медленно 3.Сортировка документов Можно ли ускорить встроенный FTS ? 156676 статей Wikipedia: postgres=# explain analyze SELECT docid, ts_rank(text_vector, to_tsquery('english', 'title')) AS rank FROM ti2 WHERE text_vector @@ to_tsquery('english', 'title') ORDER BY rank DESC LIMIT 3; Limit (cost=8087.40..8087.41 rows=3 width=282) (actual time=433.750..433.752 rows= -> Sort (cost=8087.40..8206.63 rows=47692 width=282) (actual time=433.749..433. Sort Key: (ts_rank(text_vector, '''titl'''::tsquery)) Sort Method: top-N heapsort Memory: 25kB -> Bitmap Heap Scan on ti2 (cost=529.61..7470.99 rows=47692 width=282) (a Recheck Cond: (text_vector @@ '''titl'''::tsquery) -> Bitmap Index Scan on ti2_index (cost=0.00..517.69 rows=47692 wid Index Cond: (text_vector @@ '''titl'''::tsquery) Total runtime: 433.787 ms Можно ли ускорить встроенный FTS ? 156676 статей Wikipedia: postgres=# explain analyze SELECT docid, ts_rank(text_vector, to_tsquery('english', 'title')) AS rank FROM ti2 WHERE text_vector @@ to_tsquery('english', 'title') ORDER BY text_vector>< plainto_tsquery('english','title') LIMIT 3; Если бы был такой план Limit -> (cost=20.00..21.65 rows=3 width=282) (actual time=18.376..18.427 rows=3 loops Index Scan using ti2_index on ti2 (cost=20.00..26256.30 rows=47692 width=282 Index Cond: (text_vector @@ '''titl'''::tsquery) Order By: (text_vector >< '''titl'''::tsquery) Total runtime: 18.511 ms то было бы неплохо! Было бы неплохо Обучить индекс (GIN) считать релевантность и возвращать документы упорядоченно  Хранить позиции лексем в индесу — больше не нужна колонка tsvecotr  Использовать компрессию  Изменить алгоритмы и интерфейсы Оптимизировать случай редкое_слово & частое_слово  Инвертированный индекс Инвертированный индекс QUERY: compensation accelerometers INDEX: accelerometers 5,10,25,28,30,36,58,59,61,73,74 RESULT: 30 compensation 30,68 Инвертированный индекс в PostgreSQL E N T R Y Posting list Posting tree T R E E Нет позиционной информации в индексе ! Список изменений • GIN – способ хранения – алгоритм поиска – поддержка ORDER BY – изменения интерфейса • Планировщик Изменение структуры GIN Дополнительная информация (позиции слов) ItemPointer typedef struct ItemPointerData { BlockIdData ip_blkid; OffsetNumber ip_posid; } typedef struct BlockIdData { uint16 bi_hi; uint16 bi_lo; } BlockIdData; 6 bytes WordEntryPos /* * Equivalent to * typedef struct { * uint16 * weight:2, * pos:14; * } */ typedef uint16 WordEntryPos; 2 bytes Varbyte сжатие BlockIdData Varbyte сжатие OffsetNumber O0-O15 – биты OffsetNumber N – NULL бит дополнительной информаци Varbyte сжатие WordEntryPos P0-P13 – биты позиции W0,W1 – биты веса Пример Top-N запросы 1. Сканирование + вычисление релевантности 2. Сортировка 3. Возвращение результатов по одному с помощью gingettuple Быстрое сканирование entry1 && entry2 Изменения интерфейса GIN extractValue Datum *extractValue ( Datum itemValue, int32 *nkeys, bool **nullFlags, Datum *addInfo, bool *addInfoIsNull ) extractQuery Datum *extractValue ( Datum query, int32 *nkeys, StrategyNumber n, bool **pmatch, Pointer **extra_data, bool **nullFlags, int32 *searchMode, ???bool **required??? ) consistent bool consistent ( bool check[], StrategyNumber n, Datum query, int32 nkeys, Pointer extra_data[], bool *recheck, Datum queryKeys[], bool nullFlags[], Datum addInfo[], bool addInfoIsNull[] ) calcRank float8 calcRank ( bool check[], StrategyNumber n, Datum query, int32 nkeys, Pointer extra_data[], bool *recheck, Datum queryKeys[], bool nullFlags[], Datum addInfo[], bool addInfoIsNull[] ) ???joinAddInfo??? Datum joinAddInfo ( Datum addInfos[] ) Оптимзация для планировщика До test=# EXPLAIN (ANALYZE, VERBOSE) SELECT * FROM test ORDER BY slow_func(x,y) LIMIT 10; ---------------------------------------------------Limit (cost=0.00..3.09 rows=10 width=16) (actual t Output: x, y, (slow_func(x, y)) -> Index Scan using test_idx on public.test (co Output: x, y, slow_func(x, y) Total runtime: 103.524 ms (5 rows) После test=# EXPLAIN (ANALYZE, VERBOSE) SELECT * FROM test ORDER BY slow_func(x,y) LIMIT 10; ---------------------------------------------------Limit (cost=0.00..3.09 rows=10 width=16) (actual t Output: x, y -> Index Scan using test_idx on public.test (co Output: x, y Total runtime: 0.164 ms (5 rows) Результаты тестирования avito.ru: 6.7 млн. документов С колонкой tsvector, без патча SELECT itemid, title FROM items WHERE fts @@ plainto_tsquery('russian', 'квартира') ORDER BY ts_rank(fts, plainto_tsquery('russian', 'квартира')) DESC LIMIT 10; С колонкой tsvector, без патча Limit (cost=729272.24..729272.26 rows=10 width=398) (actu Buffers: shared hit=696232 -> Sort (cost=729272.24..731294.81 rows=809028 width=3 Sort Key: (ts_rank(fts, '''квартир'''::tsquery)) Sort Method: top-N heapsort Memory: 26kB Buffers: shared hit=696232 -> Bitmap Heap Scan on items (cost=8661.97..7117 Recheck Cond: (fts @@ '''квартир'''::tsquery Buffers: shared hit=696232 -> Bitmap Index Scan on fts_idx (cost=0.00 Index Cond: (fts @@ '''квартир'''::tsq Buffers: shared hit=612 Total runtime: 1871.349 ms С колонкой tsvector, с патчем SELECT itemid, title FROM items WHERE fts @@ plainto_tsquery('russian', 'квартира') ORDER BY fts >< plainto_tsquery('russian', 'квартира') LIMIT 10; С колонкой tsvector, с патчем Limit (cost=20.00..59.46 rows=10 width=4 -> Index Scan using fts_idx on items Index Cond: (fts @@ '''квартир''' Order By: (fts >< '''квартир''':: Total runtime: 143.952 ms Без колонки tsvector, без патча SELECT itemid, title FROM items2 WHERE (setweight(to_tsvector('russian'::regconfig ORDER BY ts_rank((setweight(to_tsvector('russian' LIMIT 10; Без колонки tsvector, без патча Limit (cost=749132.39..749132.41 rows=10 width=372) (actu Buffers: shared hit=485458 -> Sort (cost=749132.39..751145.79 rows=805360 width=3 Sort Key: (ts_rank((setweight(to_tsvector('russian Sort Method: top-N heapsort Memory: 26kB Buffers: shared hit=485458 -> Bitmap Heap Scan on items2 (cost=8625.55..731 Recheck Cond: ((setweight(to_tsvector('russi Buffers: shared hit=485458 -> Bitmap Index Scan on fts_idx2 (cost=0.0 Index Cond: ((setweight(to_tsvector('r Buffers: shared hit=612 Total runtime: 52685.595 ms Без колонки tsvector, с патчем SELECT itemid, title FROM items2 WHERE (setweight(to_tsvector('russian'::re ORDER BY (setweight(to_tsvector('russian': LIMIT 10; Без колонки tsvector, с патчем Limit (cost=20.02..59.61 rows=10 width=373) (ac Buffers: shared hit=1556 -> Index Scan using fts_idx2 on items2 (cost Index Cond: ((setweight(to_tsvector('rus Order By: ((setweight(to_tsvector('russi Buffers: shared hit=1556 Total runtime: 143.639 ms C колонкой tsvector, без патча SELECT itemid, title FROM items WHERE fts @@ plainto_tsquery('russian', 'квартира арбат') ORDER BY ts_rank(fts, plainto_tsquery('russian', 'квартира арбат')) DESC LIMIT 10; C колонкой tsvector, без патча Limit (cost=6908.03..6908.05 rows=10 width=398) (actual t Buffers: shared hit=1314 -> Sort (cost=6908.03..6912.44 rows=1766 width=398) (a Sort Key: (ts_rank(fts, '''квартир'' & ''арбат''': Sort Method: top-N heapsort Memory: 26kB Buffers: shared hit=1314 -> Bitmap Heap Scan on items (cost=61.69..6869.8 Recheck Cond: (fts @@ '''квартир'' & ''арбат Buffers: shared hit=1314 -> Bitmap Index Scan on fts_idx (cost=0.00 Index Cond: (fts @@ '''квартир'' & ''а Buffers: shared hit=616 Total runtime: 92.069 ms C колонкой tsvector, с патчем SELECT itemid, title FROM items WHERE fts @@ plainto_tsquery('russian', 'квартира арбат') ORDER BY fts >< plainto_tsquery('russian', 'квартира арбат') LIMIT 10; C колонкой tsvector, с патчем Limit (cost=40.00..80.22 rows=10 width=400) (ac Buffers: shared hit=1236 -> Index Scan using fts_idx on items (cost=4 Index Cond: (fts @@ '''квартир'' & ''арб Order By: (fts >< '''квартир'' & ''арбат Buffers: shared hit=1236 Total runtime: 1.579 ms avito.ru: тесты Без патча С патчем С пачем без tsvector Sphinx Размер таблицы 6.0 GB 6.0 GB 2.87 GB - Размер индекса 1.29 GB 1.27 GB 1.27 GB 1.12 GB 216 с 303 с 718 с 180 с* 3,0 млн. 42.7 млн. 42.7 млн. 32.0 мн. Время созадания индекса Запросов за 8 часов Анонимный источник: 18 млн. документов Анонимный источник: тесты Без патча С патчем С патчем, без tsvector Sphinx Размер таблицы 18.2 GB 18.2 GB 11.9 GB - Размер индекса 2.28 GB 2.30 GB 2.30 GB 3.09 GB 258 с 684 с 1712 с 481 с* 2.67 млн. 38.7 млн. 38.7 млн. 26.7 млн. Время создания индекса Запросов за 8 чаос Положение дел 2 из 4 планируемых патчей на текущем commitfest Спасибо за внимание!

Полнотекстовый поиск в PostgreSQL за миллисекунды

Related documents

Products

Support

Полнотекстовый поиск в PostgreSQL за миллисекунды

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib