Presentation is loading. Please wait.

Presentation is loading. Please wait.

Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.

Similar presentations


Presentation on theme: "Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для."— Presentation transcript:

1 Linguistic tools Лекция 5

2 ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для составления конкорданса ключевых слов к Библии Журнальные индексы (Королевское научное общество, 1600-е)

3 Orville James Nave (1841-1917)

4

5

6

7 Информационный поиск INFORMATION RETRIEVAL (IR) Поиск неструктурированных данных (обычно текстовых документов), в которых находится нужная информация в больших коллекциях/корпусах (обычно хранятся в компьютерах)

8 1950 – библиотечное дело 1952 г Кельвин Муерс: information retrieval 1990- WWW Google > 8 млрд страниц –Яндекс 6 млн страниц, 2,5 млн сайтов

9 Архитектура поисковой системы Робот ( краулер, спайдер, индексатор) Базы данных Клиент (обработка запроса)

10 ЗАПРОС Логический запрос 1=true 0= false Булевская модель поиска

11 Manning & Raghavan 2005

12 ЗАПРОС: Brutus AND Caesar NOT Calpurnia

13

14 Для больших коллекций матрица невозможна Инвертированный индекс ( запоминаем только вхождения, но не их отсутствия) Записи отсортированы по словам

15

16 Индексирование Документы  Токенизация  Лемматизация  Индексатор

17 ИНДЕКСАТОР: шаг 1 Пара (слово, ID документа)

18 Индексатор: шаг 2 СОРТИРОВКА !

19 Индексатор: шаг 3 Вхождения в один и тот же документ объединяются Добавляются сведения о частоте

20 ОБРАБОТКА ЗАПРОСА POINTER

21 1.Двигаемся одновременно по двум рядам пойнтеров. 2.На каждом шаге сравниваем оба пойнтера. 3.Если они равны – то это искомое пересечение. 4.Если они не равны, то двигаем меньший. ОБРАБОТКА ЗАПРОСА

22 Оптимизация обработки запросов Начинай с наименее частотного (почему?) Частота двух терминов объединенных оператором OR может быть примерно оценена как сумма частот каждого

23 упражнение

24 Оценка качества поиска Релевантность –Полнота (recall) R –Точность (precision) P Точность P = a/a+c Полнота R = a/ a+b F мера = (p+r)/ 2pr документывыданныеневыданные релевантныеac нерелевантныеbd


Download ppt "Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для."

Similar presentations


Ads by Google