Курс «Информационно-поисковые системы»

  1. Порядок проведения занятий

    1. Взять в библиотеке РГРТУ учебные пособия [1-2].
    2. Скачать шаблон отчета и учебный пример .
    3. Практические работы загружать через форму (требуется авторизация в аккаунт Google) .
  2. Вопросы для проверки знаний

    1. Информационный поиск. Определения понятий «информация», «данные», «информационная потребность», «документ», «поле документа», «коллекция документов», «терм», «поисковый запрос». Виды поисковых запросов. Релевантность.
    2. Метрология информационного поиска. Метрики и функциональные зависимости информационного поиска. Расстояние Левенштейна. Точность и полнота поиска.
    3. Метрология информационного поиска. Метрики и функциональные зависимости информационного поиска. Частота терма и обратная частота терма в документах. Закон Хипса. Закон Зипфа.
    4. Метрология информационного поиска. Метрики и функциональные зависимости информационного поиска. Параметр PageRank.
    5. Информационно-поисковые системы. Определение и характеристики информационно-поисковой системы. Структура информационно-поисковой системы и назначение ее блоков.
    6. Информационно-поисковые системы. Агент информационно-поисковой системы. Назначение и этапы работы.
    7. Информационно-поисковые системы. Хранилище веб-страниц информационно-поисковой системы. Индексатор веб-страниц информационно-поисковой системы.
    8. Информационно-поисковые системы. Прямой и обратный индексы информационно-поисковой системы. Обработчик поисковых запросов информационно-поисковой системы.
    9. Комплекс программ Elastic Stack – системы Elasticsearch, Logstash и Kibana. Состав, назначение комплекса программ Elastic Stack.
    10. Комплекс программ Elastic Stack – системы Elasticsearch, Logstash и Kibana. Взаимодействие систем в комплексе программ Elastic Stack. Установка. Запуск.
    11. Концептуальные понятия системы Elasticseach. Документ системы Elasticseach, его структура. Простые и составные типы полей документа. Состав документа.
    12. Концептуальные понятия системы Elasticseach. Индекс, узел, кластер системы Elasticseach. Типы узлов в кластере. Управляющий узел. Узел хранения данных.
    13. Концептуальные понятия системы Elasticseach. Узел поглощения данных. Коммуникационный выбираемый узел. Узел машинного обучения. Узел преобразования данных. Координирующий узел. Рекомендации к выборам типов узлов.
    14. Концептуальные понятия системы Elasticseach. Сегмент системы Elasticseach. Как формируется кластер системы Elasticseach? Как индексируется документ? Как выполняется поисковый запрос? Как проверяется работоспособность узлов?
    15. Концептуальные понятия системы Elasticseach. Как узел исключается из кластера? Как проходят выборы управляющего узла? Как обозначаются уровни жизнеспособности кластера? Что такое межкластерное взаимодействие? Как «расколоть мозг»?
    16. Запрос к системе Elasticsearch. Общий вид. Методы запросов. Настройка представления ответа.
    17. Получение параметров и состояния кластера и узлов (перечислить запросы и, в общем, что они возвращают). Способ задания списка узлов.
    18. Система Logstash и загрузка данных в систему Elasticsearch. Порядок загрузки данных в систему Elasticsearch c помощью системы Logstash. Общий вид конфигурации загрузки данных. Особенности полей документов в системе Elasticsearch, загруженных системой Logstash.
    19. Операции с индексами. Создание. Просмотр. Переиндексирование. Закрытие и открытие. Удаление. Просмотр настроек индекса.
    20. Операции с документами. Создание. Параметры ответов на запросы операций с документами. Как параметры _seq_no и _primary_term повышают надежность хранения данных? Получение документа по идентификатору. Обновление. Удаление.
    21. Операции со структурой документа индекса. Структура документа в системе Elasticsearch. Динамическое и явное определение структуры документа. Явное определение структуры документа.
    22. Операции со структурой документа индекса. Составные типы данных. Просмотр структуры документа. Просмотр поля в структуре документа. Рекомендации по выбору типа поля.
    23. Индексирование. Индексатор. Тестирование индексатора, делителя текста на термы, фильтров символов и термов. Просмотр термов проиндексированного документа.
    24. Индексирование. Фильтрация символов.
    25. Индексирование. Разделение текста на термы.
    26. Индексирование. Фильтрация термов.
    27. Индексирование. Индексаторы системы Elasticsearch. Создание пользовательского индексатора в настройках индекса. Изменение структуры документа с добавлением индексатора к полю.
    28. Команда _search. Назначение, общий вид и параметры. Параметры ответа на запрос с командой _search. Параметр _source. Параметр fields.
    29. Команда _search. Параметр sort. Параметры from и size. Индекс релевантности и его вычисление.
    30. Параметр query. Назначение и общий вид. Контекст запроса и контекст фильтра. Полнотекстовый поиск и поиск термов, структуры данных для них. Поисковые запросы параметра query.
    31. Параметр query. Поисковый запрос match.
    32. Параметр query. Поисковый запрос match_phrase. Поисковый запрос match_phrase_prefix. Поисковый запрос match_bool_prefix.
    33. Параметр query. Поисковый запрос query_string.
    34. Параметр query. Поисковый запрос multi_match. Поисковый запрос more_like_this.
    35. Параметр query. Поисковый запрос term. Поисковый запрос terms.
    36. Параметр query. Поисковый запрос range. Поисковый запрос ids. Поисковый запрос exists.
    37. Параметр query. Логический поисковый запрос. Поиск с помощью мультиполей. Использование индексаторов для поиска по мультиполям и текстов запросов.
    38. Агрегация. Назначение, определение, категории и общий вид. Возможности агрегации. Как исключить результаты поиска из ответов на запросы агрегации?
    39. Агрегация. Статистические агрегации.
    40. Агрегация. Агрегация по группам. Назначение и особенности. Агрегация термов. Агрегация редких термов. Агрегация нескольких термов. Агрегация отборщиком.
    41. Агрегация. Агрегация значимого текста. Агрегация по числовым диапазонам. Агрегация по временны́м интервалам. Агрегация подсчета количества отсутствующих значений.
    42. Агрегация. Вложенные агрегации.
    43. Агрегация. Отбор документов и результатов агрегации, конвейерные агрегации.
    44. Тонкости настройки поиска и операций с документами. Шинглы. Выделение термов из текста запроса в тексте найденного документа.
    45. Тонкости настройки поиска и операций с документами. Получение расчета значения индекса релевантности. Автозавершение текста.
    46. Тонкости настройки поиска и операций с документами. Ускорение фильтрации в логическом запросе с помощью поля типа constant_keyword. Выполнение нескольких запросов в одном запросе.
  3. Литература

    1. Пруцков А. В. Информационно-поисковая система Elasticsearch: учеб. пособие: в 2 т. — Рязань: РГРТУ, 2023. — Т. 1. — 172 с.
    2. Пруцков А. В. Информационно-поисковая система Elasticsearch: учеб. пособие: в 2 т. — Рязань: РГРТУ, 2023. — Т. 2. — 184 с.