Универсальный морфологический анализ и синтез текстов

    Автоматическая обработка текстов (АОТ) — это преобразование или анализ текста с помощью ЭВМ. Можно выделить три уровня автоматической обработки текстов:
  1. морфологическом;
  2. синтаксическом;
  3. семантическом.

На каждом уровне автоматической обработки текстов решаются две задачи: анализ и синтез. Морфологический анализ текста — это процесс определения грамматического значения словоформ и выделения их основ. Морфологический синтез текста — это процесс генерации форм заданных слов (лексем) с определенными грамматическими значениями.

Морфологический анализ может быть словарным (со словарем основ и окончаний или словарем словоформ) или бессловарным (только со словарем окончаний; словарь окончаний может быть встроен в алгоритм морфологического анализа). Бессловарный метод используется только для определения переменной морфологической информации (не всегда однозначно), а словарный — во всех остальных случаях.

Для русского языка разработано более десятка методов морфологического анализа и синтеза. Обзор методов морфологического анализа и синтеза для русского языка приведен в статье:
Пруцков А. В., Розанов А. К. Методы морфологической обработки текстов // Прикаспийский журнал: управление и высокие технологии. — 2014. — № 3 (27). – С. 119-133.

Однако в эпоху глобализации необходимы многоязычные систем обработки текста с использованием универсальных методов для решения задач морфологического анализа и синтеза текстов на нескольких естественных языках.

    Предлагаемый универсальный метод основан на представлении генерации и определении словоформ в виде цепочек преобразований. Цепочка преобрaзований состоит из операций (преобразований) двух типов:
  1. присоединение к основе справа или слева подстроки;
  2. замены одной подстроки на другую.

Типы преобразований могут быть расширены за счет преобразований специфичных для языка.

Показана универсальность данного метода для различных естественных языков.

Алгоритмы генерации и определения словоформ, модель формообразования и примеры для различных естественных языков приведены в статье:
Пруцков А. В. Генерация и определения форм слов естественных языков на основе их последовательных преобразований // Вестник Рязанского государственного радиотехнического университета. — 2009. — № 27. — С. 51-58.

Связаться с автором

Контактная информация