На каждом уровне автоматической обработки текстов решаются две задачи: анализ и синтез. Морфологический анализ текста — это процесс определения грамматического значения словоформ и выделения их основ. Морфологический синтез текста — это процесс генерации форм заданных слов (лексем) с определенными грамматическими значениями.
Морфологический анализ может быть словарным (со словарем основ и окончаний или словарем словоформ) или бессловарным (только со словарем окончаний; словарь окончаний может быть встроен в алгоритм морфологического анализа). Бессловарный метод используется только для определения переменной морфологической информации (не всегда однозначно), а словарный — во всех остальных случаях.
Для русского языка разработано более десятка методов морфологического
анализа и синтеза. Обзор методов морфологического анализа и синтеза для
русского языка приведен в статье:
Пруцков А. В., Розанов А. К. Методы
морфологической обработки текстов // Прикаспийский журнал: управление
и высокие технологии. — 2014. — № 3 (27). – С. 119-133.
Однако в эпоху глобализации необходимы многоязычные систем обработки текста с использованием универсальных методов для решения задач морфологического анализа и синтеза текстов на нескольких естественных языках.
Типы преобразований могут быть расширены за счет преобразований специфичных для языка.
Показана универсальность данного метода для различных естественных языков.
Алгоритмы генерации и определения словоформ, модель формообразования
и примеры для различных естественных языков приведены в статье:
Пруцков А. В. Генерация и определения форм
слов естественных языков на основе их последовательных преобразований //
Вестник Рязанского государственного радиотехнического университета. — 2009.
— № 27. — С. 51-58.