Универсальный морфологический анализ и синтез текстов

Автоматическая обработка текстов (АОТ) — это преобразование или анализ текста с помощью ЭВМ. Автоматическая обработка текстов осуществляется на трех уровнях:

  1. морфологическом;
  2. синтаксическом;
  3. семантическом.

На каждом уровне автоматической обработки текстов выполняются две задачи: анализ и синтез. Морфологический анализ текста — это процесс определения грамматического значения словоформ и выделения их основ. Морфологический синтез текста — это процесс генерации форм заданных слов (лексем) с определенными грамматическими значениями.

Морфологический анализ может быть словарным (со словарем основ и окончаний или словарем словоформ) или бессловарным (только со словарем окончаний; словарь окончаний может быть встроен в алгоритм морфологического анализа). Бессловарный метод используется только для определения переменной морфологической информации (не всегда однозначно), а словарный — во всех остальных случаях.

Для русского языка разработано более десятка методов морфологического анализа и синтеза. Обзор методов морфологического анализа и синтеза для русского языка приведен в статье:
Пруцков А.В., Розанов А.К. Методы морфологической обработки текстов // Прикаспийский журнал: управление и высокие технологии. — 2014. — № 3 (27). – С. 119-133.

Однако в эпоху глобализации необходимы многоязычные систем обработки текста с использованием универсальных методов для решения задач морфологического анализа и синтеза текстов на нескольких естественных языках.

Предлагаемый универсальный метод основан на представлении генерации и определении словоформ в виде цепочек преобразований. Цепочка преобрaзований состоит из операций (преобразований) двух типов:

  1. присоединение к основе справа или слева подстроки;
  2. замены одной подстроки на другую.

Типы преобразований могут быть расширены за счет преобразований специфичных для языка.

Показана универсальность данного метода для различных естественных языков.

Алгоритмы, модель формообразования метода генерации и определения словоформ и примеры для различных естественных языков приведены в статье:
Пруцков А.В. Генерация и определения форм слов естественных языков на основе их последовательных преобразований // Вестник Рязанского государственного радиотехнического университета. — 2009. — № 27. — С. 51-58.

Связаться с автором

Контактная информация

Copyright © MMXII-MMXVII А.В. Пруцков. Все права защищены