Автоматическое индексирование документальной информации

Прикладные науки

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).

Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы.

При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста -анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову.

Задачами морфологического анализа текста являются; выделение из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается десятки миллионов понятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Book-Science
Добавить комментарий