Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Автоматическое индексирование документальной информации

Разместил: Admin, 11 April 2011

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).

Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы.

При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста -анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову.

Задачами морфологического анализа текста являются; выделение из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается десятки миллионов понятий, а слов — около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Рейтинг: 3.1/5 (253 голоса)

Похожие статьи
1: 
Плюсы и минусы эпидуральной анестезии
В настоящее время эпидуральная анестезия чаще всего применяется для благополучного разрешения родового процесса или при хирургическом вмешательстве на нижнем поясе туловища. Эпидуральная анестезия осуществляется при помощи введения обезболивающего пр...
2: 
Как повышенная влажность влияет на наше самочувствие
Уровень влажности - это то, о чем нас ежедневно предупреждает "Гисметео" в сводках погоды. Наряду с атмосферным давлением, влажность может влиять на здоровье метеочувствительных людей и способствовать обострению хронических заболеваний. Влажность воз...
3: 
Лексикография и виды словарей в современном русском языке
Лексикография - это теория и практика составления словарей. Лексика - неустойчивый уровень языковой структуры, с трудом поддающийся систематизации, в этом основная трудность составления словарей. Предмет лексикографической теории - разработка принцип...
4: 
Лексика с точки зрения её активного и пассивного словарного запаса
Словарный состав языка находится в постоянном движении. Постоянно появляются новые слова, исчезают устаревшие слова, у слов могут возникать новые значения и утрачиваться старые. Закрепление в языке новых слов и значений и уход из языка устаревших сло...
5: 
Понятие ценности информации
Возможны различные подходы к определению ценности информации. 1. Денежная стоимость: полная денежная стоимость получения информации (закупки, поиска, формирования собственными силами с учетом сопутствующих затрат); стоимость длительного хранения инфо...
Пользователей онлайн: 46
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016