Автоматическое индексирование документальной информации - Book-Science - Научная энциклопедия
Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Автоматическое индексирование документальной информации, страница 2

Разместил: Admin, 11 April 2011

Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания, систем машинного перевода.

Результаты синтаксического анализа текста обычно представляются в виде дереву отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.

В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология “адаптивного распознавания образов”, при которой каждая словоформа представляется в виде своего двоичного кода, который является ее “образом”. При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в документ; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. JB тоже время использование только статистических методов при определении информативности слов не всегда приводит к адекватным результатам. Например, удаление часто ветре-. чающихся терминов уменьшает полноту; а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.

Современные информационно-поисковые системы, индексируя те или иные сайты, документы и прочие данные, ранжируя их в результатах поиска и фильтруя контент, поисковые алгоритмы учитывают очень широкий спектр факторов, показывающих степень необходимости данной информации пользователям. Наиболее важными факторами можно назвать поведенческие факторы, в числе которых показатель отказов, время пребывания пользователя на сайте, количество просмотренных страниц пользователем и возврат пользователей. Данная модель алгоритмов дает более гибкие возможности для поисковых систем при представлении пользователю более интересной информации, захватывая тем самым большую аудиторию.

: 3.1/5 (1024 )

Похожие статьи
1: 
Плюсы и минусы эпидуральной анестезии
В настоящее время эпидуральная анестезия чаще всего применяется для благополучного разрешения родового процесса или при хирургическом вмешательстве на нижнем поясе туловища. Эпидуральная анестезия осуществляется при помощи введения обезболивающего пр...
2: 
Лексикография и виды словарей в современном русском языке
Лексикография - это теория и практика составления словарей. Лексика - неустойчивый уровень языковой структуры, с трудом поддающийся систематизации, в этом основная трудность составления словарей. Предмет лексикографической теории - разработка принцип...
3: 
Лексика с точки зрения её активного и пассивного словарного запаса
Словарный состав языка находится в постоянном движении. Постоянно появляются новые слова, исчезают устаревшие слова, у слов могут возникать новые значения и утрачиваться старые. Закрепление в языке новых слов и значений и уход из языка устаревших сло...
4: 
Понятие ценности информации
Возможны различные подходы к определению ценности информации. 1. Денежная стоимость: полная денежная стоимость получения информации (закупки, поиска, формирования собственными силами с учетом сопутствующих затрат); стоимость длительного хранения инфо...
5: 
Внутренняя норма доходности инвестиции IRR
Под IRR понимается значение коэффициента дисконтирования R, при котором NPV=0 (IRR=R при NPV=0). IRR показывает ожидаемую доходность проекта = максимально допустимый уровень расходов, который может быть ассоциирован с данным проектом. Показатель, кот...
Пользователей онлайн: 17
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016