Структуры информационно-поисковых массивов в ИПС - Book-Science - Научная энциклопедия
Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Структуры информационно-поисковых массивов в ИПС, страница 2

Разместил: Admin, 11 April 2011

Рис. 20.3. Инверсная схема организации информационного массива

Простой индекс можно представить как бинарное отношение I(v,a), в котором “v” — слово, взятое из текста, “а” — список адресов документов, содержащих это слово. Каждый кортеж инвертированного индекса называется инвертированным списком.

Инвертированная матрица напоминает предметный указатель в книге, где слова, размещенные в алфавитном порядке, сопровождаются перечислением номеров страниц, на которых они встречаются.

Документальный поиск сводится к просмотру соответствующих записей файла инвертированного матричного индекса. Таким образом, отпадает необходимость в последовательном просмотре всего информационного массива и значительно сокращается время поиска.

При индексировании (инвертировании) текста документа возможны различные варианты.

В случае частичного инвертирования в индекс включают информативные ключевые слова, т.е. формируется поисковый образ документа.

При полном инвертировании все слова документа, в том числе и шумовые (незначащие), включаются в индекс.

В случае неполного инвертирования индекс включаются все значимые слова текста документов, а незначимые удаляются. В качестве незначимых слов выступают союзы, предлоги и прочие служебные части речи.

При инвертировании всех значащих слов текста документов, файлы инвертированных матричных индексов могут достигать гигантских размеров. Часто для них требуется более 50% дискового пространства, необходимого для хранения самих документов. Однако увеличение инвертированного матричного индекса в размерах замедляется с ростом числа документов, так как с каждым новым документом вероятность того, что встречающиеся в нем значимые слова уже включены в индекс, увеличивается. В этом случае в матрицу добавляются лишь указатели на новые документы.

При решении задач организации эффективного доступа к данным индексы больших размеров преобразуют в иерархию индексов небольших размеров. Один из способов реализации таких индексных структур состоит в использовании В-деревьев, листьями которых являются ссылки на документы.

: 2.9/5 (1665 )

Похожие статьи
1: 
Плюсы и минусы эпидуральной анестезии
В настоящее время эпидуральная анестезия чаще всего применяется для благополучного разрешения родового процесса или при хирургическом вмешательстве на нижнем поясе туловища. Эпидуральная анестезия осуществляется при помощи введения обезболивающего пр...
2: 
Виды бухгалтерских документов
Классификация бухгалтерских документов строится по следующим признакам: 1. по назначению; 2. способу отражения; 3. месту составления; 4. способу охвата. Документы по назначению подразделяются на: а) распорядительные; б) исполнительные; в) комбиниров....
3: 
Уравнение прямой в пространстве
Уравнение прямой в пространстве задается в нескольких формах: 1. Общее уравнение прямой 2. Уравнение прямой, проходящей через данную точку М1 (х1, y1, z1) в заданном направлении вектор а = {l, m, n}. Пусть точка М (х, у, z) принадлежит прямой. Вектор...
4: 
Документооборот учреждений. Порядок работы с исходящими и внутренними документами
Движение документов с момента их получения (создания) и до момента завершения их исполнения (отправки или сдачи в дело) образует документооборот организации. Документооборот учреждения предполагает взаимосвязанное и взаимосогласованное движение докум...
5: 
Внутренняя норма доходности инвестиции IRR
Под IRR понимается значение коэффициента дисконтирования R, при котором NPV=0 (IRR=R при NPV=0). IRR показывает ожидаемую доходность проекта = максимально допустимый уровень расходов, который может быть ассоциирован с данным проектом. Показатель, кот...
Пользователей онлайн: 27
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016