Структуры информационно-поисковых массивов в ИПС - Book-Science - Научная энциклопедия
Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Структуры информационно-поисковых массивов в ИПС, страница 3

Разместил: Admin, 11 April 2011

Списки адресов {а} в ИПС значительно больше по размерам, чем в СУБД. Поэтому для организации эффективного доступа к данным индекс может храниться, например, в трех разных файлах, связанных указателями. Первый файл - индексный файл состоит из полей: слово; указатели пересылок. Второй файл - пересылок, состоит из полей: номер документа; адрес документа. Третий файл содержит тексты документов.

В инвертированных матричных индексах может также храниться дополнительная информация. Например, данные о месте вхождения термина, статистические данные о термине, слова, связанные парадигматическими отношениями с данным термином, и др.

Информация о месте вхождения термина это - зона, абзац, предложение и номер слова в предложении. Эти данные могут указываться для каждого вхождения термина в документ и для каждого документа, содержащего данный термин. Данные о положении слова используются для реализации некоторых видов контекстного поиска.

В индексных файлах могут также храниться частоты терминов и документов. Частота термина есть число вхождений термина в документ. Частота документа есть число документов, содержащих данный термин. Данные о частоте встречаемости используются в различных схемах поиска, основанных на весах или рангах терминов.

Если в индексе присутствуют указатели на синонимы, то при обработке запроса происходит автоматическое связывание инвертированных списков всех терминов, синонимичных указанному в запросе. Это значительно повышает полноту поиска.

В дополнение к прямой и инвертированной схемам в ИПС используется так называемый атрибутный индекс. Он позволяет хранить данные о документе, не содержащиеся непосредственно В его тексте. Например, имя автора, дату создания, наименование темы и другие фактические данные. Данные могут автоматически извлекаться из документа либо вноситься вручную при вводе документа в систему. Структура атрибутного индекса соответствует стандарту представления структурированной информации — т.е. это таблица с заранее заданными полями. На рис. 20.4 представлен пример организации поискового файла - атрибутного индекса, в котором все документы характеризуются одним и тем же набором реквизитов-полей: автор документа, вид документа и его номер, дата издания, название. Поиск по атрибутному индексу осуществляется средствами обработки запросов СУБД — выдаются только те документы, значения атрибутов которых удовлетворяют условиям запроса.

: 2.9/5 (1665 )

Похожие статьи
1: 
Плюсы и минусы эпидуральной анестезии
В настоящее время эпидуральная анестезия чаще всего применяется для благополучного разрешения родового процесса или при хирургическом вмешательстве на нижнем поясе туловища. Эпидуральная анестезия осуществляется при помощи введения обезболивающего пр...
2: 
Виды бухгалтерских документов
Классификация бухгалтерских документов строится по следующим признакам: 1. по назначению; 2. способу отражения; 3. месту составления; 4. способу охвата. Документы по назначению подразделяются на: а) распорядительные; б) исполнительные; в) комбиниров....
3: 
Уравнение прямой в пространстве
Уравнение прямой в пространстве задается в нескольких формах: 1. Общее уравнение прямой 2. Уравнение прямой, проходящей через данную точку М1 (х1, y1, z1) в заданном направлении вектор а = {l, m, n}. Пусть точка М (х, у, z) принадлежит прямой. Вектор...
4: 
Документооборот учреждений. Порядок работы с исходящими и внутренними документами
Движение документов с момента их получения (создания) и до момента завершения их исполнения (отправки или сдачи в дело) образует документооборот организации. Документооборот учреждения предполагает взаимосвязанное и взаимосогласованное движение докум...
5: 
Внутренняя норма доходности инвестиции IRR
Под IRR понимается значение коэффициента дисконтирования R, при котором NPV=0 (IRR=R при NPV=0). IRR показывает ожидаемую доходность проекта = максимально допустимый уровень расходов, который может быть ассоциирован с данным проектом. Показатель, кот...
Пользователей онлайн: 28
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016