Полнотекстовые базы данных и средства формирования запросов в них

Прикладные науки

В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки.

Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС успешно использовалась в большинстве созданных до 90-х гг. системах автоматического документного поиска.

В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте. Кроме того, суть процесса образования ПОД состоит в структурировании документа, что может привести к искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и словосочетание представляются значимыми.

В настоящее время в автоматизированных современных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название — полнотекстовые базы данных (full-text system) или текстовые базы данных.

Полнотекстовые базы данных используются для хранения и поиска правовой информации (справочные правовые системы — СПС), периодических изданий (газет и журналов), корпоративной документации.

В отличие от СУБД в информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информационных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов.

Во всех системах для поиска по сочетанию терминов используются логические функции AND (И), OR (ИЛИ), NOT (НЕ), соединяющие ключевые слова информационного запроса. Для иллюстрации процесса выполнения запроса с использованием логических функций рассмотрим следующий пример.

Задано множество документов {Dl, D2, D3, D4, D5, D6, D7, D8,D9}, содержащих слова {SI, S2, S3, S4, S5, S6} таким образом, что SI входит в текст документов D2,D3,D7,D8, S2 входит в текст документов Dl, D7, D9, S3 входит в текст документов Dl, D2, D3, D4, D5, D6, D8, D9, S4 входит в текст документов D5, D6, D7, D8, D9, S5 входит в текст документов D2, D5, D7, D9, S6 входит в текст документа D4.

Book-Science
Добавить комментарий