Полнотекстовые базы данных и средства формирования запросов в них - Book-Science - Научная энциклопедия
Профиль
Рейтинги
Новые
Категории
  • Новости
  • Статьи
  • Работы
  • Исследования
  • Заметки
  • Комменты

Полнотекстовые базы данных и средства формирования запросов в них, страница 3

Разместил: Admin, 11 April 2011

Обычно усекают окончания слов для того, чтобы падеж или множественное число не влияли на выбор слова. Как правило, для представления несущественного символа используют знак “?”, а для представления ряда несущественных символов используют знак “*”. Например, выражение “налог?” может соответствовать словам “налоги”, “налогу”, “налога”, “налог”, а выражение “налог*” может соответствовать словам “налогам”, “налогообложение”, “налоговая” и т.п. В ИПС Евфрат для осуществления этой операции введен оператор “по началу”. В некоторых системах эта операция производится автоматически.

Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного - к именительному падежу единственного числа.

Операторы контекстного поиска позволяют учитывать контекст и осуществлять поиск в заданной комбинации слов. Эти операторы можно трактовать как функции “близости”, которые являются развитием функции “И”. Формы представления операторов контекстного поиска существенно различаются, причем во многих ИПС их нет вообще.

В ИПС Агама ограничение контекста при поиске (в пределах одного предложения, трех предложений, всего текста) задается в меню настройки запроса.

В ИПС Cherchez в качестве операторов контекстного поиска введены функции adj, near, same, with. Они определяют нахождение терминов соответственно: “в одном абзаце”, “в одном предложении”, “рядом друг с другом”, “рядом друг за другом в указанном порядке”.

Может быть предложен следующий вариант операторов контекстного поиска. Оператор W обозначает слова, стоящие рядом; оператор nW - слова, разделенные не более п символами, стоящие в заданном порядке; оператор nN — слова, разделенные не более п символами, стоящие в произвольном порядке; оператор S — слова, стоящие в одном параграфе; оператор TITLE указывает, что слово должно находиться в заголовке.

В поисковых системах сети Internet в качестве инструмента оператора контекстного поиска чаще всего используется оператор NEAR.

Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа “Найти аналогичную информацию”, “Найти подобные”. При этом поиск выполняется на основе всех содержащихся в данном документе ключевых слов. Подобный тип поиска, который называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины, которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска документальной информации в некоторых поисковых системах сети Internet (Excite, Open Text, WebGrawler).

При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной системе является наличие удобного и понятного интерфейса, обеспечивающего диалог с пользователем.

Во многих современных ИПС существует возможность формулировки запросов на естественном языке. Проблема интерфейса на естественном языке достаточно успешно решается во многих системах, в которых базовым языком общения является английский, например запрос на обычном английском языке обрабатывают следующие поисковые системы Internet: AitaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGrawler. Русский язык в этом аспекте гораздо сложнее английского, так как менее структурирован, имеет более сложную морфологию и синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.

Спонсор статьи - Find Company - Поиск компаний и предприятий Краснодара и Краснодарского края. Find Company - лучшая поисковая система компаний и организаций Краснодарского края по городам, категориям и видам деятельности, здесь вы сможете найти нужную вам информацию о компаниях Краснодара, их деятельности и контактах с ними.

: 3.0/5 (1787 )

Похожие статьи
1: 
Мебель для сидячей работы
Основная статья - Мебель. Мебель для сидячей работы - тип мебели (по назначению), основным предназначением которого является обеспечение возможности выполнения каких-либо профессиональных рабочих функций ее пользователя с наибольшей функциональностью...
2: 
Лексика с точки зрения её активного и пассивного словарного запаса
Словарный состав языка находится в постоянном движении. Постоянно появляются новые слова, исчезают устаревшие слова, у слов могут возникать новые значения и утрачиваться старые. Закрепление в языке новых слов и значений и уход из языка устаревших сло...
3: 
Слово как единица лексической системы
В лексикологии слова изучаются как единицы номинации, т.к. слово служит для называния предметов и явлений. Слово является не только номинативной единицей, но и когнитивной (познавательной), т.к. выделяет и формирует соответствующие понятия. Слово - д...
4: 
Программное обеспечение
Программное обеспечение является неотъемлемой частью компьютерной вычислительной системы (ВС). Программное обеспечение (ПО) выполняет основные функции управления всеми аппаратными средствами ВС в процессе обработки информации. ПО разделяют на систем....
5: 
Документооборот учреждений. Порядок работы с исходящими и внутренними документами
Движение документов с момента их получения (создания) и до момента завершения их исполнения (отправки или сдачи в дело) образует документооборот организации. Документооборот учреждения предполагает взаимосвязанное и взаимосогласованное движение докум...
Пользователей онлайн: 24
Все права защищены. При копировании материалов ссылка на Book-Science обязательна. (c) Book-Science, 2010-2016