Имя материала: Организация работы с документами

Автор: Кудряев В.А

20.2. информационно-поисковые языки

 

Для общения человека с компьютером разрабатываются специальные искусственные языки, естественный язык (ЕЯ) в этом качестве пока не может быть использован без специального предварительного преобразования. В естественном языке присутствуют: синонимия, омонимия и полисемия, избыточность, субъективность и другие свойства, препятствующие его автоматизированной обработке.

-Синонимы — слова, различающиеся по написанию, но совпадающие по смыслу (Россия, РФ, Российская Федерация).

Омонимы - слова, совпадающие по звуковому и графическому составу, но имеющие разные значения (ключ может быть — телеграфный, поисковый, к замку, к шкафу и т.д.).

Полисемия — наличие у одного и того же слова нескольких разных, но связанных между собой значений (например: фамилия — как имя и фамилия как семья; индекс — как средство более быстрого поиска в БД и как код документа в ИПС).

Избыточность ЕЯ — наличие лишней информации, без которой можно точно и однозначно установить смысл или значение сообщения. Таким образом, в естественном языке часто нет однозначного соответствия между словом и его значением.

Искусственный язык, как правило, разрабатывается на основе ЕЯ. При этом устраняется многозначность слов ЕЯ. В ИПС для однозначного описания основного смысла содержания документа и информационного запроса используются специализированные языки, которые называются информационно-поисковыми языками.

ИПЯ состоит из алфавита, лексики и грамматики. Алфавит — система знаков, используемая для записи слов. В ИПЯ могут быть использованы: буквы латинского алфавита; кириллица; цифры; пунктуационные знаки.

Лексика (словарный состав) — совокупность слов, входящих в состав языка, называемых также лексическими единицами. Лексическая единица — слово или семантически неделимое словосочетание, выражающее какое-либо понятие.

Грамматика — набор правил, по которым из конечного числа элементов определенного типа (например, букв или слов) можно получить язык для выражения содержания документов или запросов или описания фактов с целью последующего поиска. Грамматика подразделяется на морфологию и синтаксис.

Морфология — правила построения и изменения слов. Синтаксис — правила построения и изменения соединения слов (построение фраз).

Слова любого языка в процессе отображения предметов реального мира вступают между собой в определенные отношения. Эти отношения можно разделить на парадигматические и синтагматические.

Парадигматические отношения - логические отношения, существующие между лексическими единицами ИПЯ независимо от контекста, в котором эти лексические единицы употребляются. Эти отношения обусловлены предметно-логическими, а не языковыми факторами, т.е. относятся к категории внеязыковых связей. Примеры парадигматических отношений: часть — целое ( отдел — организация); род — вид (ценная бумага — акция); причина-следствие; функциональное сходство; ассоциации. Учет парадигматических отношений необходим для правильного выбора и точного употребления слов. Поэтому в семантически развитом ИПЯ должны быть в явном виде выражены важнейшие отношения между терминами, иначе при отображении текста документа может произойти потеря или искажение смысла документа. Например, при поиске нормативных документов, касающихся термина «акция», для увеличения полноты поиска возможно указание термина «ценная бумага».

Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Линейные логические отношения, которые устанавливаются между словами непосредственно при их использовании в тексте, объединяют эти слова в сочетания и предложения. Для уточнения .смысла документа или запроса, помимо ключевых слов, часто необходимо указывать в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл/хотя и состоят из одних и тех же ключевых слов.

Таким образом, развитый ИПЯ должен обладать средствами отображения парадигматических и синтагматических отношений.

Для оценки сравнительной эффективности различных языков используется понятие семантическая сила языка.

Семантическая сила ИПЯ характеризует смысловыразительные возможности ИПЯ и показывает, насколько ИПЯ уступает ЕЯ. Семантическая сила тем больше, чем богаче словарный.состав ИПЯ и шире его словообразовательные возможности (создание новых слов, соответствующих новым понятиям); шире используются средства отображения парадигматических и синтагматических отношений между словами.

Можно указать следующие требования, которым должен удовлетворять семантически развитый ИПЯ:

располагать лексико-грамматическими средствами для точного отображения центральной темы документа и запроса;

не содержать полисемии, синонимии и омонимии, т.е. каждая запись на ИПЯ должна допускать только одно толкование;

отображать только объективные характеристики предметов и отношений между ними;

быть удобным для алгоритмического сопоставления (отождествления) поискового образа документа (ПОД) и поискового предписания (ПП).

Как правило, чем больше семантическая сила ИПЯ, тем труднее

с ним работать.

Наиболее часто в качестве основания деления при классификации ИПЯ используют способ организации понятий.

По способу организации понятий различают:

предкоординируемые (классификационные) ИПЯ;

посткоординируемые (дескрипторные) ИПЯ.

Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. При индексировании документов или запросов можно пользоваться только словами, словосочетаниями и фразами, содержащимися в фиксированном списке. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов, т.е. при создании языка.

Словарный состав предкоординируемых языков напоминает двуязычный разговорник, в котором заранее зафиксированы наиболее употребительные фразы. При помощи предкоординируемого языка происходит отнесение документа к классу, обозначенному лексическими единицами этого языка, т.е. классификация документа.

Посткоординируемые (дескрипторные языки) основаны на методе координатного индексирования. В посткоординируемых ИПЯ лексические единицы объединяются в поисковом образе лишь во время индексирования документа. Словарь дескрипторного 'ИПЯ состоит из специальным образом выбранных отдельных слов или словосочетаний ЕЯ — ключевых слов и дескрипторов.

Координатное индексирование — индексирование, при котором основное смысловое содержание текста (документа) или информационного запроса представляется в виде сочетания ключевых слов или дескрипторов.

Ключевые слова - это наиболее существенные для отображения содержания документа слова и словосочетания, обладающие назывной функцией. Назывные слова - слова, обозначающие вещи, явления, процессы, имена собственные (т.е. в качестве ключевого слова не может выступать предлог, союз и др.).

 

          20.2.1. Классификационные информационно-поисковые

                         языки

 

К классификационным языкам относят:

информационно-поисковый язык иерархического типа;

информационно-поисковый язык фасетного типа;

алфавитно-предметную классификацию.

Иерархическая классификация — это перечислительная классификация (т.е. все возможные классы заранее перечислены), в которой каждый класс делится на подклассы. Термины в иерархической классификации расположены в порядке их перехода от общих понятий к частному. Классификация осуществляется в зависимости от выбранных оснований деления и порядка их следования.

В иерархической классификации необходимо иметь отдельные исчерпывающие классы для всех возможных предметов, т.е. все возможные классы должны быть заранее перечислены, поэтому иерархическую классификацию и называют перечислительной.

Процедура построения ИПЯ иерархического типа включает следующие этапы.

1. Анализ предметной области, определение оснований деления (признаков классификации). В качестве признаков класификации выбирают такие, по которым имеет смысл производить поиск документов в данной предметной области.

2. Установление соподчиненное™ признаков. Соподчиненность может быть естественной или установленной.

3. Формирование классов документов на основе выбранных признаков классификации. Получение иерархического дерева классов.

4. Формирование индексов каждого класса.

5. Составление классификационных таблиц и алфавитного указателя.

В классификационной таблице классы упорядочены по индексу, а в алфавитном указателе - по алфавиту.

Индексирование с использованием ИПЯ иерархического типа заключается в определении того, к какому классу относится описываемый объект, и в определении по классификационной таблице и алфавитному указателю индекса этого класса.

Преимущество языков иерархического типа состоит в простоте индексирования и поиска. Классификация наиболее эффективна в том случае, когда классы в иерархической системе располагаются в естественном порядке и набор классов в течение времени не изменяется (т.е. предметы естественно находятся в жесткой иерархической соподчиненности). Например, классификация документов в организации, имеющей стабильную структуру.

ИПЯ фасетного типа основаны на принципах многоаспектной классификации, в которой каждый конкретный класс строится при индексировании по определенным правилам из предварительно заданных категориальных классов — фасетов. В системах фасетной классификации не ставится задача перечислить все сложные классы. Такие системы предлагают составные элементы, из которых по фа-сетной формуле составляется индекс.

Процедура разработки ИПЯ фасетного типа состоит из следующих этапов.

1. Анализ предметной области, для которой составляется классификация. Выделение основных признаков классификации. Эти категории называются фасетами, которые при необходимости более детальной классификации могут делиться на субфасеты и т.д.

2. Все возможные простые классы группируются по фасетам. Каждый простой класс фасета называется фокусом.

3. Обозначение соответствующими шифрами фасетов и фокусов.

4. Установление фиксированной последовательности фасетов в поисковом образе (фасетная формула).

5. Составление алфавитного указателя фасет и фокусов.

Преимущество ИПЯ фасетного типа по сравнению с ИПЯ иерархического типа состоит в том, что допускается многоаспектное индексирование, так как существует возможность строить классы из разных сочетаний фокусов и получать любые сочетания заранее выбранных характеристик объектов классификации.

На практике иерархическая и фасетная классификация часто используются в сочетании. Например, УДК — универсальная десятичная классификация.

Алфавитно-предметная классификация — система классов, каждый из которых соответствует определенной теме или одному виду предметов, причем классы расположены в алфавитном порядке имен этих классов.

Основной словарный состав (лексика) ИПЯ состоит из упорядоченных по алфавиту множества слов, словосочетаний и фраз ЕЯ.

Алфавитно-предметная классификация содержит:

предметный заголовок — слово, словосочетание или фраза ЕЯ, используемое для обозначения предмета или темы, заголовок может подразделяться на подзаголовки;

предметный словник (лексический состав языка) — упорядоченное по алфавиту множество предметных заголовков, используемых для построения алфавитно-предметной классификации;

предметную рубрику — совокупность предметного заголовка с описанием адреса хранения документов, основная тема которых обозначается этим предметным заголовком.

Алфавитно-предметная классификация предназначена для построения каталогов для узко предметного поиска. В таких каталогах под предметными заголовками даются сведения (шифр или библиографическое описание) документов, предмет которых обозначен данным заголовком.

Порядок составления алфавитно-предметной классификации.

1. Анализ предметной области и выбор тем классификации.

2. Устранение синонимии слов, словосочетаний и фраз, используемых в качестве предметнрго заголовка. В случае синонимии можно использовать систему ссылок.

3. Выделение основных, ведущих слов в словосочетаниях и фразах, используемых в качестве предметных заголовков.

Обозначение парадигматических связей между названиями предметов и тем. Эти связи обозначаются с помощью ссылок.

Алфавитно-предметная классификация используется главным образом для информационного поиска по отдельным предметам и темам. И применяется в качестве предметных указателей к каталогам документов.

Основной недостаток классификационных языков состоит в том, что они не обеспечивают возможности поиска документов по любому, заранее не заданному сочетанию признаков.

 

20.2.2. Дескрипторные информационно-поисковые языки

 

Дескрипторные языки семантически более сильны, чем классификационные, но более сложны для формальной обработки.

Дескриптор — ключевое слово или словосочетание, служащее именем класса эквивалентных ключевых слов (синонимов). Как правило, в качестве дескриптора выбирают — одно, наиболее употребимое ключевое слово из класса синонимичных ключевых слов.

Внешне координатное индексирование напоминает алфавитно-предметную классификацию. В обоих случаях классы обозначаются словами и словосочетаниями ЕЯ. Однако это сходство чисто внешнее. При отыскании документов при координатном индексировании производятся определенные логические операции над классами, обозначенными этими ключевыми словами. Для алфавитно-предметного индексирования тоже может быть применено несколько предметных заголовков. Но при информационном поиске каждый предметный заголовок выступает самостоятельно без какой-либо связи с другими заголовками, т.е. можно пользоваться только заранее описанными классами. При координатном индексировании классы формируются в процессе индексирования.

При координатном индексировании поисковое предписание формулируется в виде логических сумм (или), произведений (и) или дополнений (не) классов, соответствующих ключевым словам поискового предписания (чаще всего это произведение).

Для отыскания документов, отвечающих на запрос, необходимо выполнить определенные логические операции над классами, которые обозначены ключевыми словами ПОД.

В простейшем случае, когда поисковое предписание сформулировано в виде логического произведения некоторого множества ключевых слов, документ считается отвечающим на информационный запрос и подлежит выдаче, если в ПОД одновременно содержатся все ключевые слова поискового предписания.

Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса.

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 |