Имя материала: Организация работы с документами

Автор: Кудряев В.А

Глава 20 компьютерные технологии организации хранения и поиска документальной информации

 

Цель документального поиска — нахождение и выдача соответствующих запросу пользователя документов или их описаний. Документы, отвечающие запросу пользователя, называются релевантными.

Понятие «документ» в рамках информационных технологий трактуется несколько шире, нежели в традиционном документоведении. В соответствии с Оксфордским словарем «документ - это текст или изображение, имеющее информационное значение».

Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.

По оценкам американских экспертов (фирма Delphi Consulting), в США ежедневно генерируется более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. документов, причем поток деловой информации чрезвычайно разнообразен по видам ее представления. Можно выделить три основных составляющих деловой информации. Поданным вышеназванной фирмы, 12\% информации — структурировано, представлено в электронной форме, хранится и управляется с помощью систем управления базами данных. Примерно 15\% информации представляет собой неструктурированные данные в электронной форме, как правило, это текстовая информация. Для автоматизации хранения и поиска такой информации используются технологии информационно-поисковых систем. И оставшиеся около 73\% информации традиционно хранятся на бумаге. Организация быстрого и эффективного поиска такой документальной информации становится все более неразрешимой проблемой.

Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

Примерами документальной информации, для которой эффективно автоматизированное хранение и поиск, могут служить: законы, постановления, комментарии к нормативным актам, тексты контрактов, переписка с клиентами и партнерами, проекты, стенограммы переговоров, приказы, распоряжения, письма, отчеты, планы, программы, записи судебных дел, постановления судов, научные статьи, доклады, конспекты, рефераты, периодические и специальные печатные издания, каталоги фирм, рекламные издания, справочники и другие документы.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т.п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла или строку в электронной таблице. В этом случае поиск документа .сводится к поиску структурированной информации средствами СУБД или табличного процессора.

Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Этому подходу, соответствующему традиционному пониманию документального поиска, и посвящена данная глава.

Эффективность документального поиска оценивают на основе показателей полноты и точности. Полнота поиска определяется как отношение числа выданных в ответ на запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа релевантных документов в выдаче к общему числу выданных документов.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet, На технологии гипертекста базируется самый известный сервис Internet — World Wide Web (WWW).

 

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 |