Имя материала: Базы знаний интеллектуальных систем

Агенты в системе WebCrawler отвечают за извлечение документов из сети. Для выполнения этой работы поисковый механизм находит свободного агента и передает ему задание на поиск. Агент приступает к работе и возвращает либо содержание документа, либо объяснение, почему данный документ нельзя доставить. Агенты запускаются как отдельные процессы, что позволяет изолировать основной процесс работы системы от ошибок и проблем с памятью. Одновременно используется до 15 агентов.

В базе данных хранятся метаданные документов, связи между документами, полнотекстовый индекс, другая служебная информация. База обновляется каждый раз, когда поступает новый документ. Для отсечения семантически незначимых слов используется стоп-словарь, словам из документа приписывается вес, равный частоте их появления в данном тексте, деленной на частоту появления слова в ссылках на другие документы. Такой индекс позволяет быстро находить по заданному слову ссылки на документы его содержащие. Целиком URL (ссылки на документы в сети) не запоминаются. Вместо этого вся нужная информация помещается в специальные объекты. Каждый объект запоминается в отдельном В-дереве: документы — в одном, серверы — в другом, а ссылки — в третьем. Такое разделение данных позволяет быстро определить неиспользуемые или часто используемые серверы.

Аналогичным образом устроены и другие машины поиска. Характеризуя их в целом, можно отметить, что это глобальные поисковые механизмы, охватывающие до 90 % ресурсов Интернета. Они не могут настраиваться на предпочтения пользователя и не имеют средств анализа информации, а их сетевым роботам становится все труднее справляться с постоянным ростом ресурсов Интернета. Главной задачей машин поиска, по сути, является индексация ресурсов глобальной сети, а также поддержка и расширение соответствующих баз данный. Фактически в базах данных машин поиска хранится информация о том, где и что лежит в сети. Поэтому можно считать, что существующие машины поиска обеспечивают низкоуровневый сервис для клиентских поисковых программ более высокого уровня.

 

9.3.2. Неспециализированные

и специализированные поисковые агенты

 

Первым уровнем надстройки над поисковыми машинами являются, по-видимому, неспециализированные поисковые агенты. По сути дела, эти компоненты имеются в настоящее время практически у всех машин поиска. Такие агенты, в первую очередь, обеспечивают поиск по ключевым словам и устойчивым словосочетаниям [Delgado, 2000]. Кроме поиска они поддерживают различные и многочисленные сервисы, такие, например, как передача запроса пользователя сразу на множество машин поиска, настройка на личные предпочтения пользователя, формирование тематической базы данных на основе результатов поиска пользователя, а некоторые — и обучение агентов. Не менее важно и то, что такие системы агентов объединяют ссылки на сайты, найденные множеством машин поиска, исключая повторные и неработающие ссылки. Но ни одна из систем данного класса не в состоянии самостоятельно отобрать полезную информацию и оставляет это пользователю. Конечно, используя такие программы, можно уменьшить число результирующих документов, доставляемых обычными машинами поиска. Но степень «попадания ответа в запрос» практически та же, что и у машин поиска. Важно и то, что неспециализированные агенты опыта по поиску в определенной предметной области не накапливают. А обучение, если вообще допускается, занимает много времени.

Специализированные агенты поиска, как следует уже из их названия, приспособлены искать информацию, например, только про музыку, или только про книги, или только про котировки акций и т. д. Большинство таких агентов устроено жестко. Они «умеют» очень хорошо работать на определенных сайтах с фиксированным форматом данных. При этом даже адреса этих сайтов могут быть «зашиты» в агента, например сайты с котировками акций на биржах мира.

Системы, построенные на базе специализированных агентов, кроме поиска предоставляют пользователям определенный пакет средств для организации и управления найденной информацией. Как правило, такие системы содержат набор агентов, каждый из которых ориентирован на поиск информации только по одной теме. Они могут иметь доступ к сотням ресурсов Интернета, включая специализированные базы данных. Основные специализации агентов в таких системах в настоящее время — новости, конференции и группы по интересам, книги, программное обеспечение, электронные магазины и другая бизнес-информация, часто задаваемые вопросы и некоторые другие. Обычно пользователь здесь может сформировать запрос ^системе, используя естественный язык, а результаты сопровождаются аннотациями содержания найденных документов, списками ключевых слов и некоторой другой дополнительной информацией, облегчающей пользователю выделение интересующих его ресурсов. В развитых системах этого класса имеются возможности:

• сохранения параметров поиска для повторного использования, а часто и полной «истории» запросов пользователя;

• параллельного поиска на множестве ресурсов Интернета;

• оформления результатов в виде отчетов (HTML-файлов) и сохранения их в базе данных;

• слежения за обновлением информационных ресурсов Интернета, в том числе с частотой, задаваемой пользователем.

Недостатки у специализированных агентов те же, что и у неспециализированных, но есть и серьезный плюс — четкое срабатывание на хорошо структурированных данных в известном формате.

 

9.3.3. Системы

интеллектуальных поисковых агентов

 

Сегодня в развитии систем поиска и обработки Интернет-ресурсов наметился явный сдвиг в сторону использования средств ИИ, в частности представления знаний и вывода на знаниях, интеллектуальных механизмов обучения, анализа естественно-языковых текстов и некоторых других.

Как правило, системы интеллектуального поиска разрабатываются либо в серьезных фирмах, владеющих технологиями разработки и реализации интеллектуальных агентов, либо в исследовательских лабораториях университетов. Справедливости ради следует заметить, что коммерческие версии таких систем часто декларируют больше, чем реализовано в действительности, а исследовательские разработки обычно существуют .в виде демонстрационных версий с ограниченными возможностями, хотя в теоретическом плане последние интереснее.

Для конкретизации дальнейшего изложения остановимся сначала более подробно на нескольких, интересных на наш взгляд, коммерческих системах интеллектуального поиска и обработки информации в сети Интернет, а завершим обсуждение рассмотрением нескольких исследовательских проектов в этой области, использующих онтологии.

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 |