Имя материала: Базы знаний интеллектуальных систем

<RELATION "our. employee" FROM="http://www. ccas. ru">

……………………………………………………………………

</BODY>

 

Анализ приведенного HTML-текста показывает, что даже в таком, казалось бы, простом случае задача аннотации Web-документа достаточно сложна. Ситуация становится еще более сложной при аннотировании реальных HTML-документов. Во-первых, уже выбор объектов текста, подлежащих аннотированию, не тривиален, особенно, если Web-документ представляет объекты реального мира. Во-вторых, гиперссылки часто фиксируют лишь наличие определенных отношений между объектами, но не их семантику. И, наконец, можно, конечно, аннотировать каждую именную группу в естественно-языковом представлении HTML-страницы, но для реальных документов это слишком трудоемкая задача, которая, к тому же, чревата большим количеством ошибок.

Поэтому в рамках проекта SHOE для автоматизации процессов аннотирования Web-документов разработана специальная система Knowledge Annotator [KA, 1999], одна из экранных форм которой представлена на рис. 8.12.

 

Основными информационными блоками в приведенной выше экранной форме являются экземпляры (instances), онтологии (ontologies) и утверждения (claims). Пользователь может добавлять, редактировать и/или удалять любой из элементов этих блоков. При создании новых объектов пользователю выдаются соответствующие подсказки в виде, например, списка доступных онтологии, описанных в них категорий, отношений и т.п.

Для визуализации знаний, содержащихся в обрабатываемом документе, Knowledge Annotator использует различные методы, начиная с аннотированного HTML-текста и заканчивая описаниями утверждений на естественном (английском) языке. Кроме того, система осуществляет проверку корректности действий пользователя и транслирует его выборы в синтаксически правильные конструкции SHOE.

 

Формализм запросов

В настоящее время существуют различные примеры языков запросов к документам, проаннотированным на основе формализмов SHOE, рассмотренных выше. Так, в университете Мэрилэнд (University of Maryland at College Park) разработан робот Expos, который обрабатывает SHOE-документы и добавляет их в свою базу знаний, используя систему представления знаний PARKA [Stoffcl et al., 1997].

Пример PARKA-запроса для поиска домашних страниц может быть специфицирован следующим образом:

 

(query! "(:and

(ft! instanceOf ?X #! Person) (ft! instanceOf ?Y #!Person)

(tt!instanceOf ?Z #!Organization)

(tfllastName ?X "Ivanov") (#!lastName ?Y "Ivanova")

(ft! employee ?Z ?X) (#! employee ?Z ?Y)

(tflmarriedTo ?X ?Y)

(#! involvedln ?Z "РФФИ-проекты")))

 

По существу, это достаточно простой SQL-запрос, расширенный за счет использования понятий онтологии, переменных и ограниченных по мощности образцов. Оценивая формализм представления онтологических знаний SHOE и поддержку процессов аннотирования Web-ресурсов в этом проекте в целом, можно констатировать, что это достаточно мощная система методов и средств, которая вместе с тем сложнее для пользователя, чем Ontobroker.

 

8.3.4. Другие подходы и тенденции

 

В заключение настоящего параграфа необходимо, хотя бы в общих чертах, рассмотреть усилия World Wide Web Consortium (W3C) по созданию и внедрению средств маркировки Интернет-ресурсов.

До недавнего времени в распоряжении Интернет-авторов для этого почти исключительно использовался уже обсуждавшийся выше язык HTML. Однако с точки зрения семантической разметки Интернет-документов этот язык обладает рядом недостатков, основными среди которых являются следующие [Johnson, 1999]:

•  жесткая ориентация на визуализацию;

• единственная «точка зрения» на данные;

•  нерасширяемость;

•  весьма ограниченные средства спецификации семантической структуры документов.

Справедливости ради следует заметить, что еще в конце 60-х годов в рамках исследований по представлению документов компанией IBM был разработан язык SGML (Standard Generalized Markup Language), который лишен многих из перечисленных недостатков. К середине 80-х годов этот язык стал стандартом для многих промышленных компаний и правительственных учреждений США, но, по мнению специалистов рабочей группы SGML W3C [Bosak, 1997], он слишком сложен для широкого использования Интернет-авторами. Вот почему в рамках W3C, начиная с 1996 года, предпринимаются усилия по разработке средств разметки документов, сравнимых но мощности с SGML, а по простоте использования — с HTML. И среди работ данного направления в первую очередь следует отметить язык XML (extensible Markup Language) [XML, 1998].

В языке XML «сняты» многие ограничения HTML, язык разметки стал существенно мощнее. И одновременно XML-тексты остаются понятными для всех, кто работал с языком HTML. Отличительные свойства XML и в том, что здесь фиксируется стандарт на определение синтаксиса и единообразные средства введения в языки разметки (Markup Language) новых тегов. А это, в свою очередь, позволяет конструировать на основе XML новые языки маркировки Web-документов и, кроме того, обеспечивает возможность различным приложениям (и, в частности, программным агентам) «понимать» и обрабатывать XML-документы.

Каждый XML-документ обладает определенной логической и физической структурой. Физически это композиция элементов, называемых единицами (entities), которые могут быть связаны взаимными ссылками. Логически документ состоит из деклараций, единиц, комментариев, собственно текстов и инструкций обработки, причем каждая конструкция XML маркируется специальными тегами явным образом. Все теги XML — парные, а конструкции могут быть вложены друг в друга, образуя правильно построенное дерево. Так, например, конструкция <ltem Attribute1=«Va!ue1»> </ltern> определяет единицу с именем Item и списком пар атрибут-значение, который в нашем случае представлен единственным атрибутом с именем Attribute"!, имеющим значение «Valuel».

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 |