Имя материала: Базы знаний интеллектуальных систем

 

Рис. 4.6. Схема извлечения знаний из специальных текстов

Встает задача: выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня при этом, что понимание всегда относительно, поскольку это синтез двух смыслов «свое—чужое» [Бахтин, 1975].

Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. В работе [Сергеев, 1987] указаны два компонента любого научного текста. Это первичный материал наблюдений a и система научных понятий b в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора g, результат его личного опыта, а также некоторые «общие места» или «вода» d. Кроме этого, любой научный текст содержит заимствования из других источников (статей, монографий) и т. д. При этом все компоненты погружены в языковую среду L. Можно записать:

 

Т = (a,b,g,d,q)L.

 

Таким образом, компоненты научного текста можно представить в виде следующей схемы (рис. 4.7). При этом компоненты b, g, часть a входят и в модель М1

               

 

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое «погружен» текст.

Различают микро- и макроконтекст. Микроконтекст — это ближайшее окружение текста. Так, предложение получает смысл в контексте абзаца, абзац в контексте главы и т. д. Макроконтекст — это вся система знаний, связанная с предметной областью (то есть знания об особенностях и свойствах, явно не указанных в тексте). Другими словами, любое знание обретает смысл в контексте некоторого метазнания.

Теперь несколько подробнее о центральном звене процедуры извлечения знания — о понимании текста. Классическим в текстологии является определение немецкого философа и языковеда В. фон Гумбольдта [Фон Гумбольдт, 1984]:

«...Люди понимают друг друга не потому, что передают собеседнику знаки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивают в сознании соответствующие, но не тождественные смыслы».

Говоря на языке современного языкознания, понимание — это формирование «второго текста», то есть семантической структуры (понятийной структуры) [Сиротко-Сибирский, 1968]. В нашей терминологии — это попытка воссоздания семантической структуры М1 в процессе формирования модели М2, то есть это первый шаг структурирования знаний.

Как происходит процесс понимания I? Одна из возможных схем изложена в работе [Соколов, 1947; Соколов, 1968]. Мы внесли несколько изменений в эту схему в связи с тем, что в ней трактуется понимание текста на иностранном языке, а нас интересует понимание текста в новой для познающего субъекта предметной области. Кроме этого, дополним ее некоторыми положениями герменевтики. В целом полученная схема согласуется со стратегией изучения всего нового.

Основными моментами понимания текста являются:

• Выдвижение предварительной гипотезы о смысле всего текста (предугадывание).

• Определение значений непонятных слов (то есть специальной терминологии).

• Возникновение общей гипотезы о содержании текста (о знаниях).

• Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям).

• Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний.

• Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому).

• Принятие основной гипотезы, то есть формирование М3.

Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Такой двуединый подход позволяет охватывать текст как смысловое единство особого рода, с его основными признаками, такими как связность, цельность, законченность и др. [Сиротко-Сибирский, 1968].

Центральными моментами процесса I являются шаги 5 и 7, то есть формирование смысловой структуры или выделение «опорных», ключевых, слов или «смысловых вех» [Сиротко-Сибирский, 1968], а также заключительное связывание «смысловых вех» в единую семантическую структуру.

При анализе текста важно выявление внутренних связей между отдельными элементами текста и понятиями. Традиционно выделяют два вида связей в тексте — эксплицитные (или явные связи), которые выражаются во внешнем дроблении текста, и имплицитные (скрытые связи). Эксплицитные связи делят текст на параграфы с помощью перечисления компонентов, вводных слов (или коннекторов) типа «во-первых..., во-вторых..., однако и т. д.». Имплицитные, или внутренние, связи между отдельными «смысловыми вехами» вызывают основное затруднение при понимании.

Итак, семантическая структура текста образуется в сознании познающего субъекта с помощью знаний о языке, знаний о мире, а также общих (фоновых) знаний в той предметной области, которой посвящен текст. «Тексты пишут для посвященных». Другими словами, если текст не является научно-популярным, то для его адекватного прочтения требуется некоторая подготовка.

Таким образом, путь к знаниям удлиняется еще на одно звено. Если мы раньше говорили, что сами текстологические методы редко употребляются как самостоятельный метод извлечения, а обычно используются как некоторая подготовка к коммуникативному взаимодействию, то теперь утверждаем, что и для прочтения текстов нужна подготовка. Какая же?

Страница: | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 | 51 | 52 | 53 | 54 | 55 | 56 | 57 | 58 | 59 | 60 | 61 | 62 | 63 | 64 | 65 | 66 | 67 | 68 | 69 | 70 | 71 | 72 | 73 | 74 | 75 | 76 | 77 | 78 | 79 | 80 | 81 | 82 | 83 | 84 | 85 | 86 | 87 | 88 | 89 | 90 | 91 | 92 | 93 | 94 | 95 | 96 | 97 | 98 | 99 | 100 | 101 | 102 | 103 | 104 | 105 | 106 | 107 | 108 | 109 | 110 | 111 | 112 | 113 | 114 | 115 | 116 | 117 | 118 | 119 | 120 | 121 | 122 | 123 | 124 | 125 | 126 | 127 | 128 | 129 | 130 | 131 | 132 | 133 | 134 | 135 | 136 | 137 | 138 | 139 | 140 | 141 | 142 | 143 | 144 | 145 | 146 | 147 | 148 | 149 | 150 | 151 | 152 | 153 | 154 | 155 | 156 | 157 |