Выявление «скрытых» структур знаний

Знания, полученные от эксперта в прямом диалоге, имеют поверхностный характер и не отражают сложных механизмов мышления специалиста. Альберт Эйнштейн говорил: «Слова, написанные или произнесенные, не играют, видимо, ни малейшей роли в механизме моего мышления». Известный психолог Л.С. Выготский научно обосновал, что мышление и речь имеют разные корни. В настоящее время известно, что язык выступает в качестве материального носителя результатов мышления на предварительной и завершающей его стадиях. Ранее многие ученые придерживались иной точки зрения, например древнегреческий мыслитель Платон полагал, что если человек не может представить свое знание в виде правил, то это уже не знание, а вера, Зигмунд Фрейд, отводя главную роль в человеческом поведении бессознательному, считал, что оно ни при каких обстоятельствах не может стать сознательным, тем самым отвергая возможность извлечения скрытых знаний.

Скрытые (имплицитные) знания служат основой интуитивного мышления. Интуиция позволяет человеку быстро принимать правильные решения в сложных ситуациях при недостаточной информации. При этом полагают, что человек может неявно использовать ряд посылок в своих рассуждениях, а также обходиться без применения строгих правил логического вывода. Роль интуиции в принятии решений трудно переоценить. Поэтому проблемы извлечения, вербализации и использования имплицитных знаний в ИИС всегда будут актуальными. В XX в. доминирующим направлением в теории познания было материалистическое, в рамках которого роль человека сводилась к сбору информации об окружающей его объективной реальности и к построению ее дискретных моделей. Эта парадигма положена в основу архитектуры современных компьютеров, главной чертой которых является дискретность обрабатываемой информации. Недостатки дискретных моделей — это низкая скорость обработки информации (по сравнению со способностями человека) и невозможность представления имплицитных знаний, которые существуют в невербальной форме.

Выдающийся когнитолог М. Хайдеггер предложил новый подход в теории познания, выдвинув гипотезу о том, что человек не может иметь объективных знаний об окружающей действительности, ибо она структурируется человеком в зависимости от его целей, конкретных обстоятельств, ценностей и т.п.. По мнению Хайдеггера, дискретные модели окружающего мира, претендующие на объективность, имеют небольшое значение в жизни человека. Главную роль в его деятельности играют имплицитные знания, навыки и живой опыт, которые существуют в невербальной, а следовательно, не в дискретной форме. Идеи Хайдеггера послужили основой коннекционистской (connect — связывать, англ.) теории познания, положенной в основу моделей нейронных сетей. Коннекционистская модель не является дискретной, она не строится в явном виде, а появляется в результате обучения на примерах. Нейронные сети успешно применяются для имитации бессознательных знаний.

Как и следовало ожидать, решение одних проблем породило другие. Избавление от дискретности сопровождалось существенным снижением возможности структурного представления знаний. Поэтому перспективы развития теории познания и ее прикладной ветви — методологии приобретения знаний интеллектуальными системами связаны с интеграцией обоих подходов. Хорошей аналогией являются дифференциальные уравнения, являющиеся непрерывными моделями реальных процессов, для решения которых используются дискретные методы. Ниже будут кратко рассмотрены методы выявления скрытых знаний, разработанные в психосемантике,.

Психосемантика позволяет исследовать структуры сознания через моделирование индивидуальной системы знаний человека и выявлять элементы знаний, которые могут им не осознаваться (латентные, скрытые, имплицитные). Эта наука объединяет методы когнитивной психологии, психолингвистики, психологии восприятия и исследования индивидуального сознания.

Основным методом психосемантики является построение субъективных семантических пространств, для чего, как правило, применяются статистические процедуры, а именно: многомерное шкалирование, репертуарные решетки, факторный и кластерный анализ. Эти методы позволяют сгруппировать отдельные описательные признаки в более емкие категории-факторы. Таким образом, происходит переход к описанию предметной области на более высоком уровне абстракции с помощью метаязыка выделенных категорий. Исследование свойств семантических пространств позволяет выявлять закономерности в конкретной области знаний.

Расположение первичных понятий в семантическом пространстве существенно зависит от опыта и профессиональной компетентности испытуемых, что можно использовать для контроля знаний путем сопоставления семантических пространств хороших специалистов и новичков. Многочисленные исследования, проведенные в данном направлении, показали, что размерность, семантического пространства уменьшается с повышением уровня квалификации специалистов. Этот факт согласуется с известным положением когнитивной психологии о том, что процесс познания сопровождается обобщением.

Алгоритм построения семантического пространства включает три главных этапа.

  1. Выбор и применение метода оценки семантического сходства признаков, предъявляемых испытуемому.
  2. Построение структуры семантического пространства на основании математического анализа полученной матрицы сходства. При этом происходит уменьшение числа исследуемых понятий за счет обобщения.
  3. Идентификация и интерпретация выделенных факторных структур, кластеров, групп объектов, осей и т.д.

Рассмотрим пример построения семантического пространства, отражающего сходство распространенных английских предлогов. Пространство строилось с применением девятибалльной шкалы для оценки степени затруднения, возникающего у испытуемого при выборе им предлога из рассматриваемой пары. Результатом обработки полученных данных методом многомерного шкалирования является семантическое пространство, отражающее сложность употребления английских предлогов для носителей русского языка. На рис. 4.11 показано пространство, построенное по данным, полученным от человека, хорошо владеющего английским языком. Семантическое пространство построено в двух координатных осях: ось абсцисс соответствует предлогам группы «направление — движение», а ось ординат — предлогам «цели — средства». Пространство хорошо структурировано и наглядно показывает сходство и различие предлогов (чем больше похожи предлоги, тем ближе соответствующие им точки на центральной окружности). Следует заметить, что пространство, построенное по данным «новичка», было совершенно не структурированным, т.е. в нем было практически невозможно выделить группы близких предлогов.

Рис. 8.7. Семантическое пространство сложности употребления английских предлогов для носителя русского языка

Методы многомерного шкалирования. Они основаны на статистических методах обработки экспертных оценок сходства между анализируемыми объектами, которые выбираются из определенной шкалы. Результаты обработки представляются в виде точек некоторого координатного пространства. Возможность визуализации результатов является безусловным преимуществом метода, однако она быстро утрачивается с увеличением размерности пространства. Шкалированием называют поиск подпространства, для которого величина  имеет минимальное значение. Здесь  — матрицы расстояний между объектами (признаками) в исходном пространстве  и в искомом подпространстве , т и т* — размерности соответствующих пространств. Если т*=1, шкалирование превращается в проецирование на плоскость. Значения расстояний в матрицах D могут выбираться экспертом из предложенной шкалы либо вычисляться по совокупности признаков, описывающих объект. Во втором случае расстояния можно вычислить разными способами. Одной из самых популярных метрик является евклидово расстояние

,

где ,  — значения k-ro признака у i-го и j-го объектов соответственно;

К — общее число признаков.

Расстояния-метрики должны удовлетворять следующим условиям:

d(x,y)?0; d(x,y)=0; d(x,y)= d(y,x); d(x,y)+d(y,z) ?d(x,z).

Метрическим шкалированием называют образование новых классов с использованием метрических расстояний. Этот тип обработки данных ориентирован на максимальное сближение числовых значений матриц  и . Существует также неметрическое шкалирование, которое не предъявляет жестких требований к сближению пространств и во многих случаях более оправдано в связи с условностью понятия «расстояние».

Важно отметить, что в шкалировании отыскиваются не новые признаки, а новые пространства, поэтому его результаты следует интерпретировать как восстановленную (на плоскости или в объеме) структуру расположения точек. Главными недостатками метода многомерного шкалирования являются:

субъективные оценки сходства между объектами и признаками обрабатываются как расстояния в пространстве, а результаты анализируются на основе геометрической интерпретации. Это ограничивает размерность выявляемых пространств и требует серьезного упрощения реальных знаний эксперта, следствием которого могут стать неадекватные БЗ;

выделенные подпространства не имеют иерархической организации, что затрудняет их интерпретацию;

используется только один вид отношений между понятиями (отношение сходства).

Метафорический подход. Он ориентирован на выявление скрытых составляющих практического опыта эксперта и основан на сравнении объектов предметной области с абстрактными объектами из мира метафор, в результате чего можно выявить новые свойства анализируемых объектов и определить отношение эксперта к ним. Используя метафорические сравнения, эксперт выходит за рамки объективности и действует в соответствии со своими субъективными представлениями,

Метод репертуарных решеток. Предложен Дж. Келли в 1955 г., широко применяется в психологических исследованиях для выявления личностных свойств, которые проявляются через систему личностных конструктов. Этот метод может применяться и для извлечения знаний.

Репертуарная решетка представляет собой матрицу, которая заполняется экспертом. Столбцам матрицы соответствуют определенные группы объектов (элементов), в качестве которых могут выступать люди, предметы, понятия, отношения, звуки и др. Строки матрицы соответствуют конструктам, которые представляют собой биполярные признаки, параметры, шкалы, отношения или способы поведения. Дж. Келли называл конструктом признак или свойство, определяющие сходство двух или нескольких объектов и их отличие от других объектов. Иными словами, конструкты — это признаки, которые могут использоваться для обобщения и разделения объектов на классы. Конструкты можно применить не к любым объектам, а только в некотором «диапазоне их пригодности».

Конструкты могут быть заданы аналитиком либо подбираются самим экспертом. В последнем случае выделяются личностные конструкты, отражающие идеи или мысли, которые человек использует для осознания, интерпретации, объяснения или предсказания действительности. Примерами личностных конструктов могут быть «умный — глупый», «мужской — женский», «хороший — плохой». Слово репертуарная означает, что анализируемые объекты выбираются по специальным правилам, так, чтобы они были связаны определенным контекстом аналогично репертуару ролей в пьесе. Второй смысл этого определения заключается в том, что в технике репертуарных решеток элементы часто задаются в виде обобщенных описаний, ролей, исполнителями которых каждый человек мысленно представляет знакомых ему людей или конкретные предметы.

Для выявления конструктов используются: последовательный метод, а также методы минимального контекста, самоидентификации и ролевой персонификации. В соответствии с методом минимального контекста эксперту предъявляются произвольные «тройки» объектов и предлагается определить свойства, отличающие один объект от двух других. В результате определяются не только значения характеристик, но и сами характеристики. Решетка формируется следующим образом. По одной из ее осей располагаются значимые конкретные объекты, а по другой — разряды (типы, роли), к которым они относятся. Распределив объекты по типам, эксперт заполняет первый ряд матрицы под колонками, обозначив три объекта кружочками. При этом он должен подобрать характеристику, которая обеспечивает сходство двух объектов и отличает их от третьего. Кружочки, соответствующие сходным объектам, перечеркиваются. В столбец с именем «полюс конструкта» записывается наименование признака, обеспечивающего сходство двух объектов, в столбец «противоположный полюс» — имя признака, отличающего третий объект от двух сходных. Затем проводится анализ оставшихся в первом ряду объектов по выделенному положительному конструкту и галочками отмечаются объекты, обладающие этим свойством. Традиционная решетка должна быть квадратной, т.е. в матрице заполняют число строк, равное числу объектов (типов). В общем случае это условие не является обязательным. Пример репертуарной решетки для выявления знаний о качестве рекламной продукции показан на рис. 8.8.

Анализ репертуарных решеток позволяет выявлять значимые для специалиста признаки (конструкты), определять силу и направленность связей между конструктами и строить из них связную систему.

Самым распространенным и простым методом анализа репертуарной решетки является кластерный анализ. Иерархическая кластеризация осуществляется на основе выбора элементов матриц, имеющих наибольшее число связей. Кроме того, конструкты могут быть представлены как точки многомерного пространства, плоскости которого определяются числом связанных с конструктами элементов. Факторный анализ пространства конструктов позволяет судить об их значимости, а корреляционный анализ — выявлять значимые связи между ними.

Слабым местом в теории Дж. Келли является предположение о том, что человек может точно описать конструкты, которые он использует, чтобы объяснить, чем сравниваемые объекты похожи друг на друга и чем отличаются. Процедура выявления и вербализации конструктов очень утомительна для экспертов, поэтому во многих методиках используются готовые наборы конструктов, релевантные рассматриваемым объектам. Решетки Келли являются удачным инструментом для выявления свойств личности через наборы субъективных параметров и предпочтений. О субъективности полученных знаний нужно помнить при их последующем использовании.

Рис. 8.8. Пример репертурной решетки

Известны программные средства для поддержки процессов извлечения знаний с использованием репертуарных решеток, среди них PLANET, AQUINAS, KRITON, SIMER+MIR.