Факторный анализ ориентирован на объяснение корреляций, имеющихся между признаками. Поэтому он применяется в более сложных случаях совместного проявления в структуре экспериментальных данных действия латентных факторов.
Основная модель факторного анализа записывается следующей системой равенств:
То есть предполагается, что значения каждого признака могут быть выражены взвешенной суммой латентных переменных (простых факторов),
количество которых меньше числа исходных признаков.
Задача факторного анализа не имеет однозначного решения. Представление корреляционной матрицы факторами (как говорят, ее факторизацию) можно произвести бесконечно большим числом способов. Известно много методов факторного анализа. Поэтому нередко в одном и том же пакете программ анализа данных реализовано сразу несколько версий таких методов, и у исследователей возникает закономерный вопрос, какой из них лучше.
В STATGRAPHICS Plus for Windows реализовано три метода вращения факторов: варимакс, квартимакс и эквимакс. Вращение методом варимакс ставит целью упростить столбцы факторной матрицы, сводя все значения к 1 или 0. Вращение методом квартимакс ставит целью аналогичное упрощение только по отношению к строкам факторной матрицы. И наконец, эквимакс занимает промежуточное положение — при вращении факторов по этому методу одновременно делается попытка упростить и столбцы и строки.
Факторный анализ широко применяется в экономике, социологии, медицине для выявления скрытых закономерностей в данных. Но, может быть, наиболее широко он используется в психологии, из которой собственно идут корни факторной статистической техники. Этим объясняется выбор нижеследующего примера, связанного с изучением структуры интеллекта на основе данных, полученных с помощью психологического тестирования.
Настоящий пример адаптирован по данным, приведенным в отчете об изучении пожилых людей (Morrison D. F. (1990). Multivariate Statistical Methods, 3rd edition. N. Y.: McGraw-Hill). Испытуемые были разбитые помощью теста Векслера на две полярные группы. Для первой группы характерно наличие признаков старения, для второй такие признаки отсутствуют.
В нашем случае будут рассмотрены 37 человек, у которых признаки старения выражены. Мы выделим (на основе экспериментальных данных) факторы и проинтерпретируем их.
Таблица с экспериментальными данными приведена ниже (табл. 6.3).
Получение и интерпретация сводки анализа
Выберем Special | Multivariate Methods | Factor Analysis. Система выдаст окно диалога для задания переменных.
Введем в поле анализа переменные arith (арифметический тест), info (информационный тест), picture (тест дополнения картинок) и similars (тест на подобие).
В поле Select запишем first(37) — первые 37 объектов, тогда как полная матрица данных содержит больше объектов. Заполненное окно диалога ввода переменных в анализ показано на рис. 6.15.
Таблица 6.3. Экспериментальные данные
Нажмем кнопку ОК. Система выдаст первичную сводку факторного анализа (рис. 6.16).
Из полученной сводки следует, что на первые три фактора приходится 95% дисперсии.
Передвинем курсор на окно первичной сводки и щелкнем правой кнопкой мыши. Система предоставит окно диалога для задания опций факторного анализа. Оставим в неприкосновенности переключатели, указывающие на: Listwise, Principal Components(тип факторизации) и Varimax (метод вращения факторов). Снимем флажок Standardize, так как мы имеем дело с уже стандартизированными психологическими данными, измеренными в определенных шкалах.
Рис. 6.15. Заполненное окно диалога ввода данных для проведения факторного анализа
Установим переключатель в положение Number of Factors (количество факторов) и в соответствующем поле изменим 4 на 3. Нажмем кнопку ОК (рис. 6.17). Система произведет необходимые расчеты и выдаст новую сводку факторного анализа (рис. 6.18).Рис. 6.16. Первичная сводка факторного анализа
Получение и интерпретация табличных результатов
Нажмем кнопку табличных опций (вторая слева в верхнем ряду). Система выдаст соответствующее окно диалога.
Щелкнем мышью на кнопке АИ (все) и тем самым выберем все имеющиеся виды численных представлений результатов факторного анализа. Нажмем кнопку ОК. Система выдаст на рабочее поле экрана четыре окна с табличными результатами.
Рис. 6.17. Окно диалога для задания параметров факторного анализа
Рис. 6.18. Вторая сводка факторного анализа
Дважды щелкнем левой кнопкой мыши на табличном окне Extraction Statistics (выделенные статистики). Окно займет все рабочее поле экрана (рис. 6.19).
В таблице приведены значения факторных нагрузок до применения процедуры вращения факторов. Но так как вращение факторов нередко помогает получить более полезные сведения о структуре экспериментальных данных, рассмотрим значения факторных нагрузок после проведения такого вращения.
Дважды щелкнем на раскрытом окне левой кнопкой мыши, минимизируя его размеры.
Произведем двойной щелчок на окне Rotation Statistics (нагрузки после проведения вращения) — развернем его на все рабочее поле (рис. 6.20).
Рис. 6.19. Результаты факторизации до вращения факторов
Рис. 6.20. Матрица факторных нагрузок после проведения вращения
Нетрудно видеть, что после применения процедуры вращения в факторе 2 гораздо более высокое значение имеет факторная нагрузка для переменной arith, которая отражает способность испытуемых к проведению арифметических действий в уме. Вместе с тем в факторе 1 высокие величины нагрузок наблюдаются для переменных similars и info, в то время как у переменной picture нагрузка мала. Это говорит о том, что фактор 1 отражает различия людей по так называемому основному интеллекту.
Получение и интерпретация графических отображений
Нажмем кнопку графических опций (третья слева). Появится соответствующее окно диалога.
Щелкнем на кнопке АН, задействуя все графические опции. Система добавит на рабочее поле 5 окон с различными графическими отображениями результатов факторного анализа (рис. 6.21).
Рис. 6.21. Все табличные и графические окна факторного анализа
Раскроем сначала окно с названием Scree Plot. Этот график в исходном построении иллюстрирует собственные значения для каждого фактора. Но, предположим, нам хочется иметь выражения величины собственных значений в процентах.
Щелкнем на графике правой кнопкой мыши и получим окно диалога для задания опций данного вида отображения результатов факторизации. Установим флажок Percent of Variance (процент дисперсии) вместо Eigenvalues (собственные значения). Заметим, что фактор 1 имеет весьма высокое и, конечно, самое большое значение процента дисперсии. На фактор 2 приходится менее 20% дисперсии, а фактор 4 и вовсе малозаметен по этому показателю (рис. 6.22).
Рис. 6.22. Иллюстрация процента дисперсии для выделенных факторов
Минимизируем размеры рассмотренного графика.
Дважды щелкнем левой кнопкой мыши на втором графическом окне 2D Scatterplot (двухмерная диаграмма рассеивания). На полученном рисунке показана проекция исследуемых объектов на плоскость, образованную первым и вторым факторами. Судя по конфигурации облака точек, первый и второй факторы сильно коррелируют. То есть в нашем случае, применительно к пожилым людям с выраженными признаками старения, общий интеллект у них тесно связан со способностью к произведению в уме арифметических действий (рис. 6.23)
Рис. 6.23. Проекция объектов на плоскость первого и второго факторов
Вернем двухмерной диаграмме рассеивания прежние минимальные размеры, дважды щелкнув на ней левой кнопкой мыши.
Максимизируем размеры графического отображения 3D Scatterplot. Этот график представляет собой проекцию объектов в трехмерное пространство, образованное первыми тремя факторами.
Свернем рассмотренное отображение.
Рис. 6.24. Графическое изображение факторных нагрузок
Дважды щелкнем левой кнопкой мыши на графике 2D Factor Plot (двухмерное отображение факторных нагрузок), раскрывая график на все рабочее поле (рис. 6.24).
На графике хорошо видно, что переменная arith имеет значение как для первого, так и для второго факторов. Вместе с тем у переменной picture малые нагрузки на все факторы, а тестовые измерения info и similars имеют большие нагрузки только на первый фактор.
Свернем раскрытое окно до минимальных размеров, дважды щелкнув на нем левой кнопкой мыши.
Раскроем до максимальных размеров окно 3D Factor Plot (трехмерный факторный график). График изображает факторные нагрузки уже в пространстве трех факторов (рис. 6.25).
Рис. 6.25. Отображение факторных нагрузок в пространстве трех факторов
Из приведенного рисунка видно, что весьма высокую нагрузку имеет переменная picture. Однако эта нагрузка приходится на третий выделенный фактор, а, как нам известно из предыдущих данных, третий фактор играет несущественную роль при описании рассмотренных экспериментальных наблюдений.
Почитайте биткоин новости