Дисперсионный анализ

Дисперсионный анализ применяется для обнаружения влияния выделенного (контролируемого) набора факторов на результативный признак. Факторы обычно измеряются в неколичественной шкале, а результативный признак вы­ражается числом или вектором с числовыми компонентами.

Идея дисперсионного анализа состоит в разложении общей дисперсии ре­зультативного признака на части, обусловленные влиянием контролируемых факторов, и остаточную дисперсию, объясняемую неконтролируемым влияни­ем или случайными обстоятельствами. Выводы о существенности влияния кон­тролируемых факторов на результат производятся путем сравнения частей общей дисперсии при выполнении требования нормальности распределения результативного признака.

Известно много моделей дисперсионного анализа. Они классифицируются, с одной стороны, по математической природе факторов (детерминированные, случайные и смешанные) и, с другой стороны -- по числу контролируемых факторов (однофакторные и многофакторные модели). Модели с более чем одним фактором дают возможность исследовать влияние на результат не только отдельных контролируемых факторов (главные влияния), но и их на­ложение (взаимодействия). По способу организации исходных данных среди моделей дисперсионного анализа выделяют полные и неполные т-факторные планы, полные и неполные блочные планы и рандомизированные (случайные) блочные планы. В STATGRAPHICS Plus for Windows реализованы все пере­численные выше модели дисперсионного анализа.

В качестве примера рассмотрим задачу проверки влияния возраста и ста­жа работников определенной специальности на производительность труда. Исходные данные к этому примеру приведены в книге «Информатика в статистике: Словарь-справочник» (М.: Финансы и статистика, 1994). Это ре­зультаты обследования 60 работников производства, у которых фиксировалась средняя часовая выработка в натуральных единицах продукции. Данные об­следования отражены в табл. 2.9.

Таблица 2.9. Данные обследования

Статья 344 - Картинка 1

Раскроем электронную таблицу STATGRAPHICS и введем в нее значения результативного признака output и закодированные значения градаций кон­тролируемых факторов age (возраст) и record (стаж), как это показано на рис. 2.35. Сохраним данные в файле plant.

Статья 344 - Картинка 2

Рис. 2.35, Результаты обследования работников производства

Выберем Compare | Analysis of Variance | Multifactor ANOVA. Заполним окно многофакторного дисперсионного анализа (рис. 2.36).

Статья 344 - Картинка 3

Рис. 2.36. Окно диалога многофакторного дисперсионного анализа

Нажмем ОК. На экране появится сводка множественного дисперсионного анализа, в которой подтверждается, что к обработке принято 60 наблюдений, хтя которых зафиксированы значения двух факторов. Внизу под этими сведе­ниями включено сообщениеStatAdvisor с рекомендациями по проведению дальнейшего анализа.

Вызовем окно табличных опций, нажав вторую слева кнопку в нижнем г яду кнопок (рис. 2.37). Установим флажок ANOVA Table (таблица диспер­сионного анализа) и нажмем ОК. Щелкнув дважды на окне с этой таблицей, раскроем его на все рабочее поле (рис. 2.38).

В приведенной таблице выведены для каждого фактора рассчитанные сум­мы квадратов (Sum of Squares), степени свободы (Df), средние квадраты (Mean Square), F-отношения и р-значения. Указано, что расчетыF-отношений базируются на остаточном среднем квадрате ошибки и что использовался Тип III дисперсионного анализа. Это один из самых распространенных вари­антов обработки, в котором суммы квадратов каждого фактора рассчиты­ваются таким образом, как если бы данный фактор был добавлен в модель последним.

Статья 344 - Картинка 4

Рис. 2.37. Табличные окна дисперсионного анализа

Статья 344 - Картинка 5

Рис. 2.38. Исходная таблица дисперсионного анализа

На основании табличных чисел (а также по сообщению StatAdvisor) де­лаем заключение, что на производительность труда оказывают влияние оба фактора по отдельности — и возраст работника, и его трудовой стаж. Доверие к такому выводу 95%. Можно, кроме того, оценить и совместное влияние двух факторов.

Щелкнем правой кнопкой мыши на табличном окне и выберем Analysis Options. Появится окно диалога для ввода различных взаимодействий факто­ров и задания их порядка (рис. 2.39).

Введем порядок взаимодействия равный 2 и нажмем ОК. В таблицу мно­гофакторного дисперсионного анализа будут добавлены оценки статистической значимости совместного влияния возраста и стажа работников на их произво­дительность труда (рис. 2.40).

Статья 344 - Картинка 6

Рис. 2.39. Окно диалога для задания порядка взаимодействия факторов

Статья 344 - Картинка 7

Рис. 2.40. Таблица дисперсионного анализа с оценкой значимости совокупного влияния возраста и стажа работников на производительность труда

Как следует из полученных цифр, на производительность труда изучаемой генеральной совокупности работников существенно влияют совместно дейст­вующие возраст и стаж. Уровень доверия к такому выводу выше 95%. Можно еще более углубить проводимое исследование, воспользовавшись многосто­ронними оценками различных компонент факторного взаимодействия и до­полнительными статистическими тестами, реализованными в процедуре дисперсионного анализа STATGRAPHICS Plus forWindows. Но, как говорит­ся, лучше один раз увидеть, чем сто раз услышать. Поэтому воспользуемся графическими возможностями отображения результатов анализа.

Нажмем кнопку графических опций (третья слева в нижнем ряду кнопок) и установим флажки Means Plot (график средних) и Interactions Plot (график взаимодействий). Нажмем ОК (рис. 2.41).

В верхнем графическом окне показан график зависимости средних значе­ний производительности труда от стажа и очерчены доверительные интервалы для этих средних. Хорошо видно, что стаж несомненно влияет на результа­тивный признак. Вместе с тем, похоже, производительность достигает своего пика у работников со стажем от 7 до 10 лет, а затем начинает снижаться.

Полученная картина проясняется, если взглянуть на нижнее графическое окно, где приведена картинка о взаимодействиях возраста и стажа. Из нее следует, что производительность труда постоянно увеличивается с ростом стажа у молодых работников (25—35 лет). Для второй возрастной группы (35-40 лет) такой рост наблюдается только для тех работников, стаж которых не превышает 10 лет. Затем производительность у них резко падает. Для третьей возрастной группы (45-55 лет) характерна вообще самая низкая про­изводительность труда, значение которой остается почти на одном и том же уровне независимо от стажа работы.

Статья 344 - Картинка 8

Рис. 2.41. Табличные и графические отображения результатов

Отобразим результаты дисперсионного анализа в ином ракурсе. Для этого будем щелкать правой кнопкой мыши на каждом графическом окне, выбирать из контекстного меню пункт Pane Options и заменять в соответствующих ок­нах диалога фактор record(стаж) на фактор age (возраст). Теперь на всех графиках по оси абсцисс будут отображаться возрастные категории. Пример одного из окон диалога приведен на рис. 2.42.

Раскроем полученные графические окна двумя щелчками левой кнопки мыши. Получим следующие картинки (рис. 2.43 и 2.44).

Статья 344 - Картинка 9

Рис. 2.42. Пример окна диалога для задания параметров графического отображения результатов дисперсионного анализа

Статья 344 - Картинка 10

Рис. 2.43. Влияния возраста работников на производительность труда

Статья 344 - Картинка 11

Рис. 2.44. Влияние взаимодействия возраста и стажа на производительность труда

Первый график наглядно показывает уменьшение производительности труда с возрастом. Из второго следует, что пик производительности труда наблюдается у молодых людей, имеющих стаж работы от 4 до 7 лет, и что при незначительном стаже, независимо от возраста, производительность труда все­гда остается самой низкой. Можно, конечно, сделать другие более тонкие вы­воды. Но, по-видимому, имеет смысл напомнить, что они будут справедливы только по отношению к представителям исследованной генеральной совокуп­ности работников производства.