Дисперсионный анализ применяется для обнаружения влияния выделенного (контролируемого) набора факторов на результативный признак. Факторы обычно измеряются в неколичественной шкале, а результативный признак выражается числом или вектором с числовыми компонентами.
Идея дисперсионного анализа состоит в разложении общей дисперсии результативного признака на части, обусловленные влиянием контролируемых факторов, и остаточную дисперсию, объясняемую неконтролируемым влиянием или случайными обстоятельствами. Выводы о существенности влияния контролируемых факторов на результат производятся путем сравнения частей общей дисперсии при выполнении требования нормальности распределения результативного признака.
Известно много моделей дисперсионного анализа. Они классифицируются, с одной стороны, по математической природе факторов (детерминированные, случайные и смешанные) и, с другой стороны -- по числу контролируемых факторов (однофакторные и многофакторные модели). Модели с более чем одним фактором дают возможность исследовать влияние на результат не только отдельных контролируемых факторов (главные влияния), но и их наложение (взаимодействия). По способу организации исходных данных среди моделей дисперсионного анализа выделяют полные и неполные т-факторные планы, полные и неполные блочные планы и рандомизированные (случайные) блочные планы. В STATGRAPHICS Plus for Windows реализованы все перечисленные выше модели дисперсионного анализа.
В качестве примера рассмотрим задачу проверки влияния возраста и стажа работников определенной специальности на производительность труда. Исходные данные к этому примеру приведены в книге «Информатика в статистике: Словарь-справочник» (М.: Финансы и статистика, 1994). Это результаты обследования 60 работников производства, у которых фиксировалась средняя часовая выработка в натуральных единицах продукции. Данные обследования отражены в табл. 2.9.
Таблица 2.9. Данные обследования
Раскроем электронную таблицу STATGRAPHICS и введем в нее значения результативного признака output и закодированные значения градаций контролируемых факторов age (возраст) и record (стаж), как это показано на рис. 2.35. Сохраним данные в файле plant.
Рис. 2.35, Результаты обследования работников производства
Выберем Compare | Analysis of Variance | Multifactor ANOVA. Заполним окно многофакторного дисперсионного анализа (рис. 2.36).
Рис. 2.36. Окно диалога многофакторного дисперсионного анализа
Нажмем ОК. На экране появится сводка множественного дисперсионного анализа, в которой подтверждается, что к обработке принято 60 наблюдений, хтя которых зафиксированы значения двух факторов. Внизу под этими сведениями включено сообщениеStatAdvisor с рекомендациями по проведению дальнейшего анализа.
Вызовем окно табличных опций, нажав вторую слева кнопку в нижнем г яду кнопок (рис. 2.37). Установим флажок ANOVA Table (таблица дисперсионного анализа) и нажмем ОК. Щелкнув дважды на окне с этой таблицей, раскроем его на все рабочее поле (рис. 2.38).
В приведенной таблице выведены для каждого фактора рассчитанные суммы квадратов (Sum of Squares), степени свободы (Df), средние квадраты (Mean Square), F-отношения и р-значения. Указано, что расчетыF-отношений базируются на остаточном среднем квадрате ошибки и что использовался Тип III дисперсионного анализа. Это один из самых распространенных вариантов обработки, в котором суммы квадратов каждого фактора рассчитываются таким образом, как если бы данный фактор был добавлен в модель последним.
Рис. 2.37. Табличные окна дисперсионного анализа
Рис. 2.38. Исходная таблица дисперсионного анализа
На основании табличных чисел (а также по сообщению StatAdvisor) делаем заключение, что на производительность труда оказывают влияние оба фактора по отдельности — и возраст работника, и его трудовой стаж. Доверие к такому выводу 95%. Можно, кроме того, оценить и совместное влияние двух факторов.
Щелкнем правой кнопкой мыши на табличном окне и выберем Analysis Options. Появится окно диалога для ввода различных взаимодействий факторов и задания их порядка (рис. 2.39).
Введем порядок взаимодействия равный 2 и нажмем ОК. В таблицу многофакторного дисперсионного анализа будут добавлены оценки статистической значимости совместного влияния возраста и стажа работников на их производительность труда (рис. 2.40).
Рис. 2.39. Окно диалога для задания порядка взаимодействия факторов
Рис. 2.40. Таблица дисперсионного анализа с оценкой значимости совокупного влияния возраста и стажа работников на производительность труда
Как следует из полученных цифр, на производительность труда изучаемой генеральной совокупности работников существенно влияют совместно действующие возраст и стаж. Уровень доверия к такому выводу выше 95%. Можно еще более углубить проводимое исследование, воспользовавшись многосторонними оценками различных компонент факторного взаимодействия и дополнительными статистическими тестами, реализованными в процедуре дисперсионного анализа STATGRAPHICS Plus forWindows. Но, как говорится, лучше один раз увидеть, чем сто раз услышать. Поэтому воспользуемся графическими возможностями отображения результатов анализа.
Нажмем кнопку графических опций (третья слева в нижнем ряду кнопок) и установим флажки Means Plot (график средних) и Interactions Plot (график взаимодействий). Нажмем ОК (рис. 2.41).
В верхнем графическом окне показан график зависимости средних значений производительности труда от стажа и очерчены доверительные интервалы для этих средних. Хорошо видно, что стаж несомненно влияет на результативный признак. Вместе с тем, похоже, производительность достигает своего пика у работников со стажем от 7 до 10 лет, а затем начинает снижаться.
Полученная картина проясняется, если взглянуть на нижнее графическое окно, где приведена картинка о взаимодействиях возраста и стажа. Из нее следует, что производительность труда постоянно увеличивается с ростом стажа у молодых работников (25—35 лет). Для второй возрастной группы (35-40 лет) такой рост наблюдается только для тех работников, стаж которых не превышает 10 лет. Затем производительность у них резко падает. Для третьей возрастной группы (45-55 лет) характерна вообще самая низкая производительность труда, значение которой остается почти на одном и том же уровне независимо от стажа работы.
Рис. 2.41. Табличные и графические отображения результатов
Отобразим результаты дисперсионного анализа в ином ракурсе. Для этого будем щелкать правой кнопкой мыши на каждом графическом окне, выбирать из контекстного меню пункт Pane Options и заменять в соответствующих окнах диалога фактор record(стаж) на фактор age (возраст). Теперь на всех графиках по оси абсцисс будут отображаться возрастные категории. Пример одного из окон диалога приведен на рис. 2.42.
Раскроем полученные графические окна двумя щелчками левой кнопки мыши. Получим следующие картинки (рис. 2.43 и 2.44).
Рис. 2.42. Пример окна диалога для задания параметров графического отображения результатов дисперсионного анализа
Рис. 2.43. Влияния возраста работников на производительность труда
Рис. 2.44. Влияние взаимодействия возраста и стажа на производительность труда
Первый график наглядно показывает уменьшение производительности труда с возрастом. Из второго следует, что пик производительности труда наблюдается у молодых людей, имеющих стаж работы от 4 до 7 лет, и что при незначительном стаже, независимо от возраста, производительность труда всегда остается самой низкой. Можно, конечно, сделать другие более тонкие выводы. Но, по-видимому, имеет смысл напомнить, что они будут справедливы только по отношению к представителям исследованной генеральной совокупности работников производства.