Простая регрессия: определение постоянной Хаббла
Процедура простой регрессии заключается в нахождении аналитического выражения для связи двух переменных X и Y. Модели простой регрессии, предусмотренные в STATGRAHICS Plus for Windows, представлены в табл. 2.1.
Таблица 2.1. Модели простой регрессии
Продемонстрируем процедуру поиска модели простой регрессии на примере оценки постоянной в законе Хаббла. Сведения для этого примера почерпнуты из работы Ю. Н. Тюрина и Г. И. Симоновой «Знаковый анализ линейных моделей // Обозрение прикладной и промышленной математики» (М.: изд-во ТВП, 1994).
Американским астрономом Хабблом в 1929 году было обнаружено, что галактики удаляются от Земли тем быстрее, чем дальше они расположены. Также им было установлено, что скорость удаления пропорциональна расстоянию. Коэффициент этой пропорциональности получил название постоянной Хаббла. О его точном значении в астрономии продолжается дискуссия, хотя сама идея линейной зависимости признана безусловно. В настоящее время указанное явление истолковывается как свидетельство расширения вселенной.
Данные, которые мы подвергнем анализу, представляют собой расстояния от Земли (в миллионах световых лет) и скорости удаления (в сотнях миль в секунду) 11 галактик (табл. 2.2).
На рис. 2.12 отображены анализируемые измерения. Визуально рассматриваемые точки не лежат на одной прямой, но располагаются приблизительно вдоль некоторого направления.
Таблица 2.2. Исходные данные
Рис. 2.12. Графическое представление данных о созвездиях
Раскрываем электронную таблицу STATGRAPHICS и заносим в нее представленные выше измерения. Последовательно выделяем колонки и после нажатия правой кнопки мыши выбираем из контекстного меню Modify Column. В предлагаемом окне диалога задаем имена переменных: distance (расстояние) и speed (скорость). Вносим также в таблицу условные названия галактик. После проделанных операций сохраняем файл данных под именем Hubble: File | Save Data File As.
Вызываем процедуру построения моделей простой регрессии: Relate | Simple Regression. В появившемся окне диалога (рис. 2.13) выделяем сначала переменную distance и вводим ее в поле анализа Y нажатием кнопки со стрелкой, а затем переменную speed в поле анализа X. Нажимаем ОК.
На экран выдается рабочее поле процедуры простой регрессии со статистической сводкой применительно к линейной модели (рис. 2.14).
Как следует из полученной сводки, построена очень неплохая модель, сильно коррелирующая с экспериментальными наблюдениями (коэффициент корреляции 0.9986). Исходя из модели, угол наклона (slope) составляет 2.82 — а это и есть постоянная Хаббла.
Рис. 2.13. Окно диалога для ввода данных в процедуру построения моделей простой регрессии
Рис. 2.14. Сводка результатов построения линейной модели
Для графического отображения результатов нажимаем кнопку графических опций (третья слева в нижнем ряду кнопок). На экране появляется окно диалога с доступными в данной процедуре графическими вариантами (рис. 2.15). Устанавливаем флажки Plot of Fitted Model(график подобранной модели) и Residual versus X (график остатков). Нажимаем ОК. Получаем следующие картинки (рис. 2.16).
Обращает на себя внимание нижний график остатков. Полученная картинка призывает задуматься, так как напрашивается наличие какой-то периодической компоненты в анализируемых измерениях. Является ли она следствием использованной технологии измерений или имеется другая причина — тут есть повод для поиска объяснений.
В целом же мы подтвердили гипотезу Хаббла о линейной зависимости скорости удаления звезд от их расстояния до Земли и получили значение постоянной Хаббла, хорошо согласующееся с известными данными. Вместе с тем, для иллюстрации дополнительных возможностейSTATGRAPHICS проделаем следующие операции.
Рис. 2.15. Варианты графического отображения
Рис. 2.16. Графические отображения результатов регрессионного моделирования
Нажмем кнопку табличных опций (вторая слева в нижнем ряду кнопок) и установим флажок Comparison of Alternative Models (сравнение альтернативных моделей). Нажмем ОК. Получаем таблицу, в которой представлены результаты анализа для всех типов зависимостей Y от X, упорядоченные по коэффициенту корреляции с экспериментальными наблюдениями (рис. 2.17).
Оказывается, что линейная модель занимает только третье место по качеству аппроксимации экспериментальных наблюдений. На первое место вышла модель с дважды обратным преобразованием, а второе место захватила мультипликативная модель.
|
Рис. 2.18. Сводка регрессионного анализа для модели с дважды обратным преобразованием |
|
Рис. 2.17. Результаты сравнения альтернативных моделей |
Однако их преимущество столь незначительно, что вряд ли стоит здесь гнаться за иллюзорной точностью в ущерб лаконичности гипотезы линейного расширения Вселенной. Хотя, кто знает? У модели с дважды обратным преобразованием стандартная ошибка оценки составляет всего 0.000514, а у линейной модели эта величина значительно больше -18.325. Взгляните и сравните сами (рис. 2.18).