Регрессионный анализ - Прочее - Статистика - Библиотека

Исполнители
Безопасность заказов и сделок
Время на проверку работ
Войти
olga_1309 - автор студенческих работ

VIP! olga_1309  ЧАТ

Рейтинг : 21445
lesi555 - автор студенческих работ

VIP! lesi555  ЧАТ

Рейтинг : 17976
Помощь по экономическим и гуманитарным дисциплинам

VIP! stepanivan  ЧАТ

Рейтинг : 874
Студентам в помощь
VIP Исполнители
ВЫПОЛНИМ
Лента заказов

  • Заказать Работу
  • Готовые работы
    Заметки
    Библиотека
    Файлообменник
    Как сделать заказ
    Исполнители
    Магазин
    Новости
    Видео, ТВ и Радио
    Дисциплины
    Статьи, Опросы
    Форум
    Контакты
    Исполнители
  • Математические
  • Физика-Химия
  • Технические
  • Программирование
  • Гуманитарные
  • Экономические
  • Юридические
  • Иностранные языки
  • Другое, Разное
  • Статьи, Копирайтинг
  • Создание сайтов
  • Раскрутка сайтов
  • Дизайн, Графика
  • Аудио/Видео
  • Сообщения форума
    Поздравим всех!
    С наступающим Новым Годом !
    С 8 МАРТА МИЛЫХ ЖЕНЩИН!!!
    Как вы относитесь к help-s.ru ?
    Посмотрим, посмеёмся! ;)
    Помочь с самоваром.
    Electronics Workbench 5.12
    WebMoney или YAndex
    Объявления и Уведомления
    Крик души
    День рождения

     

    Регрессионный анализ

    Библиотека - файл № 13771    

    МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
    Государственное образовательное учреждение
    высшего профессионального образования
    «Оренбургский государственный университет»
    В.Б. ШАШКОВ
    ПРИКЛАДНОЙ
    РЕГРЕССИОННЫЙ АНАЛИЗ
    (МНОГОФАКТОРНАЯ РЕГРЕССИЯ)
    Рекомендовано Ученым советом Государственного образовательного
    учреждения высшего профессионального образования « Оренбургский
    государственный университет » в качестве учебного пособия для
    студентов, обучающихся по программам высшего профессионального
    образования по инженерно-техническим специальностям
    Оренбург 2003
    2
    ББК 22.18.7
    Ш 12
    УДК519.6 (076.5)
    Рецензент
    доктор технических наук,заведующий кафедрой «Промышленная элек -
    троника» В.Д. Шевеленко
    Шашков В.Б.
    Ш 12 Прикладной регрессионный анализ. Многофакторная регрес-
    сия: Учебное пособие.- Оренбург: ГОУ ВПО ОГУ, 2003. - 363 с.
    ISBN...........
    Настоящее учебное пособие посвящено описанию наиболее рас-
    пространенного метода обработки результатов наблюдений - регресси-
    онного анализа, причем в изложении сделан упор на его практическое
    применение для аппроксимации табличнозаданных экспериментальных
    функций многофакторными полиномами регрессии. Пособие содержит
    также примеры научного планирования эксперимента. Впервые пред-
    ложен метод синтезирования задач многофакторной многостепенной
    регрессии для учебных целей. В пособие включены 150 учебных задач
    этого вида.
    Учебное пособие предназначено для студентов инженерно-
    технических специальностей, а так же для преподавателей, ведущих
    учебные дисциплины, связанные с обработкой результатов наблюдений
    и для аспирантов.
    ББК 22.18.7
    Ш-------------------------------------
     Шашков В.Б., 2003
    ISBN....  ГОУ ВПО ОГУ, 2003
    3
    Введение
    Настоящее учебное пособие подготовлено на основе лекционного кур-
    са, который автор читал в течение ряда лет студентам и сотрудникам Орен-
    бургского государственного университета. При его подготовке автор ставил
    перед собой в основном две задачи.
    Первая – создать для студентов, аспирантов и научных сотрудников
    практическое пособие для построения эмпирических формул, которые явля-
    ются математическими моделями объекта исследования в виде полиномов
    регрессии. Стремление сделать это пособие доступным широкому кругу лиц
    заставило отказаться от строгого теоретического изложения материала, кото-
    рое заменено наглядными примерами-–как, например, это сделано при выво-
    де основного уравнения регрессионного анализа в разделе 2.4.
    Вторая задача возникла в связи с тем обстоятельством, что в учебной
    литературе до сих пор осутствуют учебные задачи по многофакторной и
    многостепенной регрессии. Не решен вопрос синтезирования таких задач –в
    учебных пособиях в лучшем случае содержатся однофакторные задачи для
    уравнений второй степени. В настоящем пособии предложен метод синтези -
    рования многостепенных задач с любым количеством аргументов-факторов.
    В приложении содержится большое количество таких задач, которых хватит
    в качестве индивидуальных заданий для достаточно большого учебного по-
    тока студентов. Разработано содержание и методика практикума по их реше-
    нию.
    Пособие предназначено в первую очередь для студентов и преподава-
    телей втузов, а также для всех лиц, перед которыми стоит задача создания
    математической модели объекта исследования в виде алгебраического сте-
    пенного полинома.
    Автор выражает благодарность студентам ГОУ ВПО ОГУ, оказавшим
    помощь в подготовке пособия:Табилову А.Р., Жаровой Е.С., Жарову А.М.,
    Гунину А.П.
    4
    1 Эксперимент и экспериментальные данные – основные
    положения
    1.1 Эксперимент – основные понятия и термины
    Эксперимент – это специальным образом спланированная и органи-
    зованная процедура изучения некоторого объекта исследования, при кото-
    рой на этот объект оказывают запланированные воздействия и регистрируют
    его реакции на эти воздействия. Воздействия на объект называют фактора-
    ми и обозначают величинами х1,х2,…,хк. Реакции объекта называют откли-
    ками и обозначают символом у. Эксперимент состоит из ряда опытов или
    наблюдений, при которых факторы х1,х2,…,хк имеют разное значение. Но-
    мер опыта отражают индексом при факторах и откликах, т.е. для пятого, на-
    пример, наблюдения будем иметь х15,х25,…,хк5 и у5, а в общем виде будем
    использовать индекс g, т.е. обозначения х1g,х2g,…,хкg и уg.
    При организации и планировании эксперимента параметры поведения
    объекта исследования, интересующие исследователя–т.е. будущие отклики
    уg, играют роль функции неизвестной зависимости вида у=ϕ(х1,х2,…,хк). Ар-
    гументы- экспериментальные факторы воздействия на объект –"назначают"
    путем профессиональной экспертизы при построении логической модели
    объекта исследования.Разумеется, это в определенной мере обуславливает
    субъективный характер будущей модели объекта исследования. Но главная
    особенность ситуации не в этом, а в том, что поведение реальных объектов
    обычно определяется таким множеством факторов, что все их включить в
    модель невозможно. И дело не только в том, что список факторов неисчер-
    паем, но и еще и в том, что многие из них могут быть неизвестными даже
    профессиональным экспертам. Кроме того, увеличение количества факторов,
    включенных в математическую модель объекта, "утяжеляет" эксперимент как
    по срокам проведения, так и по затратам, вплоть до того, что может сделать
    осуществление эксперимента невозможным.
    В силу изложенного принятая модель объекта по факторам всегда (или
    почти всегда) является неполной. А между тем реальное поведение объекта
    складывается под влиянием всех факторов – и включенных в эксперимент, и
    невключенных, т.е. это поведение отвечает не зависимости у=ϕ(х1,х2,…,хк),
    а зависимости у=ϕ(х1,х2,…,хк,w1,w2,…,wк), где wп –неучтенные факторы.
    Влияние неучтенных факторов делает отклик объекта уg непредсказуемой по
    значению величиной, т.е. величиной случайной. Значение случайной вели-
    чины, таким образом, складывается по уравнению
    y =ϕ (x)+δ (w), (1)
    где ϕ (x) - функция истинного отклика, отражающая влияние включе-
    нных в модель факторов;
    δ (w) - функция неучтенных факторов или функция шума.
    5
    В связи со случайным характером откликов уg обработку эксперимен-
    тальных данных приходится вести на базе математического аппарата матема-
    тической статистики.
    1.2 Особенности связи между случайными величинами
    В математике понятие зависимости между величинами выражается по-
    нятием функции у=ϕ(х), когда одному значению аргумента х отвечает одно,
    и только одно, значение функции у. Если с изменением величины х величина
    у не меняет своего значения, эти величины являются независимыми.
    Но бывают и другие ситуации. В работе /1/, например, изучали зависи-
    мость между ростом х и весом у студентов третьего курса. Графический вид
    этой зависимости приведен на рисунке 1.
    Рисунок 1 – Зависимость массы тела от роста
    Посмотрим на поле черных экпериментальных точек, не обращая пока
    внимания на расчетную кривую. Есть ли тут какая-либо зависимость между
    величинами х и у ? Оказывается есть, и ее можно даже отразить уравнением,
    например, таким
    у= -26666,376+44916,553х-25152,823х2+4695,784x3.
    6
    Именно по нему и нанесена расчетная кривая на график. Но это урав-
    нение "не совсем функция". Существуют показатели качества таких формул,
    отражающих экспериментальные данные. Одним из таких показателей явля-
    ется оценка – насколько близка или далека данная зависимость от "стопро-
    центной" функции. Если эту "стопроцентную" функцию принять за единицу,
    то для данной эмпирической формулы этот показатель будет равен 0,512 –т.е.
    данная зависимость имеет 51,2% "функциональности."
    Особенности таких зависимостей состоят прежде всего в том, что гра-
    фик имеет вид слабоориентированного облака точек и в том, что одному зна-
    чению аргумента может отвечать несколько значений функции. Получается,
    что для данного значения аргумента может выпасть либо одно, либо другое
    значение функции –т.е. появляется ВЕРОЯТНОСТЬ того или иного значе-
    ния. Поэтому такой вид связи между величинами носит название вероятно-
    стной или стохастической связи.
    В данном конкретном примере такой вид связи обусловлен тем, что в
    математическую модель объекта и в эксперимент мы включили в качестве
    аргументов-факторов только вес студентов, хотя очевидно то, что существу-
    ют и другие факторы, влияющие на функцию, например, размер грудной
    клетки в сантиметрах. В общем случае стохастическая связь между случай-
    ными величинами имеет место тогда, когда они имеют как общие, так и раз-
    ные аргументы, например y = f (u,ε ) и x =φ (u,γ ). Если влияние общего
    аргумента будет нулевым, х и у будут независимы. Если влияние разных ар-
    гумента будет нулевым, связь х и у будет функциональной. Это есть два
    крайних положения, а между ними лежит бесконечное множество различных
    по силе состояний стохастической связи. При этом изменение величин х и у
    будет складываться из двух составляющих:
    - собственно стохастической под действием общего аргумента u;
    - cлучайной составляющей под действием разных аргументов ε и γ.
    Соотношение между этими составляющими может быть разным, в соо-
    тветствии с этим стохастическая связь может быть сильной или слабой, что
    удобно иллюстрировать на графике. Сильная связь на графике дает плотную
    дорожку точек, т.е. облако их узкое и имеет выраженную направленность. В
    пределе эта ситуация сводится к линии, т.е. к функции. Слабая связь иллюст-
    рируется рисунком 1 – облако размытое, ориентированность направления
    проявляется слабо. В пределе ситуация сводится к полной хаотичности в
    расположении точек – тогда зависимость между случайными величинами от-
    сутствует.
    Пример сильной стохастической связи иллюстрируется рисунком 2
    (данные заимствованы из работы /2/). Эта графическая зависимость выра -
    жается уравнением
    у=1,1577-0,1160х+0,0009х2.
    Показатель функциональности этого уравнения равен 0,909 или 90,9%.
    7
    Поскольку значение случайной величины при данных аргументах не
    постоянно и полная его характеристика требует учета рассеивания относи-
    тельно генерального среднего – математического ожидания, постольку
    Рисунок 2 – Зависимость долговечности образцов жаропроч-
    ного сплава от напряжения
    стохастическую связь определяют как такую связь, при которой изменение
    одной величины вызывает изменение ЗАКОНА РАСПРЕДЕЛЕНИЯ другой.
    Приведенные выше примеры показывают, что термины "сильная" и
    "слабая связь" требуют количественной оценки этой силы или слабости. Та-
    кую оценку можно вывести из известного положения математической стати-
    стики, что дисперсия суммы независимых дисциплин равна сумме их дис-
    персий, т.е. D{x+y}=Dx+Dy. Поскольку Dz=M{(z-Mz)2}, можем записать
    D{x+y}=M{[(x+y)-M{(x+y)}]2}.
    Символ математического ожидания суммы разносится по составляющим
    этой суммы, поэтому
    D{x+y}=M{(x+y+Mx+My)2}=M{[(x+Mx)+(y+My)]2}=
    M{(x+Mx)2+2(x+Mx)(y+My)+(y+My)2}=
    M{(x+Mx)2}+2M{(x+Mx)(y+My)}+M{(y+My)2}=
    Dx+ 2M{(x+Mx)(y+My)+Dy.
    σ −1
    8
    Как видим, по сравнению с исходным уравнением D{x+y}=Dx+Dy появ-
    ляется другой результат, содержащий элемент 2M{(x+Mx)(y+My). Очевидно,
    что при независимости переменных x и y эта величина будет равна нулю.
    При наличии же стохастической связи между x и y она примет численное
    значение, которое будет тем больше, чем сильнее связь.
    Величина M{(x+Mx)(y+My) называется вторым смешанным централь-
    ным моментом и обозначается как
    { , } {( )( )} 11 μ x y =M x−Mx y −My .
    Она и является показателем силы стохастической связи, но только не в
    исходном виде, а в виде безразмерной функции –коэффициента корреляции
    x y
    x y x y
    σ σ
    ρ{ , }=μ11{ , } .
    где σ - среднеквадратичное отклонение.
    При функциональной зависимости y=f(x) коэффициент корреляции по
    модулю равен единице; при отсутствии зависимости – нулю. Между этими
    крайними значениями лежит переходная область стохастической связи раз-
    личной силы. Но этот показатель работает только в области линейной
    связи. Ниже мы рассмотрим универсальную характеристику силы стохасти-
    ческой связи для любого вида зависимости.
    1.3 Таблица экспериментальных данных
    Каждый фактор x для реального натурного объекта исследования имеет
    технологически допустимый диапазон значений – от хmin до xmaх, который
    учитывается при планировании эксперимента. Сушествуют научные методы
    планирования эксперимента, назначение которых – максимизировать инфор-
    мационную эффективность эксперимента при минимизации затрат. Пример
    такого планирования приведен в разделе 4. Не касаясь здесь существа этого
    специального вопроса, отметим только, что при планировании диапазон зна-
    чений факторов x так или иначе разбивается на ряд промежуточных значе-
    ний– возьмем для нашего примера девять таких уровней (с равным шагом),
    обозначив их номерами от 1 (для хmin) до 9 (для xmaх). Для экспериментально-
    го воздействия на объект исследования при одном наблюдении (опыте) эти
    уровни значений разных факторов x сочетаются случайным образом. Напри-
    мер, планируя пятьдесят наблюдений, можно задать сочетания значений фак-
    торов x следующим образом:
    randomize; For i:=1 to 50 do
    begin
    x1[i]:=random(9)+1; x2[i]:=random(9)+1; x1[3]:=random(9)+1;
    x4[i]:=random(9)+1; x5[i]:=random(9)+1; end;
    9
    что и задаст пятьдесят вариантов сочетаний значений факторов x для пяти-
    десяти наблюдений. Записав эти значения в таблицу по колонкам х1,х2,…,хк,
    и включив в нее колонку для неизвестных пока откликов у, получим таблицу
    плана эксперимента.
    Численные значения факторов х и откликов у и являются эксперимен-
    тальными данными. Проставив в таблицу планирования эксперимента экс-
    периментальные значения у1,у2,…,уп, получим ТАБЛИЦУ ЭКСПЕРИМЕН-
    ТАЛЬНЫХ ДАННЫХ. Она и является предметом процесса ОБРАБОТКИ
    ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ.
    Любая зависимость между переменными у и х может быть представле-
    на разными способами, например, в виде графика или в аналитическом виде
    – в виде математической модели –уравнения, системы уравнений или алго-
    ритма (компьютерной программы). При проведении эксперимента его ре-
    зультатом является представление объективно существующей зависимости
    у=ϕ(х1,х2,…,хк,w1,w2,…,wк) в виде таблицы экспериментальных данных.
    Пример ее представлен таблицей 1. Каждая строка таблицы эксперименталь-
    ных данных с индексом "g" и является единичным наблюдением или опытом.
    Цель обработки экспериментальных данных заключается в том, чтобы
    эту табличную, аналитически неизвестную зависимость между переменными
    х и откликами у, представить в виде математической модели, т.е. уравнения,
    которое "достаточно точно" согласовывала бы расчётные и табличные значе-
    ния отклика объекта у.
    Таблица 1- Таблица экспериментальных данных
    G X1 X2 X3 X4 X5 Yg
    1 2 3 4 5 6 7
    1 79.49 81.59 10.30 17.28 128.77 76.84
    2 86.57 73.26 15.16 17.63 127.92 105.26
    3 86.35 74.05 11.66 18.12 129.38 91.93
    4 87.42 73.80 11.98 19.21 128.32 104.85
    5 93.39 53.84 14.24 20.35 120.77 88.75
    6 90.56 47.03 15.45 22.73 115.62 85.58
    7 91.95 46.98 17.03 24.57 114.82 87.30
    8 96.93 34.58 32.09 34.99 91.22 104.02
    9 97.80 29.56 32.89 36.55 86.88 90.49
    10 97.79 23.62 33.66 35.70 80.14 80.47
    11 97.60 18.09 38.20 33.91 72.56 80.52
    12 98.09 14.82 40.12 32.51 69.79 74.77
    13 97.76 12.67 42.92 31.84 66.93 74.66
    14 95.39 12.52 46.58 30.20 53.30 83.68
    10
    Продолжение таблицы 1
    1 2 3 4 5 6 7
    15 95.62 11.88 66.43 29.90 44.72 73.69
    16 95.20 11.12 69.19 29.17 33.80 67.71
    17 95.08 9.95 70.84 29.01 31.38 63.11
    18 92.58 7.87 75.25 28.60 24.18 62.94
    19 91.02 6.84 74.63 28.45 13.42 61.99
    20 89.75 5.54 78.04 27.40 10.39 59.03
    21 90.00 4.87 81.73 26.29 9.48 51.75
    22 88.68 4.03 71.31 27.93 7.58 66.13
    23 86.61 3.97 86.54 27.00 6.93 62.85
    24 86.00 3.15 91.54 26.11 5.21 60.44
    25 84.26 2.96 96.33 25.56 4.72 66.34
    26 81.12 2.78 92.26 25.74 5.34 76.09
    27 79.18 2.74 92.21 23.18 5.38 74.95
    28 78.08 2.61 91.03 22.33 5.93 77.06
    29 77.23 2.00 91.43 20.41 6.96 78.44
    30 74.83 1.78 105.47 20.11 9.53 85.09
    31 72.40 1.14 108.82 19.45 15.18 92.35
    32 71.41 1.88 105.55 18.67 15.86 88.89
    33 70.02 2.54 102.61 16.98 15.93 89.71
    34 67.07 3.38 118.02 12.03 16.06 109.20
    35 64.42 4.91 121.80 10.42 19.54 115.02
    36 62.31 7.25 122.87 9.42 20.60 116.32
    37 62.19 8.57 123.18 8.17 23.83 110.69
    38 59.41 12.45 118.37 7.53 24.81 111.45
    39 55.30 19.13 135.20 6.99 29.13 106.09
    40 54.90 25.06 136.76 3.87 32.18 95.78
    41 54.29 32.26 137.59 3.46 37.97 76.53
    42 51.06 37.43 146.84 4.54 43.52 82.01
    43 48.18 43.45 144.47 6.00 50.54 75.64
    44 49.89 44.42 145.10 6.02 50.75 69.94
    45 48.26 44.65 141.06 6.00 51.76 65.95
    46 49.46 49.28 140.87 7.86 52.25 63.13
    47 50.19 33.70 135.52 7.69 46.38 72.14
    48 51.77 36.10 140.88 9.03 39.51 90.26
    1 1
    1.4 Дисперсия воспроизводимости
    Из всего вышеизложенного следует, что при многократном повторении
    опыта по режиму одной и той же строки таблицы экспериментальных данных
    мы будем снимать разные значения отклика объекта при одинаковых значе-
    ниях факторов х. Таким образом, за единичным случайным значением откли-
    ка объекта исследования на данной строке таблицы yg стоит массив случай-
    ных величин. Рисунок 3 иллюстрирует это положение.
    Номер строки таблицы данных как вектор значений факторов Х
    - - кривая функции истинного отклика;
    - О - кривая уравнения регрессии.
    Рисунок 3 – Соотношение истинной математической модели и
    экспериментального уравнения регрессии
    На горизонтальной оси отложены номера строк таблицы, на верти-
    кальной – условный массив возможных значений откликов yg по 10-ой, 20-ой
    и 30-ой строкам (т.е. массивы значений величин y10, y20 и y30 ), возникающий
    при повторении одного и того же наблюдения.. Каждая из случайных вели-
    чин y10, y20 и y30 имеет свое математическое ожидание М{yg} и дисперсию
    2
    yg σ . В соответствии с этим построим на массивах значений величины yg
    графики законов распределения этих величин (вертикаль центров распреде-
    ления расположена горизонтально). Обозначим экспериментальные значения
    My8
    My32
    My20
    Значения функции Yg
    номер строки
    12
    отклика yg светлыми точками и соединим их линией, которая будет имитиро-
    вать экспериментально найденную зависимость. Линия, проходящая через
    координаты математических ожиданий М{yg}, будет отвечать той функции
    истинного отклика ϕ(х), которую мы должны аппроксимировать полиномом
    регрессии. Отсюда следует, что если бы в таблице экспериментальных дан-
    ных вместо случайной величины yg стояли постоянные величины М{ yg },
    табличная зависимость ϕ(х1,х2,…,хк) потеряла бы свой стохастический ха-
    рактер. В этом случае система имела бы единственное решение в виде иде-
    альной математической модели функции истинного отклика ϕ(х), а именно в
    виде полинома η(х,β), где β - истинные коэффициенты "идеальной" регрес-
    сии. Модель η(х,β) адекватна функции ϕ(х) и, таким образом, η(х,β) = ϕ(х).
    Но в силу случайного характера отклика объекта исследования, полином рег-
    рессии η(х,b), найденный по экспериментальным данным, является только
    статистической оценкой идеальной модели η(х,β). Отсюда следует, что рас-
    считанное по уравнению регрессии значение yg ( будем впредь обозначать
    его как ygr) является оценкой математического ожидания М{yg}. Линия, про-
    ходящая через светлые точки, и будет графической интерпретацией экспери-
    ментально найденного полинома η(х,b).
    Дисперсия случайной величины yg на данной строке таблицы 2
    yg σ явля-
    ется характеристикой поведения объекта исследования и определяется толь-
    ко его природой. Поэтому значение величины 2
    yg σ одинаково на всех строках
    таблицы данных
    2 2 2
    2
    2
    1 ...... ...... g k σ =σ = =σ = =σ ,
    а сама дисперсия называется дисперсией воспроизводимости 2
    vos σ . Таким
    образом, графики распределения величины yg на рисунке 2 отличаются толь-
    ко математическими ожиданиями {М yg}, а дисперсии их одинаковы.
    Табличное значение величины yg является экспериментальной оцен-
    кой М{yg}. Надежность оценок зависит от двух факторов: объема выборки и
    дисперсии оцениваемой случайной величины. На рисунке 4 представлены
    графики законов распределения трех случайных величин при одном значении
    математического ожидания и различных значениях дисперсии /8/. Наглядно
    иллюстрируется то положение, что чем больше дисперсия, тем более сглаже-
    на кривая распределения и тем больше вероятность того, что эксперимен-
    тальное значение отклика yg будет дальше от "идеального" значения М{yg}.
    Поэтому разность ( yg - М{yg} ), обусловленную влиянием шума δ{w} (см.
    уравнение (1)), можно рассматривать как "ошибку" экспериментального оп –
    ределения значения отклика yg, а дисперсию 2
    vos σ как меру этой ошибки.
    Это обуславливает особое значение дисперсии воспроизводимости для обра-
    ботки экспериментальных данных.
    1 3
    Дисперсия воспроизводимости является мерой начальной
    ошибки всей процедуры обработки экспериментальных данных,
    началом " координат ошибки". Поэтому, сравнивая ее по ходу
    выполнения процедуры с последующими соответствующими
    показателями меры ошибки, можно оценить степень точно-
    сти достигнутых результатов.
    Рисунок 4 – Вероятность выпадения данного значения Х в
    зависимости от значения дисперсии
    1.5 Понятие о достоверности экспериментальных данных.
    Минимально необходимое количество наблюдений
    В предыдущем разделе было отмечено, что достоверность эксперимен-
    тальных оценок зависит от двух факторов: объема выборок (количества на-
    блюдений) и дисперсии оцениваемой случайной величины. Очевидно, что
    для получения достоверных результатов с определенной доверительной ве-
    роятностью р, нужно провести не менее определенного количества наблю-
    дений n. Возникает задача: определить необходимое число опытов n, чтобы
    14
    с фиксированной доверительной вероятностью р получить заданную точ-
    ность оценивания исследуемой величины. Эта задача решается с использова-
    нием интервальной оценки математического ожидания этой величины и ее
    нормированной формы u /8/
    n
    u y M y
    /
    { }
    σ
    = − ,
    где y - среднее значение случайной величины по выборке.
    Интервальная оценка для M{y}представлена неравенством /3/
    n
    u
    M y y
    n
    u
    y p y pσ н σ
    − < { }< + , (2)
    где uр- табличный квантиль стандартной величины, отвечающий
    вероятности р.
    Выборка имеет определенный размах значений от левой границы q1 до
    правой границы q2; тогда длина интервала значений L=q2-q1. Очевидно, что
    чем больше размах значений величины, тем менее достоверны и менее точны
    выборочные оценки. Действительно, "максимум точности" будет достигнут
    при длине интервала, равной нулю, когда исследуемая величина станет кон-
    стантой.
    В качестве оценки точности принимают величину ε /4/
    y ε = L/2σ . (3)
    Знаменатель в (3) является константой, чем больше интервал значений
    L, тем меньше точность и больше относительное отклонение ε , т.е. значение
    этой характеристики обратно точности.
    Левую и правую части выражения (2) будем рассматривать как грани-
    цы q1 и q2, тогда
    n
    u
    L pσ y
    = 2 ,
    а относительная погрешность ε будет u n p ε = / , откуда следует
    2
     

     



    ε
    up
    n , (4)
    Для технических объектов "рядового" уровня надежности обычно до-
    верительную вероятность принимают равной 0,95, а значение относительной
    погрешности ε 0,5. Табличный квантиль u0,95 при этом равен 1,96 /6/. То-
    1 5
    гда в соответствии с (4) необходимое минимальное количество наблюдений
    п составит 16.
    Все вышеизложенное относится к табличному значению отклика yg на
    данной строке и наглядно демонстрирует проблему достоверности экспери-
    ментальных данных. Очевидно, что всегда нужно стремиться провести по
    режиму данной строки хотя бы несколько наблюдений и вносить в таблицу
    экспериментальных данных их среднее значение в качестве эксперимен-
    тального значения отклика yg на данной строке.
    2 Первая часть процедуры регрессионного анализа .
    Нахождение уравнения регрессии
    2.1 Условия (предпосылки) применения метода регрессионного
    анализа
    Наиболее распространенным способом обработки экспериментальных
    данных является так называемый метод регрессионного анализа, в частности
    такой его вариант, который включает:
    - использование метода наименьших квадратов;
    - отражение неизвестной функции истинного отклика ϕ(х), "спрятан –
    ной" в таблице экспериментальных данных, алгебраическим степеннным по-
    линомом η(х,b).
    Метод регрессионного анализа применим при соблюдении следующих
    условий:
    а) массив значений откликов обьекта исследования на данной g-строке
    имеет нормальное распределение с математическим ожиданием M{yg}=ϕ(х)
    и дисперсией σ2
    вос;
    б) дисперсии σ2
    вос для g=1,2,3,…,n равны. Поскольку дисперсия на-
    блюдения характеризует ТОЧНОСТЬ, с которой мы получаем наблюдения,
    постольку опыты при g=1,2,3,…,n РАВНОТОЧНЫЕ, т.е. эксперимент вос-
    производится при разных наблюдениях с одинаковой точностью;
    в) результаты наблюдения отклика уg и их ошибки δ
    g в различных опы-
    тах независимы, т.е. μ11{yjyq} и μ11{ δ
    j
    δq
    } равны нулю;
    г) независимые от отклика факторы воздействия на объект х и произ-
    водные от них базисные функции f(х) определяются в эксперименте без оши-
    бок в силу двух факторов:
    - в случае наличия таких ошибок они "стекают" на отклик объекта,
    увеличивая рассеивание облака экспериментальных точек;
    - влияние этих ошибок на рассеивание облака точек пренебрежитель-
    но мало по сравнению с влиянием шума;
    д) векторы факторов воздействия на объект х и векторы производных
    16
    от них базисных функций f(х) линейнонезависимы, т.е. ни один вектор нель-
    зя получить как линейную комбинацию других. В противном случае опреде-
    лители производных от них матриц будут равны нулю и матричные расчеты
    станут невозможны;
    е) математическая модель отклика объекта исследования η(х,β) адек-
    ватна функции ϕ(х) и, таким образом, η(х,β) = ϕ(х).
    Сформированная таким образом задача носит название задачи регрес-
    сии, эксперимент называется регрессионным, уравнения (полиномы) – урав-
    нениями (полиномами) регрессии, а сам метод решения называется РЕГ-
    РЕССИОННЫМ АНАЛИЗОМ. Этот термин отражает тот факт, что с увели-
    чением степени полинома,т.е. с увеличением количества его членов, в общем
    случае ошибка уравнения уменьшается – "регрессирует".
    2.2 Полином регрессии и система условных уравнений
    Метод регрессионного анализа использует описание объкта исследо-
    вания в виде некоторого полинома – отрезка ряда Тейлора, в который разла-
    гается неизвестное уравнение связи отклика объекта у и входных факторов х.
    При этом рекомендуется такая форма полинома, которая содержит все воз-
    можные сочетания факторов в первой степени (единичные, парные, тройные
    и т.д.), а при степени больше единицы – только их индивидуальные комби-
    нации /3/. Тогда полином имеет вид
    3 ...
    1
    2
    1
    ...
    1; ;
    0 1 1; { } ( 1, 2,..., )
    + Σ=
    + Σ=
    Σ + +
    = > >
    +
    Σ +
    = >
    + Σ=
    = = +
    xi
    k
    i i iii x
    k
    q i ii xix jx
    k
    i j i q j ijq
    xix j
    k
    i i j i ij x
    k
    k i i M y x x x
    β β β
    ϕ β β β
    , (5)
    где β - коэффициенты, являющиеся производными вида ∂ϕ / ∂xi .
    Поскольку по числу факторов математическая модель объекта не мо -
    жет быть исчерпывающей и обычно является неполной, влияние неучтенных
    факторов делает отклик объекта уg случайной величиной. Поэтому зависи -
    мость ϕ(х) не дает точной связи между уg и факторами, включенными в ма-
    тематическую модель, и по результатам эксперимента находится не уравне-
    ние (5), а уравнение
    3 ... 3
    1
    2 ...
    1,
    1
    0 1 + Σ=
    Σ + +
    = >
    + Σ=
    = + xi k
    i iii k b
    i j i j k xi bijxix
    i i yg b b (6)
    где b – выборочные эмпирические коэффициенты регрессии.
    1 7
    Последние являются лишь оценками для теоретических коэффициентов
    β, а отклик объекта уg - оценкой для математического ожидания M{yg}.
    Практика обработки экспериментальных данных показала, что резуль-
    таты эксперимента в виде табличной функции в большинстве случаев с дос-
    таточным приближением отражаются полным кубическим полиномом по
    форме уравнения (6). Часто третья степень полинома не только достаточна,
    но и избыточна, т.е. количество членов полинома можно и уменьшить без
    существенной потери точности. Поэтому при построении и выборе аппрок-
    симирующего уравнения строят систему альтернативных уравнений из пол-
    ного кубического полинома и его отдельных степенных кусков. Сравнивая
    характеристики этих уравнений, выбирают наиболее приемлемое. В качестве
    примера такого подхода рассмотрим кубическое уравнение для 5-ти фактор-
    ной задачи регрессии, которое запишем в виде системы его степенных кус-
    ков:
    у= b0+b1x1+b2x2+b3x3+b4x4+b5x5+
    +b12x1x2+b13x1x3+b14x1x4 +b15x1x5+b23x2x3+b24x2x4+... +b35x3x5+b45x4x5+
    +b123x1x2x3+b124x1x2x4+...+b135x1x3x5+...+b245x2x4x5+...+ b345x3x4x5+
    +b1234x1x2x3x4++b1235x1x2x3x5++b1345x1x3x4x5++b2345x2x3x4x5+
    +b12345x1x2x3x4x5+
    +b11x12+b22x22+b33x32+b44x42+b55x52+
    +b111x13+b222x23 +b333x33+b444x43 +b555x53.
    Первая строка этой записи есть линейное уравнение – первый альтер -
    нативный полином. Две первые строки вместе образуют второе альтернатив -
    ное уравнение, которое называется неполным квадратичным. Соответственно
    три первые строки вместе есть неполное кубическое уравнение; четыре стро-
    ки – неполное уравнение четвертой степени, затем – неполное пятой степени.
    Шесть строк вместе есть полное квадратное уравнение, а вся запись – полный
    кубический полином. Таким образом, имеем систему из семи альтернатив-
    ных уравнений, в которой обычно удается найти приемлемое решение.
    Такая форма записи уравнений позволяет сократить ее, используя, на-
    пример, либо запись только коэффициентов с индексами вида
    b0+b1+…+b12+…+b123+…+b1234+…+b12345+b11+…+b111+…+b555=y,
    либо запись уравнения только в индексах коъффициентов b, т.е.
    0 1 2 3 4 5 12 13 14 15 23 24 25 34 35 45 123 124 125 134 135 145 234 
    235 245 345 1234 1235 1245 1345 2345 12345 11 22 33 44 55 111 222  (7)
    333 444 555 
    Конкретный вид полинома регрессии для данной таблицы данных обы-
    чно неизвестен, как и объективная функция, которая "закодирована" данной
    таблицей. Поэтому процедура регрессионного анализа начинается с выдви-
    жения гипотезы о конкретном виде уравнения, которым мы намереваемся от-
    разить экспериментальную табличную зависимость. Вид уравнения регрес-
    сии задается либо на основе каких-то математических, физических или про-
    18
    фессиональных соображений, либо, при отсутствии последних,- в порядке
    альтернативы –нахождения для данной таблицы нескольких вариантов урав-
    нений и сравнения их по точности воспризведения табличного значения
    отклика уg.
    Таблица экспериментальных данных и принятая в виде гипотезы фор-
    ма уравнения регрессии являются основными отправными условиями задачи
    и определяют последующий ход ее решения.
    Процедура обработки экспериментальных данных начинается с совме-
    щения принятой формы уравнения с таблицей, для чего в уравнение подстав-
    ляют значения факторов хgk в соответствии со строками таблицы данных, где
    g- номер строки таблицы, а k- номер вектора х . Это дает систему уравнений
    соответственно количеству строк в таблице экспериментальных данных.
    Рассмотрим изложенное на конкретном примере. Пусть мы имеем таб-
    лицу данных с двумя факторами х при числе строк п=7, которую мы хотим
    отразить уравнением
    b0 b1 x1 b2 x2 b12 x1 x2 b11 x12 b x y
    + ⋅ + ⋅ + ⋅ ⋅ + ⋅ + 22 ⋅ 22 = . (8)
    Отметим, что левая часть полинома алгебраически представляет собой
    произведение двух векторов:
    - вектора коэффициентов b;
    - вектора множителей при этих коэффициентах
     1 х1 х2 х1*х2 х12 х22 ,
    который носит название вектора базисных функций.
    Если индексами при коэффициентах b будем обозначать комбинацию
    базисных функций, а индексами при факторах х – номер строки таблицы, то в
    алгебраическом виде система уравнений будет следующей:
    b0 + b1х11 + b2х21 + b12х11х21 + b11х11х11 + b22х21 х21 = у1; 
    b0 + b1х12 + b2х22 + b12х12х22 + b11х12х12 + b22х22 х22 = у2; 
    b0 + b1х13 + b2х23 + b12х13х23 + b11х13х13 + b22х23 х23 = у3; 
    b0 + b1х14 + b2х24 + b12х14х24 + b11х14х14 + b22х24 х24 = у4; , (9)
    b0 + b1х15 + b2х25 + b12х15х25 + b11х15х15 + b22х25 х25 = у5; 
    b0 + b1х16 + b2х26 + b12х16х26 + b11х16х16 + b22х26 х26 = у6; 
    b0 + b1х17 + b2х27 + b12х17х27 + b11х17х17 + b22х27 х27 = у7; 
    Однако, как отмечалось ранее, при воздействии на объект исследова-
    ния факторами х, наличие и значение которых определяется самим экспери-
    ментатором, значение отклика уg формируется как за счет факторов х, так и
    за счет факторов w по уравнению (1).
    Представим себе, что мы многократно повторяем наблюдение, задавая
    значение факторов x1g , x2g , . . . . . xкg для одной и той же g-ой строки таб-
    лицы экспериментальных данных. Значения откликов при этом в силу нали-
    чия шума в целом будет разными, т.е. значение случайной ошибки наблюде-
    1 9
    ния при повторных опытах будет меняться. Распределение таких ошибок об-
    ладает важной особенностью - ошибки, противоположные по знаку и близкие
    по абсолютной величине, в среднем встречаются одинаково часто, т.е. рас-
    пределение случайных ошибок симметрично относительно нуля.
    Отсюда следует, что если все допустимые значения yg по данной строке
    есть генеральная совокупность, то истинный результат наблюдения есть
    математическое ожидание случайной величины yg по этой строке. Третья
    предпосылка регрессионного анализа гласит, что наблюдаемое значение от-
    клика yg есть нормально распределенная случайная величина с центром
    M{yg} = ϕ (xg),
    где M{yg} есть математическое ожидание случайной величины yg.
    Таким образом, уравнение регрессии, которое получено в результате
    обработки экспериментальных данных, есть зависимость оценки матема-
    тического ожидания отклика от факторов х.
    В связи со случайным характером отклика уg левая и правая часть по-
    лученной системы уравнений (9) неравны, система является несовместной и
    не имеет единственного решения, т.е. не существует такой комбинации неиз-
    вестных коэффициентов bj , которая отвечала бы всем уравнениям системы.
    Поэтому такие системы носят название системы УСЛОВНЫХ уравнений.
    Представим эту систему в новом виде
    y1 -( b0+b1⋅x11+b2⋅x21+b12⋅x11⋅x21+b11⋅x11
    2+b22⋅x21
    2 )= e1, 
    y2 - (b0+b1⋅x12+b2⋅x22+b12⋅x12⋅x22+b11⋅x12
    2+b22⋅x22
    2) = e2, 
    ..................................................................................... , (10)
    .................................................................................... 
    y6 - (b0+b1⋅x16+b2⋅x26+b12⋅x16⋅x26+b11⋅x16
    2+b22⋅x26
    2)= e6, 
    где еg− есть разность между левой и правой частями уравнений.
    Обратим внимание на то, что первый элемент левой части системы
    уравнений (10) состоит из экспериментальных значений отклика уg, а второй
    - из значений, рассчитанных по уравнению регрессии (8). Поэтому невязку
    баланса левой и правой частей уравнений (10) можно трактовать как откло-
    нения расчетного значения отклика от эксперементального его значения.
    Cуммарной характеристикой этих отклонений будет являеться остаточная
    сумма SUMost
    Σ
    =
    = − =Σ 



     

    n 
    g
    yg ygr eg
    ost
    SUM
    1
    2 2
    , (11)
    где Ygr- расчетное значение отклика по уравнению.
    20
    Эта величина позволяет сформулировать понятие наилучшего реше -
    ния системы уравнений, которая не имеет единственного решения. Наилуч-
    шим будет решение, которое минимизирует остаточную сумму. Такое ре-
    шение называется методом наименьших квадратов. В точке минимума
    функции (11) ее производные ∂SUMost ∂bj / равны нулю. Дифференцируя
    уравнение (11) по всем коэффициентам регрессии и приравнивая нулю про-
    изводные, получим систему нормальных уравнений /5/, которая совместна,
    имеет единственное решение и минимизирует остаточную сумму. Но для
    многофакторных полиномов высоких степеней способ создания системы
    нормальных уравнений через частные производные сложен и трудоемок.
    Существует более простой способ построения системы нормальных уравне-
    ний путем пошагового преобразования системы условных уравнений.
    2.3 Преобразование системы условных уравнений по методу наи-
    меньших квадратов. Система нормальных уравнений
    Пошаговая процедура преобразования системы условных уравнений в
    систему нормальных уравнений была разработана Гауссом. На первом шаге
    процедуры каждое условное уравнение системы (9) умножается на свой
    множитель при первом коэффициенте регрессии b0, после чего все преобра-
    зованные таким образом условные уравнения складываются сверху вниз;
    суммарное уравнение и будет первым нормальным уравнением. Если, на-
    пример, искомым уравнением регрессии будет полином вида
    b0 b1 x1 b2 x2 b12 x1 x2 b11 x12 b x y
    + ⋅ + ⋅ + ⋅ ⋅ + ⋅ + 22 ⋅ 22 = , (12)
    то результат первого шага в алгебраическом виде будет следующим
    n⋅b0+b1⋅Σx1+b2⋅Σx2+b12⋅Σx1⋅x2 +b11⋅Σx12+b22⋅Σx22=Σy,
    поскольку множителем при первом коэффициенте b0 является единица.
    На втором шаге каждое исходное условное уравнений умножается на
    свой множитель при втором коэффициенте b с последующим сложением по-
    лученных уравнений и образованием второго нормального уравнения-и т.д.,
    до исчерпания всех множителей при коэффициентах b. В итоге формируется
    система нормальных уравнений, число которых равно числу коэффициентов
    регрессии в уравнении (12). Для разбираемого примера это будет система
    (13) состоит из шести уравнений.
    Система нормальных уравнений совместна, имеет единственное реше-
    ние и минимизирует остаточную сумму (11), т.е. обеспечивает наилучшее
    решение системы уравнений (9) из всех возможных решений.
    2 1
    nb0+b1Σx1+b2Σx2+b12Σx1x2+b11Σx12+b22Σx22=Σy, 
    b0Σx1+b1Σx12+b2Σx1x2+b12Σx12x2+b11x13+b22Σx1x22=Σyx1, 
    b0Σx2+b1Σx1x2+b2Σx22+b12Σx1x22+b11Σx12x2+b22Σx23=Σyx2, |
    b0Σx1x2+b1Σx12x2+b2Σx1x22+b12Σx12x22+b11Σx13x2++b22Σx1x23=  (13)
    =Σyx1x2 , 
    b0Σx12+b1Σx13+b2Σx2x12+b12Σx13x2+b11Σx14+b22Σx12x22=Σyx12, |
    b0Σx22+b1Σx1x22+b2Σx23+b12Σx1x23+b11Σx12x22+b22Σx24=Σyx22. 
    2.4 Основное уравнение процедуры регрессионного анализа
    Левая часть системы условных уравнений (9) представляет собой про-
    изведение матрицы на вектор коэффициентов b. Выделяя матрицу, получим
    1 х11 х21 х11х21 х11х11 х21 х21
    1 х12 х22 х12х22 х12х12 х22 х22
    1 х13 х23 х13х23 х13х13 х23 х23
    1 х14 х24 х14х24 х14х14 х24 х24
    1 х15 х25 х15х25 х15х15 х25 х25
    1 х16 х26 х16х26 х16х16 х26 х26
    1 х17 х27 х17х27 х17х17 х27 х27,
    где индекс при факторах х обозначает номер строки таблицы данных.
    Эта матрица называется матрицой базисных функций. Обозначим ее
    как матрицу F. Количество строк в ней равно количеству строк в таблице, а
    количество столбцов – числу коэффициентов b в уравнении регрессии (12).
    Нетрудно видеть, что ее содержание определяется формой полинома, а точнее
    - вектором базисных функций.
    Левая часть системы нормальных уравнений (13) представляет собой
    произведение матрицы на вектор коэффициентов b. Выделяя матрицу из сис-
    темы уравнений , получим квадратную симметричную матрицу, размер -
    ность которой равна числу коэффициентов b в уравнении регрессии (12). Эта
    матрица называется матрицей моментов М.
    Для уравнения (12) матрица моментов имеет следующий вид:
    n Σx1 Σx2 Σx1x2 Σx12 Σx22
    Σx1 Σx12 Σx1x2 Σx12x2 Σx13 Σx1x22
    Σx2 Σx1x2 Σx22 Σx1x22 Σx12x2 Σx23
    Σx1x2 Σx12x2 Σx1x22 Σx12x22 Σx13x2 Σx1x23
    Σx12 Σx13 Σx12x2 Σx13x2 Σx14 Σx12x22
    Σx22 Σx1x22 Σx23 Σx1x23 Σx12x22 Σx24.
    Таким образом, левую часть системы уравнений (13) можно предста-
    22
    вить в виде произведения bM .
    Можно показать,что матрица моментов
    M = FTF ,
    где FT -транспонированная матрица F .
    Правая часть системы уравнений (13) представляет собой суммы пар –
    ных произведений. Развернем эти суммы в ряды слагаемых
    y11+y21+ y31+ y41+y51+ y61+y71;
    y1x11+y2x12+ y3x13+ y4x14+y5x15+ y6x16+y7x17;
    y1x21+y2x22+ y3x23+ y4x24+y5x25+ y6x26+y7x27;
    y1x11x21+y2x12x22+ y3x13x23+ y4x14x24+y5x15x25+y6x16x26+y7x17x27;
    y1x11
    2+y2x12
    2+ y3x13
    2+ y4x14
    2+y5x15
    2+ y6x16
    2+y7x17
    2;
    y1x21
    2+y2x22
    2+ y3x23
    2+ y4x24
    2+y5x25
    2+ y6x26
    2+y7x27
    2.
    Отсюда видно, что правая часть системы нормальных уравнений (13) являет-
    ся произведением матрицы на вектор откликов yg. Выделяя матрицу, получим
    транспонированную матрицу FТ. Таким образом, правая часть системы урав-
    нений (13) есть произведение T
    ygF и вся система нормальных уравнений
    может быть представлена матричным уравнением
    g
    bM = FT y ,
    откуда следует
    1( ) ( ) 1( )
    g
    T T
    g
    b =M− FT y = F F − F y . (14)
    Это уравнение называется основным уравнением процедуры регресси -
    онного анализа. Из уравнения следует, что решение задачи регрессии опреде-
    ляется видом матрицы F и вектором yg.
    Нахождение вектора коэффициентов в, т.е. получение уравнения рег-
    рессии, и составляет первую часть процедуры регрессионного анализа. После
    нахождения полинома регрессии следует оценить адекватность его функции
    истинного отклика, т.е. точность, с которой уравнение регрессии отражает
    таблицу экспериментальных данных . Решение этой задачи и составляет вто-
    рую часть процедуры регрессионного анализа.
    2.5 Коэффициенты регрессии b как статистические оценки и их
    свойства
    Вектор откликов объекта исследования yg есть случайная величина в
    связи с действием неучтенных в эксперименте факторов. Вектор коэф-
    фициентов регрессии b связан с векторм yg линейно, и в силу этого имеет
    2 3
    тот же случайный характер с тем же законом распределения. Случайной ве-
    личиной являются и расчетные значения gr y по уравнению регрессии.
    В работе /3/ показано, что решение системы нормальных уравнений по
    формуле Крамера позволяет сделать вывод, что значения коэффициентов b
    зависит от количества членов уравнения регрессии, т.е. все коэффициенты
    являются взаимозависимыми случайными величинами. В уравнении могут
    быть коэффициенты, значения которых близки нулю. Тем не менее, просто
    исключать их из уравнения нельзя; нужно делать полностью новый расчет
    для другой формы полинома регрессии, т.е. без членов, близких нулю. При
    этом значения всех сохраненных коэффициентов меняются. Другими слова-
    ми, возможна группа разных полиномов с приблизительно одинаковыми ха-
    рактеристиками точности для одной таблицы данных, т.е. само значение j-го
    коэффициента b неопределенно и не имеет физического смысла, отражающе-
    го сущность объекта исследования. Отсюда следует, что уравнение регрессии
    следует трактовать только как некую интерполяционную формулу, позво-
    ляющую предсказывать значение отклика объекта в факторном пространстве
    без дополнительного опыта.
    Тем не менее, всегда нужно иметь в виду, что полином регрессии мо-
    жет совпасть с содержательной физико-математической моделью объекта
    исследования. Это обычно сразу резко повышает информационную ценность
    регрессионной модели объекта исследования. Приведем только один пример
    такого совпадения для уравнения пути, пройденного свободно падающим те-
    лом:
    2
    2
    0 0
    s s v t gt t = + + ,
    2
    0 1 2y = b +b x+b x ,
    которое позволяет по экспериментальным данным рассчитать ускорение сво-
    бодного падения для данной географической зоны по соотношению
    2 2
    b = g .
    Введем уравнение (14) под символ математического ожидания:
    { } { } g
    M b = (FT ×F)−1 ×M FT ×y ,
    поскольку величина (FT ×F)−1 есть константа. Но произведение
    g
    FT × y есть yg
    n
    g
    Σ f xg ×
    =1
    ( ) ,
    где f (xg ) - соответствующий столбец матрицы базисных фун-
    ций F. Тогда
    24
    { } Σ { }
    =
    = × − × × n
    g
    M b F F f xg M yg
    T
    1
    ( ) 1 ( ) . (15)
    Поскольку M{y }=η(x,β ) = f (x)×β T
    g , постольку
    { } Σ
    =
    = × − × × n
    g
    M b F F f xg
    T
    1
    ( ) 1 ( ) f (x)×β T
    .
    Но Σ
    =
    × = ×
    n
    g
    F F f xg
    T
    1
    ( ) ( ) f (x) T
    , поэтому
    M{b}= (FT ×F)−1 × (FT ×F)×β ,
    т.е. M{b}=β . (16)
    Таким образом, математическое ожидание статистической оценки b
    равно самой оцениваемой величине, из чего следует, что b есть несмещенная
    оценка β. Оценки b являются и состоятельными, т.к. отвечают условию
    ( ) ( ) =1
      
      
    − − ≤ →∞ P b β b β ε T
    n , (17)
    где ε - сколь угодно малая величина.
    Не приводя строгого математического доказательства состоятельности
    оценок, отметим только известное положение о том, что точность полиномов
    регрессии возрастает с увеличением степени, т.е. количества коэффициентов
    b в уравнении. Поэтому с ростом числа n значение b стремится к β и произ-
    ведение в уравнении (17) уменьшается, с вероятностью Р становясь меньше
    величины ε.
    2.6 Дисперсия и корреляционные моменты коэффициентов регрес-
    сии
    Степень случайности и неопределенности значений коэффициентов
    регрессии b, как и обычно для случайной величины, может быть охарактери-
    зована рассеиванием значений вокруг среднего, т.е. дисперсией и корреля –
    ционным моментом μ11{bjbk} ( корреляционная связь характерна только для
    2 5
    случайных величин). Рассмотрим эти характеристики величины b.
    Для отдельного коэффициента регрессии можно записать
    {( ) ( )} =M bj −Mbj × bj −Mbj σ 2 . (18)
    В силу равенства (16) следует
    {( ) ( )} σ =M bj −β j × bj −β j 2 , (19)
    а для второго смешанного центрального момента
    { } {( ) ( )} μ bjbk =M bj −β j × bk −β k 11 . (20)
    Поскольку каждый коэффициент регрессии есть случайная величина,
    постольку мы имеем дело с векторами b1,b2,b3,....,b12,...,b123,..., т.е. об –
    щий вектор b будет иметь вид
    b =(b0,b1,b3,...,b12,...,bk )
    (к+1) –мерного вектора. Дисперсия такого вектора будет характеризоваться
    дисперсионной матрицей размером (к+1)×(к+1). Обозначим эту матрицу
    как D{b}, где D - символ дисперсии. Тогда по аналогии с уравнением (18),
    справедливого для одного коэффициента, для всего вектора коэффициентов
    будем иметь
    { } {( ) ( ) } T D b =M b−β × b−β . (21)
    Таким образом, уравнения (18), (19) и (20) относятся к отдельным еди-
    ничным коэффициентам регрессии, а уравнение (21) – ко всем вместе.
    В работе /4/ показано, что статистические оценки b на множестве всех
    других линейных несмещенных оценок
    ≈b
    обладает наименьшей дисперсион-
    ной матрицей, т.е. всегда справедливо, что { } { }

    D b ≤D b , а это есть условие
    эффективности оценок. Таким образом, возвращаясь к предыдущему разделу,
    можем констатировать, что коэффициенты регрессии b являются состоятел-
    ьными, несмещенными и эффективными оценками истинных коэффициентов
    регрессии β .
    Уравнение (21) после перемножения векторов расписывается в диспер-
    сионную корреляционную матрицу, на главной диагонали которой находятся
    дисперсии коэффициентов регрессии, а остальные элементы матрицы суть
    парные корреляционные моменты коэффициентов (заполнены не все элемен-
    ты матрицы).
    26
    Наличие величин {bibj} 11 μ показывает, что коэффициенты регрессии
    являются зависимыми друг от друга случайными величинами, а значение { } bibj 11 μ показывает силу стохастической связи между ними.
    Если в уравнение 1( ) ( ) 1( )
    g
    T T
    g
    b =M− FT y = F F − F y
    вместо величины yg подставить M{yg}, то справедливо
    ( ) 1( { })
    g
    β = FTF − FTM y . (22)
    Таблица 2 – Дисперсионная матрица D{b}
    { } 0
    σ 2 b { } 11 0 1 μ b b { } 11 0 2 μ b b
    ….
    ….
    { } 11 b0bk μ
    { } 11 1 0 μ b b { } 1
    σ 2 b { } 11 1 2 μ b b
    ….
    ….
    ….
    ….
    ….
    { } 2
    σ 2 b
    ….
    ….
    ….
    ….
    { } 11 1 μ bib { } 11 2 μ bib { } bi σ 2
    ….
    ….
    ….
    { } 11 1 1 μ bi+ b
    ….
    ….
    ….
    ….
    { } 11 0 μ bkb
    ….
    ….
    ….
    ….
    { } bk σ 2
    Выражения (14) и (22) для b и β подставим в уравнение (21) и выне-
    сем величину (FTF)−1 за скобки. Получим
    { }= {[( )−1 ( − { })]×
    g
    D b M FTF FT y M y
    ×[(y −M{y })T F(FTF)−1]}
    g ,
    что приводит к результату
    { }= ( )−1 {( − { })( − { })T}×
    g g
    D b FTF FTM y M y y M y F(FTF)−1. (23)
    Величина (y −M{yg}) это вектор ошибок в экспериментальном оп-
    ределении значения yg, т.е.
    2 7
    ( { }) ( 1 1),( 2 2 ),...,( n n )
    T
    y −M yg = y −My y −My y −My ,
    (y −M{yg}) будет аналогичным вектором-столбцом. Обозначим этот век-
    тор как ϖ и рассмотрим произведение в выражении М{ϖ×ϖT}. Оно будет
    матрицей, элементы которой будут состоять из произведений типа
    (y1-M{y1})2 и (y1-M{y1})∗(y2-M{y2}). Но мы имеем не просто произведения,
    а произведения под символом математического ожидания, например,
    М{(y1-M{y1})(y2-M{y2})}.
    Поэтому эти произведения есть либо дисперсия массива величины y1 на пер-
    вой (или вообще на g- строке), т. е. дисперсия воспроизводимости, либо
    второй смешанный центральный момент величин y1 и y2 (или вообще вели-
    чин yk и yq). Значения дисперсий будут располагаться на главной диагонали
    матрицы, а остальные элементы матрицы будут заполнены моментами { } bibj 11 μ . Таким образом, структура
    {( { })( { })T}
    M y −M yg y −M yg
    или М{ϖ×ϖT} будет дисперсионной матрицей НАБЛЮДЕНИЙ экспе-
    римента. Согласно условиям процедуры регрессионного анализа, во-
    первых, дисперсии воспроизводимости 2
    vos σ на разных строках таблицы
    экспериментальных данных равны, поэтому выносим их за матрицу. Во-
    вторых, результаты наблюдений yg на разных строках таблицы независимы, и
    поэтому смешанные центральные моменты типа М{(y1-M{y1}) (y2-M{y2})}
    будут равны нулю. Таким образом, после вынесения дисперсии 2
    vos σ за пре-
    делы матрицы, последняя превращается в единичную матрицу Е, и
    {( { })( { })T}
    M y −M yg y −M yg = Е 2
    vos σ .
    Теперь выражение (23) преобретает вид
    { } ( ) 1 ( ) 1 2vos
    D b = FTF − FTF FTF −σ .
    Первые три множителя являются единичной матрицей, и теперь получаем
    { } ( ) 1 2 1 2 2vos vos vos
    D b = FTF −σ =M−σ =Cσ , (24)
    где М-1 – матрица моментов;
    С - обратная матрица.
    28
    Уравнение (24) относится ко всему вектору коэффициентов регрессии,
    а для отдельных коэффициентов справедливо:
    - для диагональных элементов 2{ } 2
    σ bj =Cjjσ vos , (25)
    - для остальных элементов { } 2
    μ11 bjbq =Cjqσ vos . (26)
    3 Вторая часть процедуры регрессионного анализа –
    статистический анализ качества уравнений регрессии
    3.1 Остаточная дисперсия полинома регрессии
    Согласие между эксперементальными (yg) и вычисленными по найден-
    ному уравнению регрессии значениям отклика ygr в общем случае оценивают
    не по значению остаточной суммы SUMost ( см. уравнение (11)), а по так на-
    зываемой остаточной дисперсии уравнения регрессии , которая обознача-
    ется как Sost
    2 :
    ( ) ( ) 1
    1
    2
    1
    2
    − +
    Σ
    =

    =
    − +
    =
     


     


    n k
    n
    g
    yg ygr
    n k
    SUMost
    Sost , (27)
    где (к+1) - количество коэффициентов b в уравнении регрессии,
    n – число строк в таблице экспериментальных данных,
    т.е. знаменатель уравнения является числом степеней свободы системы.
    Поскольку, как было показано выше, величина ygr есть оценка М{yg },
    постольку переменная Sost
    2 по своему содержанию является суммарной ха-
    рактеристикой отклонения текущих значений случайной величины от сред-
    него, т.е. дисперсией. Таким образом, остаточная дисперсия характеризует
    рассеивание наблюдений относительно оценки математической модели
    η(x,b) η(x,β )

    = .
    Остаточная дисперсия является случайной величиной, так как она есть
    функция случайных величин yg и ygr, т.е. она имеет свое математическое
    ожидание и свою дисперсию. Можно показать, что
    { 2 } 2
    M Sost =σ vos ,
    т.е. что Sost
    2 есть несмещенная оценка дисперсии воспроизводимости.
    2 9
    Остаточная дисперсия Sost
    2 так же, как и дисперсия воспроизводимсти
    2
    vos σ , является мерой ошибки всей предшествующей процедуры обработки
    данных, но теперь, в отличие от 2
    vos σ , эта ошибка имеет два источника. Во-
    первых, как и 2
    Sost 2
    vos σ , она содержит ошибку экспериментального опреде-
    ления
    значения yg. Во-вторых, она содержит ошибку расчетного определения значе-
    ния ygr, т.е. ошибку уравнения регрессии. Таким образом, соотношение знач-
    ений σ2
    vos
    и S2
    ost может иметь два результата. Если полином регрессии име-
    ет ошибку, остаточная дисперсия больше дисперсии воспроизводимости,
    причем чем больше ошибка уравнения, тем больше разница между 2
    vos σ и
    Sost
    2 . Если же полином регрессии η(x,b)адекватен функции истинного от-
    клика ϕ(х), т.е. ошибка уравнения отсутствует, Sost
    2 = 2
    vos σ . Таким образом,
    сопоставление этих дисперсий позволяет оценить точность полученно-
    го уравнения. Поскольку обе эти переменные являются случайными величи-
    нами, сравнивать их нужно не по фактическим единичным значениям, а с
    учетом рассеяния и с использованием интервальных оценок, что позволяет
    установить – значимо ли статистически различие между сравниваемыми
    величинами. Эта значимость проверяется по критерию Фишера F-распреде –
    ления /8/, т.е. ошибка уравнения признается значимой если
    p
    vos
    Sost F
    − 〉 2 1
    2
    σ
    , (28)
    где p F 1− - значение табличного квантиля распределения Фишера при
    принятой вероятности р и степенях свободы m1=n-(k+1), m2=∞,
    (k+1) – количество коэффициентов регрессии в полиноме.
    Для учебных расчетов при р=0,95 и n=50 критической границей дове-
    рительного интервала ориентировочно можно считать p F 1− =1,5. Если
    отношение (28) равно либо меньше 1,5–дисперсии статистически неразличи-
    мы, т.е. их можно считать равными и полином будет адекватен функции ис-
    тинного отклика ϕ(х). Факт статистической незначимости различия между
    Sost
    2 и 2
    vos σ является АБСОЛЮТНЫМ показателем адекватности уравне-
    ния регрессии функции истинного отклика, т.е. того факта, что найденное
    уравнение следует принять " в эксплуатацию". Если условие (28) соблюдает-
    ся, уравнение имеет ошибку и необходимо взвесить – приемлем ли уровень
    этой ошибки или нужно искать другое уравнение.
    Оценку точности уравнения регрессии по условию (28) можно осуще-
    ствить только при известном значении дисперсии воспроизводимости. Если
    30
    2
    vos σ неизвестна, приходится прибегать к сравнительным критериям качества
    для нескольких альтернативных полиномов с выбором наиболее точного .
    В этом случае статистическую значимость различия дисперсий альтер-
    нативных полиномов проводят по условию
    p
    ost
    ost F
    S
    S


    − 2 〉 1
    2
    2
    1 ,
    где в числителе ставится большая по значению дисперсия.
    Использование Sost
    2 имеет место и при определении дисперсии коэф-
    фициентов регрессии по уравнениям (25,26). Если 2
    vos σ неизвестна, исполь –
    зют аналоги этих уравнений, принимая вместо 2
    vos σ ее оценку Sost
    2 :
    { } ( ) 1 2 1 2 2 ost ost ost
    D b = FTF − S =M− S =CS ,
    - для диагональных элементов 2{ } 2
    σ bj =CjjSost ,
    - для остальных элементов { } 2
    μ11 bjbq =CjqSost .
    Чем больше по значению эти величины, тем хуже уравнения. Они мо-
    гут быть использованы для сравнения качества альтернативных уравнений. В
    предельном случае –при идеальной модели η(x,β ) они равны нулю.
    3.2 Показатель силы стохастической связи уравнения регрессии
    Рассмотрим дисперсию вектора yg. Поскольку этот вектор по своему
    содержанию является выборкой, дисперсия вектора yg будет равна
    1
    ( )
    1
    2
    2


    =
    Σ
    =
    n
    y y sr
    S
    n
    g
    g g
    yg , (29)
    где 2
    yg S -выборочная дисперсия,
    y sr g - среднее арифметическое по выборке величины yg.
    Значение компонент вектора yg определяется двумя факторами:
    - функциональной зависимостью у=ϕ(х1,х2,…,хк),
    - влиянием функции шума δ(х).
    Оба эти фактора определяют и значение дисперсии вектора У.
    3 1
    Конкретный вид аналитической зависимости у=ϕ(х1,х2,…,хк) неизвес-
    тен, но ее табличный вид представляет объективно существующую функ-
    цию. В значении дисперсии 2
    yg S эта функция представлена составляющей yg.
    Аналогично субъективная функция ygr=η(b,x), которой мы хотим ото-
    бразить объективную функцию у=ϕ(х1,х2,…,хк), представлена в выраже-
    нии ( 27)
    ( ) ( ) 1
    1
    2
    1
    2
    − +
    Σ
    =

    =
    − +
    =
     


     


    n k
    n
    g
    yg ygr
    n k
    SUMost
    Sost
    в виде переменной ygr. Таким образом, сопоставление дисперсий Sost
    2 и 2
    yg S
    может показать, насколько принятый экспериментатором вид полинома рег-
    рессии согласуется с "объективной реальностью" в виде функции истинного
    отклика ϕ(х). Означенное сопоставление дисперсий производится следую -
    щим образом [6]. Формулу (27) представим в виде
    o2st ×[ −( +1)]=Σ( g − gr )2 S n k y y . (30)
    Аналогично уравнение (29) представим в виде
    Sy2g ×(n −1) =Σ(yg − yg sr)2 . (31)
    Рассмотрим отношение уравнения (30) к уравнению (31):
    [ ]
    Σ −
    Σ −
    =
    × −
    = × − +
    ( )2
    ( )2
    ( 1)
    ( 1)
    2
    2
    y y sr
    yg ygr
    S n
    S n k
    yg g g
    γ ost . (32)
    Если уравнение регрессии адекватно идеальной математической моде-
    ли и функции истинного отклика, т.е. зависимость у=ϕ(х1,х2,…,хк) имеет не
    стохастический, а функциональный характер, то yg=ygr и γ=0. Если же связи
    между величинами у и х нет и зависимость у=ϕ(х1,х2,…,хк) вообще отсутст-
    вует (величины х и у независимы), то и в числителе, и в знаменателе равенст-
    ва (32) останется только одинаковая составляющая шума δ (w) и γ=1. Все
    остальные значения величины γ, промежуточные между границами "0" и "1",
    означают переменную "степень функциональности" зависимости между у и
    х. Графически эту "степень функциональности" можно интерпретировать как
    32
    тесноту размещения точек на графике стохастической зависимости – чем гу-
    ще дорожка точек, тем меньше значение γ.
    На практике используют не показатель γ, а обратную ему величину,
    равную 1−γ . Ее поведение аналогично поведению коэффициента парной
    корреляции ρ
    х,у –если зависимость между величинами отсутствует, ρ
    х,у равен
    нулю, если зависимость функциональная ρ
    х,у равен единице. Поэтому пере -
    менную 1−γ называют корреляционным отношением θ, тогда
    Σ
    =

    Σ
    =

    = − + −
     


     


     


     


    n
    g
    yg yg sr
    n
    g
    yg ygr
    1
    2
    1
    2
    θ 1 γ 1 , (33)
    где ygsr − среднее арифметическое значений переменной по вектору yg .
    Таким образом, чем ближе значение θ к единице, тем сильнее сила сто-
    хастической связи в найденной зависимости. Если корреляционное отноше-
    ние равно единице, то такая связь является функциональной. Это равносиль-
    но тому, что полином регрессии η(x,b)адекватен идеальной модели
    η(x,β ), где β - идеальные коэффициенты регрессии, т.е. адекватен и
    функции истинного отклика ϕ (x) , а значение yg в таблице эксперименталь-
    ных данных равно их математическим ожиданиям M{yg}.
    Сравнение корреляционных отношений двух разных уравнений регрес-
    сии, найденных для одной таблицы экспериментальных данных , позволяет
    выявить более точное уравнение; при этом разница между значениями θ
    1 и θ2
    должна быть статистически значимой.
    3.3 Связь между коэффициентом корреляции и корреляционным
    отношением
    3.3.1 Некоторые соотношения линейной регрессии
    Для линейного уравнения
    b0+b1x=y, (34)
    cистема нормальных уравнений состоит из двух уравнений
    nbo+b1Σx=Σy,
    b0Σx+b1Σx2=Σxy.
    3 3
    Решая ее относительно коэффициентов b, получаем
    ysr b xsr
    n
    b y b x 1
    1
    0 = Σ − = − , (35)
    где ysr и xsr -среднеарифметические по массивам,
    и
    Σ − Σ
    = Σ −Σ Σ
    1 n x2 ( x)2
    b n yx y x . (36)
    Учитывая, что Σx=xsr×n=Σxsr, что справедливо и для "у" и преобра-
    зуя (36), получим
    Σ −Σ
    = Σ −Σ
    1 x2 xsr 2
    b yx ysrxsr . (37)
    Несложные преобразования показывают, что знаменатель уравнения
    (37) равен Σ(x- xsr)2, а числитель -Σ(x- xsr)(y-ysr), позтому
    y x
    y x
    n s s
    n s s
    x xsr
    b x xsr y ysr
    ( 1)
    ( 1)
    ( )
    ( )( )
    1 2 −

    ×
    Σ −
    = Σ − − ,
    где Sy и Sx – среднеквадратичные отклонения.
    В последнем уравнении величина
    n sy sx
    x xsr y ysr
    ( 1)
    1
    1
    ( )( )

    Σ − − ×
    есть выборочный коэффициент корреляции, поэтому
    x
    y
    xy
    x
    y x
    xy s
    s
    r
    s
    s s
    b = r =
    1 2 , (38)
    т.е. уравнение (34) принимает вид
    x y
    s
    b r s
    x
    y
    xy + = 0 . (39)
    Учитывая (35), имеем
    b0+b1x=ysr-b1xsr+b1x=y,
    откуда
    y-ysr=b1(x-xsr).
    34
    3.3.2 Соотношение коэффициента корреляции и корреляционного
    отношения
    Остаточная дисперсия для линейной регрессии имеет вид
    S2
    ost=[1/(n-2)]Σ(yg-b0-b1x)2, тогда с учетом уравнения (35) будем иметь
    S2
    ost=[1/(n-2)]Σ[yg-(ysr-b1xsr)-b1x]2=(1/n-2)Σ[(yg-ysr)-b1(x-xsr)]2=
    =[(1/n-2)]Σ[(yg-ysr)2-2b1(x-xsr)( yg-ysr)+b1
    2(x-xsr)2].
    Знак суммы разносим по элементам суммы и тогда
    S2
    ost=[1/(n-2)] [Σ (yg-ysr)2-2b1Σ (x-xsr)( yg-ysr)+b1
    2Σ (x-xsr)2]=
    =[1/(n-2)] [Sy
    2(n-1)-2b1rxy(n-1)Sy Sx+b1
    2(n-1)S 2
    x]=
    =[(n-1)/(n-2)] (Sy
    2-2r2
    xyS2
    y +rxy
    2S 2
    y)=[(n-1)/(n-2)]Sy
    2(1-rxy).
    Итак, для линейного уравнения имеем
    (1 )
    2
    2 1 2 2
    ost y xy S r
    n
    S n −

    = − . (40)
    Поскольку в соответствии с (32)
    [ ]
    ( 1)
    ( 1)
    2
    2

    = − +
    S n
    S n k
    yg
    γ ost ,
    совмещаем два последних результата в виде
    [ ]
    2
    2 2
    ( 1)
    (1 ) ( 1)
    2
    1
    y
    y xy
    n S
    S r n k
    n
    n

    − − +


    γ = ,
    и находим, что 1 2 xy γ = − r , откуда = 1−γ xy r . Но в соответствии с (33)
    θ = 1−γ , т.е. для линейного уравнения коэффициент корреляции и корре-
    ляционное отношение совпадают.
    Таким образом, корреляционное отношение охватывает все виды сто-
    хастической связи и является ее универсальной характеристикой.
    3.4 Построение оценки и доверительной области для математиче-
    ской модели объекта исследования
    Ранее отмечалось,что для полинома регрессии типа
    b0 b1 x1 b2 x2 b12 x1 x2 b11 x12 b x y
    + ⋅ + ⋅ + ⋅ ⋅ + ⋅ + 22 ⋅ 22 =
    левая часть алгебраически представляет собой произведение двух векторов:
    3 5
    - вектора коэффициентов b;
    - вектора множителей при этих коэффициентах
     1 х1 х2 х1х2 х12 х22 ,
    который носит название вектора базисных функций. Матрица базисных фун-
    кций F состоит из строк, образованных этими векторами. Поэтому расчетное
    значение отклика yg на g-ой строке ТЭД есть произведение g-ой строки мат-
    рицы F на вектор коэффициентов b. Обозначим вектор базисных функций
    как f −T (x), тогда расчетное значение отклика yg на g-ой строке таблицы
    данных будет равно f xg b
    −T ( ) . В математической статистике оценки
    обозначают символом оцениваемой величины со знаком " ∧", поэтому оценку
    математической модели объекта исследования обозначим как
    y(x, ) y(x,b) f −T (x)b

    β = = . (41)
    С помощью этой оценки мы можем предсказать значение отклика
    f xg b
    −T ( ) в любой точке факторного пространства.
    В то же время идеальная модель отклика есть функция
    η(x,β ) = f −T (x)β =ϕ(x) =M{y(x)}.
    Если x есть хg (конкретная точка факторного пространства), то пред -
    сказанное значение отклика есть оценка истинного его значения { ( )} g M y x .
    Введем оценку математической модели (41) под символ математиче-
    ского ожидания
    M{y(x, )} M{ f −T (x)b} f −T (x)Mb

    β = = ,
    но Mb=β и поэтому
    M{y(x,β )}= f −T (х)β =η(x,β )

    , (42)
    т.е. y(x,β )

    есть несмещенная оценка η(x,β ). Если оценить дисперсию
    оценки, то можно показать, что она является и эффективной. Аналогично
    можно доказать,что предсказанное значение отклика в g-точке y(x ,b) g

    есть
    такая же оценка { } g M y .
    Дисперсия оценки математической модели
    D{y(x,b)}=M{[y(x,b) −M{y(x,b)}]2}.
    С учетом (41) и (42) преобразуем это выражение
    36
    D{y(x,b)}=M{[ f −T (x)b− f −T (x)β )]2}.
    Правую часть этого уравнения представим в виде
    M{[ f −T (x)b− f −T (x)β )]×[ f −T (x)b− f −T (x)β )]},
    перемножаем выражения в квадратных скобках и, вынеся векторы базисных
    функций за скобки, получим
    M{ f −T (x)(b−β )(b−β )T f −(x)}=
    = f −T (x)M{(b−β )(b−β )T} f −(x)},
    это означает, что в соответствии с (21)
    D{y(x,b)}= f −T (x)D{b} f −(x), (43)
    или { ( , )} ( ) 1 ( ) 2vos
    D y x b = f −T x M− f − x σ . (44)
    Дисперсию предсказанного значения ygr в g-точке можно расчитать,
    подставив в (43) или (44) значения факторов по данной строке xg. Если дис-
    персия воспроизводимости неизвестна, используем ее оценку итогда расчет
    ведем по формуле
    { ( , )} ( ) 1 ( ) 2 ost
    D y x b = f −T x M− f − x S . (45)
    Можно математически показать /4/, что эта дисперсия меньше любой
    другой дисперсии любой другой оценки математической модели
    } D{y(x,b)}< D{y(x,b~ ,
    т.е. оценка математической модели является не только несмещенной, но и
    эффективной. Это же справедливо и для y(xg ,b) - для расчетного значения
    отклика в данной точке факторного пространства, а в более узком смысле -
    для расчетного значения отклика на данной строке таблицы эксперименталь-
    ных данных.
    В геометрической интерпретации дисперсия D{y(x,b)}есть про-
    странственный корридор ошибок, с помощью которого можно построить до-
    верительную область для оценки ~y(x,β ). Для n-факторов х (n строк таб-
    Лицы экспериментальных данных) доверительная область есть n-мерная по-
    верхность во многомерном пространстве. Для двух факторов –это повер -
    хность второго порядка, для одного фактора (одной строки таблицы экспе-
    риментальных данных) –это интервал. Интервальная оценка расчетного зна-
    3 7
    чения отклика y(xg ,b) является еще одним критерием качества полинома
    регрессии –чем уже интервал, тем точнее уравнение. При функциональной
    зависимости длина интервала равна нулю.
    В уравнении (45) выражение f −T (x)M−1 f −(x) есть функция коор-
    динат точки факторного пространства, для которой мы рассчитываем значе-
    ние отклика, а векторы f −T (x), f −(x) являются вектором-строкой и век-
    тором-столбцом для g-строки матрицы базисных функций F, т.е. векторами
    ( g ), ( g )
    f −T x f − x . Обозначим это произведение как
    f −T (x)M−1 f −(x) = d(x).
    В неравенство интервальной оценки показатель дисперсии входит под зна-
    ком квадратного корня. Тогда интересующая нас интервальная оценка будет
    иметь вид
    y(xg ,b)−upσ vos d(xg ) < M{y(xg ,b)}< y(xg ,b)+upσ vos d(xg ) ,
    а при неизвестной дисперсии воспроизводимости это неравенство примет
    вид
    y(xg ,b)−tpsost d(xg ) < M{y(xg ,b)}< y(xg ,b)+tpsost d(xg ) ,
    где tp-табличный квантиль t-распределения Стъюдента.
    Обозначим левую часть неравенства как Лев_гр, правую как Пр_гр, то-
    гда интервальной оценкой расчетного значения отклика y(xg ,b) будет
    Int=Пр_гр-Лев_гр.
    4 "Ортогональная" регрессия
    Ранее было показано, что коэффициенты регрессии являются зависи-
    мыми друг от друга случайными величинами и что силу стохастической свя-
    зи между ними характеризует значение второго смешанного центрального
    момента { } bibj 11 μ . При этом значение коэффициентов регрессии j b зависит
    от количества членов уравнения, т.е. уменьшение или увеличение их числа
    влияет на значение всех коэффициентов, включенных в полином. Поэтому
    если какой-то из коэффициентов близок к нулю, нельзя его просто исклю-
    чить из уравнения, расчеты для новой формы полинома нужно проводить
    вновь и полностью. Эта неопределенность значений коэффициентов делает
    невозможной их физическую интерпретацию и является принципиальным
    недостатком метода.
    38
    Рассмотрим под этим углом строение матрицы моментов М. Ее эле-
    менты являются суммами произведений соответствующих векторов базис-
    ных функций вида

    Σ
    =

    gj
    n
    g
    T
    fgi f
    1
    , а сама матрица есть произведение FT F . Ес-
    ли матрица будет диагональной, т.е.
    0
    1
    =

    Σ
    =

    gj
    n
    g
    T
    fgi f при i≠ j , (46)
    то система нормальных уравнений (13) распадется на простые уравнения ви-
    да Σ
    =
    =
    n
    g
    M jjbj yx j
    1
    , (47)
    где j-индекс соответствующего столбца матрицы F ,
    Mjj- диагональный элемент матрицы моментов M.
    Зависимость коэффициентов регрессии друг от друга при этом исчеза-
    ет, значение их станет однозначным и постоянным, т.е. исключение одного
    коэффициента из уравнения не будет влиять на значения других. Соотноше-
    ние (46) есть условие ортогональности вектор-столбцов матрицы базисных
    функций F .
    Таким образом, для получения независимых коэффициентов регрессии
    нужно спланировать эксперимент так, чтобы выполнялись условия линейной
    независимости и ортогональности вектор-столбцов матрицы базисных функ-
    ций F .
    Один из таких подходов реализуется при так называемом полном
    факторном эксперименте. Рассмотрим его на конкретном практиче-
    ском примере.
    Имеем трехфакторный объект исследования, который должен быть от-
    ражен моделью
    b0+b1x1+b2x2+ +b3x3+b12x1x2+ +b13x1x3+b23x2x3=y. (48)
    Факторы x имеют так называемый "базовый" уровень значений –либо сред-
    нее, либо наиболее часто встречающееся значение. Пусть для факторов x1,x2
    и x3 это будут уровни -100, -100 и 250. В эксперименте значение каждого
    фактора будет задано на двух уровнях по схеме
    хниж=xбаз-Δx и хверх=xбаз+Δx,
    где Δx- шаг изменения значения фактора.
    Эти характеристики приведены в таблице 3.
    3 9
    Таблица 3 – Диапазон значений факторов
    Фак-
    торы
    хi x1 x2 х3
    Базовый
    уровень
    хбаз -100 -100 250
    Шаг Δх 150 150 150
    Верхний
    уровень
    Х++ 50 50 400
    Нижний
    уровень
    Х-- -250 -250 100
    Значение факторов задается в нормированном виде
    x
    xn x xbuz
    Δ
    = ++ −
    ++
    для верхнего уровня и
    x
    xn x xbuz
    Δ
    = −− −
    −− для нижнего уровня. При этом все
    факторы приобретают только два значения: либо+1, либо –1. Полный фак-
    торный эксперимент содержит все возможные и неповторяющиеся комбина-
    ции уровней и факторов; если имеем n факторов, количество комбинаций со-
    ставит 2n, т.е. в данном случае эксперимент должен содержать восемь опы-
    тов, (восемь строк в таблице экспериментальных данных). Наблюдения на
    каждой строке таблицы дублируем по три раза. Это, во-первых, позволяет
    уменьшить ошибку экспериментального определения значения отклика (в
    таблицу данных вводится среднее его значение), во-вторых, дает информа-
    цию для получения оценки дисперсии воспроизводимости. Тогда в результа-
    те эксперимента будем иметь следующую таблицу экспериментальных дан-
    ных.
    Таблица 4 –Таблица экспериментальных данных
    g xn1 xn2 xn3 Yg1 Yg2 Yg3
    1 -1 -1 -1 74 80 65
    2 +1 -1 -1 -72 -62 -88
    3 -1 +1 -1 173 185 187
    4 +1 +1 -1 20 19 25
    5 -1 -1 +1 142 158 132
    6 +1 -1 +1 27 42 32
    7 -1 +1 +1 284 260 283
    8 +1 +1 +1 121 112 138
    Как видим, столбцы факторов ортогональны. В данном случае количе-
    ство наблюдений равно двадцати четырем. Первая строка содержит все фак-
    40
    торы на нижнем уровне , последняя – на верхнем. Наблюдения в экспери-
    менте варьируются случайным образом, т.е. проводится рандомизация про-
    цедуры, например, генерацией случайных чисел. При рандомизации получи-
    ли следующую последовательность наблюдений (по три на каждой строке),
    приведенную в таблице 5, где "к" содержит номер наблюдения.
    Таблица 5 – Порядок наблюдений
    G k1 k2 k3
    1 10 22 13
    2 7 6 19
    3 15 17 20
    4 11 1 3
    5 18 14 8
    6 2 12 24
    7 5 21 4
    8 16 9 23
    Это означает, что в первое наблюдение ведется по режиму четвертой
    строки, а результат в таблица 4 записывается в колонке Yg2 . Такая техноло-
    гия нужна, чтобы исключить любые закономерности в формировании векто-
    ров базисных функций, которые должны лежать в разных базисных про-
    странствах. Все эти векторы для данной задачи представлены в таблице 6.
    Таблица содержит средние значения отклика уg для данной строки и оценку
    дисперсии воспроизводимости, расчитанную по трем параллельным значени-
    ям отклика (см. уравнение (48)). Цифры в заголовке колонок у символа f –
    это индексы коэффициентов регрессии в уравнении (48), которые идентифи-
    цируют соответствующие базисные функции.
    Оценку дисперсии воспроизводимости рассчитывали по уравнению
    Σ
    =


    =
    m
    q
    ygq yg
    g m S
    1
    ( )2
    1
    2 1 , (49)
    где m –количество параллельных наблюдений,
    yg - среднее значение отклика на данной строке таблицы данных.
    Наличие оценки дисперсии воспроизводимости 2
    g S дает возможность
    проверить соблюдение предпосылки применимости процедуры регрессион-
    ного анализа о равенстве дисперсий отклика при различных наблюдениях.
    Для этого нужно проверить гипотезу о равенстве нескольких дисперсий с
    помощью критерия Кокрена.
    4 1
    Таблица 6 –Матрица базисных функций
    g f0 f1 F2 f3 f12 f13 F2
    3 yg 2
    g S
    1 +1 -1 -1 -1 +1 +1 +1 73,0 57,0
    2 +1 +1 -1 -1 -1 -1 +1 -74,0 172,0
    3 +1 -1 +1 -1 -1 +1 -1 181,7 57,3
    4 +1 +1 +1 -1 +1 -1 -1 21,3 10,3
    5 +1 -1 -1 +1 +1 -1 -1 146,4 172,0
    6 +1 +1 -1 +1 -1 +1 -1 33,7 58,3
    7 +1 -1 +1 +1 -1 -1 +1 275,7 184,3
    8 +1 +1 +1 +1 +1 +1 +1 123,7 174,3
    Критерий Кокрена имеет вид /8/.
    Σ
    =
    = n
    g
    Sg
    Sg
    G
    1
    2
    max 2
    .
    Проверка гипотезы показывает, что значение критерия 0,208. Граница
    критического интервала (при вероятности 0,95 и соответствующих степенях
    свободы системы) составляет 0,816 –т.е. гипотеза о равенстве дисперсий вос-
    производимости не отвергается.
    При обратном результате, т.е. если эксперимент невоспроизводим, сле-
    дует использовать видоизмененную процедуру регрессионного анализа – вз-
    вешенный метод наименьших квадратов /4/.
    Следующим шагом процедуры является расчкт коэффициентов регрес-
    сии. Диагональные элементы матрицы M для данного случая есть сумма
    квадратов вектор-столбцов f0, f1, f2 и т.д. и нормальные уравнения имеют
    вид Σ
    =
    Σ
    =
    =
    n
    g
    n
    g
    bj fj yg fj
    1 1
    2 ,
    где все суммы левой части уравнений равны восьми.
    Таким образом, для первого, например, коэффициета b0 имеем
    b0=781,5/8=97,69. В результате получаем следующее уравнение регрессии
    y=97,69-71,20xn1+53,20xn2+52,20xn3-6,90xn1xn2+
    +5,60xn1xn3+2,20xn2xn3.
    Теперь нужно провести проверку статистической значимости вычис-
    ленных оценок коэффициентов регрессии. Ортогональность векторов базис-
    ных функций и обусловленная ею независимость коэффициентов регрессии
    друг от друга позволяют провести эту проверку для каждого коэффициента
    отдельно с использованием статистики t распределения Стъюдента. Проверя-
    42
    ется гипотеза о равенстве коэффициентов регрессии нулю, рабочее значение
    статистики имеет вид /3/
    { }
    0
    j
    j
    j S b
    b
    t

    =
    при числе степеней свободы ν=n(m-1) и двусторонней критической области
    t-распределения. Если tj попадает в критическую область, значение коэффи-
    циента bj статистически значимо и он должен быть включен в уравнение. В
    противном случае он равен нулю и в модель не включается.
    Поскольку гипотеза о равенстве оценок дисперсии воспроизводимости
    не отвергнута, находим их обобщенную оценку S2 как сумму всех оценок
    2
    g S , деленную на их количество, т.е.S2 = 885,5:8=110,7.Дисперсии незави -
    симых коэффициентов регрессии связаны с обобщенной дисперсией соотно-
    ошением /3,4/
    j m n
    S b S
    2
    { }
    2
    2

    = .
    Тогда 2{ }
    j S b будет равна 4,61, а статистики t для всех коэффициен-
    тов регрессии будет соответственно равны
    45,44 -33,12 24,74 24,28 3,21 2,60 1,02.
    Согласно таблице t –распределения Стъюдента /3/ при данных статистиче-
    ских условиях граница двусторонней критической зоны равна 2,12. Таким
    образом последний коэффициент b23 попадает в доверительный интервал, его
    значение статистически незначимо и он исключается из уравнения регрессии.
    Последним шагом процедуры является проверка адекватности полу-
    ченного уравнения функции истинного отклика, которая проводится по ста-
    тистике /3/ 2
    2
    S
    F = Sost ,
    где S2 -обобщенная оценка дисперсии воспроизводимости,
    а знаменатель уравнения (27) остаточной дисперсии в данном случае равен
    разности числа опытов и количества статистически значимых коэффициен-
    тов регрессии, т.е. двум. Получено
    1,43
    110,7
    158,44
    2
    2
    = = =
    S
    F Sost ,
    тогда как соответствующая граница критического интервала распределения
    Фишера составляет 2,85. Таким образом, отношение дисперсий не выходит за
    границы доверительного интервала, они статистически неразличимы и гипо-
    теза об адекватности математической модели не отвергается.
    4 3
    Недостатком данного способа решения задач регрессии является то,
    что при нем возможны только комбинации базисных функций вида xi или
    xi⋅xj. Действительно, для комбинации xi в четной степени колонка в таблице
    6 будет повторять первую колонку для коэффициента β
    0, а для комбинации xi
    в нечетной степени – соответствующую колонку при β
    i. Матрица базисных
    функций F станет при этом вырожденной и матричные расчеты будут невоз-
    можны.
    5 Коэффициенты регрессии при неадекватной
    математической модели
    Математическая модель в виде полинома регрессии, адекватная функ-
    ции истинного отклика, исследователю неизвестна так же, как и сама эта
    функция. Выбор из ряда альтернативных полиномов при приемлемой точно-
    сти принятого варианта также не позволяет найти именно адекватную мо-
    дель. Поэтому обычно приходится довольствоваться каким-то приближени-
    ем.
    Пусть функция истинного отклика имеет вид
    2 ... 3
    1
    ...
    2
    1,
    1
    1
    0 ) ( + Σ=
    Σ + +
    = >
    + Σ=
    = + xi
    k
    i
    iii
    k
    i j i
    xi ij xi x j
    k
    i
    ϕ x β bi β β (50)
    а мы в силу сложившихся обстятельств ищем модель
    xi
    k
    i
    i x Σ=
    = +
    1
    1
    η( ,β ) β0 β . (51)
    Это и будет неадекватностью математической модели функции истинного
    отклика. В функции (50) к+1 коэффициентов, а мы в (51) находим к0+1 их
    оценок. Размерность матрицы базисных функций F должна быть n(k+1), а
    мы имеем матрицу F0 с размерностью n(k0+1). В матрице F0 будут отсутст-
    вовать столбцы xij и xii , которые образуют полную или “истинную” матрицу
    F∗. Соответственно этой ситуации имеем векторы истинных коэффициентов
    β 0,β∗ и их оценок в полиноме регрессии b0 ,b* . Тогда в соответствии с ос-
    новным уравнением (14)
    ( ) ( ) 0
    1
    b0 F0 F0 FTY = T − ,
    а также
    { } ( ) ( { }) 0
    1
    M b0 F0 F0 FTM Y = T − .
    Но поскольку расчетное значение отклика равно произведению строки
    44
    матрицы базисных функций на вектор коэффициентов регрессии
    y x y x b f x b g
    T
    ?( g,β ) = ( g, ) = − ( ) ,
    постольку
    ∗ ∗ M Y = Fβ = F0β 0 + F β { } .
    Отсюда
    = + ∗ ∗ =
    { } ( )− ( 0 ) 0 0
    1
    M b0 F0 F0 FT F β F β T
    = ∗ ∗
    ( )− ( )β +( )− ( )β 0
    1
    0 0 0 0 0
    1
    0 0 FTF FTF FTF FTF
    Произведение ( ) ( ) 0 0
    1
    0 0 FTF − FTF есть единичная матрица, а произ ведение
    ( ) ( ) 0
    1
    0 0 ∗
    FTF − FTF
    есть матрица, которую назовем матрицей смещенния В, т.е.
    M{b0}=β 0 + Bβ∗ . (52)
    Рассмотрим пример. Имеем таблицу экспериментальных данных при
    нормированной форме факторов Х (см. таблицу 7).
    Таблица 7 –План эксперимента
    G X1 x2 x3
    1 -1 -1 +1
    2 +1 -1 -1
    3 -1 +1 -1
    4 +1 +1 +1
    Пусть истинная зависимость есть
    0 1 1 2 2 3 3 12 12 13 13 23 23 123 123 ϕ (x)=β +β x +β x +β x +β x +β x +β x +β x
    а мы отражаем табличную функцию уравнением
    0 1 1 2 2 3 3 ϕ (x)=β +β x +β x +β x .
    Тогда
    Матрица F0=
    1 1 1 1
    1 1 1 1
    1 1 1 1
    1 1 1 1
    + + + +
    + − + −
    + + − −
    + − − +
    , а матрица (FT
    0F0)=
    0004
    0040
    0400
    4000
    .
    Матрицы (FT
    0F0)-1, (FT
    0F∗) и В и будут равны соответственно
    4 5
    4
    0001
    0
    4
    001
    00
    4
    01
    000
    4
    1
    ,
    4000
    0400
    0040
    0004
    ,
    1000
    0100
    0010
    0001
    .
    Тогда в соответствии с уравнением (52) M{b0}=β 0 + Bβ∗
    3
    2
    1
    0
    Mb
    Mb
    Mb
    Mb
    =
    3
    2
    1
    0
    β
    β
    β
    β
    +
    12
    13
    23
    123
    β
    β
    β
    β
    ,
    т.е.
    .
    ;
    ;
    ;
    3 3 12
    2 2 13
    1 1 23
    0 0 123
    β β
    β β
    β β
    β β
    = +
    = +
    = +
    = +
    Mb
    Mb
    Mb
    Mb
    Таким образом, при неадекватной модели получаемые МНК-оценки
    коэффициентов регрессии содержат систематические ошибки, определяе-
    мые матрицей смещения и коэффициентами, не вошедшими в предполагае-
    мую модель. Происходит смешивание теоретических коэффициентов в одной
    оценке, например, коэфициентов 0 β и 123 β в оценке 0 b .
    На практике иногда приходится сознательно работать со смещенными
    моделями, например, при невозможности обеспечить достаточное количество
    наблюдений в эксперименте из-за их трудоемкости или высокой стоимости.
    В таких случаях и возникает смещение, которое нужно оценить хотя бы ка-
    чественно.
    46
    6 Предварительная обработка экспериментальных дан-
    ных
    6.1 Исключение грубо ошибочных данных из вариационного ряда
    Предварительная обработка экспериментальных данных проводится в
    основном в двух целях:
    - отсеивание грубых погрешностей измерения, подсчета или записи
    цифрового материала;
    - оценка закона распределения случайной величины, которая является
    результатом наблюдений и, при необходимости, переход от этой величины к
    другой, имеющей нормальное распределение.
    Грубые ошибки при фиксировании значения экспериментальных дан-
    ных – это аномальные, сильно выделяющиееся значения в вариацинном ряду
    однородных данных. Появление таких значений связано либо с субъективной
    ошибкой самого экспериментатора, либо с резким нарушением режима про-
    водимых испытаний (если это действительно ошибочные значения!).Такие
    значения обычно носят единичный характер и проявляются в одном-двух ис-
    пытаниях из всей серии. Не смотря на малочисленность, эти значения могут
    внести существенные искажения в итоговые результаты обработки данных.
    Поэтому такие аномальные значения должны быть безусловно удалены из
    массива экспериментальных данных, но...! –аномальные значения не всегда
    ошибочны и иногда ведут исследователя прямо к нобелевской премии. Ибо
    существует и такая причина аномального значения экспериментальных дан-
    ных как скачкообразное изменение показателей состояния объекта испыта-
    ния при изменении параметров состояния воздействующей на него среды.
    Так, например, при монотонном изменении химсостава или температуры ме-
    таллических сплавов в определенном и достаточно узком диапазоне этих из-
    менений в сплаве образуются новые структурные составляющие (фазы), рез-
    ко изменяющие макроскопические свойства сплава. Еще шаг в приращении
    факторов воздействия – и эти фазы растворяются в основе сплава, возвращая
    исходный уровень свойств... Это и есть аномальный “срыв” значений наблю-
    даемых экспериментальных данных, исключить которые – значит “прозе-
    вать” критическое состояние материала, способное в будущем стать , напри-
    мер, причиной разрушения какой-то конструкции.
    Наилучшим выходом из такой ситуации является повторение серии ис-
    пытаний, которая содержит аномальные результаты. Это позволяет сделать
    однозначные выводы о том, случаен аномальный результат или нет. Но этот
    выход не всегда возможен. Чаще всего “аномальность” обнаруживается на
    итоговой обработке экспериментального материала. Так или иначе, призна-
    ние результата наблюдения аномальным требует тщательной профессио-
    нальной экспертизы.
    4 7
    Кроме вопроса о причине аномальности результатов данного наблюде-
    ния есть и другой вопрос – с какого “критического” значения считать данный
    показатель аномальным?
    В литературе содержится много рекомендаций для отсева грубых по-
    грешностей наблюдений /9/. Строго научный анализ массива наблюдений в
    этом отношении может быть проведен только статистическими методами.
    Каждая грубая ошибка вызывает нарушение закона распределения изучаемой
    величины, изменение его параметров – нарушается однордность наблюде-
    ний. Поэтому выявление грубых ошибок можно трактовать как проверку од-
    нородности испытаний или опытов.
    Показателем ошибочности данного наблюдения может служить лишь
    величина его отклонения от других наблюдений. Сомнительными могут быть
    крайние отклонения от среднего – как в ту, так и в другую сторону. Если
    ориентироваться на закон нормального распределения, то такие отклонения
    симметричны и исследуются одинаково, т.е. можно говорить об общем
    “крайнем” значении данной выборки.
    В случае нормального распределения для единичного значения данной
    случайной величины х при доверительной вероятности 1-р оценкой одно-
    родности будет соблюдение неравенства
    х-М{х}<=U1-p⋅σ , (53)
    где М{х} и σ - известные параметры распределения;
    U1-p – квантиль стандартного нормального распределения.
    Нарушение этого неравенства, т.е. условие х-М{х}>U1-p⋅σ b ,и будет при-
    знаком грубой ошибочности данного значения.
    Для выборки объемом n элементов соответствующая доверительная
    вероятность будет равна (1-p)n , т.е. вероятность однородности всех n собы-
    тий уменьшается с ростом n и при n→∞ эта вероятность стремиться к нулю.
    Если х есть крайний элемент выборки , то доверительной оценке (53)
    соответствует вероятность
    (1-p)n≅1-np.
    Тогда доверительной вероятности 1-р для одного крайнего элемента
    соответствует оценка [6]
    х-М{х}<=U1-p/n⋅σ , (54)
    т.е. элемент будет считаться грубо ошибочным, если на уровне значимости р
    х-М{х}>U1-p/n⋅σ .
    Все вышеизложенное справедливо для случая, когда известны пара-
    метры распределения М{х} и σ. Если же они не известны, то приходится
    использовать их выборочные оценки xsr и s. Тогда для крайнего элемента
    рабочей статистикой будет условие
    tраб= х-хsr/s,
    48
    которое называется максимальным относительным отклонением и подчиня-
    ется распределению Стьюдента. Крайнее значение отбрасывается как грубо
    ошибочное при условии
    х-хsr/s>t1-p
    где t1-p есть квантиль распределения Стьюдента при данном объеме
    выборки.
    После исключения аномального значения из вариационного ряда стати-
    стические характеристики данной выборки пересчитываются для нового объ-
    ема и новый крайний элемент может быть подвергнут новой проверке. По-
    скольку при использовании выборочных оценок возникает их смещение от-
    носительно оцениваемой величины, в рабочую статистику должна быть вве-
    дена поправка tраб= х-хsr/(s
    n
    n −1 ).
    В работе /1/ показано, что границы критической зоны τ
    р (где р- про-
    центная точка нормированного выборочного отклонения) выражаются через
    квантели этой точки распределения Стьюдента tр,n-2 по соотношению/1/
    2
    , 2
    , 2
    , ( 2) ( )
    1


    − +
    ⋅ −
    =
    p n
    p n
    p n n t
    t n
    τ . (55).
    С учетом этого уравнения для выборок большого объема (при n боль-
    ше 25) рекомендуют /1/ следующую процедуру отсева аномальных данных:
    - выбирают значение xi c максимальным отклонением от среднего
    xi-xsr ;
    - вычисляют значение рабочей статистики tраб= х-хsr/(s
    n
    n −1 );
    - по таблице t- распределения находят точки t0,05;n-2 и t0,001;n-2;
    - по уравнению (55) находят критические границы τ0,05;n и τ0,001;n.
    Эти точки ограничивают три зоны:
    - левую до границы t0,05;n-2;
    - среднюю между границами t0,05;n-2 и t0,001;n-2;
    - правую от границы t0,001;n-2.
    Если значение рабочей статистики попадает в левую зону, крайнее зна-
    чение не является аномальным. Если оно в средней зоне, то необходим про-
    фессиональный анализ ситуации и выработка дополнительных аргументов в
    пользу того или иного решения. Если tраб в правой зоне, крайнее значение
    безусловно отбрасывается.
    4 9
    6.2 Приведение распределения исследуемой величины к
    нормальному
    Предпосылки (условия) процедуры регрессионного анализа содержат
    требования нормального распределения отклика объекта исследования на
    данной строке таблицы экспериментальных данных. Нарушение этого усло-
    вия затрудняет проведение второй части процедуры, т.к. делает невозмож-
    ным использование параметров распределений, связанных с нормальным: u-
    и t- распределений, F-распределения Фишера и χ2 распределения Пирсона.
    Нельзя пользоваться квантилями этих распределений, нельзя строить интер-
    вальные оценки с их помощью и, соответственно, нельзя проверять гипотезы
    об адекватности уравнений регрессии истинной математической модели.
    Обзор методов “экспрессной” проверки нормальности распределения
    данной выборки дан в /1/. Для небольших выборок (менее 120 элементов) ре-
    комендуется использовать значение среднего абсолютного отклонения
    Δх=Σ(xi-xsr)/n. Для выборки, имеющей приближенно нормальное распре-
    деление, справедливо условие Δxi/s – 0,7979<0,4/ n .
    Для класса выборок 3<n<1000 используется значение размаха варьиро-
    вания xmax-xmin. Для нормального распределения отношение
    xmax-xmin к среднеквадратичному выборочному отклонению должно ле-
    жать в определенных границах, зависящих от объема выборки и доверитель-
    ной вероятности. Значение нижних и верхних границ табулированы (см. при-
    ложение 6 /1/).
    Проверка нормальности распределения может быть проведена по пока-
    зателям ассиметрии As= μ
    3/σ3 и эксцесса Ek=( μ
    4/σ4)-3 (где μ- центральные
    моменты третьего и четвертого порядка). Для проверки используются не-
    смещенные оценки этих показателей /1/
    As
    n
    n n
    Ans
    2
    ( 1)


    = ,
    [( 1) 6]
    ( 2)( 3)
    1 + +
    − −
    = − n Ek
    n n
    n
    Enk .
    Для приближенно нормального распределения эти показатели должны
    быть близки к нулю.
    Описанные методы используются для быстрой “прикидочной” оценки
    нормальности распределения. Если такой оценки недостаточно, проводят
    проверку гипотезы о нормальности закона распределения с использованием
    50
    критерия согласия Пирсона. Практическая реализация этого метода описана
    в /3,8/.
    Если проверка нормальности распределения дала отрицательные ре-
    зультаты, следует преобразовать исходные данные таким образом, чтобы их
    распределение стало нормальным. Такие преобразования проводят, руково-
    дствуясь видом эмпирических полигонов и гистограмм частот распределения
    изучаемой случайной величины.
    Существуют, например, так называемые ЛОГАРИФМИЧЕСКИЕ
    НОРМАЛЬНЫЕ РАСПРЕДЕЛЕНИЯ. Особенностью таких распределений
    является крутая левая ветвь полигона и пологая правая. Логарифмические
    распределения играют большую роль в математической статистике, так как
    очень часто встречаются в практике обработки экспериментальных данных и
    легко преобразуются к нормальному виду путем логарифмирования исход-
    ных данных. При логарифмировании левая ветвь кривой эмпирического рас-
    пределения сильно растягивается и распределение становится приближенно
    нормальным. Таким образом, исследователь переходит к новой переменной
    z=ln x. Если при этом встречаются значения между нулем и единицей, то все
    вновь полученые значения для удобства расчетов и во избежание отрица-
    тельных значений следует преобразовать по уравнению типа z=10K⋅ ln х, где
    “к” – соответствующая константа.
    Ассиметричные распределения с одной вершиной часто приводятся к
    нормальному виду за счет преобразования вида z=ln( x+к). В отдельных
    случаях возможны и другие преобразования типа z=1/ x или z=1/ х . Для
    нормализации смещенного вправо распределения используют тригонометри-
    ческие преобразования или степенные функции типа z= xк. При умеренном
    правом смещении значение “к” принимают до 1,5, а при сильном- до двух.
    После завершения всей процедуры обработки данных для получения
    окончательного результата следует выполнить обратные преобразования
    приведения данных к исходному виду.
    6.3 Нормирование исходных данных при решении задач регрессии.
    Свойства нормированных величин
    Процедуру регрессионного анализа рекомендуют вести при нормиро-
    ванно-центрированной форме факторов x /3,4/. В свое время она была введе-
    на Гауссом, т. к. свойства нормированно-центрированных величин позволя-
    ют упростить ручные расчеты. С появлением вычислительной техники
    это обстоятельство потеряло свое значение. В настоящее время эту форму
    расчетных величин используют тогда, когда она позволяет проконтролиро-
    васть правильность промежуточных расчетов. В нашем случае она позволяет
    проконтролировать правильность расчета матрицы М.
    5 1
    Разность между текущим значением случайной величины z и её сред-
    ним (генеральным или выборочным) называют ЦЕНТРИРОВАННОЙ слу-
    чайной величиной, поскольку она интерпретирует текущее значение как от-
    резок от центра (среднего значения), который лежит либо слева от центра
    (отрицательные значения ) или справа – в области положительных значений.
    Для обработки данных важны следующие свойства центрированных величин.
    Первое (нулевое) свойство: сумма центрированных величин по их
    совокупности (выборке) равна нулю. Это свойство очевидно, т.к. центри-
    рование делит массив данных на две равные части с противоположными зна-
    ками.
    Второе (минимальное) свойство : сумма квадратов отклонений те-
    кущих значений случайной величины от их среднего меньше, чем сумма
    квадратов отклонений от любого другого числа, в том числе от моды и
    медианы.
    Докажем это свойство. Пусть сумма квадратов отклонений Sotkl от
    некоторого числа с
    Sotkl zi c
    i
    n
    = − =
    = Σ
    ( )2 min
    1
    . (56)
    Требуется определить значение с, при котором функция Sotkl
    обращается в минимум. Решением является корень уравнения


    Sotkl
    c = 0 ,
    при условии, что вторая производная имеет положительное значение. Диффе-
    ренцируя уравнение (56), получаем:
    -2 ( z c ) i
    i
    n
    − =
    = Σ
    0
    1
    , откуда z c i
    i
    n
    i
    n
    =
    = =
    Σ Σ
    1 1
    , или Σz = n⋅ c , т.е. c
    z
    n
    = = zsr Σ , что озна-
    чает min исследуемой функции именно для условия c = zsr . В то же время
    [ ] ∂



    2
    2 2 2 1 2 0
    1
    c
    c c z c n
    i
    n
    = − Σ − = ⋅ = ⋅ >
    = Σ
    ( ) ,
    что доказывает второе свойство.
    Условие (56) называют требованием наименьших квадратов, которое
    мы обеспечили получением системы нормальных уравнений. Оно объясняет
    также, почему величина (27) по своей природе является именно дисперсией: -
    объяснение в том, что величина ygr в уравнении (27) есть статистическая
    оценка математического ожидания M{yg}-генерального СРЕДНЕГО.
    Разделим центрированную величину ( zi − Mz ) на среднеквадратичное
    отклонение σ исходной величины z. Такая операция называется НОРМИ-
    РОВАНИЕМ, т.к. среднеквадратичное отклонение здесь выступает как мера
    или норма измерения величины ( zi − Mz ) .Полученная величина Zn называ-
    ется нормированной:
    52
    Zni
    zi Mz
    =

    σ ,
    а суммарная операция центрирования и нормирования называется СТАН-
    ДАРТИЗАЦИЕЙ масштаба величины z.
    Физический смысл переменной Zn заключается в том, что показывает,
    на какое число величин σ отклоняется данное значение zi от своего гене-
    рального (или выборочного) среднего. Таким образом, для нормированной
    величины начало отсчёта производится от среднего значения zsr , а измере-
    ние её – в новых единицах «σ ».
    При обработке эксперементальных данных нормирование переменных
    производят по формуле
    Zn
    Zi zsr
    dz =

    , (57)
    где
    n
    zi zsr
    n
    dz i
    2
    1
    

    
     − Σ=
    = .
    Для обработки экспериментальных данных важны два свойства норми-
    рованных величин: сумма их по массиву равна нулю в силу первого свойства
    центрированной величины; сумма квадратов нормированных величин равна
    их количеству в массиве.
    Действительно, обозначая нормированно-центрированные факторы х
    как xn, для вектора размерности n будем иметь
    Σ Σ = ⋅Σ − =

    = 



     


    ( )2
    2
    1
    ( 2
    2 xsr xg
    dx dx
    xg xsr
    xn
    = xg xsr n
    n
    xg xsr
    ⋅Σ − =
    Σ −
    ( )2
    ( )2
    1 .
    Таким образом, Σ xn равна нулю, а Σ xn2 равна п. Тогда, заменяя в
    матрице моментов соответствующие элементы этими результатами, приве-
    дем матрицу моментов М к следующему виду:
    5 3
    n 0 0 Σx1x2 n n
    0 n Σx1x2 Σx12x2 Σx13 Σx1x22
    0 Σx1x2 n Σx1x22 Σx12x2 Σx23
    Σx1x2 Σx12x2 Σx1x22 Σx12x22 Σx13x2 Σx1x23
    n Σx13 Σx12x2 Σx13x2 Σx14 Σx12x22
    n Σx1x22 Σx23 Σx1x23 Σx12x22 Σx24.
    Такой вид матрицы при решении задачи регрессии и будет свидетель-
    ством правилности промежуточных расчетов.
    7 Синтезирование задач многофакторной и многостепен-
    ной регрессии для учебных целей
    Анализ учебной и методической литературы показывает, что в учебных
    пособиях отсутствуют задания, содержащие многофакторные и многостепен-
    ные учебные задачи. Обычно приводятся задачи с одним фактором-
    аргументом табличнозаданной функции ϕ(х) /7/, которая аппроксимируется
    линейным или квадратным уравнением.Таким образом, налицо проблема соз-
    дания задач многофакторной степенной регрессии для индивидуальных
    учебных заданий, которые отвечали бы всем вышеизложенным особенностям
    метода регрессионного анализа. Для многофакторной степенной модели объ-
    екта исследования эта проблема не решена.
    Проблему искусственного синтезирования задач регрессии впервые
    обозначил Е.Н. Львовский /1/. Он рассмотрел создание задач для однофак-
    торной линейной и параболической модели, что, конечно, не решает про-
    блемы.
    На кафедре вычислительной техники и приборостроения Оренбургско-
    го государственного университета разработан компьютерный модуль, гене-
    рирующий задачи многофакторной степенной регрессии. Пример такой син-
    тезированной задачи представлен в виде таблицы 1. Задача имитирует реаль-
    ную таблицу экспериментальных данных; векторы х – это факторы воздейст-
    вия на объект исследования, вектор уg-реакция объекта на эти воздействия.
    В учебных заданиях под таблицей экспериментальных данных в кодах
    индексов по форме (7) приводится исходное уравнение регрессии, которым
    студент должен аппроксимировать табличнозаданную функцию, полученную
    в результате эксперимента.
    Находя исходное уравнение, студент практически осваивает процедуру
    обработки экспериментальных данных в виде регрессионного анализа , а за-
    тем ему предлагается найти альтернативное уравнение – как более точное
    приближение табличной функции.
    54
    Методика расчетов по заданию включает три стадии процедуры рег-
    рессионного анализа:
    а) нахождение исходного полинома для отражения синтезированной
    таблицы экспериментальных данных;
    б) расчет показателей точности найденного уравнения:
    -остаточной дисперсии уравнения регрессии (27),
    - корреляционного отношения как показателя степени функционально-
    сти найденного уравнения (33),
    - интервальной оценки для математического ожидания расчетного зна-
    чения отклика объекта исследования на данной строке таблицы эксперимен-
    тальных данных;
    -в) нахождение альтернативного более точного уравнения.
    Рассмотрим процедуру создания задачи регрессии, представленной
    таблицей 1. С учетом всего изложенного выше, программа синтезирования
    задач 5-факторной регрессии при 50 опытах (n=50) содержит следующие
    этапы:
    а) Создание шести векторов Х - аргументов (факторов) табличнозадан -
    ной функции. Векторы табличных аргументов создаются по некоторым ис-
    скуственным зависимостям с участием функции random таким образом, что-
    бы коэффициенты парной корреляции этих векторов были меньше единицы.
    Например, вектор Х1 рассчитывался по следующим операторам программы:
    a3:=random(100)+50;
    For i:=1 to n do X1[i]:=a3×exp(0.33×ln(i+1))-5×i;
    а вектор X6 –по операторам
    For i:=1 to n do begin If i<=25 then X6[i]:=X5[n-i+1]-0.25×i;
    If i>25 then X6[i]:=X5[i-20]-0.3×i end;
    Из 6-ти созданных векторов пользователь отбирает пять, исключая
    шестой, по каким-либо соображениям наименее удачный.
    б) Для всех парных сочетаний векторов Х рассчитываются коэффици-
    енты корреляции, чтобы исключить случаи получения вырожденной матри-
    цы моментов. Если какой-то коэффициент равен единице, процедура генера-
    ции векторов повторяется. Программа предусматривает также вариант вве-
    дения векторов Х из файла данных.
    в) Принятые векторы Х нормируются по соотношению
    n
    x xsr
    xn x xsr
    i
    i
    i
    Σ −
    = −
    ( )2
    ,
    где xsr - среднее по вектору Х.
    г) Разработчиком принимается форма полинома – “идеальной” модели.
    Полином в виде индексов при коэффициентах регрессии вводится в про-
    грамму либо вручную, либо из файла данных. Индексы идентифицируют
    5 5
    члены полинома, воспроизводя все уравнение. Для синтезирования рассмат-
    риваемой задачи была принята модель вида
    0 3 5 12 23 24 25 34 45 123 125 134 145 234 245 345 1345 12345 22
    33 44 55 222 333 444 .
    Обозначим ее как уравнение 1.
    д) Для формирования численного вектора откликов yg в соответствии с
    этой формой идеальной математической модели, т.е. с уравнением 1, всем
    коэффициентам регрессии присваивают некие гипотетические значения. При
    этом соблюдают условие, что числовой вклад предыдущих членов уравнения
    в значение функции должен быть больше вклада последующих членов. При-
    нятые в данном случае значения представлены в таблице 8. Численные зна-
    чения коэффициентов регрессии могут быть введены в программу либо
    вручную, либо из файла данных. Теперь по принятой форме уравнения рас-
    считывают значения компонент вектора откликов yg, и эти значения вводят в
    первый «идеальный» вариант таблицы экспериментальных данных. Эта таб-
    лица есть идеальная модель задачи регрессии, которая имеет единственное
    решение и не содержит ошибки в табличном значении отклика yg, т.е. фак-
    тор случайности отклика в этой таблице отсутствует. Этот вариант задачи
    представлен в таблице 8.
    Таблица 8 - Tаблица экспериментальных данных
    G X1 X2 X3 X4 X5 Yg
    1 2 3 4 5 6 7
    1 79.49 81.59 10.30 17.28 128.77 80.20
    2 86.57 73.26 15.16 17.63 127.92 96.71
    3 86.35 74.05 11.66 18.12 129.38 95.13
    4 87.42 73.80 11.98 19.21 128.32 99.45
    5 93.39 53.84 14.24 20.35 120.77 99.51
    6 90.56 47.03 15.45 22.73 115.62 96.89
    7 91.95 46.98 17.03 24.57 114.82 100.73
    8 96.93 34.58 32.09 34.99 91.22 100.03
    9 97.80 29.56 32.89 36.55 86.88 92.50
    10 97.79 23.62 33.66 35.70 80.14 81.35
    11 97.60 18.09 38.20 33.91 72.56 74.73
    12 98.09 14.82 40.12 32.51 69.79 72.09
    13 97.76 12.67 42.92 31.84 66.93 70.67
    14 95.39 12.52 46.58 30.20 53.30 67.65
    15 95.62 11.88 66.43 29.90 44.72 69.04
    16 95.20 11.12 69.19 29.17 33.80 65.09
    56
    1 2 3 4 5 6 7
    17 95.08 9.95 70.84 29.01 31.38 63.78
    18 92.58 7.87 75.25 28.60 24.18 62.16
    19 91.02 6.84 74.63 28.45 13.42 58.79
    20 89.75 5.54 78.04 27.40 10.39 60.26
    21 90.00 4.87 81.73 26.29 9.48 61.81
    22 88.68 4.03 71.31 27.93 7.58 58.30
    23 86.61 3.97 86.54 27.00 6.93 62.09
    24 86.00 3.15 91.54 26.11 5.21 63.59
    25 84.26 2.96 96.33 25.56 4.72 65.95
    26 81.12 2.78 92.26 25.74 5.34 68.07
    27 79.18 2.74 92.21 23.18 5.38 74.15
    28 78.08 2.61 91.03 22.33 5.93 76.59
    29 77.23 2.00 91.43 20.41 6.96 81.03
    30 74.83 1.78 105.47 20.11 9.53 84.64
    31 72.40 1.14 108.82 19.45 15.18 89.43
    32 71.41 1.88 105.55 18.67 15.86 91.36
    33 70.02 2.54 102.61 16.98 15.93 94.76
    34 67.07 3.38 118.02 12.03 16.06 105.98
    35 64.42 4.91 121.80 10.42 19.54 110.48
    36 62.31 7.25 122.87 9.42 20.60 111.39
    37 62.19 8.57 123.18 8.17 23.83 111.86
    38 59.41 12.45 118.37 7.53 24.81 108.11
    39 55.30 19.13 135.20 6.99 29.13 105.72
    40 54.90 25.06 136.76 3.87 32.18 95.60
    41 54.29 32.26 137.59 3.46 37.97 83.14
    42 51.06 37.43 146.84 4.54 43.52 78.07
    43 48.18 43.45 144.47 6.00 50.54 68.29
    44 49.89 44.42 145.10 6.02 50.75 68.45
    45 48.26 44.65 141.06 6.00 51.76 65.15
    46 49.46 49.28 140.87 7.86 52.25 62.72
    47 50.19 33.70 135.52 7.69 46.38 86.33
    48 51.77 36.10 140.88 9.03 39.51 84.51
    49 55.33 32.81 136.46 9.76 32.79 88.23
    50 63.06 33.12 136.13 11.77 27.76 92.23
    Коды индексов «идеального» (начального) полинома регрессии
    5 7
    0 3 5 12 23 24 25 34 45 123 125 134 145 234 245 345 1345 12345 22
    33 44 55 222 333 444
    е) Сформированную таким образом задачу с идеальной математиче-
    ской моделью решаем по процедуре регрессионного анализа, включающей
    метод наименьших квадратов (МНК). Решение по МНК дает значения коэф-
    фициентов b, мало отличающиеся от гипотетических ( колонка 4 таблицы 9).
    ж) Теперь в значения отклика yg в «идеальной»таблице 8 следует ввсти
    случайную составляющую -влияние шума, например операторами
    Yg[i]:= Yg[i]-random(x)-random;
    Yg[i+1]:= Yg[i+1]+random(x)+random.
    Это было сделано при заданном значении х, равном 22. После этого та-
    блица 8 приобрела вид таблицы 1, которая и вошла в индивидуальное сту-
    денческое задание.
    Сопоставление данных исходной таблицы 8 и итоговой таблицы 1 по-
    казывает, что введение «шумовой помехи» в отклик объекта исследования
    обусловило заметную разницу в значения компонент вектора yg. Теперь ап-
    проксимация табличной функции даже «идеальным» уравнением дает только
    приближенное решение, наилучшее (согласно МНК) для данной формы по-
    линома (см. таблицу 9, пятая колонка).
    и) Теперь принимаем новый полином, отличающийся от идеальной мо-
    дели и отражающий таблицу экспериментальных данных приближенно. Этот
    полином представлен в 6 колонке таблицы 9.Он и играет роль исходного по-
    линома данного индивидуального задания. Идентифицируем его как уравне-
    ние 2. Решаем задачу, находя для исходного полинома вектор коэффициен-
    тов регрессии и характеристики точности.
    Приведем результаты такого решения задачи, помещенной в таблице 1.
    Расчетные значения коэффициентов регрессии приведены в таблице 9. Как
    видим, эмпирические коэффициенты b для уравнений 1 и 2 существенно от-
    личаются.
    Статистические показатели качества различных уравнений регрессии
    представлены в таблице 10.Для наглядности кроме уравнений (1) и (2) при-
    ведены результаты решения еще для трех уравнений.
    58
    Таблица 9 – Введенные и расчетные значения коэффициентов b
    при различной форме уравнения
    Идеальн
    bj в ин-
    дексах
    Введенное
    значение
    Расчетное
    зн. по ид.
    модели (1)
    без шума
    Расчетное
    зн. по ид.
    модели (1)
    с шумом
    Рабочее
    уравне-
    ние
    (2)
    Расчетное
    зн. по
    уравн. (2)
    1 2 3 4 5 6
    0 90 90,001 80,482 0 95,015
    3 15 14,994 29,172 1 9,376
    5 15 14,999 65,469 2 95,997
    12 15 14,993 16,685 3 -50,129
    23 15 14,988 81,481 4 25,769
    24 15 15,010 -6,707 5 -58,035
    25 7 6,976 260,209 12 59,058
    34 7 6,997 73,712 23 8,987
    45 7 6,986 68,061 34 138,354
    123 7 6,998 19,103 45 50,128
    125 3 3,001 -29,824 123 -17,491
    134 3 3,000 -60,003 234 46,780
    145 3 3,011 -39,886 345 -28,008
    234 3 2,993 -12,734 1234 2,311
    245 3 2,999 51,309 2345 -30,700
    345 1 1,013 4,711 11 -3,211
    1345 1 0,996 -1,076 22 37,268
    12345 1 1,004 46,860 33 76,475
    22 1 1,006 -92,776 44 47,961
    33 1 0,996 71,196 55 -30,553
    44 0,4 0,399 15,305 111 -16,191
    55 0,4 0,405 -97,212 222 -14,108
    222 0,4 0,400 -3,924 333 33,470
    333 0,4 0,399 30,628 444 -10,034
    444 0,4 0,399 -12,170 555 -9,562
    Для последних четырех уравнений остаточные дисперсии стати-
    стически неразличимы. Действительно, даже для наибольшей дисперсии
    285,130 и наименьшей – 201,822 их отношение составляет только 1,41. Кри-
    тическая граница доверительного интервала по таблицам F – распределения
    Фишера для данных условий (уровень значимости 0,05; число степеней сво-
    боды 50-6=44 и 50-25=25) равна 1,83. Таким образом, значение всех диспер-
    сий лежит внутри доверительного интервала.
    5 9
    Таблица 10- Показатели качества альтернативных уравнений
    Вид уравнения
    Остаточн.
    дисперсия
    Корреляц.
    Отношен.
    Уравнение 1 без шума
    0,000 1,000
    Уравнение 1 с шумом
    201,822 0,859
    Уравнение 2 (рабочее)
    228,585 0,838
    0 1 2 3 4 5 11 22 33 44 55
    235,705 0,722
    0 1 2 3 4 5 (линейное)
    285,130 0,589
    Как видим, показатель корреляционного отношения оказался в услови-
    ях данной табличной зависимости более чувствительным.
    8 Содержание лабораторного практикума по решению за-
    дач регрессии (пошаговая процедура)
    Индивидуальное учебное задание для лабораторного практикума соде-
    ржит таблицу экспериментальных данных и исходную форму полинома, кот-
    орым предлагается аппроксимировть табличнозаданную функцию.
    1 шаг. Закон распределения откликов и наличие в массиве откли –
    ков грубых ошибок. Берется строка таблицы, у которой значение отклика
    объекта исследования yg наиболее близко к среднему арифметическому по
    вектору у , и значение yg на этой строке логарифмируется в соответствии с
    правилами, изложенными в разделе 6.1. Полученое значение принимается за
    математическое ожидание отклика по данной строке таблицы эксперимен-
    тальных данных. Затем подбирается значение дисперсии для данного массива
    таким образом, чтобы среднеквадратичное отклонение составляло 15-20 про-
    центов от среднего значения yg. В соответствии с положениями теоремы Ля-
    пунова генерируется массив нормально распределенных величин с указан-
    ными параметрами распределения и объемом п=500. Проводится проверка
    гипотезы о нормальности распределения. После этого значения переменных
    пересчитывается на исходные и таким образом создается массив, имеющий
    логарифмическое нормальное распределение. Строятся полигон и гисто-
    грамма частот этого распределения. Проводится проверка гипотезы о при-
    надлежности крайнего значения переменной к данному массиву (проверка на
    60
    грубую ошибку). Если аномальность крайнего значения подтверждается, ис-
    следуется второе крайнее значение и т.д.
    2 шаг. Нормирование табличных аргументов-факторов Х. Проводи -
    тся нормирование аргументов табличнозаданной функции Х по соотношению
    (57). Результаты нормирования проверяются путем расчета сумм нормиро-
    ванных компонент векторов Х и сумм квадратов этих компонент.
    3 шаг. Расчет коэффициентов парной корреляции векторов Х. Рас-
    чет проводится по уравнению типа (58).
    1 2
    1, 2 ( 1)
    ( 1 1 )( 2 2 )
    x x
    i i
    x x n S S
    r x x sr x x sr

    = − − Σ
    , (58)
    где Sx – среднеквадратичное отклонение по векторам Х.
    Затем формула (58) преобразуется для нормированной формы векторов Х с
    учетом свойств нормированных величин, установленных при выполнении
    шага 2 и коэффициенты парной корреляции повторно рассчитываются по
    преобразованной формуле. В том случае, если какой-то из коэффициентов
    будет равен единице, один из векторов должен быть преобразован для нару-
    шения линейной связи с своим парным вектором. По завершении всей рабо-
    ты по обработке данных должен быть выполнен перерасчет преобразованно-
    го вектора к исходной форме.
    4 шаг. Расчет матрицы базисных функций F. Для образования мат-
    рицы вектор базисных функций, отвечающий исходному полиному регрес-
    сии, заполняется нормированными значениями факторв Х согласно строкам
    таблицы экспериментальных данных.
    4 шаг. Расчет матрицы моментов М в соответствии с разделом 2.4.
    5 шаг. Получение матрицы С, обратной матрице М.
    7 шаг. Преобразование вектора yg. Каждая “к”-тая компонента преоб -
    разованного вектора равняется произведению “к”-того столбца матрицы F на
    исходный вектор Yg.
    8 шаг. Нахождение исходной формы полинома регрессии, т.е. век -
    тора коэффициентов регрессии b. Каждая “к”-тая компонента вектора
    bравняется произведению “к”-той строки обратной матрицы С на преобразо-
    ванный вектор yg.
    9 шаг. Определение показателей качества исходного уравнения рег-
    рессии: остаточной дисперсии и корреляционного отношения.
    6 1
    10 шаг. Определение показателей качества исходного уравнения рег-
    рессии: интервальной оценки М{ yкg } и дисперсионной матрицы.
    11 шаг.Нахождение ряда альтернативных уравнений регрессии, по-
    иск полинома, отражающего табличнозаданную функцию более точно,
    чем исходное уравнение регрессии.
    12 шаг. Пересчет факторов Х в первоначальный вид, в частности, из
    нормированной формы.
    Сводный итоговый отчет должен содержать сопоставление исходного
    уравнения регрессии и альтернативного полинома с соответствующими вы-
    водами и заключением.

    Список использованных источников
    1 Львовский Е.Н. Статистические методы построения эмпирических
    формул.- М.:Высшая школа,1988.-239 с., ил.
    2 Конончук Н.И. Методы оценки выносливости жаропрочных сплавов.-
    М.: Металлургия,1966.-248 с.,ил.
    3 Бородюк В.П., Вощинин А.П., Иванов А.З. и др. Статистические ме-
    тоды в инженерных исследованиях.-М.:Высшая школа,1983.-216 с., ил.
    4 Иванов А.З., Круг Г.К., Филаретов Г.Ф. Статистические методы в
    инженерных исследованиях. Регрессионный анализ.-М.: МЭИ,1977.-203
    с.,ил.
    5 Гутер Р.С., Овчинский Б.В. Элементы численного анализа и матема-
    тической обработки результатов опыта.-М.:Наука,1970.-432 с.,ил.
    6 Пустыльник. Статистические методы анализа и обработки наблюде-
    ний.-М.:Наука,1968.-288 с.,ил.
    7 Плис А.И., Сливина Н.А. Лабораторный практикум по высшей мате-
    матике.- М.:Высшая школа,1994.-416 с., ил.
    8 Гмурман В.Е. Теория вероятностей и математическая статистика.-М.:
    Высшая школа, 2001.-479 с.,ил.
    9 Микешина Н.Г. Выявление и исключение аномальных значений //
    Заводская лаборатория.- 1966.-№3.- C.310.

    Вид литературы:  Прочее
    Учебный предмет:  Статистика
    Раздел:
    Математические:
    Теория вероятностей и мат статистика.
    Автор: varalla

    Добавлена 23.10.2009 в 00:40:47



    Голосование


    Случайное стихотворение

    Тяжёлые будни студента-биолога
    о сложности решения задач по законам Менделя

    Едва услышали звонок,
    Вбежали в класс задорно.
    Ах, сколько много за урок
    Узнаем мы сегодня.
    На доске увидев тему -
    Разом ужаснулись:
    Это тебе не теорему чётко отвечать,
    А задачи по законам Менделя решать.
    Тут дано нам два котёнка
    Цвета черепахи,
    Только не понятно вовсе
    Откуда мы их взяли.
    Доминанта, рецессива
    Что за ерунда?
    Смотрим мы на доску
    Задумчиво слегка.
    Как же можно из "дано"
    Получить "решение"?
    Трудно, сложно, не понятно!
    Где ж конец мучениям?
    Тут как с неба благодать -
    Прозвенел звонок опять.
    Будем дома долго думать:
    Где ж котят нам подевать! Оставить комментарий

     
     
     


    Смотрите также по данному разделу
     
    Горящие заказы
    Повысить уникальность
    Сделать задания по описанию информатика
    Перепечатать в ворд с картинок
    Объявления Уведомления
    prepod2011  Ищу исполнителей для решения тестов Синергия. Поток заказов. 150р за один
    тест 30 вопросов. Кому интересно - пишите в личку.
    Объявления Уведомления  ?
    Исполнителям
    DenisChigrev Работу делал два месяца, вместо договоренных трех недель. Всё время говорил, что некогда, исправляет какие-то ошибки. При этом делал работы тех, кто делал заявки позже меня. Когда он сделал мне работу, то она мне была уже не нужна. И в итоге отказался делать работы моим додногруппникам-должникам.    
    olga_1309 Большое спасибо за работу! Приятно иметь дело с надежным человеком!  
    myangel очень оперативное выполнение заказа, спасибо большое!  
    valnik Прекрасный автор, очень рекомендую!  
    _Любовь_ Благодарю за качественное выполнение заказа, буду рад работать с Вами еще!  
    vladi_79 Спасибо за досрочную разблокировку!  
    e-wolfy Большое спасибо за проделанную работу!  
    Catran Отличный исполнитель! Ответственный, корректный, помог с достаточно сложным заданием! Рекомендую!!!!  
    nwtu11 Спасибо за выполнение работы по Электронике  
    wroni спасибо за работы! оперативно выполнили  
    Новые отзывы
    Программистам Дизайнерам Сайты Сервис Копирайтерам Файлообменики Заработок Социальная сеть Статистика
  • Советы и статьи
  • Основы программирования
  • Веб-программирование
  • Soft, программы
  • Статьи, Советы
  • Форум дизайнеров
  • Soft дизайнеров
  • С чего начать?
  • Создание сайтов
  • Раскрутка сайтов
  • CMS системы, магазины
  • Домены, Хостинг
  • Soft, программы
  • Безопасные сделки
  • Менеджеры
  • Личные авторы
  • Личные исполнители
  • CМС Уведомления
  • Email Уведомления
  • СМС пользователям
  • Емэйл и СМС Рассылки
  • Объявления Уведомления
  • Публикация картинок
  • Сокращение ссылок
  • Статьи и Советы
  • Seo
  • Soft, программы
  • Файлообменник бесплатный
  • Обзор файлообменников
  • Заработок на
    файлообменниках
  • Статьи и Советы
  • Облачные хранилища
  • Сайт помощи студентам
  • 2х уровневая реферальная
    программа
  • Удаленное создание заказов
  • Форум о Заработке
  • Статьи, советы
  • Фотогалерея
  • Видеогалерея
  • Лучшие
  • Пользователей: 332395
  • Исполнителей: 7623
  • Заказано работ: 373048
  • Выполнено на заказ: 132009
  • Готовых работ: 176263
  • В библиотеке:2439
  • Полная Статистика
  • контрольную работу по экономике сделают быстро.
      Доклад   Диплом  Диссертация  Курсовая  Отчеты по практике  Контрольная  Реферат  Решение задач  Лабораторная  Презентация  Бизнес-планы  Эссе  Отзывы и рецензии   Монография   Чертежи   Перевод   Набор текста, формул   Онлайн