В эпоху интенсификации всех видов производства особенно актуальным становится выбор методов оценки биопоказателей, характеризующих как реакции биообъекта на изменение условий окружающей среды, так и эффективность производства сельхозпродукции. Яблоки являются наиболее доступным и излюбленным для сибиряков источником витаминов в течение всего года. Это послужило поводом для выбора нами такого тест-объекта как яблоня дикая (Malus baccata) для апробации применения различных методов статистической оценки морфометрических показателей биопродуктивности и определения зависимостей между ними.
Для принятия обоснованных решений в различных сферах деятельности всё чаще используется моделирование. Построение математических моделей является эффективным методом исследования различных объектов и систем.
Для сложных реальных объектов приходится предварительно решать такие задачи, как: выбор структуры или задание класса моделей, оценка степени и формы влияния входных переменных на выходные. [1] Это связано с тем, что любые данные, представляющие собой количественные характеристики каких-либо объектов или систем, формируются под воздействием множества факторов, не все из которых доступны внешнему контролю. Таким образом, построение тех или иных оценок данных зависит от априорных сведений и от постановки практической задачи. Ясно, что на качество принимаемых решений влияет то, насколько правильно мы можем оценить реальные данные и насколько адекватны будут построенные модели. В данной работе рассматривались проблема обработки результатов измерений, решение которой стало целью данной работы.
Цель данной работы состоит в исследовании и построении непараметрической регрессионной модели, сравнении нескольких аналитических методов нахождения моды плотности распределения, исследовании применения коэффициента корреляции и дисперсионного отношения при анализе данных, апробации всех исследуемых методов на реальных данных.
Вопрос о наличии и виде функциональной зависимости, при решении реальных задач представляется, как сказано ранее, достаточно сложным. В данной работе предлагается оценить степень влияния входных переменных на выходные с помощью дисперсионного отношения и на основе этого строить те или иные модели, по которым, в дальнейшем, определяется форма зависимости выходных переменных от входных. Применение дисперсионного отношения и коэффициента корреляции, позволит дать более объективную трактовку построенных моделей.
Рисунок 1. Зависимости характеристик исследуемого биообъекта
Видно, что длина плодоножки минимальна при диаметре плода приблизительно равном 11(мм) и увеличивается при увеличении и уменьшении диаметра плода. Количество семян (в зависимости от диаметра плода) имеет три максимума и два из них совпадают с максимумом длины плодоножки и один минимумом. Первый максимум количества семян (7 шт.) соответствует наименьшему диаметру плода (3-4 мм) и максимуму длины плодоножки (39 мм); такая ситуация может быть интерпретирована следующим образом — особь биообъекта, соответствующая данным значениям переменных, находится в угнетенном состоянии, вероятно в не комфортных условиях. Минимум количества семян приходится на диаметр плода приблизительно равный 14,5(мм) и длину плодоножки приблизительно равную 50(мм), что соответствует максимуму диаметра плода, при уменьшении длины плодоножки количество семян не намного больше нормы (норма — 5).
Для диаметра плода наилучшей оценкой является мода, вычисленная третьим методом, это вероятно связано с особенностью распределения. Для длины плодоножки наиболее близко к максимуму плотности математическое ожидание и мода, вычисленная третьим методом. И для количества семян мода, вычисленная третьим методом, математическое ожидание и мода, вычисленная вторым методом, близки и являются хорошими оценками; а мода, вычисленная первым методом это можно объяснить тем, что это распределения близко к нормальному, и смещения возникли при расчете параметра х0.
В таблице 1 приведены математическое ожидание, дисперсия, минимум и максимум, медиана.
Таблица 1
Оценки математического ожидания, дисперсии, минимума и максимума, медианы
Выборка | Мат. ожидание | Дисперсия | Максимум | Минимум | Медиана |
х1 | 9,007 | 4,374 | 20,1 | 3 | 7,15 |
х2 | 38,697 | 6,043 | 54,2 | 20 | 39,00 |
х3 | 5,506 | 2,052 | 10 | 1 | 5,00 |
В таблице 2 приведены оценки моды полученные тремя предложенными методами (мода 1 – первым методом, мода 2 и мода 3 – вторым и третьим соответственно), и знак коэффициента асимметрии.
Таблица 2
Оценки моды
Выборка | мода 1 | мода 2 | мода 3 | асимметрия |
х1 | 5,409 | 8,299 | 5 | + |
х2 | 37,398 | 38,539 | 35 | + |
х3 | 3,859 | 5,196 | 5 | + |
В таблице 3 приведены дисперсионные отношения, вычисленные с помощью непараметрической регрессионной модели при оптимальном параметре размытости, коэффициенты корреляции.
Таблица 3
Оценки дисперсионного отношения и коэффициент корреляции
Выборка |
Дисперсионное отношения |
Коэффициент корреляции | |||||||
х1 | х2 | x3 | х и x2 | х1 и x3 | х2 и x3 | х1 | х2 | x3 | |
у1 | 0,503 | 0,121 | 0,503 | 1 | |||||
у2 | 0,908 | 0,007 | 0,908 | 0,475 | 1 | ||||
у3 | 0,247 | 0,050 | 0,247 | -0,312 | -0,075 | 1 |
Можно сказать, что слабая линейная связь есть между длиной плодоножки и диаметром плода, диаметром плода и количеством семян, длина плодоножки не имеет линейной зависимости с количеством семян.
Дисперсионное отношение указывает на наличие функциональной зависимости длины плодоножки от диаметра плода, причем диаметр плода менее зависим от длины плодоножки. Не выявлено зависимостей количества семян от длины плодоножки и от диаметра плода, как и обратных зависимостей этих переменных. То есть, по количеству семян нельзя определить длину плодоножки и диаметр плода, как и по длине плодоножки или диаметру плода нельзя определить количество семян. Из этого следует, что мы можем говорить только о связи диаметра плода и длины плодоножки (верхний график рисунка 1) зависимость количества семян от других переменных имеет случайный характер, соответственно, делать выводы, основываясь на средний и нижний графики рисунка 1 можно только в очень общем виде.
Стоит заметить, что множественные дисперсионные отношения (таблица 3) полностью определяется парными связями, поэтому строить многомерные зависимости не имеет смысла. Это, очевидно, связанно с тем, что переменная «количество семян» не зависима от других переменных, как говорилось ранее.
Рисунок 2. Зависимость ошибки от Сs
На рисунке 2 представлены зависимости ошибки от Сs и выбор оптимального Cs.
На рисунке 3 представлен пример зависимости дисперсионного отношения от Сs.
Рисунок 3. Зависимость дисперсионного отношения n от Сs
Выявлено, что при увеличении Сs дисперсионное отношение почти всегда убывает. Также обнаружены ошибки вычисления дисперсионного отношения когда построение вероятностные модели регрессии приводит большим ошибкам, чаще при использовании вероятностной модели. Это обуславливается теми ситуациями, когда построенная модель является более худшим приближением, чем математическое ожидание то есть, прямая у=const=m(x).
На данных графиках рисунка 4 приведены некоторые зависимости, построенные с помощью регрессионной модели и линейное приближение.
В таблице 4 приведены математическое ожидание, дисперсия, минимум и максимум, медиана.
Таблица 4
Оценки математического ожидания, дисперсии, минимума и максимума, медианы
Выборка | Мат. ожидание | Дисперсия | Максимум | Минимум | Медиана |
х1 | 34,389 | 13,499 | 60 | 4 | 34,0 |
х2 | 60,985 | 14,533 | 90 | 30 | 62,0 |
х3 | 58,522 | 20,726 | 97 | 22 | 64,5 |
х4 | 4818,584 | 41813,0721 | 10185 | 1965,6 | 4432,4 |
В таблице 5 приведены оценки моды полученные тремя предложенными методами (мода 1 – первым методом, мода 2 и мода 3 – вторым и третьим соответственно), и знак коэффициента асимметрии.
Таблица 5
Оценки моды
Выборка | Мода 1 | Мода 2 | Мода 3 | Асимметрия |
х1 | 41,801 | 34,389 | 40 | + |
х2 | 65,477 | 61,105 | 70 | + |
х3 | 77,912 | 58,522 | 40 | + |
х4 | 3484,076 | 2549,360 | 3430 | + |
Далее приведены результаты для второй выборки 2 (x1 — длина черешка, х2 – ширина листа, х3 – длина листа, х4 — площадь листа, n=136) (рис.4):
Рисунок 4. Некоторые зависимости характеристик исследуемого биообъекта.
Из гистограмм видно, что для длины черешка и площади листа наилучшей оценкой является мода, вычисленная третьим и первым методом, это вероятно связано с тем, что плотность распределения асимметрична. Для ширина листа наиболее близка к максимуму плотности мода, вычисленная третьим методом; и для ширины листа мода, вычисленная третьим и первым методом, близки и являются хорошими оценками, это вероятно связано с особенностью распределения.
Дисперсионное отношение указывает на наличие не сильной функциональной зависимости также длины черешка и длина листа с шириной листа, длины черешка и ширины листа с длинной листа. Ширина листа определяется больше длиной листа, и длина черешка – шириной листа, а длина листа – совместным вкладом длины черешка и ширина листа. Вид этих зависимостей представлен на рисунке 5.
Рисунок 5. Зависимость дисперсионного отношения n от Сs
На рисунке 5 представлен пример зависимости дисперсионного отношения от Сs Выявлены тенденции аналогичные, ранее найденным.
В таблице 6 приведены дисперсионные отношения, вычисленные с помощью непараметрической регрессионной модели при оптимальном параметре размытости, коэффициенты корреляции.
Можно сказать, что есть слабая линейная связь длины черешка, – ширина листа с площадью листа; длина черешка имеет среднею степень линейной связи с ширина и длина листа. Площадь листа определяется длиной листа, и независима от длины черешка и ширина листа.
Таблица 6
Оценки дисперсионного отношения и коэффициент корреляции
Выборка |
Дисперсионное отношение |
Коэффициент корреляции | ||||||||
х1 | х2 | x3 | х1 и x2 | х1 и x3 | х2 и x3 | х1 | х2 | x3 | х4 | |
у1 | 0,382 | 0,317 | 0,382 | 1 | ||||||
у2 | 0,0246 | 0,409 | 0,246 | 0,53 | 1 | |||||
у3 | 0,218 | 0,295 | 0,336 | -0,44 | -0,33 | 1 | ||||
у4 | 0,109 | 0,900 | 0,996 | -0,29 | 0,88 | 0,82 | 1 |
Стоит заметить, рассматривая множественные дисперсионные отношения (таблица 6) что, в зависимости длины черешка от длины и ширены листа определяющую роль играет ширина листа; в зависимости длины листа от длины черешка и ширены листа множественная связь лучше, чем парные; а в зависимости ширены листа от длины черешка и длины листа парная связь лучше, чем множественная.
Выводы и заключения.
В данной работе рассматривались проблема обработки результатов измерений.
По реальным данным продуктивности яблони дикой были построены и исследованы непараметрические регрессионные модели, результаты исследований были объяснены, кроме того, исследовалось применение коэффициента корреляции и дисперсионного отношения при анализе данных. Использование дисперсионного отношения позволило дать более объективную трактовку построенных моделей.
Предложены три аналитических метода нахождения моды плотности распределения, и построены по данным оценки моды, математического ожидания и медианы. В ходе сравнительного анализа этих оценок были сделаны следующие выводы:
- каждая из предложенных оценок моды применима в конкретных условиях;
- наиболее универсальной является оценка моды, полученная третьим методом;
- и в определенных условиях наиболее точной является оценка моды полученная первым методом.
Предложен способ преобразования статистических данных, имеющих логнормальное распределение к нормальному, таких, как продуктивность фруктовых деревьев.
Исследования проводились в рамках поддержанного РГНФ научного проекта № 14-16-24001.
Список литературы:
- Хижняк С.В. Математические методы в биологии и экологии: часть 3. Учебно-методическое пособие. – Красноярск, 2005.
- Кремер Н.Ш., Теория вероятностей и математическая статистика: Учеб. пособие для студентов вузов. – М., 2004.
- Тарасенко Ф.П. Непараметрическая статистика. — Томск: Изд-во Томск. ун-та, 1976. 292 с.
- Медведев А.В. Непараметрические системы адаптации. — Новосибирск: Наука 1983. 174с.
- Слонова Л.А. Разработка и исследование непараметрических вероятностных моделей стохастических систем. Сб. науч. тр. Краснояр. гос. торгово-экономический ин-т Красноярск, 2004. 170 с.
- Дисперсионная идентификация / Сост. Райбман Н.С. и др. — М.: Энергия, 1981. 417 с.
- Райбман Н.С., Чадеев В.М. Построение моделей процессов производства. — М.: Энергия, 1965. 376 с.[schema type=»book» name=»НЕКОТОРЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ БИОПОКАЗАТЕЛЕЙ» description=»Исследованы аналитические методы нахождения моды плотности распределения и применение коэффициента корреляции и дисперсионного отношения при анализе данных. Проведена апробация исследуемых методов на морфометрических показателях яблони сибирской. Предложен способ преобразования статистических данных, имеющих логнормальное распределение к нормальному.» author=»Герасимова Валерия Евгеньевна, Герасимова Людмила Анатольевна, Сугак Евгений Викторович» publisher=»БАСАРАНОВИЧ ЕКАТЕРИНА» pubdate=»2017-03-11″ edition=»ЕВРАЗИЙСКИЙ СОЮЗ УЧЕНЫХ_30.05.2015_05(14)» ebook=»yes» ]