База примеров

Анализ данных биометрии растений на STATISTICA

Введение

Постановка задачи

Решение в системе STATISICA

Результаты

 

Введение

Биометрическая генетика в селекции растений нацелена на оптимизацию (повышение эффективности, надежности, ускорение и удешевление) процесса выведения сортов сельскохозяйственных культур и подбору оптимальных условий для их выращивания.

Достигается это путем построения математических моделей изменчивости хозяйственно ценных признаков для отдельных растений, их групп, популяций или целых агрофитоценозов.

Затем проводится проверка моделей на данных экспериментов. Для этого, а также для дальнейшего использования лучших моделей применяют методы математической статистики.

В результате появляется возможность заранее, с помощью выбранных моделей сравнить возможные варианты селекционных воздействий (подобрать лучшие родительские пары, схемы скрещиваний, отбора, выбрать наиболее перспективные среди селекционных образцов и т.д.).

Основой любого биометрико-генетического метода служит математическая модель, в которой упрощенно описаны предположения о влиянии на признак наследственных и средовых факторов, их взаимодействий, а также возможные эффекты целенаправленных воздействий человека на эти факторы.

В данной статье рассматривается селекция сортов риса, но подход может быть с успехом применен и к другим сельскохозяйственным культурам.

 


Постановка задачи

Имеются данные по селекции 400 растений риса. Фрагмент таблицы с данными смотрите ниже.

Данные по селекции

Изучается влияние трех факторов: густота стояния растения, способ посева, сорт (см. первые три столбца в таблице) на 11 биометрических показателей растения:

  • Высота растения, см;

  • Общая кустистость, шт./растение;

  • Продуктивная кустистость, шт./растение;

  • Длина метёлки, мм;

  • Число зёрен на растении, шт;

  • Масса зерна с растения, г;

  • Коэффициент хозяйственной эффективности фотосинтеза;

  • Масса 1000 зерен, г;

  • Стерильность метелки, %;

  • Биологическая продуктивность растения, г;

  • Урожайность, г/м2.

Все три фактора – категориальные признаки и могут принимать 2 значения (условно закодированы кодами 1 и 2).

Цель исследования: Требуется определить, какие именно факторы оказывают влияние на перечисленные выше биометрические показатели.

 


Решение в системе STATISICA

Для исследования влияния факторов на биометрические показатели (например, Масса 1000 зерен) используем параметрический t-критерий Стьюдента. t-критерий Стьюдента подразумевает сравнение двух групп по непрерывному признаку. В данном случае группы определяются согласно значению фактора (1 или 2).

Попытаемся ответить на вопрос: различаются средние значения массы 1000 зерен по группам или нет?

Для начала построим диаграммы размаха (Графика/2М Графики/Диаграмма размаха)

Диаграмма размаха 1

Диаграмма размаха 2

Диаграмма размаха 3

На диаграммах размаха диапазоны или характеристики распределения значений выбранной переменной (или переменных) изображаются отдельно для групп наблюдений, заданных значениями категориальной переменной.

Для каждой группы наблюдений вычисляется центральное значение (например, медиана или среднее) и вариационные статистики или статистики диапазона (например, квартили, стандартные ошибки или стандартные отклонения), и выбранные значения изображаются на диаграмме размаха выбранного типа.

Рассмотрим, например, диаграмму размаха признака Масса 1000 зерен по фактору Сорт.

  • Медиана означает, что половина от общего числа наблюдений расположена ниже этого значения, а другая половина - выше.

  • Высота прямоугольника есть интервал, в который попадает 50% наблюдений (от 25% и выше до 75% и ниже).

  • Далее идет зона размаха без выбросов, затем зона выбросов и, наконец, зона крайних точек.

Мы видим, что согласно этим значениям Сорт 1 дает существенно большее значение массы 1000 зерен, чем Сорт 2. По факторам густоты стояния растения и способа посева визуально выделить данную особенность нельзя.

Напомним, что t-критерий - параметрический критерий, поэтому для его использования необходимо убедиться в нормальности распределения признака по группам. Для этого построим гистограмму (Графика/Гистограммы). В том же меню на вкладке Дополнительно рассчитаем статистики Шапиро-Уилка для проверки гипотезы о нормальности распределения.

Гистограмма

Гистограмма состоит из столбцов, высота которых определят количество наблюдений попавший соответствующий диапазон. Красная кривая подгонки показывает кривую нормального распределения, для данного количества наблюдений, среднего и разброса.

На построенной гистограмме мы видим, что распределение не нормальное, т.к. есть два часто встречающихся значения. Скорее всего, на подобную неоднородность повлиял фактор Сорта растения. Мы помним, что первый сорт дает более высокое значение массы 1000 зерен, чем второй.

На вкладке Категории установим в качестве категориальной переменной фактор Сорт. На полученной гистограмме согласно критериям заключаем, что для Сорта 2 распределение изучаемого признака (масса 1000 зерен) не является нормальным на установленном уровне значимости (p < 0.05). Для Сорта 1 таких противоречий не найдено.

Гистограмма для категорий

Итак, t-критерий в данной ситуации не применим. Используем непараметрические методы для изучения связи между факторами и признаком (меню Анализ/Непараметрическая статистика/Сравнение двух независимых групп).

Ниже приведены результаты использования критерия Манна-Уитни.

Результаты использования критерия Манна-Уитни

Т.к. p-уровень < 0.05 мы заключаем, что Сорт значимо влияет на Массу 1000 зерен риса.

Отметим также, что Способ посева также влияет на Массу 1000 зерен (p = 0.009).

критерий Манна-Уитни

Фактор Густота стояния растений не связана с изучаемым признаком (p=0.14). Возможно, для того чтобы критерий Манна-Уитни показал значимые различия необходимо увеличить объем выборки.

критерий Манна-Уитни

 


Результаты

Итак, мы установили, что Способ посева и Сорт растения оказывают значимое влияние, по крайней мере, на Высоту растения и на Массу 1000 зерен (влияние на остальные признаки можно проверить, пользуясь аналогичными рассуждениями).

Фактор Густота стояния растения на указанные два биометрических показателя не влияет.

Эффекты для найденных зависимостей, конкретные коэффициенты модели и межфакторные взаимодействия также могут быть установлены с помощью пакета STATISTICA, но уже в рамках многомерного дисперсионного анализа (MANOVA).

Более подробную информацию по данному кейсу Вы можете получить у специалистов StatSoft.


В начало


Узнайте больше на курсах Академии Анализа Данных StatSoft

Список курсов    Календарь    Расписание груповых занятий






info@statsoft.ru       (495) 787-77-33       (499) 674-06-15       STATISTICA Data Miner 13.3 Trial

Авторские права на дизайн и материалы сайта принадлежат компании StatSoft Russia.
Все права защищены.

© StatSoft Russia
1999-2017

StatSoft Russia – компания, зарегистрированная и действующая в соответствии с законами России, которые могут отличаться от законов других стран, имеющих офисы StatSoft. Каждый офис StatSoft является самостоятельным юридическим лицом, имеет право предлагать услуги и разрабатывать приложения, которые могут быть, а могут и не быть представлены в офисах StatSoft других стран.

Лицензионное соглашение      Карта сайта