28 Фев

ОБРАБОТКА И АНАЛИЗ ГЕНЕТИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ПРИ ПОМОЩИ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ НОВЫХ ПРИЗНАКОВ




Номер части:
Оглавление
Содержание
Журнал
Выходные данные


Науки и перечень статей вошедших в журнал:

Породой называют достаточно большую группу животных, которых можно разводить, не прибегая к вынужденному родственному спариванию, связанных общностью происхождения и отличающихся характерными особенностями типа и продуктивности, поддерживаемых, и развиваемых трудом человека в определенных природных и хозяйственных условиях. В настоящее время отсутствуют формальные признаки, позволяющие определить, представляет ли определенная группа животных новую породу. В настоящей работе предлагается использовать для этой цели методы математической статистики.

Поскольку фенотипические признаки животных определяются генетическим кодом, представляется обоснованным использовать для выявления пород генетический материал животных. Таким образом, для разработки методологии выявления новых признаков необходимо обработать и проанализировать генетические последовательности животных. На основе проведенного анализа предполагается выявить нужные признаки и затем разработать наиболее эффективную методологию выявления этих признаков.

В качестве экспериментальных данных были выбраны генетические последовательности популяций голштинизированного скота некоторых хозяйств Красноярского края. Генетические последовательности представляют собой последовательность генов (антигенов), основанных на одном факторе крови. Замеры проводились по 10 факторам крови у более чем двух тысячей особей.

Эти данные подходят по нескольким причинам. Так как известно, что рассматриваемые хозяйства производили обмен генетическим материалом, мы можем сделать вывод, что данные разных хозяйств имеют некоторое сходство. Степень сходства нам неизвестна. Это помогает выявлять общие признаки (в отличии от не связанных данных), но не позволяет выявить признаки не прибегая к статистическому анализу.

Данная выборка достаточно велика для проведения большинства статистических тестов и достаточно мала что бы проведение классификации и кластеризации не вызывало затруднений (в плане выбора методов и расчетных мощностей).

Исходя из вышесказанного для разработки методологии выявления новых признаков были поставлены следующие задачи:

  1. Обработка данных (генетических последовательностей) с целью вычисления частот встречаемости генов и их комбинаций.
  2. Расчет генетического расстояния и степени сходства между представленными в исследовании выборками (популяций скота хозяйств), а так же между генеральной совокупностью и выборками.
  3. Кластеризация данных по нескольким изменяемым параметров (размер кластера, количество кластеров и т.д.).
  4. Анализ кластеризованных данных. Выявление сочетаний генов и их комбинаций, которые оказали наибольшее влияние на кластеризацию.
  5. Проверка статистических гипотез, проверка данных статистическими тестами и критериями для выявления новых признаков.
  6. Анализ разброса частот встречаемости генов.

На основании предоставленных данных были построены матрицы генетического сходства и генетических расстояний (Таб. 1, Таб. 2).

Таблица 1.

Матрица генетических расстояний

  Генеральная

совокупность

Выборка 1 Выборка 2 Выборка 3 Выборка 4
Генеральная

совокупность

0 0,0445344 0,0354276 0,0334643 0,0172739
Выборка 1   0 0,1429289 0,0719334 0,0578487
Выборка 2     0 0,0694216 0,0586471
Выборка 3       0 0,0700737
Выборка 4         0

На основе матриц сделано наблюдение — генетическое расстояние между популяциями отдельных хозяйств составляет не более 0,143, что является достаточно небольшим значением (Таб. 1).

Таблица 2.

Матрица генетического сходства

  Генеральная

совокупность

Выборка 1 Выборка 2 Выборка 3 Выборка 4
Генеральная

совокупность

1 0,9564427 0,965193 0,9670894 0,9828745
Выборка 1   1 0,8668158 0,9305929 0,9437928
Выборка 2     1 0,9329333 0,9430395
Выборка 3       1 0,932325
Выборка 4         1

Набольшее сходство демонстрируют выборки 1 и 4. Наименьшее сходство демонстрируют выборки 1 и 2 (Таб. 2).

С целью проверки зависимости и связности выборок была сформулирована следующая статистическая гипотеза: значимое различие частот встречаемости генов представленных  выборок отсутствует либо не превышает случайных отклонений.

Для проверки гипотезы, она была разделена не несколько дополняющих друг друга гипотез. Гипотезы были проверены соответствующими критериями.

Проверив критерием Зигеля-Тьюки выборки, мы выяснили, что разброс частот встречаемости генов двух выборок одинаков.

Для установки статистической связи между частотами встречаемости генов использовали множественный коэффициент корреляции рангов Кендалла. Мы можем сделать вывод о зависимости частот встречаемости генов выборок.

Метод Уилкоксона-Манна-Уитни определяет, достаточно ли мала зона перекрещивающихся значений между двумя выборками. По результатам проверки значимых различий между выборками нет.

На основании результатов проверки критериями принята основная гипотеза: значимое различие частот встречаемости генов представленных выборок отсутствует либо не превышает случайных отклонений.

Таким образом, зависимость и связность выборок доказана.

Тест Лемана-Розенблатта показывает, на сколько однородна выборка. В ходе проведения теста Лемана-Розенблатта  получены следующие результаты: для большей части выборок принята нулевая гипотеза об однородности выборок. Для выборок 1 и 2, выборки 4 и  генеральной совокупности приняли альтернативную гипотезу – частота встречаемости антигенов неодинакова между двумя различными выборками. Следовательно, на данном этапе сделать однозначный вывод об однородности всего массива популяций невозможно.

Проведенные тесты и проверки критериями дали лишь общее представление о предоставленных данных. В дальнейшем предполагается провести анализ несколькими критериями.

Выполнение кластерного анализа и анализ выходных данных является приоритетным в дальнейших исследованиях.  Кластерный анализ позволит обнаружить новые признаки и на основе этого разработать методологию их выявления.

Библиографические ссылки

  1. Хабибрахманова Я.А. Полиморфизм генов молочных белков и гормонов крупного рогатого скота: автореф. дис. канд. биолог. наук / ФГНУ ВНИИПЛЕМ: 2009.
  2. Урядников М.В. Частота встречаемости разных генотипов по соматотропину у коров разного происхождения: ФГОУ ВПО: 2012.
  3. Игнатьев И.В. Полиморфизм гена MDR1: популяционные и фармакогенетические аспекты: автореф. дис. канд. биолог. наук / ГУ НЦ Биомедицинских технологий РАМН: 2007.
  4. Василевич В. И. Статистические методы в геоботанике: Л.: Наука, 1969.
    ОБРАБОТКА И АНАЛИЗ ГЕНЕТИЧЕСКИХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ПРИ ПОМОЩИ МЕТОДОВ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ С ЦЕЛЬЮ ВЫЯВЛЕНИЯ НОВЫХ ПРИЗНАКОВ
    Настоящая работа посвящена оценке и методам статистической обработки генетических последовательностей популяций голштинизированного скота некоторых хозяйств Красноярского края для выявления новых признаков. В статье описывается применение статистических гипотез и статических тестов для проверки зависимости и связности выборок.
    Written by: Харитонов Тимофей Андреевич, Саяпин Александр Владимирович
    Published by: басаранович екатерина
    Date Published: 05/06/2017
    Edition: ЕВРАЗИЙСКИЙ СОЮЗ УЧЕНЫХ_ 28.02.2015_02(11)
    Available in: Ebook