предметів

реферат

Асоціаційне дослідження є популярним дизайном дослідження для виявлення генів сприйнятливості до загальних складних захворювань. У такому дослідженні наявність невідповідних зразків, таких як зразки від найближчих родичів або виявлення забруднення ДНК, спричинює інфляцію помилок типу I або зниження показників. Тут ми пропонуємо метод виявлення, заснований на національній ідентичності (IBS) непридатних зразків, беручи до уваги дисбаланс зв'язування (LD). Статистичні дані аналізу - це середнє значення частки алелів, які мають однаковий стан у кожному окремому нуклеотидному поліморфізмі (SNP) між кожною парою зразків у дослідженні асоціації. Для розгляду LD вводиться коваріація кількості спільних алелів між двома SNP. Ми показуємо, що похибка та потужність типу I точно оцінюються в даних, змодельованих комп'ютером, і що якщо кількість аналізованих SNP невелика, ефективність виявлення невідповідних зразків є кращою, ніж попередній метод в модельованій LD. Застосування даних реальних досліджень асоціацій показало, що точність оцінки розподілу статистичних даних тестів покращилася, коли розглядалася LD. Були визначені зразки пар, які вважаються братами та сестрами. Ці результати свідчать про те, що метод виявлення IBS на основі LD корисний для виявлення невідповідних зразків у дослідженні асоціації.

Асоціаційне дослідження є популярним дизайном дослідження для виявлення генів сприйнятливості до загальних складних захворювань. 1 Відповідно до загальної гіпотези захворювання (CD-CV), сила дослідження асоціації, як правило, вища, ніж дослідження зв'язування для виявлення чутливих до хвороби генів. Більшість досліджень асоціацій шукають генетичні маркери, які пов’язані із захворюванням, шляхом порівняння частоти випадків (захворювання) та контрольної (вільної від захворювання) популяції. Потім в області дисбалансу зв'язування (LD), що відповідає асоційованому генетичному маркеру, можна ідентифікувати чутливий до захворювання ген. Останнім часом однонуклеотидні біалельні поліморфізми (ОНП) широко використовуються як генетичні маркери.

Кілька забобонів можуть бути введені в дослідження та аналітичні зв’язки, що є надзвичайно важливим для належного лікування, оскільки вони спричиняють значну інфляцію помилок типу I або погіршення роботи. Контроль якості (QC), серія операцій з виявлення та усунення упередженості, включає такі можливі причини, як розшарування популяції, забруднення зразків та взаємозв'язок між криптами. 1, 3 Забруднення зразка може статися, коли зразки з різним індивідуальним походженням помилково змішуються в експериментальному процесі, такому як вилучення ДНК або типізація SNP. Криптоїдна спорідненість спостерігається, коли деякі близькі родичі випадково включаються в дослідження без відома дослідників, що може спричинити інфляцію помилки типу I 3.

Для загального виявлення споріднених зразків було запропоновано тест коефіцієнта ймовірності на основі зворотної ймовірності генотипу в певних взаємозв’язках. 4 Для сімейного дослідження було запропоновано ультрасучасний метод ідентичності (IBS) 5, 6 для виявлення помилок у відносинах sib-pair, використовуючи суму IBS для пари братів і сестер. Навпаки, запропоновано метод ідентифікації десятини (ІБС) (PLINK 7). PLINK (//pngu.mgh.harvard.edu/purcell/plink/) оцінює коефіцієнти розподілу геномів у повному діапазоні між не пов’язаними зразками з цілих даних геному. Ця метрика корисна для контролю якості шляхом діагностики родовідних помилок, невиявлених зв’язків та випадкової вибірки, дублювання та забруднення. Він обчислює π̂ (частку алелів, що ділиться IBD) для кожної пари зразків, а події забруднення вважаються значеннями π̂. Однак у цих попередніх дослідженнях передбачалося, що ОНП не залежать один від одного, а ЛД не враховується. Однак у багатьох дослідженнях асоціацій LD не можна нехтувати серед маркерів SNP.

Тут ми пропонуємо метод виявлення на основі IBS для виявлення невідповідних зразків (наприклад, забруднення, близькі родичі) у дослідженні асоціації, яке спирається на маркери SNP із LD або без них. Ми оцінили помилку типу I та силу запропонованого методу та оцінили кількість SNP, необхідних для виявлення непридатних зразків для маркерів SNP в рівновазі LD або linker (LE). Запропонований спосіб порівняли з попереднім методом шляхом моделювання. Нарешті, застосування запропонованого методу на прикладі реальних даних при вивченні асоціації в цілому геномі вказує на практичне значення нашого обговорення.

результат

Імітаційне дослідження

Ми оцінили помилку та потужність типу I (R = 2, 3, 4) у даних моделювання для маркерів SNP, що показують LE або LD (таблиці 1 та 2). Похибка та потужність типу I були точно розраховані, припускаючи, що розподіл Y є нормальним розподілом із середнім значенням E (Y) та дисперсією V (Y) в обох випадках. У випадку LE потрібно більше 800 SNP, щоб правильно виявити зразки батьків-дочірніх (v̂ = 1) та виключити виключення нормальних зразків із даних контролю випадків (ûN (N - 1)/2

виявлення

Крива ROC для ефективності методів, заснованих на IBD/IBS, застосованих до даних моделювання LD (K = 200, N = 200). AUC становить 0,95 (IBD) та 0,96 (IBS) для батьків-дітей, 0,92 (IBD) та 0,99 (IBS) для забруднення.

Повнорозмірне зображення

Хоча кількості SNP недостатньо для точного виявлення невідповідних зразків згідно з таблицею 2, ми зосереджуємо це моделювання на дослідженні асоціації, в якому кількість SNP становить менше 1000. Крім того, ми підтверджуємо, що немає різниці у характеристиках між два методи. у випадку 1000 SNP, і що обидва методи точно виявляють непридатні зразки (дані не наведені).

Аналіз реальних даних

Ми застосували метод, заснований на IBS, для досліджень реальних асоціацій при зміні кількості ОНП (K = 200, 600, 1000 та 2665). Ці фактичні дані мали загальну слабку LD (рис. 1). Можна було наблизити розподіл Y нормальним розподілом, і між w = 10 та w = 100 не було великої різниці (рис. 3). У випадку слабкої LD, точність оцінки Y можна покращити, враховуючи LD. Кількість виявлених пар зразків була точно визначена за верхньою ймовірністю нормального розподілу (табл. 3). Дві зразки знайдених пар були повторно досліджені клінічними дослідниками, і насправді настійно рекомендується стосунки між братами та сестрами.

Гістограма реальних випадків - дані контролю та теоретичний розподіл Y, (K = 1000, 2665). Порогове значення s = 0,75.

Повнорозмірне зображення

Стіл в натуральну величину

обговорення

У дослідженні асоціацій необхідна серія контролю якості для підтримки якості досліджень. У цьому дослідженні ми зосередилися на виявленні невідповідних зразків. На сьогодні в сімейних дослідженнях запропоновані методи виявлення на основі IBS. Однак ці методи не враховували LD серед генетичних маркерів, а тому не можуть застосовуватися до даних досліджень асоціації LD. Наш новий метод виявлення, заснований на IBS, може враховувати LD, використовуючи коваріацію Y, а помилку типу I та ефективність запропонованого методу вдалося точно оцінити за допомогою імітаційного дослідження. У типовому дослідженні асоціації лише з кількома непридатними зразками, помилка типу I повинна бути належним чином оцінена, щоб уникнути ненавмисного виключення придатних зразків. У даних моделювання запропонований метод правильно і точніше виявив непридатні зразки, ніж метод, заснований на ВЗК.

У нашому симуляційному дослідженні кількість помилкових спрацьовувань різко зменшується, коли аналізується більше 1000 SNP (Таблиця 2), а на веб-сайті PLINK також зазначено, що для обчислення всього геному потрібна велика кількість SNP (мінімум 1000 незалежних SNP). IBD надав інформацію про IBS. У сукупності це означає, що для виявлення непридатних зразків потрібно більше 1000 SNP. Однак у деяких підходах до генних кандидатів гени-мішені вже визначені, і кількість типів SNP на цих генах менше 1000 SNP. У цьому випадку ми рекомендуємо запропонований спосіб.

У запропонованому способі ми встановлюємо поріг s = < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Встановлення оптимального порогу з використанням фактора Байєса 6 необхідно з припущенням, що розподіл Y є змішаним нормальним розподілом неспоріднених (R = 1) та непридатних зразків (батько-дитина (R = 2) та братів та сестер ( R = 3)). І так далі). Однак, оскільки непридатні зразки, як правило, рідкісні, важко оцінити змішану норму та параметр невідповідного розподілу зразків. Отже, ми просто приймаємо поріг, визначений s = < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Є місце для вивчення того, як визначитися з порогом.

У запропонованому методі ми прийняли віртуальну сильну область LD як послідовні SNP, і в цій області обчислюється коваріація Cov (Tk1, Tk2│R = 1). Оскільки шаблон LD є змінним у всьому геномі, розумно розглянути коваріацію відповідно до ширини LD, що залежить від положення. Однак результати фактичних даних свідчать про те, що прийнятним вважати сильну область ЛД як регіон, що складається з декількох послідовних ОНП.

У реальному застосуванні даних ми раніше виключали зразки, в яких бракує SNP або велика частка гетерозиготних SNP, оскільки це є частиною звичайного процесу контролю якості в нашій лабораторії. Насправді ми виявили, що включення цих зразків роздуває розкид Y, що, в свою чергу, переоцінює помилку типу I. У нашій поточній процедурі контролю якості ми не вважаємо LD виявленням та виключенням зразків з необґрунтовано високою часткою гетерозиготності. Метод, який розглядає LD способом, подібним до запропонованого, може бути використаний для виявлення зразка з високою часткою гетерозиготності з використанням Tk = 1 (генотип гетерозиготний для SNP k), Tk = 0 (генотип гомозиготний для SNP k) . Зверніть увагу, що не взаємне односпрямоване забруднення, при якому зразок В забруднений зразком А, тоді як зразок А залишається цілим, може бути виявлено за аномально високою часткою гетерозиготності забрудненого зразка В.

Нещодавнє впровадження потужних платформ SNP для набору чіпів призвело до дослідження асоціацій, яке є популярною стратегією для виявлення генів, асоційованих із захворюваннями, та даних генотипів на 100 000 - 1 000 000 SNP. У дослідженні асоціації цілого генома можна ефективно виявити невідповідні зразки, оскільки для цільового контролю якості (QC-SNP) можна відібрати кілька сотень SNP. Необхідно відібрати QC-SNP, які знаходяться в LE між собою і частоти алелів яких становлять близько 0,5; такі SNP можуть найбільш ефективно відрізнити невідповідні зразки від звичайних. З іншого боку, коли кілька генів-кандидатів або областей генома, що представляють інтерес, уже відомі або відібрані, і для цих генів бажана типізація SNP з високою щільністю, LD слід розглядати відповідно до запропонованого методу.

У цьому дослідженні ми запропонували метод виявлення невідповідних пар зразків у дослідженні асоціації випадок-контроль. Коли ми застосували запропонований метод до реальних даних дослідження асоціації, дві пари зразків були знайдені як брати та сестри. Як тільки є підозра на невідповідні зразки, ми, як правило, вживаємо наступних кроків: коли виявлено забруднення, ми виключимо всі відповідні зразки з даних контролю справи. Якщо виявляється пов’язана пара зразків, ми зазвичай утримуємо лише одного суб’єкта з пари за допомогою комбінації наступних двох критеріїв: (1) вибирається випадок, якщо пара включає як справи, так і контрольні випадки, оскільки випадки випадків більш обмежені доступність порівняно з контролем у багатьох дослідженнях асоціацій; (2) загальну якість даних типізації вибірки, зокрема швидкість SNP дзвінка (кількість успішно генотипованих SNP для кожної вибірки). Однак, якщо кількість непридатних зразків значна, рішення про їх включення може вимагати розгляду компромісу між завищенням помилки типу I та зменшенням потужності тесту. У цьому випадку нам може знадобитися майбутнє дослідження аналізу чутливості для оцінки компромісу.