геному гігантської

предметів

  • Секвенування ДНК
  • генетика
  • геном
  • Популяційна генетика

Геном гігантської панди - це перша зареєстрована де-ново складання великого генома ссавців, досягнута за допомогою методів секвенування наступного покоління. Ця оцінка відображає тенденцію до постійно зменшуються витрат на секвенування геномів.

Дослідження в цьому випуску Li et al. 1 (сторінка 311) Пекінського інституту геноміки примітна з двох причин - вона представляє первинну структуру геному гігантської панди (Ailuropoda melanoleuca) і є першою публікацією високоякісного геному de novo, зібраного із ссавця. за допомогою машин наступного покоління (NGS). Панда, геном якої був секвенирован, називається Цзинцзин; вона є однією з приблизно 3000 істот, що залишилися. Окрім того, що ця панда є одним із національних скарбів Китаю, вона займає цікаве місце в еволюційному дереві - серед людей та собак. Він також покладається на незвичну бамбукову дієту. Він забезпечує вагому тему для вивчення геному, яка може використати знання про його основну біологію та створити основу для генетики популяції панд.

Однак для багатьох найбільший інтерес представлятиме те, що гігантська панда являє собою першу опубліковану de novo збірку геному такої складності, досягнуту методами NGS. Ці методи дають дуже короткі показники послідовності у набагато більших кількостях та з меншими витратами, ніж традиційні методи Сангера. Хоча повідомлялося про десять і більше геномів NGS (з останніми оцінками витрат від 10 000 до 50 000 доларів на геном), усі вони були зроблені шляхом секвенування та порівняння послідовностей з людським посиланням. Вони не вирішили настільки складнішої проблеми абсолютно нової збірки, як Li et al. 1 зробив. Інші групи, які боролись із проблемами складання de novo геномів ссавців 3-гігабазової системи NGS, вивчать методи та якість даних про панди та запитатимуть, як ці уроки можуть бути відображені в інших поточних проектах щодо геному. Фінансові установи також відстежуватимуть цей розвиток, очікуючи триваючу тенденцію до зниження витрат на послідовність геномів.

Не всі геномні послідовності ссавців мають однакову якість: початкова конструкція геному людини 2 була побудована в 2001 році з використанням перекриваючого послідовності Сангера, яке було створено класичними методами термінації ланцюгів нуклеотидних ланцюгів 3. Розробка "по суті завершеної" послідовності 4 до 2003 року, яка коштувала майже стільки ж зусиль і грошей, як і оригінальний дизайн, завершилася послідовністю людського геному з більшою узгодженістю і точністю, ніж конструкція, і лише з декількома прогалинами. залишившись у цілих 3 гігабазах. Відтоді лише миша отримала користь від готового геному 5, а решта опублікованих геномних послідовностей, таких як резус-макака 6, собака 7, щур 8 та корова 9, є високоякісними концепціями, для яких від шести до восьми Покриття генома багатократного розміру було досягнуто за допомогою методів секвенування Sanger за допомогою спеціалізованого програмного забезпечення для складання, яке розраховувало перекриття.

Типові концептуальні послідовності Сангера мають так звані суміжні N50 20-200 кілобаз, в яких половина всіх баз знаходиться у суміжних фрагментах послідовності такої довжини або довше. Ця довжина безперервної послідовності дозволяє вивчати більшість генів як окремі суміжні одиниці. Контиги зшиті між собою, утворюючи довші структури або риштування, які часто є довгими мультимегабазами (рис. 1). Загалом, більш високі значення лісів та суміжні N50 є більш корисними, оскільки вони дозволяють вивчати геномні властивості в контексті - наприклад, гени з усіма їх екзонами (кодуючими областями) в порядку та із сусідніми регуляторними послідовностями. Високоякісне секвенування вимагає запобігання фальшивим з’єднанням, які надувають contig і риштування N50, неправильно приєднуючись до віддалених послідовностей. Той факт, що показання Сангера, що використовувались у попередніх проектах, довші та точніші, ніж дані NGS (зазвичай близько 1000 баз порівняно з менш ніж 100 базами, 0,1% проти> 1% помилок) змусив багатьох поставити під сумнів, чи рентабельні вони., високоякісні дизайнерські набори можуть бути виготовлені методами NGS.

a, Спочатку геном ділиться на безліч дрібних фрагментів, кінці яких секвенуються, утворюючи послідовності, звані парними парами, розділеними відомою відстанню (сині стрілки, з'єднані кривими). Ці зчитування повторно збираються за допомогою комп'ютерних алгоритмів, які об'єднують перекриваються послідовності, утворюючи суміжні фрагменти послідовностей або контиги. b, Контиги розташовані у більших риштуваннях, використовуючи інформацію про подібність послідовності та відстань між парами пар. На малюнку показано риштування, складене з послідовних контигів з розсіяними прогалинами очікуваного розміру на основі пар, що з'єднують контиги. Різні технології секвенування мають різну частоту помилок і тривалість зчитування, але принципи однакові. Типовий занурювальний набір Сангера генерує дані довжиною близько 1000 основ, тоді як методи наступного покоління, використані Лі та співавт. 1 для збірки геному гігантської панди набагато менше (довжина від 50 до 75 баз).

Повнорозмірне зображення

Лі та ін. 1, щоб зробити це завдання простим, керованим - навіть легким. Автори створили значне 73-кратне загальне охоплення геному панди з 50 і 75 базовими показаннями за допомогою платформи послідовності Illumina - приблизно у вісім разів більше середнього охоплення типового порівняльного проекту геному концепції Sanger. Збільшення надмірності, що виникає внаслідок більшого покриття, може компенсувати менш надійні дані послідовності для підвищення точності остаточної послідовності консенсусу. Крім того, автори використали близько двох третин найкращих даних для побудови суміжної послідовності, що призвело до збільшення N50 на 40 кілобаз. Ці контиги були об'єднані для отримання риштування з N50 1,3 мегабази. Таким чином, геномна збірка містить відносно довгі послідовності, але залишається фрагментованою в 3 805 ешафтах порівняно з менш ніж 100 у собак. Така фрагментація розчаровує користувачів геномних даних і виключає аналіз деяких функцій, таких як великі структурні варіанти, але багато геномних аналізів все ще можливо.

Лі та ін., Спираючись на цю нову геномну асамблею. 1, ми виявили кілька цікавих особливостей геномної послідовності панд, що стосуються біології панд. Незважаючи на те, що у тварини є генний репертуар, характерний для хижаків, він має травоїдну дієту, що складається в основному з бамбука. Відповідно до цієї дієти, ген, що кодує смаковий рецептор умами для властивостей гострої або м’ясистої їжі, здається, не працює в панді. В цілому геном Цзіньцзін продемонстрував високий рівень гетерозиготності (де послідовність відрізняється між материнською та батьківською хромосомами), що автори оптимістично інтерпретують як відображення високого генетичного різноманіття в решті видів. Оскільки вивчалася лише одна тварина, це ключове питання про те, наскільки загальна генетична мінливість існує у видів панд, безпосередньо не розглядалося. Очевидно, що для впевненості у цьому висновку потрібно набагато більше роботи.

Властивості геному, що ускладнюють алгоритми складання, включають загальні, прості повтори ДНК, вставки транспозону (рухома ДНК), структурну структуру та нещодавно розходяться сегментарні дублювання. Дублювання сегментів є особливим викликом, оскільки вони представляють відносно довгі ділянки подібної послідовності. Однак Лі та його колеги повідомляють, що панди порівняно мало. Цікаво, що як збірки геномів миші 5, так і собаки 7 вказували на дуже низький рівень дублювання сегментів, але подальша робота в кожному випадку показала, що таким чином дублювали 4-5% кожного геному 10, 11. Різниця була результатом "спуску" складання, де програма складання ненавмисно перекривала подібні послідовності. Якщо це може статися із відносно довгими та точними даними Сангера, що використовуються в проектах мишей та собак, це могло статися в поточному дослідженні.

Проект секвенування геному панди вимагав еквіваленту приблизно 30 циклів машини Illumina, що еквівалентно приблизно 900 000 доларів США на виробництво необроблених даних. Однак це швидкість виробництва даних щонайменше рік тому, і з тих пір потужність машини та відповідні витрати на одиницю даних зменшились. Методи NGS працюють більш паралельно, ніж методи Сангера, дозволяючи мільйони читань за цикл порівняно з сотнями послідовностей для Сангера. З огляду на все це, і навіть з огляду на обчислювальну інфраструктуру, великі процесори пам’яті та ємність пам’яті, необхідні для обробки обсягів даних, вартість секвенування геному гігантської панди набагато нижча, ніж вартість проектів секвенування геному за технологією Sanger, які залишаються на рівні десятки мільйонів доларів за геном. Саме це надзвичайне зниження витрат, незважаючи на невизначеність щодо точності, узгодженості та повноти, означає, що звіт Li та колеги 1 підтримуватимуть застосування методів NGS для інших проектів збірки геному de novo.

Повна об'єктивна оцінка повноти та точності складання генома-панди вимагатиме повторення проекту різними методами та ретельного вивчення будь-яких відмінностей між версіями. Це не відбудеться найближчим часом, але, згідно з чинною конвенцією про щедре розкриття інформації, всі звіти є предметом загальнодоступних записів і, ймовірно, будуть переглянуті в міру вдосконалення технологій та інших досліджень тих самих видів. Як і всі дані про геном, набір панд витримає випробування часом та незалежні тести якості.

Коментарі

Надсилаючи коментар, ви погоджуєтесь дотримуватись наших Умов надання послуг та Правил спільноти. Якщо ви вважаєте щось образливим або не відповідаєте нашим умовам чи інструкціям, позначте це як невідповідне.