доступом

  • предметів
  • реферат
  • Підсумок метаданих
  • Передумови та резюме
  • методи
  • Отримання інформованої згоди
  • Вибір когорти ОА
  • Пухлина і нормальний збір
  • Весь секвенування екзома
  • Підготовка бібліотеки
  • Захоплення екзома
  • секвенування
  • Секвенування цілого геному
  • Підготовка бібліотеки
  • секвенування
  • Прочитайте варіанти відображення та виклику
  • Наявність коду
  • Записи даних
  • Технічна перевірка
  • Примітки щодо використання
  • Детальніше
  • Цитування даних

предметів

  • Геноміка раку
  • Секвенування ДНК
  • Генетичні дослідження
  • Медична геноміка

реферат

Обмін геномними даними про рак обмежився загальними ініціативами доступу або керованим доступом для захисту конфіденційності учасників дослідження. Обмеження доступу до цих даних стверджувало, що автономія осіб, які вирішили брати участь у заходах щодо обміну даними, була скасована, а корисність даних у науково-дослідних та освітніх інструментах зменшена. У пілотному проекті «Відкритий доступ» (OA) «Техаський дослідник раку Біобанку», що фінансується CPRIT, багато хворих на рак в Техасі були готові відкрито ділитися геномними даними з пухлин та нормальних пар. Вперше генетичні дані із семи випадків раку у людей зі схожими стандартами є у вільному доступі без необхідності угод про використання даних або серйозних обмежень, за винятком того, що кінцеві користувачі не можуть намагатися повторно ідентифікувати учасників (//txcrb.org/open .html). ).

Підсумок метаданих

Завантажте файл метаданих

Доступний до машини файл метаданих, що описує дані, що повідомляються (формат картки ISA)

Передумови та резюме

Учасники надали початкову згоду на участь в обміні даними OA. Тих, хто дав свою згоду, поінформували про ризики та вигоди, а потім запитали, чи перевіряють вони розуміння, і запитали, чи хочуть вони поділитися з OA. Потім були взяті зразки крові пухлини та нормальної крові у тих, хто виявив розуміння та підтвердив, і пройшов усі послідовності екзоми.

Повнорозмірне зображення

Такі зусилля, як Проект особистого геному в США, Канаді, Великобританії та Австрії, публічно обмінюються геномними та клінічними даними здорових учасників 19. Наскільки нам відомо, набір даних TCRB OA є першим випуском геномних даних на індивідуальному рівні, який націлений на рак людини. Зменшення бар’єрів у доступі збільшує можливість зловживання даними, але, маючи адекватну усвідомлену згоду та відповідні заходи щодо захисту конфіденційності пацієнта, цей набір даних підтверджує, що багато пацієнтів усвідомлюють, що позитивні майбутні вигоди можуть перевищувати ці ризики. Ця згода, разом із загальним доступом до великої маси легкодоступних даних, є вирішальною для вирішення особливо складних проблем раку у людей.

методи

Отримання інформованої згоди

Вибір когорти ОА

Приблизно 20% із 37 учасників (n = 7), з якими пройшли співбесіду та все ще погодились поділитися даними ОА, були відібрані для включення до набору даних ОД TCRB. Для подальшого зниження ризику повторної ідентифікації, жоден з учасників ОА не мав рідкісних етнічних або пухлинних типів, як визначено в статистиці SEER (спостереження за програмами, епідеміологія та кінцеві результати). На рисунку 1 показано процес цього процесу та подальші кроки у створенні цього набору даних.

Пухлина і нормальний збір

Кров відбирали у учасників пробірок ДНК крові PAXgene, а ДНК виділяли за допомогою набору ДНК крові PAXgene (PreAnalytiX, Qiagen, Валенсія, Каліфорнія). Зразки тканин підшлункової залози відбирали незабаром після резекції і поміщали в розчин інгібітора протеази (Roche Applied Science, Індіанаполіс, ІН), РНКлатер (Qiagen) або заморожували швидко та зберігали при -80 ° C. Зразок крові використовували як відповідну нормальну контроль. ДНК виділяли від 50 до 100 мг фрагментів тканин за допомогою набору GentraPuregene (Qiagen). Якість зразків ДНК визначали електрофорезом і визначали високою якістю (розмір> 23 кб) без видимих ​​деградацій у зразках крові або пухлини.

Для того, щоб впровадити підходи до геномного секвенування у зразках "реального світу", необхідно виявити варіанти в клінічних зразках, що мають знижену клітинність пухлини, наприклад через неоад'ювантне або інше попереднє лікування. Ми розробили методології для подолання проблем, пов'язаних з великим десмопластичним деревом, характерним для більшості пухлин підшлункової залози, і ці стратегії сприяли відкриттю нових молекулярних механізмів у патофізіології цієї хвороби. Клітинність кожної первинної проби оцінювали шляхом патологічного огляду, глибокого секвенування екзонів 2 і 3 KRAS (середня глибина 1000 ×) на основі амплікону та оцінок клітинності нуклеотидного поліморфізму (SNP), використовуючи новий алгоритм qpure 20, клінічні та патологічні анотації для кожен випадок наведено в таблиці 1.

Стіл в натуральну величину

Весь секвенування екзома

Підготовка бібліотеки

Захоплення екзома

Для захоплення екзоми чотири бібліотеки були об'єднані до захоплення (

300 нг/зразок, 1, 2 мкг/пул) та гібридизований у розчині за допомогою VCRome 2.1 Design 21, поставленого NimbleGen згідно з протоколом виробника NimbleGen SeqCap EZ Exome Library SR Посібник користувача. (Версія 2.2) з незначними налаштуваннями. ДНК COT1 людини та повністю блокуючі олігонуклеотиди, специфічні для адаптера Illumina, були додані до гібридизації для блокування повторюваних геномних послідовностей та адаптивних послідовностей. Пост-ампліфікаційну LM-ПЛР проводили, використовуючи Phusion High-Fidelity PCR Master Mix з 14 циклами ампліфікації. Після остаточного очищення бісеру AMPure XP кількість та розмір бібліотеки захоплення аналізували за допомогою чіпа Agilent Bioanalyzer 2100 DNA Chip 7500. Ефективність захоплення оцінювали, проводячи контроль якості на основі qPCR на чотирьох стандартних внутрішніх контролях NimbleGen. Було підраховано, що успішне збагачення бібліотек захоплення коливалося від 6 до 9 ΔCt у порівнянні з незбагаченими зразками.

секвенування

Шаблони бібліотек були підготовлені для послідовності з використанням системи генерації кластерів cBot від Illumina з наборами генерації кластерів TruSeq PE (Кат. № PE-401-3001). Коротко, ці бібліотеки денатурували гідроксидом натрію і розводили до 6-9 мкМ в буфері для гібридизації для досягнення щільності завантаження.

800 кластерів/мм2. Послідовні прогони виконувались у спареному режимі з використанням платформи Illumina HiSeq 2000. Кожен набір бібліотек завантажувався в одну смугу потокової комірки HiSeq 2000 і на кожну смугу додавалась 2% бібліотека управління phiX для контролю якості пробігу. Потім бібліотеки зразків піддавались ампліфікації містків для утворення клональних кластерів з подальшою гібридизацією з секвенуючим праймером. Використовуючи набори TruSeq SBS (кат. № FC-401-3001), реакції послідовності синтезу продовжувались на 101 цикл з кожного кінця, віднімаючи додаткові 7 циклів для індексу. Послідовні цикли генерували приблизно 300-400 мільйонів успішних зчитувань у кожній смузі проточної комірки, що призводило до 7-13 Гбіт на зразок. У разі виняткових урожаїв секвенування зразки досягали середньої глибини охоплення 200x в екзонічних регіонах.

Секвенування цілого геному

Підготовка бібліотеки

У більшості випадків не було достатньо біоспективу для проведення цілого геномного секвенування (WGS). У цих випадках існують лише дані WEX. Однак у двох випадках можна було виконати WGS. Шаблони бібліотек були підготовлені для послідовності з використанням системи генерації кластерів cBot від Illumina з наборами генерації кластерів TruSeq PE (Кат. № PE-401-3001). ДНК (0,5 мкг) в обсязі 70 мкл розрізали на фрагменти приблизно з 500-700 пар основ за допомогою системи Covaris S2 (Covaris, Inc. Woburn, MA). Коротко, ці бібліотеки денатурували гідроксидом натрію і розводили до 6-9 мкМ в буфері для гібридизації для досягнення щільності завантаження.

800 кластерів/мм2. Мультиплексирующіе адаптери з мультиплексируванням PE з послідовностями штрих-кодів додавали до зразка під час лігування. ПЛР-опосередковане лігування перед захопленням (LM-PCR) проводили протягом 6-8 циклів, використовуючи бібліотеку Amplification Readymix, що містить ДНК-полімеразу Kapa HiFi (Kapa Biosystems, Inc., Кат. № KK2612) та універсальний IMUX-P1.0 праймерна пара. та IMUX-P3.0. 4) Для очищення фрагментованої ДНК використовували 0,8X AMPure XP (Бекман, кат. № A63882), на відміну від використання 1,8Х для підготовки бібліотек WES.

секвенування

Бібліотеки пухлин були послідовно розділені на чотири смуги, а звичайні бібліотеки - у дві смуги проточної комірки HiSeq 2000, що призвело до охоплення приблизно в 60 і 30 разів. Кожна смуга була збагачена 2% бібліотекою управління phiX для контролю якості запуску. Потім бібліотеки зразків піддавались ампліфікації містків для утворення клональних кластерів з подальшою гібридизацією з секвенуючим праймером. Прогони послідовності виконувались у спареному режимі з використанням платформи Illumina HiSeq 2000. За допомогою наборів TruSeq SBS (кат. № FC-401-3001) реакції послідовності синтезу були продовжені на 101 цикл з кожного кінця, віднімаючи додаткові 7 циклів для індекс. Послідовні цикли генерували приблизно 300-400 мільйонів успішних зчитувань на кожному шляху проточної комірки, забезпечуючи

11 Гб на зразок.

Прочитайте варіанти відображення та виклику

Наявність коду

Все програмне забезпечення, що використовується для формування даних послідовностей та управління біоспективами та клінічними анотаціями, знаходиться у вільному доступі. Конкретні версії програмного забезпечення та посилання на код надані вище.

Записи даних

Показання FASTQ та записи BAM для зразків пухлини (T) та нормальних (N) у кожному випадку є у вільному доступі разом із умовами їх використання та у вільному доступі на веб-сайті Техаського дослідження раку Biobank, //txcrb.org/open.html (Дані цитування 1: TCRB сховище з відкритим доступом TCRBOA1). Клінічні анотації, доступні для цих випадків, визначені в таблиці 1. Окрім угоди про клік про визнання умов використання, вимоги створити обліковий запис доступу для цілей аудиту та включати ці умови в кожен повторний обмін даними на цьому порталі немає інших перешкод для доступу до даних. Облікові записи користувачів дійсні протягом 30 днів і можуть бути поновлені. Всі або деякі з цих даних можуть бути завантажені, розподілені та розповсюджені для дослідницьких та освітніх цілей відповідно до умов їх використання.

Щоб забезпечити стійку доступність даних, вони також зберігаються в SRA. Ми створили Техаський дослідник раку відкритого банку "Спільний проект обміну даними" (приєднання: PRJNA285925), який створив два специфічні для платформи проекти - проект обміну даними Техаського біологічного відкритого доступу до обміну даними: проект Exome (цитування даних 2: NCBI Sequence Read Archive PRJNA284596), який містить усі сім випадків та підпроект під назвою Texas Cancer Research Biobank Open Access Data Sharing: Genome Project (Data Citation 3: NCBI Sequence Reading Archive PRJNA284598), для якого було проведено достатньо генетичного матеріалу для секвенування цілого генома після секвенування екзома та включає випадки 6 і 7.

NCI та інші розглядають механізми, які додадуть обчислювальні можливості до даних, щоб уникнути проблеми передачі великих файлів через мережі. Для кінцевих користувачів, яким бракує достатніх локальних обчислень та/або можливостей зберігання або для яких завантаження даних може бути ускладненим, у хмарі DNAnexus доступна третя копія записів даних, умови їх використання та система ртутних трубопроводів HGSC. Умови використання та дані про кліки доступні на //dnanexus.github.io/tcrb-data/.

З цих випадків можуть бути сформовані додаткові записи даних, такі як цілі геномні послідовності, які будуть додані до кожного із цих сховищ.

Технічна перевірка

TCRB використовує безпечну базу даних, що підтримується веб-додатком, яка називається Acquire 30 для відстеження зразків та їх анотацій (код доступний за адресою //github.com/BCM-DLDCC/Acquire). За допомогою своїх модулів він підтримує весь життєвий цикл операцій з біобанками, від збору до тестування контролю якості. Громадські дослідники можуть використовувати модуль запиту зразків для електронного пошуку та запиту наявних зразків. Отримати значно спрощене пожертвування TCRB від інших виробників, крім OGA TCGA та ICGC.

Координатори досліджень повторно перевірили медичні записи кожного учасника ОА щодо даних, що вводяться до програми Acquire, щоб переконатися, що клінічні анотації були правильними. Координатор придбання склав клінічні та патологічні анотації з номерами доступу до HGSC та іншими даними для кожного випадку.

Щоб перевірити, що отримані файли BAM не були пошкоджені і можуть бути перероблені з файлів FASTQ в іншому середовищі, файли BCM були оброблені за допомогою хмарного екземпляра конвеєра Mercury 31 HGSC DNAnexus з відповідними алгоритмами, описаними в розділі Методи. Всі вони пройшли цю перевірку редагування.

Стіл в натуральну величину

Варіанти були обмежені областю кодування, так що зразки WEX та WGS можна порівняти. Щільність алелей (відношення варіантів до загальної величини) будується для кожної проби.

Повнорозмірне зображення

Стіл в натуральну величину

Примітки щодо використання

Завантажуючи або використовуючи будь-яку частину цього набору даних, кінцеві користувачі повинні погодитися з наступними умовами використання:

Не слід робити спроб ідентифікувати будь-яку конкретну особу, представлену такими даними або похідними від них.

Не буде зроблена спроба порівняти та/або зв’язати цей загальнодоступний набір даних або похідні частково або повністю з приватною інформацією про здоров’я.

Ці дані можна частково або повністю вільно завантажувати, використовувати для аналізу та перепаковувати в бази даних.

Поширення будь-якої частини цих даних або будь-якого матеріалу, отриманого з даних, включатиме копію цього повідомлення.

Дані призначені для використання лише в якості навчальних та/або дослідницьких інструментів.

Цей набір даних не призначений для прямого наживу кожному, хто його отримує, і не може бути перепроданий.

Користувачі можуть використовувати дані в наукових публікаціях, якщо постачальники даних (Техаський центр дослідження раку Біобанк та Медичний коледж Бейлора, Медичний коледж).

Впровадження загальних словників сприяє семантичній сумісності та повторному використанню даних. Анотації до випадків ОА включають контрольовану термінологію щодо раси, статі та етнічної приналежності з NIH; патологічний діагноз з МКБ-О-3 Всесвітньої організації охорони здоров’я (Міжнародна класифікація хвороб-онкологія, версія 3); а також дані про стадію та ступінь пухлини від Союзу з міжнародного контролю за раком (UICC/AJCC). Використання стандартних метаданих полегшує синтаксичну сумісність. TCRB використовував стандартні елементи даних, формати файлів та метадані. Оскільки дані OA можна завантажувати та повторно надавати за умови, що умови використання включені та дотримуються, усі коментарі також були включені як коментарі в заголовки файлів BAM із посиланням на умови використання. Ці метадані були включені, щоб гарантувати, що клінічні та патологічні дані не можуть бути відокремлені від даних послідовності.

Детальніше

Як цитувати цю статтю: Бекнель, Л.Б. та ін. Пілот із відкритим доступом, який вільно передає дані про геномний рак від учасників у Техасі. Наук. Дані 3: 160010 doi: 10, 1038/sdata.2016.10 (2016).

Цитування даних

Бекнель, І. Репозиторій TCRB з відкритим доступом TCRBOA1 (2015)

Бекнел, І. NCBI Послідовність читання Архів PRJNA284596 (2015)

Бекнель, І. NCBI Послідовність читання Архів PRJNA284598 (2015)