Сценарий "Секвенирование целевых локусов" предназначен для реконструкции и анализа целевых локусов на основе данных таргетного мономолекулярного секвенирования (рисунок 1).
Рисунок 1 – Схема сценария "Секвенирование целевых локусов" на платформе BioUML
Рассматриваемый сценарий состоит из 8 основных шагов (см. Таблица 1). Краткое описание используемых программ, их входных и выходных параметров приведено в таблице 2.1.
Таблица 1 – Список шагов сценария "Секвенирование целевых локусов"
№ | Описание шага | Используемые программы |
---|---|---|
1 | Определение и удаление молекулярных "штрих-кодов" и удаление 5'- 3'-концевых праймеров, демультиплексирование прочтений | lima |
2 | Идентификация и удаление ПЦР-дубликатов на основании кластеризации данных по баркодам и UMI | pbmarkdup |
3 | Выравнивание прочтений на референсный геном | pbmm2 |
4 | Идентификация однонуклеотидных полиморфизмов | deepvariant |
5 | Идентификация структурных вариаций | pbsv |
6 | Фазирование идентифицированных полиморфизмов | whatshap phase |
7 | Анализ структурного контекста сайтов модификации. Внесение информации о принадлежности к гаплогруппе в bam-файл с выравниванием CCS ридов на референсный геном | whatshap haplotag |
8 | Оценка качества гибридизации для отбора таргетных локусов и сбор статистики по данным районам | CollectHsMetrics из пакета Picard |
9 | Создание отчета на основе данных из CollectHsMetrics | multiQC |
В таблице 2 приведены типы входных и выходных данных рассматриваемого сценария. Интерфейс пользователя, а также параметры запуска сценария приведены в примере ниже.
Таблица 2 – Список входных данных и результатов использования сценария "Секвенирование целевых локусов"
Тип данных | Формат данных |
---|---|
Входные данные | |
Данные одномолекулярного секвенирования: консенсусные прочтения | BAM |
Референсный геном | FASTA |
Результаты | |
Результаты выравнивания консенсусных прочтений на референсный геном с дополнительной информацией о принадлежности прочтений к гаплогруппам | BAM |
Однонуклеотидные полиморфизмы | VCF |
Структурные вариации | VCF |
Отчёты о качестве и результатах анализа данных таргетного секвенирования | HTML |
Отчёты о результатах поиска однонуклеотидных полиморфизмов | HTML |
Используемые референсные базы данных: см. пункт 2.1.
Сценарий предназначен для реконструкции и анализа целевых локусов на основе данных таргетного мономолекулярного секвенирования (рисунок 2). Данный сценарий решает задачи сценария, описанного в пункте 2.5 приложения №2 ТЗ.
Рисунок 2 – Интерфейс запуска сценария "Секвенирование целевых локусов"
В проекте "Sequencer examples" перейдите в директорию "Targeted Sequencing". Для просмотра структуры сценария в графическом виде кликните правой кнопкой мыши на WDL-сценарий "Targeted_sequencing_workflow.wdl". В открывшемся меню выберите пункт "Open image". Результат представлен на рисунке 3.
Рисунок 3 – Графическое представление структуры сценария "Секвенирование целевых локусов"
Заполните параметры запуска сценария, используя значения из таблицы 3. В результате работы сценария будут получены выходные данные, также указанные в таблице 3 (Выходные данные).
Таблица 3 – Параметры сценария "Секвенирование целевых локусов"
Параметр | Формат | Значение* | Краткое описание |
---|---|---|---|
Входные данные и параметры | |||
targeted_sequencing.bam | BAM | Input/test_data.chr1.bam | Данные одномолекулярного секвенирования: консенсусные прочтения |
targeted_sequencing.ref_fasta | FASTA | Input/human_GRCh38_no_alt_analysis_set.fasta | Референсный геном |
targeted_sequencing.region_fasta | FASTA | Input/chr1.fa | Таргетная последовательность |
targeted_sequencing.primers_fasta | FASTA | Input/Twist_Universal_Adapter_System_384.fasta | Последовательность праймера |
targeted_sequencing.tr_bed | BED | Input/hg38.trf.bed | Тандемные повторы |
targeted_sequencing.lima_bool | Логический | False | Указывает надо ли проводить анализ lima |
targeted_sequencing.gene_bed | BED | Input/CACNA1S.bed | Bed файл таргетного гена |
targeted_sequencing.regions_pbsv | Набор строк | chr1 | Наименования хромосом для поиска вариаций |
targeted_sequencing.regions_deepvariant | Строка (разделитель - ,) | chr1 | Наименования хромосом для поиска вариаций |
targeted_sequencing.bait_bed | BED | Input/chr1.bed | Bed файл для таргетного региона |
outFolder | Папка | Results | Путь до директории с результатами |
| | Выходные данные | | | BAM | Results/pbmarkdup_out.hg38.bam | Результаты выравнивания консенсусных прочтений на референсный геном с дополнительной информацией о принадлежности прочтений к гаплогруппам | | | VCF | Results/deepvariant_snp.vcf | Однонуклеотидные полиморфизмы | | | VCF | Results/pbsv_vcf.vcf | Структурные вариации | | | HTML | Results/multiqc_report.html | Отчёт о качестве и результатах анализа данных таргетного секвенирования | | | HTML | Results/pbmarkdup_out.hg38.visual_report.html | Отчёты о результатах поиска однонуклеотидных полиморфизмов
* - указан путь относительно директории data/Collaboration/Sequencer examples/Targeted Sequencing