Сценарий "Определение однонуклеотидных полиморфизмов и структурных вариаций" предназначен для идентификации полиморфизмов и структурных вариаций (≥20 п. н.) на основе данных мономолекулярного секвенирования (рисунок 1).
Рисунок 1 – Схема сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций" на платформе BioUML
Идентифицируемые вариации: инсерции, делеции, дупликации, инверсии, транслокации и вариации числа генов (CNV). Рассматриваемый сценарий состоит из 3 основных шагов (см. Таблица 1). Краткое описание используемых программ, их входных и выходных параметров приведено в таблице 2.1.
Таблица 1 – Список шагов сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"
№ | Описание шага | Используемые программы |
---|---|---|
1 | Выравнивание прочтений на референсный геном | pbmm2 |
2 | Идентификация однонуклеотидных полиморфизмов. Для оптимизации вычислений идентификация полиморфизмов проводится для всех хромосом параллельно с последующим объединением в единый vcf-файл. | deepvariant, bcftools merge_vcfs, tabix |
3 | Идентификация структурных вариаций | pbsv |
В таблице 2 приведены типы входных и выходных данных рассматриваемого сценария. Интерфейс пользователя, а также параметры запуска сценария приведены в примере ниже.
Таблица 2 – Список входных данных и результатов использования сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"
Тип данных | Формат данных |
---|---|
Входные данные | |
Консенсусные прочтения | FASTQ |
Референсный геном | FASTA |
Результаты | |
Однонуклеотидные полиморфизмы | VCF |
Структурные вариации | VCF |
Результаты выравнивания консенсусных прочтений на референсный геном | BAM |
Отчёты о результатах поиска однонуклеотидных и структурных вариаций | HTML |
Используемые референсные базы данных: см. пункт 2.1
Сценарий предназначен для идентификации однонуклеотидных полиморфизмов и структурных вариаций (≥20 п. н.) на основе данных мономолекулярного секвенирования (рисунок 2). Данный сценарий решает задачи сценария, описанного в пункте 2.3 приложения №2 ТЗ.
Рисунок 2 – Интерфейс запуска сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"
В проекте "Sequencer examples" перейдите в директорию "SNP and Structural Variations Analysis". Для просмотра структуры сценария в графическом виде кликните правой кнопкой мыши на WDL-сценарий "SNP_and_Structural_Variations_worflow.wdl". В открывшемся меню выберите пункт "Open image". Результат представлен на рисунке 3.
Рисунок 3 – Графическое представление структуры сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"
Заполните параметры запуска сценария, используя значения из таблицы 3. В результате работы сценария будут получены выходные данные, также указанные в таблице 3 (Выходные данные). Данный сценарий решает задачи сценария, описанного в пункте 2.4 приложения №2 ТЗ.
Таблица 3 – Параметры сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"
Параметр | Формат | Значение* | Краткое описание |
---|---|---|---|
Входные данные и параметры | |||
snp_and_snv_analysis.fastqs | FASTQ | Input/test_data.chr15.fastq | Данные одномолекулярного секвенирования: консенсусные прочтения |
snp_and_snv_analysis.sample_name | Строка | some_sample_name | Строка для названия выходных bam файлов |
snp_and_snv_analysis.tr_bed | TRF.BED | Input/human_hs37d5.trf.bed | BED файл с тандемными повторами |
snp_and_snv_analysis.model_type | Строка | PACBIO | Название платформы, на которой были получены данные |
snp_and_snv_analysis.regions_pbsv | Набор строк | 15 | Наименования хромосом для поиска вариаций |
snp_and_snv_analysis.regions_deepvariant | Строка (разделитель - ,) | 15 | Наименования хромосом для поиска вариаций |
snp_and_snv_analysis.reference_name | Строка | hs37d5 | Название сборки генома |
snp_and_snv_analysis.reference_fasta | FASTA | Input/human_hs37d5.fasta | Референсный геном |
outFolder | Папка | Results | Путь до директории с результатами |
| | Выходные данные | | | BAM | Results/test_data.chr15.hs37d5.bam | Результаты выравнивания консенсусных прочтений на референсный геном | | | VCF | Results/deepvariant_snp.vcf | Однонуклеотидные полиморфизмы | | | VCF | Results/pbsv_svc.vcf | Структурные вариации | | | HTML | Results/test_data.chr15.hs37d5.visual_report.html | Отчёт о результатах поиска однонуклеотидных и структурных вариаций |
* - указан путь относительно директории data/Collaboration/Sequencer examples/SNP and Structural Variations Analysis