Skip to content

Biosoft-ru/SNP-and-Structural-Variations-Analysis

Repository files navigation

Сценарий "Определение однонуклеотидных полиморфизмов и структурных вариаций"

Сценарий "Определение однонуклеотидных полиморфизмов и структурных вариаций" предназначен для идентификации полиморфизмов и структурных вариаций (≥20 п. н.) на основе данных мономолекулярного секвенирования (рисунок 1).

Рисунок 1 – Схема сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций" на платформе BioUML

Идентифицируемые вариации: инсерции, делеции, дупликации, инверсии, транслокации и вариации числа генов (CNV). Рассматриваемый сценарий состоит из 3 основных шагов (см. Таблица 1). Краткое описание используемых программ, их входных и выходных параметров приведено в таблице 2.1.

Таблица 1 – Список шагов сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"

Описание шага Используемые программы
1 Выравнивание прочтений на референсный геном pbmm2
2 Идентификация однонуклеотидных полиморфизмов. Для оптимизации вычислений идентификация полиморфизмов проводится для всех хромосом параллельно с последующим объединением в единый vcf-файл. deepvariant, bcftools merge_vcfs, tabix
3 Идентификация структурных вариаций pbsv

В таблице 2 приведены типы входных и выходных данных рассматриваемого сценария. Интерфейс пользователя, а также параметры запуска сценария приведены в примере ниже.

Таблица 2 – Список входных данных и результатов использования сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"

Тип данных Формат данных
Входные данные
Консенсусные прочтения FASTQ
Референсный геном FASTA
Результаты
Однонуклеотидные полиморфизмы VCF
Структурные вариации VCF
Результаты выравнивания консенсусных прочтений на референсный геном BAM
Отчёты о результатах поиска однонуклеотидных и структурных вариаций HTML

Используемые референсные базы данных: см. пункт 2.1

Пример использования сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"

Сценарий предназначен для идентификации однонуклеотидных полиморфизмов и структурных вариаций (≥20 п. н.) на основе данных мономолекулярного секвенирования (рисунок 2). Данный сценарий решает задачи сценария, описанного в пункте 2.3 приложения №2 ТЗ.

Рисунок 2 – Интерфейс запуска сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"

В проекте "Sequencer examples" перейдите в директорию "SNP and Structural Variations Analysis". Для просмотра структуры сценария в графическом виде кликните правой кнопкой мыши на WDL-сценарий "SNP_and_Structural_Variations_worflow.wdl". В открывшемся меню выберите пункт "Open image". Результат представлен на рисунке 3.

Рисунок 3 – Графическое представление структуры сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"

Заполните параметры запуска сценария, используя значения из таблицы 3. В результате работы сценария будут получены выходные данные, также указанные в таблице 3 (Выходные данные). Данный сценарий решает задачи сценария, описанного в пункте 2.4 приложения №2 ТЗ.

Таблица 3 – Параметры сценария "Определение однонуклеотидных полиморфизмов и структурных вариаций"

Параметр Формат Значение* Краткое описание
Входные данные и параметры
snp_and_snv_analysis.fastqs FASTQ Input/test_data.chr15.fastq Данные одномолекулярного секвенирования: консенсусные прочтения
snp_and_snv_analysis.sample_name Строка some_sample_name Строка для названия выходных bam файлов
snp_and_snv_analysis.tr_bed TRF.BED Input/human_hs37d5.trf.bed BED файл с тандемными повторами
snp_and_snv_analysis.model_type Строка PACBIO Название платформы, на которой были получены данные
snp_and_snv_analysis.regions_pbsv Набор строк 15 Наименования хромосом для поиска вариаций
snp_and_snv_analysis.regions_deepvariant Строка (разделитель - ,) 15 Наименования хромосом для поиска вариаций
snp_and_snv_analysis.reference_name Строка hs37d5 Название сборки генома
snp_and_snv_analysis.reference_fasta FASTA Input/human_hs37d5.fasta Референсный геном
outFolder Папка Results Путь до директории с результатами

| | Выходные данные | | | BAM | Results/test_data.chr15.hs37d5.bam | Результаты выравнивания консенсусных прочтений на референсный геном | | | VCF | Results/deepvariant_snp.vcf | Однонуклеотидные полиморфизмы | | | VCF | Results/pbsv_svc.vcf | Структурные вариации | | | HTML | Results/test_data.chr15.hs37d5.visual_report.html | Отчёт о результатах поиска однонуклеотидных и структурных вариаций |

* - указан путь относительно директории data/Collaboration/Sequencer examples/SNP and Structural Variations Analysis

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages