CN204440396U - 用于确定胎儿分数的试剂盒 - Google Patents

用于确定胎儿分数的试剂盒 Download PDF

Info

Publication number
CN204440396U
CN204440396U CN201220583608.8U CN201220583608U CN204440396U CN 204440396 U CN204440396 U CN 204440396U CN 201220583608 U CN201220583608 U CN 201220583608U CN 204440396 U CN204440396 U CN 204440396U
Authority
CN
China
Prior art keywords
chromosome
sequence
interested
sample
normalization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CN201220583608.8U
Other languages
English (en)
Inventor
里查德·P·拉瓦
阿奴巴玛·斯里尼瓦桑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verinata Health Inc
Original Assignee
Verinata Health Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/445,778 external-priority patent/US9447453B2/en
Priority claimed from US13/482,964 external-priority patent/US20120270739A1/en
Priority claimed from US13/555,037 external-priority patent/US9260745B2/en
Application filed by Verinata Health Inc filed Critical Verinata Health Inc
Application granted granted Critical
Publication of CN204440396U publication Critical patent/CN204440396U/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Immunology (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本实用新型公开了一种用于确定胎儿分数的试剂盒,所述试剂盒包括一个盒体(1)、安排在该盒体内用于安置多个瓶的多个卡接槽口、包括一个内部阳性对照的一个瓶(2)、包括适合追踪并且确定样品完整性的一个标记物核酸的一个瓶(3)、以及包括一种缓冲溶液的一个瓶(4),其中所述试剂盒进一步包括多个瓶,其中所述多个瓶中的每一个包括一种不同的内部阳性对照和/或一种不同的标记物核酸。在实施无创性产前诊断学、诊断并监护癌症病人方面给出了一种优势。

Description

用于确定胎儿分数的试剂盒
技术领域
本实用新型涉及一种试剂盒,具体而言,涉及一种用于确定胎儿分数的试剂盒。
背景技术
人类医学研究中的关键努力之一是发现了对不良健康结果极其重要的遗传性异常。在很多情况下,在基因组的多个部分中已经识别出了特定基因和/或关键诊断标记物,它们是以异常拷贝数存在的。例如,在产前诊断中,整个染色体的额外的或丢失的拷贝是经常发生的遗传损伤。在癌症中,整个染色体或染色体区段的拷贝缺失或倍增、以及基因组特定区域的更高水平的扩增是常见的情况。
通过允许识别出结构性异常的细胞遗传学分辨能力已经提供了关于拷贝数变异的大部分信息。用于遗传筛选和生物剂量测定的多种常规程序已经利用了侵入性程序(例如羊膜穿刺)来获得用于核型分析的细胞。认识到对不需要细胞培养的更迅速测试方法的需要,已经开发出了荧光原位杂交(FISH)、定量荧光PCR(QF-PCR)以及阵列-比较基因组杂交(阵列-CGH)来作为用于分析拷贝数变异的分子细胞遗传学方法。
允许在较短时间内对整个基因组进行测序的技术的出现、以及循环无细胞DNA(cfDNA)的发现已经提供了机会来将源自一个有待比较的的染色体遗传物质与另一遗传物质的染色体进行比较,而没有与侵入性采样过程相关的风险。然而,现存方法的多种限制(它们包括出自有限水平的cfDNA的不足的敏感性)以及出自基因组信息的固有性质的技术的测序偏差决定了对于无创性方法的持续性需求,这些无创性方法将提供特异性、敏感性、和适用性中任一项或全部,以便在多种临床环境中可靠地确定拷贝数的变化。
在此披露的实施方案满足了以上需求中的一些,并且特别是在提供一种可靠方法方面给出了一种优势,该方法至少适用于实施无创性产前诊断学、并且适用于诊断并监护癌症病人中的转移性进展。
实用新型内容
母体样品中的母体DNA背景对任何试图从样品的母体染色体组中区分胎儿染色体的检测而言都具有敏感性的操作限制。因此,对于依靠胎儿和母体染色体组之间的量化差异和/或实质差异的诊断和常规检测来说,胎儿分数是需要考虑的重要参数。本发明提供了一种用于确定母体样品中的胎儿分数的方法。该方法将胎儿分数作为归一化染色体值或归一化染色体区段值的函数来获得。本发明用于确定胎儿分数的方法可以与其他方法结合,例如与将胎儿分数作为多态性中等位基因不平衡信息的函数来获得的方法相结合,对母体样品中的胎儿染色体或染色体区段的拷贝数变异进行分类。本发明还提供了实施所述方法的设备和试剂盒。
供了多种方法用于在包括核酸混合物的测试样品中确定感兴趣序列的拷贝数变异(CNV),这些核酸已知或被怀疑在感兴趣的一个或多个序列的量上是不同的。这种方法包括一种统计方式,该统计方式法将来自过程相关的、染色体间的和序列间的变异性的累积性变异性考虑在内。该方法适用于确定任何胎儿非整倍性的CNV,以及已知或怀疑与多种医学条件相关的多种CNV。根据本方法可以确定的CNV包括染色体1-22、X和Y中的任一个或多个的三体性或单体性,其他染色体的多体性,以及这些染色体中的任一个或多个的区段的缺失和/或复制,这些可以通过对测试样品的核酸仅进行一次测序而检测出。从通过测试样品的核酸的仅进行一次测序而获得的测序信息可以确定任何非整倍性。
在一个实施方案中提供了一种方法,该方法用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何四种或更多种不同的、完整的胎儿染色体性非整倍性。该方法的步骤包括:(a)获得在母体测试样品中胎儿的和母 体核酸的序列信息;(b)使用该序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何四个或更多个染色体中的每一个识别出一定数目的序列标签,并且针对用于所述感兴趣的任何四个或更多个染色体中的每一个的一个归一化染色体序列识别出一定数目的序列标签;(c)使用针对所述感兴趣的任何四个或更多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何四个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何四个或更多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何四个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在该母体测试样品中存在或不存在任何四种或更多种完整的、不同的胎儿染色体性非整倍性。步骤(a)可以包括对一个测试样品的这些核酸中的至少一部分进行测序,以获得针对测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的这个序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的这个序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化染色体序列识别出的这个序列标签的数目与每个所述归一化染色体序列的长度进行关联来针对每个所述归一化染色体序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中该染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化染色体序列的序列标签密度比的比率来计算的。
在另一个实施方案中提供了一种方法用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何四种或更多种不同的、完整的胎儿染色体性 非整倍性。该方法的步骤包括:(a)获得针对在母体测试样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何四个或更多个染色体中的每一个识别出一定数目的序列标签、并且针对用于所述感兴趣的任何四个或更多个染色体中的每一个的一个归一化染色体序列识别出一定数目的序列标签;(c)使用针对所述感兴趣的任何四个或更多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何四个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何四个或更多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何四个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在该母体测试样品中存在或不存在任何四种或更多种完整的、不同的胎儿染色体性非整倍性,其中选自染色体1-22、X、以及Y的所述感兴趣的任何四个或更多个染色体包括选自染色体1-22、X、以及Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的、完整的胎儿染色体性非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的这个序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的这个序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化染色体序列识别出的这个序列标签的数目与每个所述归一化染色体序列的长度进行关联来针对每个所述归一化染色体序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中所述染色体剂量是作为针对每个所述感兴趣的染色 体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化染色体序列的序列标签密度比的比率来计算的。
在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何四种或更多种不同的、完整的胎儿染色体性非整倍性。该方法的步骤包括:(a)获得针对在母体测试样品中的所述胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何四个或更多个染色体中的每一个识别出一定数目的序列标签,并且针对用于所述感兴趣的任何四个或更多个染色体中的每一个的一个归一化染色体序列识别出一定数目的序列标签;(c)使用针对所述感兴趣的任何四个或更多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何四个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何四个或更多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何四个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在任何四种或更多种完整的、不同的胎儿染色体性非整倍性,其中选自染色体1-22、X、以及Y的所述感兴趣的任何四个或更多个染色体是所有染色体1-22、X和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的胎儿染色体性非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的这个序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的这个序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化染色体序列识别出的这个序列标签的数目 与每个所述归一化染色体序列的长度进行关联来针对每个所述归一化染色体序列计算出一个序列标签密度比;并且(iii)用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中该染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化染色体序列的序列标签密度比的比率来计算的。
在任何以上实施方案中,这个归一化染色体序列可以是选自染色体1-22、X、以及Y的一种单染色体。可替代地,这个归一化染色体序列是选自染色体1-22、X、以及Y的一组染色体。
在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体性非整倍性。该方法的步骤包括:(a)获得针对在样品中的所述胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何一个或多个染色体中的每一个识别出一定数目的序列标签,并且针对用于所述感兴趣的任何一个或多个染色体中的每一个的一个归一化染色体序列识别出一定数目的序列标签;(c)使用针对所述感兴趣的任何一个或多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化区段序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何一个或多个染色体中的每个所述单染色体剂量与针对所述感兴趣的一个或多个染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在任一种或多种完整的、不同的胎儿染色体性非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。
在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的这个序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这 个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的这个序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体中的每一个计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化区段序列识别出的这个序列标签的数目与每个所述归一化染色体的长度进行关联来针对每个所述归一化区段序列计算出一个序列标签密度比;并且(iii)使用步骤(i)和(ii)中计算出的序列标签密度比来计算感兴趣的所述染色体中的每一个的单染色体剂量,其中所述染色体剂量被计算为感兴趣的染色体中的每一个的序列标签密度比和感兴趣的染色体中的每一个的归一化区段序列的序列标签密度比的比率。
在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体性非整倍性。该方法的步骤包括:(a)获得针对在样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何一个或多个染色体中的每一个识别出一定数目的序列标签,并且针对用于所述感兴趣的任何一个或多个染色体中的每一个的一个归一化染色体序列识别出一定数目的序列标签;(c)使用针对所述感兴趣的任何一个或多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化区段序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何一个或多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何一个或多个染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种完整的、不同的胎儿染色体性非整倍性,其中选自染色体1-22、X、以及Y的所述感兴趣的任何一个或多个染色体包括选自染色体1-22、X和Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的完整的胎儿染色体性非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子 的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的这个序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的这个序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化区段序列识别出的这个序列标签的数目与每个所述归一化染色体的长度进行关联来针对每个所述归一化区段序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中所述染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化区段序列的序列标签密度比的比率来计算的。
在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体性非整倍性。该方法的步骤包括:(a)获得针对在样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的感兴趣的任何一个或多个染色体中的每一个识别出一定数目的序列标签,并且针对用于所述感兴趣的任何一个或多个染色体中的每一个的一个归一化区段序列识别出一定数目的序列标签;(c)使用针对所述感兴趣的任何一个或多个染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化区段序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的任何一个或多个染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何一个或多个染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种完整的、不同的胎儿染色体性非整倍性,其中选自染色体1-22、X、以及Y的所述感兴趣的任何一个或多个染色体是全部染色体1-22、 X和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的胎儿染色体性非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的这个序列标签的数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的这个序列标签数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的染色体识别出的这个序列标签的数目与每个所述感兴趣的染色体的长度进行关联来针对每个所述感兴趣的染色体计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化区段序列识别出的这个序列标签的数目与每个所述归一化染色体的长度进行关联来针对每个所述归一化区段序列计算出一个序列标签密度比;并且(iii)用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的染色体计算出一个单染色体剂量,其中所述染色体剂量是作为针对每个所述感兴趣的染色体的序列标签密度比与针对每个所述感兴趣的染色体的所述归一化区段序列的序列标签密度比的比率来计算的。
在以上实施方案的任一个中,这些不同完整染色体性非整倍性选自完整染色体三体性、完整染色体单体性和完整染色体多体性。这些不同染色体性非整倍性选自染色体1-22、X、和Y中的任一个的完整非整倍性。例如,所述不同完整的胎儿染色体性非整倍性选自三体性2、三体性8、三体性9、三体性20、三体性21、三体性13、三体性16、三体性18、三体性22、47,XXX、47,XYY、以及单体性X。
在以上实施方案的任一个中,对于来自不同母体受试者的测试样品重复步骤(a)-(d),并且该方法包括确定在每一测试样品中,存在或不存在任何四个或更多个不同的完整胎儿的染色体性非整倍性。
在以上实施方案的任一个中,该方法可以进一步包括计算出一个归一化染色体值(NCV),其中所述NCV使所述染色体剂量与在一组合格样品中的相 应的染色体剂量的平均值进行关联,作为:
NCV ij = x ij - μ ^ j σ ^ j
其中分别对应地是对于在一组合格样品中的第j个染色体剂量的估算平均值以及标准差,并且xij是对于测试样品i所观察到的第j个染色体剂量。
在另一个实施方案中提供了一种方法,用于在包含胎儿和母体核酸的母体测试样品中确定存在或不存在不同的、部分的胎儿染色体性非整倍性。该方法的步骤包括:(a)获得针对在样品中的胎儿和母体核酸的序列信息;(b)使用所述序列信息针对每个选自染色体1-22、X、以及Y的感兴趣的任何一个或多个染色体的任何一个或多个区段识别出一定数目的序列标签并且针对每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段的归一化区段序列识别出一定数目的序列标签;(c)使用针对每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段识别出的所述序列标签的数目以及针对每个所述归一化区段序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或多个染色体的任何一个或多个区段中的每一个计算出一个单染色体剂量;并且(d)将针对每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段中的每个所述单区段剂量与针对每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、部分的胎儿染色体性非整倍性。步骤(a)可以包括对测试样品的这些核酸中的至少一部分进行测序,以获得针对该测试样品的胎儿和母体核酸分子的所述序列信息。
在一些实施方案中,步骤(c)包括对于每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段计算出一个单区段剂量,作为针对每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段识别出的这个序列标签的数目与针对每个所述感兴趣的任何一个或多个染色体的任何一个或多个区段的所述归一化区段序列识别出的这个序列标签的数目的比率。在一些其他实施方案中,步骤(c)包括:(i)通过使在步骤(b)中针对每个所述感兴趣的每 一区段中的识别出的这个序列标签的数目与每个所述感兴趣的区段的长度进行关联来针对每个所述感兴趣的区段计算出一个序列标签密度比;(ii)通过使在步骤(b)中针对每个所述归一化区段序列识别出的这个序列标签的数目与每个所述归一化区段序列的长度进行关联来针对每个所述归一化区段序列计算出一个序列标签密度比;并且(iii)使用在步骤(i)和(ii)中计算出的这些序列标签密度比来针对每个所述感兴趣的区段计算出一个单染色体剂量,其中所述区段剂量是作为针对每个所述感兴趣的区段的序列标签密度比与针对每个所述感兴趣的区段的所述归一化区段序列的序列标签密度比的比率来计算的。该方法可以进一步包括计算出一个归一化区段值(NSV),其中所述NSV使所述区段剂量与在一组合格样品中的相应的区段剂量的平均值进行关联,作为:
NSV ij = x ij - μ ^ j σ ^ j
其中对应地是对于在一组合格样品中的第j个区段剂量的估算平均值以及标准差,并且xij是对于测试样品i的所观察到的第j个区段剂量。
在所说明的方法的多个实施方案中,由此使用归一化区段序列来确定染色体剂量或区段剂量,这种归一化区段序列可以是染色体1-22、X、以及Y中任意一项或多项的一个单一区段。可替代地,这种归一化区段序列可以是染色体1-22、X、以及Y中任意一项或多项的一组区段。
对于来自不同母体受试者的多个测试样品重复用于确定存在或不存在部分的胎儿染色体性非整倍性的方法的步骤(a)-(d),并且该方法包括确定在每个所述样品中存在或不存在不同的、部分的胎儿染色体性非整倍性。根据该方法可以确定的部分的胎儿染色体性非整倍性包括任何染色体的任何片段的部分的非整倍性。这些部分的非整倍性可以选自部分的复制、部分的倍增、部分的插入和部分的缺失。根据该方法可以确定的部分非整倍性的实例包括染色体1的部分单体、染色体4的部分单体、染色体5的部分单体、染色体7的部分单体、染色体11的部分单体、染色体15的部分单体、染色体17的部分单体、 染色体18的部分单体、以及染色体22的部分单体。
在上述实施方案的任何一个中,这种测试样品可以是选自血液、血浆、血清、尿和唾液样品的一个母体样品。在这些实施方案的任何一个中,这种测试样品可以是血浆样品。母体样品的这些核酸分子是胎儿的和母体的无细胞DNA分子。可以使用下一代测序(NGS)来对这些核酸进行测序。在一些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是连接法测序。仍在其他实施方案中,测序是单分子测序。可任选地,在测序前进行一个扩增步骤。
在另一个实施方案中提供了一种方法,用于在包含胎儿和母体的无细胞DNA分子的混合物的母体血浆测试样品中确定存在或不存在任何二十种或更多种不同的、完整的胎儿染色体性非整倍性。该方法的步骤包括:(a)对无细胞DNA分子中的至少一部分进行测序以便获得针对在该样品中的胎儿和母体的无细胞DNA分子的序列信息;(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的每一个感兴趣的任何二十个或更多个染色体识别出一定数目的序列标签并且来针对每个所述感兴趣的二十个或更多个染色体的一个归一化染色体识别出一定数目的序列标签;(c)使用针对每个所述感兴趣的二十个或更多个染色体所识别出的所述序列标签的数目以及针对每个所述归一化染色体识别出的所述序列标签的数目来对于每个所述感兴趣的二十个或更多个染色体计算出一个单染色体剂量;并且(d)将针对每个所述感兴趣的二十个或更多个染色体的每个所述单染色体剂量与针对每个所述感兴趣的二十个或更多个染色体的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在任何二十种或更多种不同的、完整的胎儿染色体性非整倍性。
在另一实施方案中,本发明提供了用于识别在测试样品中的一个感兴趣的序列(例如临床上相关的序列)的拷贝数变异(CNV)的方法,该方法包括以下步骤:(a)获得一个测试样品和多个合格的样品,所述测试样品包括测试核酸分子和所述多个合格的样品,所述多个合格的样品包括合格的核酸分子;(b)获得在所述样品中所述胎儿的和母体的核酸的序列信息;(c)基于所述合格 的核酸分子的所述测序计算在每一所述多个合格样品中感兴趣的所述合格序列的合格序列剂量,其中所述计算合格序列剂量包括确定感兴趣的所述合格序列和至少一个合格的归一化序列的参数;(d)基于所述合格序列剂量识别出至少一个合格的归一化序列,其中在所述多个合格样品中所述至少一个合格的归一化序列具有最小变异性和/或最大可分辨性;(e)基于在所述测试样品中所述核酸分子的所述测序,计算感兴趣的所述测试序列的测试序列剂量,其中所述计算测试序列剂量包括确定所述感兴趣的测试序列和至少一个归一化测试序列的参数,所述至少一个归一化测试序列对应于所述至少一个合格的归一化序列;(f)比较所述测试序列剂量与至少一个阈值;以及(g)基于步骤(f)的结果来评定在所述测试样品中所述感兴趣的序列的所述拷贝数变异。在一个实施方案中,针对所述感兴趣的合格序列和至少一个合格的归一化序列的参数使这多个映射到所述感兴趣的合格序列的序列标签与映射到所述合格的归一化序列的这多个标签进行关联,并且其中感兴趣的所述测试序列和至少一个归一化测试序列的所述参数使这多个映射到所述感兴趣的测试序列的序列标签与这多个映射到所述归一化测试序列的标签进行关联。在一些实施方案中,步骤(b)包括对这些合格的和测试的核酸分子中的至少一部分进行测序,其中测序包括提供用于测试的多个映射的序列标签以及一个感兴趣的合格序列、并且用于至少一个测试和至少一个合格的归一化序列;对测试样品的所述核酸分子中的至少一部分进行测序以获得该测试样品的胎儿和母体核酸分子的序列信息。在一些实施方案中使用了下一代测序方法来进行这个测序步骤。在一些实施方案中,该测序方法可以是大规模平行测序方法,其中该测序方法使用借助可逆染料终止子的合成法测序。在其他实施方案中,该测序方法是连接法测序。在一些实施方案中,测序包括一次扩增。在其他实施方案中,测序是单分子测序。感兴趣的序列的CNV是一种非整倍性,它可以是一个染色体的或一个部分性的非整倍性。在一些实施方案中,这种染色体性非整倍性是选自三体性2、三体性8、三体性9、三体性20、三体性16、三体性21、三体性13、三体性18、三体性22、格莱弗德氏综合征(klinefelter′s syndrome)、47,XXX、47,XYY、以 及单体X。在其他实施方案中,这种部分的非整倍性是一个部分染色体缺失或一个部分染色体插入。在一些实施方案中,通过该方法识别的CNV是与癌症相关的一种染色体的或部分性的非整倍性。在一些实施方案中,这些测试的和合格的样品是生物学流体样品,例如:得自怀孕的受试者(如怀孕的人类受试者)的血浆样品。在其他实施方案中,测试的和合格的生物学流体样品(例如血浆样品)是得自已知或怀疑患有癌症的受试者。
用于在母体测试样品中确定存在或不存在胎儿染色体非整倍性的某些方法可包括以下操作:(a)提供来自该母体测试样品中的胎儿和母体核酸的序列读数,其中这些序列读数是以电子格式来提供的;(b)使用一个计算装置将这些序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;(c)以计算的方式识别出来自一个或多个感兴趣的染色体或感兴趣的染色体区段的这些序列标签的数目,并且以计算的方式识别出来自这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个的至少一个归一化染色体序列或归一化染色体区段序列的这些序列标签的数目;(d)使用针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的所述序列标签的数目以及针对所述归一化染色体序列或归一化染色体区段序列中的每一个所识别的所述序列标签的数目,以计算的方式计算出针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的一个单染色体或区段剂量;并且(e)使用所述计算装置将针对一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的所述单染色体剂量的每一个与针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的一个相应阈值进行比较,并且由此在所述测试样品中确定存在或不存在至少一种胎儿非整倍性。在某些实现方式中,针对这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的序列标签的数目是至少约10,000或至少约100,000。所披露的实施方案还提供一种计算机程序产品,该计算机程序产品包括一个非暂时性计算机可读媒体,在该非暂时性计算机可读媒体上提供了用于执行所述操作和在此描述的其他计算操作的程序指令。
在某些实施方案中,染色体参考序列具有多个被排除的区域,这些被排除的区域天然地存在于染色体中但它们对于任何染色体或染色体区段而言不影响其序列标签的数目。在某些实施方案中,一种方法另外包括:(i)确定是否将一个予以考虑的读数与在一个染色体参考序列上的一个位点进行比对,而在该位点来自测试样品的另一个读数先前进行了比对;并且(ii)确定是否将这个予以考虑的读数包括在针对一个感兴趣的染色体或一个感兴趣的染色体区段的序列标签的数目之中。染色体参考序列可存储在计算机可读媒体上。
在某些实施方案中,一种方法另外包括对所述母体测试样品的所述核酸分子中的至少一部分进行测序,以便获得针对所述测试样品的所述胎儿和母体核酸分子的所述序列信息。测序可包括对来自该母体测试样品的母体和胎儿核酸进行大规模平行测序以产生序列读数。
在某些实施方案中,一种方法进一步包括在提供该母体测试样品的人类受试者的患者病历卡中使用处理器自动记录如在(d)中所确定的存在或不存在胎儿染色体非整倍性。记录可包括在计算机可读媒体中记录染色体剂量和/或基于所述染色体剂量的诊断。在某些情况下,患者病历卡是由实验室、医生办公室、医院、健康维护组织、保险公司、或个人病历卡网站来保存的。一种方法可进一步包括对获取该母体测试样品的人类受试者开处方、开始治疗、和/或改变治疗。另外或可替代地,该方法可包括预约和/或执行一种或多种另外的测试。
在此披露的某些方法识别感兴趣的染色体或染色体区段的归一化染色体序列或归一化染色体区段序列。某些所述方法包括以下操作:(a)提供针对感兴趣的染色体或染色体区段的多个合格样品;(b)使用多个潜在的归一化染色体序列或归一化染色体区段序列来针对感兴趣的染色体或染色体区段重复计算染色体剂量,其中这种重复计算是用一个计算装置来执行的;并且(c)单独地或在一种组合中对归一化染色体序列或归一化染色体区段序列进行选择,从而在针对感兴趣的染色体或染色体区段所计算的剂量中给出最小的变异性和/或大的可分辨性。
所选定的归一化染色体序列或归一化染色体区段序列可以是归一化染色体序列或归一化染色体区段序列的组合的一部分,或可以单独提供,而不是与其他归一化染色体序列或归一化染色体区段序列相组合。
披露的实施方案提供一种对胎儿基因组中的拷贝数变异进行分类的方法。该方法的操作包括:(a)接收来自一个母体测试样品中的胎儿和母体核酸的序列读数,其中这些序列读数是以电子格式来提供的;(b)使用一个计算装置将这些序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;(c)通过使用该计算装置以计算的方式识别出来自一个或多个感兴趣的染色体的这些序列标签的数目,并且确定该胎儿中的一个第一感兴趣的染色体带有拷贝数变异;(d)通过一种第一方法来计算一个第一胎儿分数值,该第一方法不使用来自该第一感兴趣的染色体的标签的信息;(e)通过一种第二方法来计算一个第二胎儿分数值,该第二方法使用来自该第一染色体的标签的信息;并且(f)将该第一胎儿分数值与该第二胎儿分数值进行比较并且使用该比较对该第一染色体的拷贝数变异进行分类。在某些实施方案中,该方法进一步包括对来自该母体测试样品的无细胞DNA进行测序以提供这些序列读数。在某些实施方案中,该方法进一步包括从一个怀孕生物体获得该母体测试样品。在某些实施方案中,操作(b)包括使用一个计算装置比对至少约一百万个读数。在某些实施方案中,操作(f)可包括确定该两个胎儿分数值是否近似相等。
在某些实施方案中,操作(f)可进一步包括确定该两个胎儿分数值近似相等,并且由此确定该第二方法中暗含的一个倍数性假设是真实的。在某些实施方案中,该第二方法中暗含的该倍数性假设是该第一感兴趣的染色体具有完整染色体非整倍性。在某些这些实施方案中,该第一感兴趣的染色体的完整染色体非整倍性是单体性或三体性。
在某些实施方案中,操作(f)可包括确定该两个胎儿分数值是否不近似相等,并且进一步包括分析该第一感兴趣的染色体的标签信息以确定(i)该第一感兴趣的染色体是带有一种部分非整倍性,还是(ii)该胎儿是一个嵌合体。
在某些实施方案中,此操作还可以包括将该第一感兴趣的染色体的序列装箱成多个部分;确定所述部分中的任一个是否包含比一个或多个其他部分显著更多或显著更少的核酸;并且若所述部分中的任一个包含比一个或多个其他部分显著更多或显著更少的核酸,则确定该第一感兴趣的染色体带有部分非整倍性。在一个实施方案中,该操作可进一步包括确定包含比一个或多个其他部分显著更多或显著更少的核酸的该第一感兴趣的染色体的一个部分带有部分非整倍性。
在一个实施方案中,操作(f)还可以包括将该第一感兴趣的染色体的序列装箱成多个部分;确定所述部分中的任一个是否包含比一个或多个其他部分显著更多或显著更少的核酸;并且若所述部分中都不包含比一个或多个其他部分显著更多或显著更少的核酸,则确定该胎儿是一个嵌合体。
操作(e)可包括:(a)计算来自该第一感兴趣的染色体和至少一个归一化染色体序列的序列标签的数目以确定染色体剂量;并且(b)使用第二方法从该染色体剂量计算胎儿分数值。在某些实施方案中,此操作进一步包括计算归一化的染色体值(NCV),其中该第二方法使用该归一化的染色体值,并且其中该NCV将该染色体剂量与在一组合格样品中的相应染色体剂量的均值相关联,作为:
NCV iA = R iA - R ιU ‾ σ iU
其中和σiU分别是对于该组合格样品中第i个染色体剂量的估算均值和标准差,并且RiA是针对感兴趣的染色体计算的染色体剂量。在另一个实施方案中,操作(d)进一步包括第一方法使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算第一胎儿分数值。
在不同的实施方案中,若第一胎儿分数值与第二胎儿分数值不近似相等,则该方法进一步包括(i)确定拷贝数变异是由部分非整倍性还是嵌合体引起;并且(ii)若拷贝数变异由部分非整倍性引起,则确定在该第一感兴趣的染色体上的部分非整倍性的基因座。在某些实施方案中,确定在该第一感兴趣的染色 体上的部分非整倍性的基因座包括将该第一感兴趣的染色体的这些序列标签分成该第一感兴趣的染色体中的核酸数据箱或基块;并且对每一个数据箱中的这些映射标签进行计数。
操作(e)可进一步包括通过对以下表达式求值来计算胎儿分数值:
ff=2×|NCViACViU|
其中ff是第二胎儿分数值,NCViA是在一个受影响样品中在第i个染色体上的归一化的染色体值,并且CViU是在这些合格样品中确定的感兴趣的染色体的剂量的变异系数。
在任一个以上实施方案中,该第一感兴趣的染色体是选自下组,该组由染色体1到22、X和Y组成。在任一个以上实施方案中,操作(f)可将拷贝数变异分类成选自下组的一个类别,该组由以下各项组成:完整染色体插入、完整染色体缺失、部分染色体复制、以及部分染色体缺失、以及嵌合体。
所披露的实施方案还提供一种计算机程序产品,该计算机程序产品包括一个非暂时性计算机可读媒体,在该非暂时性计算机可读媒体上提供了用于对胎儿基因组中的拷贝数变异进行分类的程序指令。该计算机程序产品可包括:(a)用于接收来自一个母体测试样品中的胎儿和母体核酸的序列读数的代码,其中这些序列读数是以电子格式来提供的;(b)使用一个计算装置用于将这些序列读数与一个或多个染色体参考序列进行比对并且由此提供与这些序列读数相对应的多个序列标签的代码;(c)通过使用该计算装置用于以计算的方式识别出来自一个或多个感兴趣的染色体的这些序列标签的数目、并且确定该胎儿中的一个第一感兴趣的染色体带有拷贝数变异的代码;(d)用于通过一种第一方法来计算第一胎儿分数值的代码,该第一方法不使用来自该第一感兴趣的染色体的标签的信息;(e)用于通过一种第二方法来计算第二胎儿分数值的代码,该第二方法使用来自该第一染色体的标签的信息;以及(f)用于将该第一胎儿分数值与该第二胎儿分数值进行比较并且使用该比较对该第一染色体的拷贝数变异进行分类的代码。在某些实施方案中,该计算机程序产品包括用于 所披露方法的任一个以上实施方案中的不同的操作和方法的代码。
披露的实施方案还提供一种对胎儿基因组中的拷贝数变异进行分类的系统。该系统包括:(a)用于接收来自一个母体测试样品中的胎儿和母体核酸的至少约10,000个序列读数的一个界面,其中这些序列读数是以电子格式来提供的;(b)用于至少暂时地存储多个所述序列读数的存储器;(c)一个处理器,该处理器被设计或配置为带有多个程序指令,这些程序指令用于:(i)将这些序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;(ii)识别来自一个或多个感兴趣的染色体的这些序列标签的一个数目,并且确定该胎儿中的一个第一感兴趣的染色体带有拷贝数变异;(iii)通过一种第一方法来计算一个第一胎儿分数值,该第一方法不使用来自该第一感兴趣的染色体的标签的信息;(iv)通过一种第二方法来计算一个第二胎儿分数值,该第二方法使用来自该第一染色体的标签的信息;并且(v)将该第一胎儿分数值与该第二胎儿分数值进行比较并且使用该比较对该第一染色体的拷贝数变异进行分类。根据不同的实施方案,第一感兴趣的染色体是选自下组,该组由染色体1到22、X和Y组成。在某些实施方案中,用于(c)(v)的程序指令包括用于将该拷贝数变异分类成选自下组的一个类别的程序指令,该组由以下各项组成:完整染色体插入、完整染色体缺失、部分染色体复制、以及部分染色体缺失、以及嵌合体。根据不同的实施方案,该系统可包括对来自该母体测试样品的无细胞DNA进行测序以提供这些序列读数的程序指令。根据某些实施方案,用于操作(c)(i)的程序指令包括使用计算装置用于比对至少约一百万个读数的程序指令。
在某些实施方案中,该系统还包括一个测序仪,该测序仪被配置为用于对一个母体测试样品中的胎儿和母体核酸进行测序并且以电子格式提供序列读数。在不同的实施方案中,该测序仪与该处理器位于分开的设施中,并且该测序仪与该处理器通过网络相连。
在不同的实施方案中,系统还进一步包括用于从一个怀孕母亲获取母体测试样品的装置。根据某些实施方案,用于获取母体测试样品的该装置与该处 理器位于各别设施中。在不同的实施方案中,系统还包括用于从母体测试样品提取无细胞DNA的装置。在某些实施方案中,用于提取无细胞DNA的该装置与该测序仪位于同一个设施中,并且用于获取母体测试样品的该装置位于一个远端设施中。
根据某些实施方案,用于将该第一胎儿分数值与该第二胎儿分数值进行比较的程序指令还包括用于确定该两个胎儿分数值是否近似相等的程序指令。
在某些实施方案中,该系统还包括用于在该两个胎儿分数值近似相等时确定第二方法中暗含的倍数性假设是真实的的程序指令。在某些实施方案中,第二方法中暗含的倍数性假设是该第一感兴趣的染色体具有完整染色体非整倍性。在某些实施方案中,该第一感兴趣的染色体的完整染色体非整倍性是单体性或三体性。
在某些实施方案中,该系统还包括用于分析该第一感兴趣的染色体的标签信息以确定(i)该第一感兴趣的染色体是带有一种部分非整倍性,还是(ii)该胎儿是一个嵌合体的程序指令,其中用于分析的这些程序指令被配置为用于在用于将该第一胎儿分数值与该第二胎儿分数值进行比较的程序指令指示该两个胎儿分数值不近似相等时执行。在某些实施方案中,用于分析该第一感兴趣的染色体的标签信息的程序指令包括:用于将该第一感兴趣的染色体的序列装箱成多个部分的程序指令;用于确定所述部分中的任一个是否包含比一个或多个其他部分显著更多或显著更少的核酸的程序指令;以及用于若所述部分中的任一个包含比一个或多个其他部分显著更多或显著更少的核酸,则确定该第一感兴趣的染色体带有一种部分非整倍性的程序指令。在某些实施方案中,该系统进一步包括用于确定包含比一个或多个其他部分显著更多或显著更少的核酸的该第一感兴趣的染色体的一个部分带有该部分非整倍性的程序指令。
在某些实施方案中,用于分析该第一感兴趣的染色体的标签信息的程序指令包括:用于将该第一感兴趣的染色体的序列装箱成多个部分的程序指令;用于确定所述部分中的任一个是否包含比一个或多个其他部分显著更多或显著更少的核酸的程序指令;以及用于若所述部分中都不包含比一个或多个其他 部分显著更多或显著更少的核酸,则确定该胎儿是一个嵌合体的程序指令。
根据不同的实施方案,该系统可包括用于计算胎儿分数值的第二方法的程序指令,这些程序指令包括:(a)用于计算来自该第一感兴趣的染色体和至少一个归一化染色体序列的序列标签的数目以确定染色体剂量的程序指令;和(b)用于使用第二方法从该染色体剂量计算胎儿分数值的程序指令。
在某些实施方案中,该系统进一步包括用于计算归一化的染色体值(NCV)的程序指令,其中用于第二方法的程序指令包括用于使用该归一化的染色体值的程序指令,并且其中用于该NCV的程序指令将该染色体剂量与在一组合格样品中的相应染色体剂量的均值相关联,作为:
NCV iA = R iA - R ιU ‾ σ iU
其中和σiU分别是对于该组合格样品中第i个染色体剂量的估算均值和标准差,并且RiA是针对感兴趣的染色体计算的染色体剂量。在不同的实施方案中,用于该第一方法的程序指令包括用于使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算第一胎儿分数值的程序指令。
根据不同的实施方案,用于计算胎儿分数值的第二方法的程序指令包括用于对以下表达式求值的程序指令:
ff=2×|NCViACViU|
其中ff是第二胎儿分数值,NCViA是在一个受影响样品中在第i个染色体上的归一化的染色体值,并且CViU是在这些合格样品中确定的感兴趣的染色体的剂量的变异系数。
根据不同的实施方案,该系统进一步包括:(i)用于确定该拷贝数变异是由一种部分非整倍性还是一个嵌合体引起的程序指令;和(ii)用于若该拷贝数变异由一种部分非整倍性引起,则确定在该第一感兴趣的染色体上的该部分非整倍性的基因座的程序指令,其中(i)和(ii)中的这些程序指令被配置为用于在用于将该第一胎儿分数值与该第二胎儿分数值进行比较的这些程序指令确 定该第一胎儿分数值与该第二胎儿分数值不近似相等时执行。
在某些实施方案中,用于确定在第一感兴趣的染色体上的部分非整倍性的基因座的程序指令包括用于将第一感兴趣的染色体的序列标签分成第一感兴趣的染色体中的核酸数据箱或基块的程序指令;和用于对每一个数据箱中的这些映射标签进行计数的程序指令。
在某些实施方案中,提供用于在哺乳动物(例如人类)中识别癌症存在和/或癌症风险增加的方法,其中这些方法包括:(a)提供来自所述哺乳动物的一个测试样品中的核酸的序列读数,其中所述测试样品可包括来自癌细胞或癌前细胞的基因组核酸与来自构成(种系)细胞的基因组核酸,其中这些序列读数是以电子格式来提供的;(b)使用一个计算装置将这些序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;(c)以计算的方式识别出来自一个或多个已知扩增或缺失与癌症有关联的感兴趣的染色体或已知扩增或缺失与癌症有关联的感兴趣的染色体区段的胎儿和母体核酸的序列标签的数目,其中所述染色体或染色体区段是选自染色体1到22、X和Y以及其区段,并且以计算的方式识别出针对这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个的至少一个归一化染色体序列或归一化染色体区段序列的序列标签的数目,其中针对这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的序列标签的数目至少约2,000,或至少约5,000,或至少约10,000;(d)使用针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的所述序列标签的数目以及针对所述归一化染色体序列或归一化染色体区段序列中的每一个所识别的所述序列标签的数目,以计算的方式计算出针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的一个单染色体或区段剂量;并且(e)使用所述计算装置将针对一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的所述单染色体剂量的每一个与针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的一个相应阈值进行比较,并且由此在所述样品中确定存在或不存在非整倍性,其中所述非整倍性存在和/或所述针对 这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的序列标签数目增加指示存在癌症和/或癌症风险增加。在某些实施方案中,风险增加是与不同时间(例如早期)的同一受试者进行比较,与参考群体(例如针对性别和/或种族和/或年龄等任选调整)进行比较,与无一定风险系数的类似受试者进行比较等等。在某些实施方案中,感兴趣的染色体或感兴趣的染色体区段包括扩增和/或缺失已知与癌症(例如在此所描述)有关联的全染色体。在某些实施方案中,感兴趣的染色体或感兴趣的染色体区段包括扩增或缺失已知与一种或多种癌症有关联的染色体区段。在某些实施方案中,染色体区段包括实质上全染色体臂(例如在此所描述)。在某些实施方案中,染色体区段包括全染色体非整倍性。在某些实施方案中,全染色体非整倍性包括丢失,而在某些其他实施方案中,全染色体非整倍性包括获得(例如如表1中所示的获得或丢失)。在某些实施方案中,感兴趣的染色体区段是实质上臂水平的片段,包括染色体1到22、X和Y中任意一个或多个的短臂或长臂。在某些实施方案中,非整倍性包括染色体的实质臂水平片段的扩增或染色体的实质臂水平片段的缺失。在某些实施方案中,感兴趣的染色体区段实质上包括选自下组的一个或多个臂,该组由以下各项组成:1q、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、12p、12q、13q、14q、16p、17p、17q、18p、18q、19p、19q、20p、20q、21q和/或22q。在某些实施方案中,非整倍性包括选自下组的一个或多个臂的扩增,该组由以下各项组成:1q、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、12p、12q、13q、14q、16p、17p、17q、18p、18q、19p、19q、20p、20q、21q、22q。在某些实施方案中,非整倍性包括选自下组的一个或多个臂的缺失,该组由以下各项组成:1p、3p、4p、4q、5q、6q、8p、8q、9p、9q、10p、10q、11p、11q、13q、14q、15q、16q、17p、17q、18p、18q、19p、19q、22q。在某些实施方案中,感兴趣的染色体区段是包括表3和/或表5和/或表4和/或表6中所示的区域和/或基因的片段。在某些实施方案中,非整倍性包括表3和/或表5中所示的区域和/或基因的扩增。在某些实施方案中,非整倍性包括表4和/或6中所示的区域和/或基因的 缺失。在某些实施方案中,感兴趣的染色体区段是已知含有一种或多种癌基因和/或一种或多种肿瘤抑制基因的片段。在某些实施方案中,非整倍性包括选自下组的一个或多个区域的扩增,该组由以下各项组成:20Q13、19q12、1q21-1q23、8p11-p12、以及ErbB2。在某些实施方案中,非整倍性包括一个或多个包括选自下组的基因的区域的扩增,该组由以下各项组成:MYC、ERBB2(EFGR)、CCND1(周期素D1)、FGFR1、FGFR2、HRAS、KRAS、MYB、MDM2、CCNE、KRAS、MET、ERBB1、CDK4、MYCB、ERBB2、AKT2、MDM2、以及CDK4等等。在某些实施方案中,癌症是选自下组的癌症,该组由以下各项组成:白血病、ALL、脑癌、乳癌、结肠直肠癌、去分化性脂肪肉瘤、食道腺癌、食道鳞状细胞癌、GIST、神经胶质瘤、HCC、肝细胞的癌、肺癌、肺NSC、肺SC、髓母细胞瘤、黑色素瘤、MPD、骨髓增生性障碍、子宫颈癌、卵巢癌、前列腺癌、以及肾癌。在某些实施方案中,生物样品包括选自下组的样品,该组由以下各项组成:全血、血块、唾液/口水、尿、组织活检、胸膜液、心包液、脑髓液、以及腹膜液。在某些实施方案中,染色体参考序列具有多个被排除的区域,这些被排除的区域天然地存在于染色体中但它们对于任何染色体或染色体区段而言不影响其序列标签的数目。在某些实施方案中,该方法进一步包括确定是否将一个予以考虑的读数与在一个染色体参考序列上的一个位点进行比对,而在该位点另一个读数先前进行了比对;并且确定是否将这个予以考虑的读数包括在针对一个感兴趣的染色体或一个感兴趣的染色体区段的序列标签的数目之中,其中两个确定操作都是用该计算装置来执行的。在不同的实施方案中,该方法进一步包括至少暂时在一种计算机可读媒体(例如非暂时性媒体)中存储针对所述样品中所述核酸的序列信息。在某些实施方案中,步骤(d)包括针对感兴趣的区段中所选定的一个以计算的方式计算出区段剂量作为针对该选定的感兴趣的区段所识别的序列标签的数目与针对该选定的感兴趣的区段的相应至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签的数目的比率。在某些实施方案中,所述一个或多个感兴趣的染色体区段包括至少5个或至少10个或至少15个或至少20个或至少50个或至少100个不同 的感兴趣的区段。在某些实施方案中,检测至少5个或至少10个或至少15个或至少20个或至少50个或至少100个不同的非整倍性。在某些实施方案中,至少一个归一化染色体序列包括选自下组的一种或多种染色体,该组由染色体1到22、X和Y组成。在某些实施方案中,对于每一个区段,所述至少一个归一化染色体序列包括与所述区段所位于的染色体相对应的染色体。在某些实施方案中,对于每一个区段,所述至少一个归一化染色体序列包括与正被归一化的染色体区段相对应的染色体区段。在某些实施方案中,至少一个归一化染色体序列或归一化染色体区段序列是针对一种相关联的感兴趣的染色体或区段所选定的一个染色体或区段,这是通过以下方式进行的,即:(i)识别针对该感兴趣的区段的多个合格样品;(ii)使用多个潜在的归一化染色体序列或归一化染色体区段序列来针对该所选定的染色体重复计算染色体剂量;并且(iii)单独地或在一种组合中对该归一化染色体区段序列进行选择,从而在所计算的染色体剂量中给出最小的变异性和/或最大的可分辨性。在某些实施方案中,该方法进一步包括计算归一化的区段值(NSV),其中如在此所描述,所述NSV将所述区段剂量与一组合格样品中相应区段剂量的均值相关联。在某些实施方案中,归一化区段序列是染色体1到22、X和Y中任意一个或多个的一个单区段。在某些实施方案中,归一化区段序列是染色体1到22、X和Y中任意一个或多个的一组区段。在某些实施方案中,归一化区段序列包括实质上染色体1到22、X和Y中任意一个或多个的一个臂。在某些实施方案中,该方法进一步包括对所述测试样品的所述核酸分子中的至少一部分进行测序,以便获得所述序列信息。在某些实施方案中,测序包括对来自测试样品的无细胞DNA进行测序以提供序列信息。在某些实施方案中,测序包括对来自测试样品的细胞DNA进行测序以提供序列信息。在某些实施方案中,测序包括大规模平行测序。在某些实施方案中,该(这些)方法进一步包括在提供测试样品的人类受试者的患者病历卡中自动记录如在(d)中所确定的存在或不存在一种非整倍性,其中该记录是使用处理器来执行的。在某些实施方案中,记录包括在一种计算机可读媒体中记录染色体剂量和/或基于所述染色体剂量的诊断。在不同 的实施方案中,患者病历卡是由实验室、医生办公室、医院、健康维护组织、保险公司、或个人病历卡网站来保存的。在某些实施方案中,确定存在或不存在所述非整倍性和/或数目包括一种针对癌症的鉴别诊断中的一个因素。在某些实施方案中,非整倍性的检测指示阳性结果,并且所述方法进一步包括对取测试样品的人类受试者开处方、开始治疗、和/或改变治疗。在某些实施方案中,对取测试样品的人类受试者开处方、开始治疗、和/或改变治疗包括开处方和/或执行进一步诊断以确定癌症的存在和/或严重程度。在某些实施方案中,进一步诊断包括针对癌症生物标记物,筛选来自所述受试者的样品,和/或针对癌症,对所述受试者进行成像。在某些实施方案中,当所述方法指示所述哺乳动物中存在赘生性细胞时,治疗所述哺乳动物或使所述哺乳动物进行治疗,以除去所述赘生性细胞和/或抑制所述赘生性细胞的生长或增殖。在某些实施方案中,治疗哺乳动物包括通过手术除去赘生性(例如肿瘤)细胞。在某些实施方案中,治疗哺乳动物包括对所述哺乳动物执行放射线疗法或使所述哺乳动物执行放射线疗法,以杀死赘生性细胞。在某些实施方案中,治疗哺乳动物包括给予或使所述哺乳动物被给予抗癌药(例如马妥珠单抗(matuzumab)、爱必妥(erbitux)、维克替比(vectibix)、尼妥珠单抗(nimotuzumab)、马妥珠单抗、帕尼单抗(panitumumab)、氟尿嘧啶(flourouracil)、卡培他滨(capecitabine)、5-三氟甲基-2′-脱氧尿苷(5-trifluoromethy1-2′-deoxyuridine)、甲氨蝶呤(methotrexate)、雷替曲塞(raltitrexed)、培美曲塞(pemetrexed)、阿糖胞苷(cytosine arabinoside)、6-巯基嘌呤(6-mercaptopurine)、硫唑嘌呤(azathioprine)、6-硫代鸟嘌呤(6-thioguanine)、喷司他丁(pentostatin)、氟达拉滨(fludarabine)、克拉屈滨(cladribine)、氟尿核苷(floxuridine)、环磷酰胺(cyclophosphamide)、纽沙(neosar)、异环磷酰胺(ifosfamide)、硫替派(thiotepa)、1,3-双(2-氯乙基)-1-亚硝基脲、1-(2-氯乙基)-3-环己基-1-亚硝基脲、六甲蜜胺(hexamethylmelamine)、白消安(busulfan)、丙卡巴肼(procarbazine)、氮烯唑胺(dacarbazine)、苯丁酸氮芥(chlorambucil)、美法仑(melphalan)、顺铂(cisplatin)、卡波铂(carboplatin)、奥沙利铂(oxaliplatin)、苯达莫司汀(bendamustine)、卡莫司 汀(carmustine)、氮芥(chloromethine)、氮烯唑胺、福莫司汀(fotemustine)、洛莫司汀(lomustine)、甘露舒凡(mannosulfan)、奈达铂(nedaplatin)、尼莫司汀(nimustine)、泼尼莫司汀(prednimustine)、雷莫司汀(ranimustine)、沙铂(satraplatin)、司莫司汀(semustine)、链脲霉素(streptozocin)、替莫唑胺(temozolomide)、曲奥舒凡(treosulfan)、三亚胺醌(triaziquone)、三乙撑蜜胺(triethylene melamine)、硫替派(thiotepa)、四硝酸三铂(triplatin tetranitrate)、氯乙环磷酰胺(trofosfamide)、尿嘧啶氮芥(uramustine)、小红霉(doxorubicin)、道诺霉素(daunorubicin)、米托蒽醌(mitoxantrone)、依托泊苷(etoposide)、托泊替康(topotecan)、替尼泊苷(teniposide)、依立替康(irinotecan)、卡莫托沙(camptosar)、喜树碱(camptothecin)、贝洛替康(belotecan)、卢比替康(rubitecan)、长春新碱(vincristine)、长春花碱(vinblastine)、长春瑞滨(vinorelbine)、长春地辛(vindesine)、紫杉醇(paclitaxel)、多西紫杉醇(docetaxel)、阿布克恩(abraxane)、伊沙匹隆(ixabepilone)、拉若塔西(larotaxel)、奥他塔西(ortataxel)、特塞塔西(tesetaxel)、长春氟宁(vinflunine)、甲磺酸伊马替尼(imatinib mesylate)、苹果酸舒尼替尼(sunitinib malate)、甲苯磺酸索拉非尼(sorafenib tosylate)、尼洛替尼盐酸盐单水合物/、塔斯纳(tasigna)、塞玛克尼(semaxanib)、凡德他尼(vandetanib)、瓦他拉尼(vatalanib)、视黄酸(retinoic acid)、视黄酸衍生物等等)。
在另一个实施方案中,提供一种用于在哺乳动物中确定癌症存在和/或癌症风险增加的计算机程序产品。该计算机程序产品典型地包括:(a)用于提供来自所述哺乳动物的一个测试样品中的核酸的序列读数的代码,其中所述测试样品可包括来自癌细胞或癌前细胞的基因组核酸与来自构成(种系)细胞的基因组核酸,其中这些序列读数是以电子格式来提供的;(b)使用一个计算装置用于将这些序列读数与一个或多个染色体参考序列进行比对并且由此提供与这些序列读数相对应的多个序列标签的代码;(c)用于以计算的方式针对来自一种或多种已知扩增或缺失与癌症有关联的感兴趣的染色体或已知扩增或缺失与癌症有关联的感兴趣的染色体区段识别出来自胎儿和母体核酸的序列标 签的数目,其中所述染色体或染色体区段选自染色体1到22、X和Y以及其区段,并且以计算的方式识别出这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个的至少一个归一化染色体序列或归一化染色体区段序列的序列标签的数目的代码,其中针对这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的序列标签的数目是至少约10,000;(d)使用针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的所述序列标签的数目以及针对所述归一化染色体序列或归一化染色体区段序列中的每一个所识别的所述序列标签的数目,以计算的方式计算出针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的一个单染色体或区段剂量的代码;以及(e)使用所述计算装置将针对一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的所述单染色体剂量的每一个与所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个的一个相应阈值进行比较、并且由此在所述样品中确定存在或不存在非整倍性的代码,其中所述非整倍性存在和/或所述针对这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个所识别的序列标签数目增加指示癌症存在和/或癌症风险增加。在不同的实施方案中,代码提供用于执行如上文(和下文)所述的诊断方法的指令。
还提供治疗癌症受试者的方法。在某些实施方案中,这些方法包括执行如在此所述的一种用于在哺乳动物中识别癌症存在和/或癌症风险增加的方法,该方法使用来自受试者的一个样品或接收对该样品执行的此类方法的结果;并且当该方法单独地或与来自针对癌症的一种鉴别诊断的一个或多个其他指标相组合而表明所述受试者中存在赘生性细胞时,治疗受试者,或使受试者进行治疗,以除去赘生性细胞和/或抑制赘生性细胞的生长或增殖。在某些实施方案中,治疗所述受试者包括通过手术除去细胞。在某些实施方案中,治疗受试者包括对受试者执行放射线疗法或使执行放射线疗法,以杀死所述赘生性细胞。在某些实施方案中,治疗受试者包括给予或使受试者被给予抗癌药(例如马妥珠单抗、爱必妥、维克替比、尼妥珠单抗、马妥珠单抗、帕尼单抗、氟尿嘧啶、 卡培他滨、5-三氟甲基-2′-脱氧尿苷、甲氨蝶呤、雷替曲塞、培美曲塞、阿糖胞苷、6-巯基嘌呤、硫唑嘌呤、6-硫代鸟嘌呤、喷司他丁、氟达拉滨、克拉屈滨、氟尿核苷、环磷酰胺、纽沙、异环磷酰胺、硫替派、1,3-双(2-氯乙基)-1-亚硝基脲、1-(2-氯乙基)-3-环己基-1-亚硝基脲、六甲蜜胺、白消安、丙卡巴肼、氮烯唑胺、苯丁酸氮芥、美法仑、顺铂、卡波铂、奥沙利铂、苯达莫司汀、卡莫司汀、氮芥、氮烯唑胺、福莫司汀、洛莫司汀、甘露舒凡、奈达铂、尼莫司汀、泼尼莫司汀、雷莫司汀、沙铂、司莫司汀、链脲霉素、替莫唑胺、曲奥舒凡、三亚胺醌、三乙撑蜜胺、硫替派、四硝酸三铂、氯乙环磷酰胺、尿嘧啶氮芥、小红霉、道诺霉素、米托蒽醌、依托泊苷、托泊替康、替尼泊苷、依立替康、卡莫托沙、喜树碱、贝洛替康、卢比替康、长春新碱、长春花碱、长春瑞滨、长春地辛、紫杉醇、多西紫杉醇、阿布克恩、伊沙匹隆、拉若塔西、奥他塔西、特塞塔西、长春氟宁、甲磺酸伊马替尼、苹果酸舒尼替尼、甲苯磺酸索拉非尼、尼洛替尼盐酸盐单水合物/、塔斯纳、塞玛克尼、凡德他尼、瓦他拉尼、视黄酸、视黄酸衍生物等等)。
还提供监测癌症受试者的治疗的方法。在不同的实施方案中,这些方法包括在治疗前或治疗期间对来自受试者的一个样品执行如在此所述的一种用于在哺乳动物中识别癌症存在和/或癌症风险增加的方法或接收对该样品执行的此类方法的结果;并且在治疗期间的稍迟时间或治疗后对来自受试者的第二个样品再次执行该方法或接收对该第二个样品执行的此类方法的结果;其中第二次测量(例如与第一次测量进行比较)中非整倍性的数目或严重程度降低(例如非整倍性频率降低和/或某些非整倍性减少或不存在)指示阳性疗程并且第二次测量(例如与第一次测量进行比较)中非整倍性的数目或严重程度相同或增加指示阴性疗程,并且当所述指示呈阴性时,将所述治疗方案调整成更具侵袭性的治疗方案和/或姑息性治疗方案。
还提供在包含胎儿和母体核酸的混合物的母体样品中确定胎儿核酸的分数的方法。在一个实施方案中,所述用于在一个母体样品中确定胎儿分数的方法包括:(a)接收来自该母体测试样品中的胎儿和母体核酸的序列读数;(b)将 这些序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;(c)识别出来自于选自染色体1到22、X和Y以及其区段的一个或多个感兴趣的染色体或感兴趣的染色体区段的那些序列标签的一个数目,并且针对这个或这些感兴趣的染色体或感兴趣的染色体区段中的每一个识别出来自至少一个归一化染色体序列或归一化染色体区段序列的那些序列标签的一个数目,以确定一个染色体剂量或染色体区段剂量,其中,所述一个或多个感兴趣的染色体或感兴趣的染色体区段具有拷贝数变异;和(d)使用与步骤(c)中所识别的所述拷贝数变异相对应的所述染色体剂量或染色体区段剂量来确定所述胎儿分数。在一些实施方案中,所述拷贝数变异是通过将所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个染色体或染色体区段的剂量与针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个染色体或染色体区段的一个相应阈值进行比较,来确定的。拷贝数变异可以选自下组,该组由以下各项组成:完整染色体复制、完整染色体缺失、部分复制、部分倍增、部分插入以及部分缺失。
在某些实施方案中,步骤(c)中的染色体或区段剂量计算为针对所述所选定的感兴趣的染色体或区段所识别的序列标签的数目与针对所选定的感兴趣的染色体或区段的相应的至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签的数目的比率。在一些实施方案中,步骤(c)中的染色体或区段剂量计算为所述选定的感兴趣的染色体或区段的序列标签密度比与每个所述选定的感兴趣的染色体或区段的至少一个相应归一化染色体序列或归一化染色体区段序列的序列标签密度比的比率。
在某些实施方案中,该方法进一步包括计算出一个归一化染色体值(NCV),其中计算该NCV使该染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联,作为:
NCV iA = R iA - R ιU ‾ σ iU
其中和σiU对应地是对于在该组合格样品中的第i个染色体剂量的估算平均值以及标准差,并且RiA是是针对测试样品中第i个染色体计算出的染色体剂量,其中所述第i个染色体是所述感兴趣的染色体。接着根据以下表达式确定胎儿分数:
ff=2×|NCViACViU|
其中ff是胎儿分数值,NCViA是在一个受影响样品中在第i个染色体上的归一化的染色体值,并且CViU是在所述合格样品中确定的第i个染色体的剂量的变异系数,其中所述第i个染色体是所述感兴趣的染色体。
在某些实施方案中,该胎儿分数使用一个归一化区段值(NSV)确定,其中该NSV使该染色体区段剂量与在一组合格样品中的相应的染色体区段剂量的平均值进行关联,作为:
NSV iA = R iA - R ιU ‾ σ iU
其中和σiU对应地是对于在该组合格样品中的第i个染色体区段剂量的估算平均值以及标准差,并且RiA是针对测试样品中第i个染色体区段计算出的染色体区段剂量,其中所述第i个染色体区段是所述感兴趣的染色体区段。接着根据以下表达式确定胎儿分数:
ff=2×|NSViACViU|
其中ff是胎儿分数值,NSViA是在一个受影响样品中在第i个染色体区段上的归一化的染色体区段值,并且CViU是在所述合格样品中确定的第i个染色体区段的剂量的变异系数,其中所述第i个染色体区段是所述感兴趣的染色体区段。
在某些实施方案中,所述感兴趣的染色体是染色体1-22或者男性胎儿的X染色体的任意一个染色体,所述感兴趣的染色体区段选自染色体1-22或者男性胎儿的X染色体。
在某些实施方案中,用于确定胎儿分数的方法的多个实施方案的该至少一个归一化染色体序列或归一化染色体区段序列是针对一种相关联的感兴趣的染色体或区段所选定的一个染色体或区段,这是通过以下方式进行的,即:(i)识别针对该感兴趣的染色体或区段的多个合格样品;(ii)使用多个潜在的归 一化染色体序列或归一化染色体区段序列来针对该所选定的染色体或区段重复计算染色体剂量或染色体区段剂量;并且(iii)单独地或在一种组合中对该归一化染色体序列或归一化染色体区段序列进行选择,从而在所计算的染色体剂量或染色体区段剂量中给出最小的变异性或最大的可分辨性。归一化染色体序列可以是染色体1到22、X和Y中任意一个或多个的一个单染色体。可替代地,归一化染色体序列可以是染色体1到22、X和Y中任何染色体的一组染色体同样,归一化区段序列可以是染色体1到22、X和Y中任意一个或多个的一个单区段。可替代地,归一化区段序列可以是染色体1到22、X和Y中任意一个或多个的一组区段。
在某些实施方案中,所述确定胎儿分数的方法还可以包括将如所述所获得的胎儿分数与可以使用来自展现该母体测试样品的这些胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息所确定的胎儿分数进行比较。用于确定等位基因不平衡的方法在本申请的其他地方进行描述,并且包括使用胎儿与母体基因组之间的多态差异(包括但不限于在SNP或STR序列中检测到的差异)确定胎儿分数。
在某些实施方案中,该方法进一步包括至少暂时地存储序列读数。
提供了一种将胎儿基因组中的拷贝数变异分类的额外方法。该额外的方法包括:(a)获得来自一个母体测试样品中的胎儿和母体核酸的序列读数;(b)将这些序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;(c)识别出来自一个或多个感兴趣的染色体的这些序列标签的数目,并且确定该胎儿中的一个第一感兴趣的染色体带有一种拷贝数变异;(d)通过一种第一方法来计算一个第一胎儿分数值,该第一方法不使用来自该第一感兴趣的染色体的这些标签的信息;(e)通过一种第二方法来计算一个第二胎儿分数值,该第二方法使用来自该第一染色体的这些标签的信息;并且(f)将该第一胎儿分数值与该第二胎儿分数值进行比较并且使用该比较对该第一染色体的该拷贝数变异进行分类。
在某些实施方案中,如该额外的方法的步骤(d)中所述计算胎儿分数值的第一方法包括:使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算该第一胎儿分数值;如该额外的方法的步骤(e)中所述计算胎儿分数值的第二方法包括:(a)计算来自该第一感兴趣的染色体和至少一个归一化染色体序列的序列标签的数目以确定染色体剂量;并且(b)使用该第二方法从该染色体剂量计算该胎儿分数值。
在某些实施方案中,该第一方法使用的信息包括通过对预先确定的多态序列进行测序获得的序列标签,所述多态序列的每一个包括所述一个或多个多态位点。在某些实施方案中,该第一方法使用的信息是通过非测序方法获得的,例如通过qPCR、数字PCR、质谱测定法、或毛细管凝胶电泳等方法获得。
在某些实施方案中,该第一方法包括使用来自于不具有拷贝数变异的染色体或染色体区段的标签计算该第一胎儿分数值。举例来说,当该第一感兴趣的染色体是染色体21时,可以将使用来自于染色体21的序列标签所确定的胎儿分数与根据来自于男性胎儿中的染色体X的序列标签所确定的胎儿分数进行比较。已知以非整倍性状态出现或者通过在此描述的任何方法确定了不是非整倍体(例如通过计算其NCV或NSV来确定)的任何染色体或染色体区段都可以用于确定第一胎儿分数。
在某些实施方案中,步骤(e)中第二方法确定的染色体或区段剂量计算为针对所述所选定的感兴趣的染色体或区段所识别的序列标签的数目与针对所选定的感兴趣的染色体或区段的相应的至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签的数目的比率。在某些实施方案中,步骤(e)中确定的所述染色体剂量或区段剂量计算为所述选定的感兴趣的染色体或区段的序列标签密度比与每个所述选定的感兴趣的染色体或区段的至少一个相应归一化染色体序列或归一化染色体区段序列的序列标签密度比的比率。
该额外的方法的某些实施方案进一步包括计算一个归一化的染色体值(NCV),其中该第二方法使用该归一化的染色体值,并且其中计算该NCV将该染色体剂量与在一组合格样品中的相应染色体剂量的均值相关联,作为:
NCV iA = R iA - R ιU ‾ σ iU
其中和σiU对应地是对于在该组合格样品中的第i个染色体剂量的估算平均值以及标准差,并且RiA是针对测试样品中第i个染色体计算出的染色体剂量,其中所述第i个染色体是所述感兴趣的染色体。
在某些实施方案中,计算该胎儿分数值的该第二方法包括对以下表达式求值:
ff=2×|NCViACViU|
其中ff是胎儿分数值,NSViA是在一个受影响样品或测试样品中在第i个染色体上的归一化的染色体值,并且CViU是在所述合格样品中确定的第i个染色体的剂量的变异系数,其中所述第i个染色体是所述感兴趣的染色体。
在某些实施方案中,所述计算胎儿分数的第一方法包括(a)计算来自所述非所述第一感兴趣染色体的染色体和至少一个归一化染色体序列的序列标签数目,以确定该非所述第一感兴趣染色体的染色体的染色体剂量;以及(b)通过该第一方法从该染色体剂量计算该第一胎儿分数值;所述第二方法包括:(a)计算来自该第一感兴趣的染色体和至少一个归一化染色体序列的序列标签数目以确定一个染色体剂量;以及(b)通过该第二方法从该染色体剂量计算该第二胎儿分数值。
优选地,染色体或区段剂量计算为针对所述所选定的感兴趣的染色体或区段所识别的序列标签的数目与针对所选定的感兴趣的染色体或区段的相应的至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签的数目的比率;或者,染色体剂量或区段剂量计算为所述选定的感兴趣的染色体或区段的序列标签密度比与每个所述选定的感兴趣的染色体或区段的至少一个相应归一化染色体序列或归一化染色体区段序列的序列标签密度比的比率。
优选地,该用于分类拷贝数变异的额外的方法还包括计算相应的归一化染色体值(NCV),并且第一方法和第二方法使用相应的NCV。计算NCV将确定的染色体剂量与一组合格样品中的相应染色体剂量的平均值相关联,作为:
NCV iA = R iA - R ιU ‾ σ iU
其中和σiU分别是对于该组合格样品中第i个染色体的剂量的估算平均值和标准差,并且RiA是计算的测试样品中第i个染色体的剂量。第一方法和第二方法可以使用NCV计算胎儿分数,通过以下表达式求值:
ff=2×|NCViACViU|
其中ff是胎儿分数值,NCViA是所述测试样品中在第i个染色体上的归一化的染色体值,并且CViU是所述合格样品中第i个染色体的剂量的变异系数。在上述公式中,对于第一种方法,所述第i个染色体不是所述第一感兴趣的染色体;对于用于该第二方法,所述第i个染色体是所述第一感兴趣的染色体。
该第一感兴趣的染色体选自下组,该组由染色体1到22、X和Y组成。所述非所述第一感兴趣染色体的染色体可以是染色体1到22任意一个,或当胎儿是男性时是X染色体。
在某些实施方案中,步骤(f)包括确定这两个胎儿分数值是否近似相等。在某些实施方案中,步骤(f)进一步包括:在这两个胎儿分数值近似相等时确定该第二方法中暗含的一种倍数性假设是真实的。第二方法中暗含的该倍数性假设可以是该第一感兴趣的染色体具有一种完整染色体非整倍性。例如,第一感兴趣的染色体的完整染色体非整倍性是一种单体性或一种三体性。
在某些实施方案中,用于分类拷贝数变异的额外方法进一步包括一个步骤(g):分析该第一感兴趣的染色体的该标签信息,以确定是否(i)第一感兴趣的染色体带有一种部分非整倍性,或是(ii)在这两个胎儿分数值不近似相等时,该胎儿是一个嵌合体。
在某些实施方案中,其中所述第一方法包括使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算该第一胎儿分数值,所述多态性存在于非所述第一感兴趣染色体的染色体;和所述第二方法包括使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算该第二胎儿分数值,所述多态性存在于所述第一感兴趣的染色体。用于比较的步骤(f)可以包括:当所述第二胎 儿分数值与第一胎儿分数值的比率近似为1时确定所述第一感兴趣的染色体为二倍体;当所述第二胎儿分数值与第一胎儿分数值的比率近似为1.5时确定所述第一感兴趣的染色体为三倍体;和,当所述第二胎儿分数值与第一胎儿分数值的比率近似为0.5时确定所述第一感兴趣的染色体为单倍体。用于分类拷贝数变异的额外方法还可以进一步包括当第二胎儿分数值与第一胎儿分数值的比率不是近似为1、1.5或0.5时,分析所述第一感兴趣的染色体的标签信息的步骤(g),以确定是否(i)第一感兴趣的染色体带有一种部分非整倍性,或是(ii)该胎儿是一个嵌合体。
在某些实施方案中,利用多态性的第一方法和第二方法使用的信息包括通过对预先确定的多态序列进行测序获得的序列标签,所述多态序列的每一个包括所述一个或多个多态位点。或者,利用多态性的第一方法和第二方法使用的信息不是通过测序方法获得,例如是通过qPCR、数字PCR、质谱测定法、或毛细管凝胶电泳等非测序方法获得的。
在某些实施方案中,分析第一感兴趣的染色体的标签信息的步骤(g)包括:(a)将该第一感兴趣的染色体的该序列装箱成多个部分;(b)确定所述部分中的任一个是否包含比一个或多个其他部分显著更多或显著更少的核酸;并且,(c)在与一个或多个其他部分相比,如果所述部分的任何一个含有显著更多或显著更少的核酸时,确定该第一感兴趣的染色体带有一种部分非整倍性;或者在与一个或多个其他部分相比,如果所述部分都没有包含显著更多或显著更少的核酸时,确定该胎儿是一个嵌合体。因此,该额外的方法可以进一步包括确定包含比一个或多个其他部分显著更多或显著更少的核酸的第一感兴趣的染色体的一个部分带有部分非整倍性。
用于将拷贝数变异进行分类的该方法的步骤(f)包括将该拷贝数变异分类成选自下组的一个类别,该组由以下各项组成:完整染色体复制或倍增、完整染色体缺失、部分染色体复制、以及部分染色体缺失、以及嵌合体。
在将第一胎儿分数值与第二胎儿分数值进行比较的步骤(f)确定第一胎儿分数值与第二胎儿分数值不近似相等的实施方案中,该方法进一步包括:
(i)确定该拷贝数变异是由部分非整倍性还是嵌合体引起;并且
(ii)当该拷贝数变异由部分非整倍性引起时,确定在该第一感兴趣的染色体上的部分非整倍性的基因座。
在某些实施方案中,确定在该第一感兴趣的染色体上的部分非整倍性的基因座包括将该第一感兴趣的染色体的这些序列标签分成该第一感兴趣的染色体中的核酸箱或基块;并且对每一个箱中的这些映射标签进行计数。
在某些实施方案中,(b)中比对的步骤包括比对至少约1百万个读数。
在此描述的任何方法都可以进一步包括对母体测试样品中的胎儿和母体核酸(例如无细胞DNA)进行测序以获得序列读数。对来自母体测试样品的母体和胎儿核酸进行测序以产生序列读数包括大规模平行测序。在某些实施方案中,大规模平行测序是合成法测序。合成法测序可以使用可逆染料终止子实现。在其他实施方案中,大规模平行测序是连接法测序。在另外的其他实施方案中,大规模平行测序是单分子测序。
可以根据在此描述的方法用于确定胎儿分数的母体样品包括血液、血浆、血清或尿样品。在某些实施方案中,母体样品是血浆样品。在其他实施方案中,母体样品是全血样品。
还提供了多个不同的设备,包括用于对样品进行医学分析(例如母体样品)的设备,并且这些设备用以执行上述方法的多个步骤,例如单独地用于确定拷贝数变异,用于确定胎儿分数,或用于将拷贝数变异进行分类。
还提供了试剂盒,这些试剂盒包括可以单独地或在与用于确定两个基因组中的一个对来源于该两个基因组的核酸的混合物的影响(例如母体样品中的胎儿分数)的方法组合中用于确定拷贝数变异的试剂。这些试剂盒可以与在此描述的设备结合使用。
虽然在此这些实例涉及人类并且这些措辞主要是针对人类问题,在此描述的概念也适用于来自任何植物或动物的基因组。
附图说明
图1是方法100的流程图,该方法用于在包括核酸的混合物的测试样品中确定存在或不存在拷贝数变异。
图2描绘根据如在此描述的伊路纳未删节方案、简略方案(ABB)、两步法以及一步法制备测序文库的工艺流程。“P”表示纯化步骤;并且“X”指示不包括纯化步骤和/或DNA修复。
图3描绘用于在固体表面上制备测序文库的方法的实施方案的工艺流程。
图4展示用于验证进行多步单路测序生物检验的一个样品的完整性的方法的一个实施方案400的流程图。
图5展示用于验证进行多步多重测序生物检验的多个样品的完整性的方法的一个实施方案500的流程图。
图6是用于在包含胎儿与母体核酸的混合物的母体测试样品中同时确定存在或不存在非整倍性和胎儿分数的方法600的流程图。
图7是使用大规模平行测序法或多态核酸序列的尺寸分离,在包含胎儿与母体核酸的混合物的母体测试样品中确定胎儿分数的方法700的流程图。
图8是用于在富集多态核酸的母体血浆测试样品中同时确定存在或不存在胎儿非整倍性和胎儿分数的方法800的流程图。
图9是用于在富集多态核酸的母体纯化cfDNA测试样品中同时确定存在或不存在胎儿非整倍性和胎儿分数的方法900的流程图。
图10是用于在从衍生自母体测试样品并且富集多态核酸的胎儿与母体核酸构造的测序文库中同时确定存在或不存在胎儿非整倍性和胎儿分数的方法1000的流程图。
图11是概述通过图7中所示的大规模平行测序,确定胎儿分数的方法的替代实施方案的流程图。
图12是展示用以在测试样品中确定胎儿分数的胎儿和母体多态序列(SNP)的识别的柱形图。展示映射到通过rs数(X轴)识别的SNP序列的序列读数的总数(Y轴),以及胎儿核酸的相对含量(*)。
图13是描绘既定基因组位置的胎儿和母体配型状态的分类的框图。
图14展示使用混合物模型以及已知胎儿分数和估算胎儿分数所产生的结果的比较。
图15示出通过使用具有缺省参数的Eland与人类基因组HG18进行比对的伊路纳GA2数据的30个通路上的测序碱基位置作出的误差估计。
图16展示使用机器误差率作为已知参数可使上偏减少一个点。
图17展示使用机器误差率作为已知参数,强化情况1和2误差模型的模拟数据使低于0.2的胎儿分数的上偏大大减少到不足一个点。
图18是描绘通过比较用两种不同技术计算的胎儿分数值将CNV分类的方法的流程图。
图19是用于加工测试样品并且最终作出诊断的离散系统的框图。
图20示意性展示在加工测试样品时多少不同的操作可以通过系统的不同元件成群处理。
图21A和21B展示根据实例2a中描述的简略方案(图21A)和实例2b中描述的方案(图21B)制备的cfDNA测序文库的电泳图。
图22A到22C提供展示当根据简略方案(ABB;◇)制备测序文库时和当根据无修复两步法(INSOL;□)制备测序文库时映射到每一个人染色体的序列标签的总数百分比的平均值(n=16)(%ChrN;图22A)和序列标签百分比作为染色体尺寸的函数(图22B)的图。图22C展示使用两步法制备文库时映射的标签与使用简略(ABB)法制造文库时获得的标签的比率百分比作为染色体的GC含量的函数。
图23A和23B展示提供标签百分比的均值和标准差的柱形图,这些标签映射到从对从10个孕妇的血浆纯化的cfDNA的10个样品进行测序所获得的染色体X(图23A;%ChrX)和Y(图23B;%ChrY)。图23A展示当使用无修复方法(两步)时映射到X染色体的标签数目比使用简略法(ABB)获得的标签数目大。图23B展示使用无修复两步法时映射到Y染色体的标签百分比与使用简略法(ABB)时的标签百分比没有不同。
图24展示参考基因组(hg18)上非排除位点(NE位点)的数目与映射 到5个样品每一者的非排除位点的标签的总数的比率,cfDNA从这些样品中制备并且根据实例2中描述的简略方案(ABB)(实心柱)、溶液中无修复方案(两步;空心柱)以及固体表面无修复方案(一步;灰色柱)用以构造测序文库。
图25A和25B是展示当根据简略方案(ABB;◇)在固体表面上制备测序文库时、当根据无修复两步法(□)制备测序文库时和当根据无修复一步法(Δ)制备文库时映射到每一个人染色体的序列标签的总数百分比的平均值(n=5)(%ChrN;图25A)和序列标签百分比作为染色体尺寸的函数(图25B)的图。从根据简略方案(ABB;◇)和固体表面无修复方案(两步;□)制备的测序文库获得的映射标签的回归系数。图25C展示从根据无修复两步方案制备的测序文库获得的每一个染色体的映射的序列标签与从根据简略方案(ABB)制备的测序文库获得的每一个染色体的标签的比率百分比作为每一个染色体的GC含量百分比的函数(◇),和从根据无修复一步方案制备的测序文库获得的每一个染色体的映射序列标签与从根据简略方案(ABB)制备的测序文库获得的每一个染色体的标签的比率百分比作为每一个染色体的GC含量百分比的函数(□)。
图26A和26B展示标签百分比的均值和标准差的比较,这些标签映射到根据ABB法、两步法以及一步法从对从5个孕妇的血浆纯化的cfDNA的5个样品进行测序所获得的染色体X(图26A)和Y(图26B)。图26A展示当使用无修复方法(两步和一步)时映射到X染色体的标签数目比使用简略法(ABB)获得的标签数目大。图26B展示使用无修复两步法和一步法时映射到Y染色体的标签百分比与使用简略法时的标签百分比没有不同。
图27A和27B展示针对使用ABB法在溶液中制备的61个临床样品(图27A)和使用无修复固体表面(SS)一步法制备的35个研究样品(图27B),将用以制备测序文库的纯化cfDNA的量与所得文库产物的量相关联。
图28展示用以制造文库的cfDNA的量与使用两步(□)、ABB(◇)和一步(Δ)法获得的文库产物的量的相关性。
图29展示当使用一步(空心柱)和两步(实心柱)制备索引文库时获得并且作为6丛(即6个索引样品/流动池通路)测序的索引序列读数的百分比。
图30A和30B是展示当索引测序文库根据一步法在固体表面上制备并且作为6丛测序时映射到每一个人染色体的序列标签的总数百分比的均值(n=42)(%ChrN;图30A)和所得序列标签百分比作为染色体尺寸的函数(图30B)的图。
图31展示映射到Y染色体的序列标签百分比(ChrY)相对于映射到X染色体的标签百分比(ChrX)。
图32A和32B展示了从对cfDNA进行测序所确定的染色体21的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图32A)、并且针对染色体1-22和X(图32B),将对于合格的(即:对于染色体21(O)而言正常的)染色体21的剂量、以及三体性21测试样品示出为(Δ)。
图33展示了从对cfDNA进行测序所确定的染色体18的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图33A)并且针对染色体1-22和X(图33B)示出了对于合格的(即:对于染色体18(O)而言正常的)染色体18的剂量、以及三体性18(Δ)的测试样品。
图34A和34B展示了从对cfDNA进行测序所确定的染色体13的染色体剂量的分布,cfDNA是提取自一组48个血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图34A),并且针对染色体1-22和X(图34B)示出了对于合格的(即:对于染色体13(O)而言正常的)染色体13的剂量、以及三体性13(Δ)的测试样品。
图35A和35B展示了从对cfDNA进行测序所确定的染色体X的染色体剂量的分布,cfDNA提取自一组48个测试血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12和X(图35A)、并且针对染色体1-22和X(图35B)示出了对于男性(46,XY;(O))、女性(46,XX;(Δ))的染色体X剂量,单体性X(45,X;(+)),以及复杂核型(Cplx(X))的样品。
图36A和36B展示了从对cfDNA进行测序所确定的染色体Y的染色体 剂量的分布,cfDNA是提取自一组48个测试血液样品,这些样品得自于各自怀有男性或女性胎儿的人类受试者。针对染色体1-12(图36A)、并且针对染色体1-22(图36B)示出了对于男性(46,XY;(Δ)),女性(46,XX;(O))的染色体Y剂量,单体性X(45,X;(+)),以及复杂核型(Cplx(X))的样品。
图37示出了对于从图32A和32B,33A和33B,以及34A和34B分别示出的剂量来确定的染色体21(■)、18(●)和13(▲)的变异系数(CV)。
图38示出了对于从图35A和35B以及36A和36B中分别示出的剂量来确定的染色体X(■)和Y(●)的变异系数(CV)。
图39示出了人类染色体的GC部分的累积性分布。纵轴代表具有低于水平轴上示出的值的GC含量的染色体的频率。
图40展示了对于从对cfDNA进行测序所确定的染色体11(81000082-103000103bp)的区段的序列剂量(Y轴),cfDNA是提取自所获得的一组7个合格样品(O)和来自怀孕人类受试者的1个测试样品(◆)。识别了来自一位受试者的样品,这位受试者怀有一个带有染色体11(◆)的一种部分非整倍性的胎儿。
图41A-41E展示了,相对于在未受影响的样品中的对应染色体的平均值(Y-轴)的标准差,对于染色体21(41A)、染色体18(41B)、染色体13(41C)、染色体X(41D)以及染色体Y(41E)的归一化的染色体剂量的分布。
图42示出了使用如实例12中所述的归一化染色体,对于在来自训练组1中的样品中确定的染色体21(O)、18(Δ)、和13(□)的归一化的染色体值。
图43示出了使用如实例12中所述的归一化染色体,对于在来自测试组1中的样品中确定的染色体21(O)、18(Δ)、和13(□)的归一化的染色体值。
图44示出了使用Chiu(赵)等人的归一化方法(对感兴趣的染色体所识别序列标签的数目与在样品中剩余染色体所获得的序列标签的数目进行归一化,参见在本申请其他地方的实例13),对于来自测试组1的样品中确定的染色体21(O)和18(Δ)的归一化的染色体值。
图45示出了使用系统地确定的归一化染色体(如实例13中所述),对于 来自训练组1的样品中确定的染色体21(O)、18(Δ)、和13(□)的归一化的染色体值。
图46展示染色体X(X轴)和Y(Y轴)的归一化的染色体值。箭头指向如实例13中所述,分别在训练集和测试集中识别的5个(图46A)和3个(图46B)X单体性样品。
图47示出了使用系统地确定的归一化染色体(如实例13中所述),对于来自测试组1的样品中确定的染色体21(O)、18(Δ)、和13(□)的归一化的染色体值。
图48示出了使用系统地确定的归一化染色体(如实例13中所述),对于来自测试组1的样品中确定的染色体9(O)的归一化的染色体值。
图49示出了使用系统地确定的归一化染色体(如实例13中所述),对于来自测试组1的样品中确定的染色体1-22的归一化的染色体值。
图50显示实例16中所述的研究的设计(A)和随机抽样方案(B)的流程图。
图51A到51F展示染色体21、18以及13的分析(分别是图51A到51C)以及女性、男性以及X单体性的性别分析(分别是图51D到51F)的流程图。椭圆形包括从来自实验室的测序信息获得的结果,矩形包括核型结果,并且具有圆角的矩形展示用以确定测试性能(灵敏性和专一性)的比较结果。图51A和51B中的虚线表示T21(n=3)与T18(n=1)的嵌合性样本之间的关系,这些样品分别由染色体21和18的分析被检查过,但如实例16中所述正确地确定。
图52显示针对实例16中所述的研究的测试样品,染色体21(●)、18(■)以及13(▲)的归一化的染色体值(NCV)对比核型分类关系。圆形样品表示具有三体性核型的未分类样品。
图53显示实例16中所述的研究的测试样品的染色体X的归一化的染色体值(NCV)对比性别分类的核型分类关系。展示具有女性核型的样品(○)、具有男性核型的样品(●)、具有45,X的样品(□)以及具有其他核型(即XXX、 XXY以及XYY)的样品(■)。
图54展示针对实例16中所述的临床研究的测试样品,染色体Y的归一化的染色体值对比染色体X的归一化的染色体值关系的图。展示整倍体男性和女性样品(○)、XXX样品(●)、45,X样品(X)、XYY样品(■)以及XXY样品(▲)。虚线展示如实例16中所述用于将样品分类的阈值。
图55示意性展示在此描述的CNV确定方法的一个实施方案。
图56展示来自实例17,在包含来自具有21三体性的孩子的DNA的合成母体样品(1)中使用染色体21的剂量确定的“ff”百分比(ff21)作为使用染色体X的剂量确定的“ff”百分比(ffX)的函数的图。
图57展示来自实例17,在包含来自整倍体母亲和其携带染色体7部分缺失的孩子的DNA的合成母体样品(2)中使用染色体7的剂量确定的“ff”百分比(ff7)作为使用染色体X的剂量确定的“ff”百分比(ffX)的函数的图。
图58展示来自实例17,在包含来自整倍体母亲和其具有染色体15部分复制的25%嵌合性孩子的DNA的合成母体样品(3)中使用染色体15的剂量确定的“ff”百分比(ff15)作为使用染色体X的剂量确定的“ff”百分比(ffX)的函数的图。
图59展示来自实例17,在人工样品(4)中使用染色体22的剂量确定的“ff”百分比(ff22)和从其获得的NCV的图,该人工样品包含0%孩子DNA(i),和来自已知不具有染色体22部分染色体非整倍性的未受影响孪生儿子的10%DNA(ii),以及来自已知具有染色体22部分染色体非整倍性的受影响孪生儿子的10%DNA(iii)。
图60展示来自实例18,在包括胎儿T21三体性的样品中确定的CNffx对比CNff21关系的图。
图61展示来自实例18,在包括胎儿T18三体性的样品中确定的CNffx对比CNff18关系的图。
图62展示来自实例18,在包括胎儿T13三体性的样品中确定的CNffx对比CNff13关系的图。
图63展示来自实例19,在测试样品中染色体1到22和X的NCV值的图。
图64展示实例18中针对具有患有T21的女性胎儿的样品所获得的胎儿分数。
图65展示一种医学分析设备的一个实施方案,该医学分析设备用于确定作为胎儿基因组中所存在的拷贝数变异的函数的胎儿分数。
图66展示用于确定胎儿分数以将胎儿基因组中的拷贝数变异进行分类的一种医学分析设备的一个实施方案。
图67展示一种试剂盒,该试剂盒包括检验对照试剂和用于追踪和验证进行大规模平行测序的母体cfDNA样品的完整性的试剂。
图68展示一种试剂盒,该试剂盒包括血液收集装置、DNA提取试剂和用于检验母体DNA样品的对照试剂。
图69(A、B、C)展示针对染色体13、18和21的拷贝数变异所检验的内在阳性对照[□]和母体样品[◇]的NCV图。
具体实施方式
所披露的实施方案涉及多种方法、设备以及系统用于在包括核酸混合物的测试样品中确定感兴趣的序列的拷贝数变异(CNV),已知或怀疑这些核酸在感兴趣的一个或多个序列的量上是不同的。>感兴趣的序列包括例如范围从千碱基(kb)到兆碱基(Mb)到整个染色体的基因组区段序列,已知或怀疑这些序列与遗传情况或疾病情况是相关联的。感兴趣的序列的实例包括与熟知的非整倍性相关联的染色体(例如三体性21)以及在疾病(如癌症)中增加的染色体的区段,例如在急性髓细胞白血病中的部分三体性8。根据本方法可以确定的CNV包括常染色体1-22、以及性染色体X和Y(例如:45,X、47,XXX、47,XXY和47,XYY)中的任意一个或多个的单体性和三体性,其他染色体多体性,即四体性和五体性(包括但并不局限于XXXXXXXXXXXXXY和 XYYYY),以及这些染色体中的任一个或多个的区段的缺失和/或复制。
该方法是一种统计方法,该统计方法在一个或多个处理器上实施的并且将源自过程相关的、染色体间(同轮次)的和测序处理间的(轮次间)的变异性的累积性变异性考虑在内。这些方法适用于确定任何胎儿非整倍性的CNV、以及已知或怀疑与多种医学病况相关的CNV。
除非另外指明,本发明的实施涉及通常用于分子生物学、微生物学、蛋白纯化、蛋白工程、蛋白和DNA测序、以及重组DNA领域的常规技术和装置,这些都在本领域的技术内。此类技术和装置对本领域普通技术人员而言是已知的,并且说明于众多文件和参考著作(例如,见Sambrook(萨姆布鲁克)等人,“Molecular Cloning:A Laboratory Manual(分子克隆实验指南)”,第三版(Cold Spring Harbor(冷泉港)),[2001]);以及Ausubel(奥苏贝尔)等人,“Current Protocols in Molecular Biology(最新分子生物学实验方法汇编)”[1987]。
数值范围包括限定该范围的数值。在此的意图是贯穿本说明书给出的每一最大数值限度包括每一较低的数值限度,如同此类较低数值限度在此被明确写出。贯穿本说明书给出的每一最小数值限度将包括每一较高的数值限度,如同此类较高数值限度在此被明确写出。贯穿本说明书给出的每一数值范围将包括落在此类较广的数值范围内的每一较窄数值范围,如同此类较窄数值范围此处被全部明确地写出。
在此提供的标题不意欲限制本披露。
除非在此另行定义,在此使用的所有技术的和科学的术语都具有本发明所属领域中的一位普通技术人员通常理解的相同含义。包括了在此包含的术语的不同科学字典对于本领域那些技术人员而言是熟知并且是可获得的。虽然类似或等价于在此所述的那些方法和材料的任何方法和材料在实施或测试在此披露的实施方案中找到了用途,但仅说明了一些优选的方法和材料。
直接在下文中定义的术语通过将本说明书作为整体来参阅即得到更完全地说明。应理解,本披露内容并不局限于所说明的具体方法学、规程、以及试剂,因为这些可以变化,它们被本领域的那些技术人员根据其情况下来使用。
定义
如在此所使用的,单数的术语“一个”、“一种”、和“该”包括复数引用,除非上下文清楚地另外指明。除非另外指明,对应地,核酸是按5′到3′方向从左到右书写并且氨基酸序列是按氨基到羧基方向从左到右书写。
术语“评估”当在此在分析核酸样品的CNV的情况下使用时是指将染色体或区段非整倍性的状态表征为三种类型判定之一:“正常”或“未受影响”、“受影响”以及“无判定”。判定正常和受影响的阈值典型地设置。对样品中与非整倍性有关的参数进行测量,并且将这些测量值与阈值进行比较。对于复制类型的非整倍性,如果染色体或区段剂量(或序列含量的其他测量值)超过针对受影响样品所设置的界定阈值,那么判定受影响。对于这些非整倍性,如果染色体或区段剂量低于针对正常样本所设置的阈值,那么判定正常。相比之下,对于缺失类型的非整倍性,如果染色体或区段剂量低于受影响样品的界定阈值,那么判定受影响,并且如果染色体或区段剂量超过针对正常样本所设置的阈值,那么判定正常。举例来说,在三体性存在下,通过例如测试染色体剂量等参数的值低于用户界定的可靠性阈值,确定“正常”判定,并且通过例如测试染色体剂量等参数超过用户界定的可靠性阈值,确定“受影响”判定。通过例如测试染色体剂量等参数位于“正常”或“受影响”判定的阈值之间,确定“无判定”的结果。术语“无判定”与“未分类”互换使用。
术语“拷贝数变异”在此是指与合格样品中存在的核酸序列的拷贝数相比,测试样品中存在的核酸序列的拷贝数的变化。在某些实施方案中,核酸序列是1kb或更大。在一些情况下,核酸序列是全染色体或其重要部分。“拷贝数变异体”是指通过将测试样品中感兴趣的序列与感兴趣的序列的预期含量进行比较,发现拷贝数差异的核酸序列。举例来说,将测试样品中感兴趣的序列的含量与合格样品中存在的感兴趣的序列的含量进行比较。拷贝数变异体/变异包括缺失(包括微缺失)、插入(包括微插入)、复制、倍增、倒位、易位以及复杂多位置变异。CNV涵盖染色体非整倍性和部分非整倍性。
术语“非整倍性”在此是指由损失或获得整个染色体、或染色体的一部分而 引起的遗传物质的不平衡。
术语“染色体性非整倍性”和“完整染色体性非整倍性”在此是指由损失或获得整个染色体而引起的遗传物质的不平衡,并且包括种系非整倍性和嵌合性非整倍性。
术语“部分非整倍性”和“部分染色体性非整倍性”在此是指由损失或获得染色体的一部分(例如,部分单体性和部分三体性)而引起的遗传物质的不平衡,并且涵盖由易位、缺失和插入引起的不平衡。
术语“非整倍性样本”在此是指表明一位受试者的染色体含量不是整倍体的一个样品,即:该样品表明一位受试者带有染色体或染色体部分的异常拷贝数。
术语“非整倍性染色体”在此是指一种染色体,它已知或被确定是存在于一个异常拷贝数的样品之中。
术语“多个/多种”在此是指超过一个。举例来说,该术语在此用以指核酸分子或序列标签的数目在使用在此披露的方法下足以识别测试样品和合格样品中拷贝数变异(例如染色体剂量)的显著差别。在一些实施方案中,对于每一测试样品获得了包括在约20和40bp读数之间的至少约3 x 106个序列标签、至少约5 x 106个序列标签、至少约8 x 106个序列标签、至少约10 x 106个序列标签、至少约15 x 106个序列标签、至少约20 x 106个序列标签、至少约30 x 106个序列标签、至少约40 x 106个序列标签、或至少约50 x 106个序列标签。
术语“多核苷酸”、“核酸”以及“核酸分子”被可互换地使用,并且是指一个共价连接的核苷酸序列(即RNA的核糖核苷酸和DNA的脱氧核糖核苷酸),其中一个核苷酸的戊糖的3′位置被一个磷酸二酯基团连接到下一个核苷酸的戊糖的5′位置上,这包括任何形式的核酸的序列,包括但不局限于RNA和DNA分子,例如cfDNA分子。术语“多核苷酸”包括而不局限于单链的和双链的多核苷酸。
术语“部分(portion)”在此被用于提及在一个生物学样品中胎儿和母体核酸分子的序列信息的量,这个量合计小于一个人类基因组的序列信息。
术语“测试样品”在此是指包含包括至少一个将针对拷贝数变异进行筛选的核酸序列的核酸或核酸混合物的样品,典型地衍生自生物学流体、细胞、组织、器官或生物体。在某些实施方案中,样品包括至少一个怀疑其拷贝数已经变异的核酸序列。这些样品包括但不限于唾液/口水、羊水、血液、血块或细针活组织检查样品(例如手术活组织检查、细针活组织检查等等)、尿、腹膜液、胸膜液等等。虽然样品经常取自人类受试者(例如患者),但是检验可用于来自包括但不限于狗、猫、马、山羊、绵羊、牛、猪等任何哺乳动物的样品中的拷贝数变异(CNV)。样品可以在从生物来源中获得时直接使用,或者在预处理以改变样品特征后使用。举例来说,该预处理可包括从血液制备血浆、稀释粘稠流体等等。预处理的方法还可以包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冰冻、冻干、浓缩、扩增、核酸片段化、干扰组分灭活、添加试剂、溶解等等。如果这些预处理的方法用于样品,那么这些预处理的方法典型地会使一种或多种相关核酸优选以与未处理的测试样品(例如即未进行任何这样的预处理方法的样品)中的浓度成比例的浓度保留在测试样品中。对于在此描述的方法,仍然认为这些进行“处理”或“加工”的样品是生物“测试”样品。
术语“合格样品”在此是指包括以测试样品中的核酸进行比较的已知拷贝数存在的核酸的混合物的样品,并且对于感兴趣的序列来说,此样品是正常的样品,即不是非整倍体样品。在某些实施方案中,合格样品用于识别予以考虑的染色体的一个或多个归一化染色体或区段。举例来说,合格样品可用于识别染色体21的归一化染色体。在此情况下,合格样品是一个不是21三体性样品的样品。合格样品还可以用于确定判定受影响样品的阈值。
术语“训练组”在此是指一组样品,它们可包括受影响的和未受影响的样品并且被用于发展一种用于分析测试样品的模型。在训练组中未受影响的样品可以用作合格样品来识别归一化序列,例如归一化染色体,而未受影响的样品的染色体剂量被用于为这些感兴趣的序列(例如染色体)中的每一个设定阈值。在一个训练组中的这些受影响的样品可以被用于验证受影响的测试样品可以容易地从未受影响的样品中辨别出来。
术语“合格核酸”是与“合格序列”可互换地使用,这是一个测试序列或测试核酸与之进行比较的序列。合格序列是优选按已知表达(即合格序列的量是已知的)存在于生物学样品中的一种序列。总体而言,合格序列是存在于“合格样品”中的序列。“感兴趣的合格序列”是对其在合格样品中的量已知的一种合格序列,并且它是与带有一种医学情况的个体的序列表达中的一种差异相关联的序列。
术语“感兴趣的序列”在此是指一种核酸序列,它与在健康对比患病个体的序列表达中的一种差异相关联。一个感兴趣的序列可以是一种染色体上的序列,它在疾病或遗传状况下被错误表达,即:过表达或表达不足。一个感兴趣的序列可以是一个染色体的一部分(即染色体区段)、或一个染色体。例如,一个感兴趣的序列可以是一种染色体(它在非整倍性情况下是过表达的),或者是一种基因(它对在癌症中表达不足的一种肿瘤抑制子进行编码)。感兴趣的序列包括在受试者的细胞的总群或亚群中过表达或表达不足的序列。一个“感兴趣的合格序列”是在合格样品中的感兴趣的序列。一个“感兴趣的测试序列”是在测试样品中的感兴趣的序列。
术语“归一化序列”在此是指用以将映射到与该归一化序列相关联的感兴趣的序列的序列标签的数目归一化的序列。在某些实施方案中,归一化序列显示映射到归一化序列的序列标签的数目在样品和测序轮次中的变异性,该变异性接近于归一化序列用作归一化参数的感兴趣的序列的变异性,并且可将受影响样品与一个或多个未受影响样品辨别开。在某些实现方式中,与例如其他染色体等其他潜在归一化序列相比,该归一化序列最佳或有效地将受影响样品与一个或多个未受影响样品辨别开。“归一化染色体”或“归一化染色体序列”是“归一化序列”的实例“归一化染色体序列”可以由一个单染色体或一组染色体构成。“一个“归一化区段”是“归一化序列”的另一个实例。一个“归一化区段序列”可以由一个染色体的单一区段构成,或者它可以由相同的或不同的染色体的两个或更多个区段构成。在某些实施方案中,归一化序列是用来针对例如工艺相关的变异性、染色体间(同轮次)的变异性和测序间(轮次间)的变异性等变异性 进行归一化。
术语“可分辨性”在此是指时一种归一化染色体的特征,这使它能够从一个或多个受影响的(即非整倍性)样品辨别出一个或多个未受影响的(即正常的)样品。
术语“序列剂量”在此是指将针对感兴趣的序列识别的序列标签的数目与针对归一化序列识别的序列标签的数目相关联的参数。在一些情况下,序列剂量是针对感兴趣的序列所识别的序列标签的数目与针对归一化序列所识别的序列标签的数目的比率。在一些情况下,序列剂量是指将感兴趣的序列的序列标签密度与归一化序列的标签密度相关联的参数。“测试序列剂量”是一个参数,它使一个感兴趣的序列(例如染色体21)的序列标签密度与在一个测试样品中确定的归一化序列(例如染色体9)的序列标签密度进行关联。类似地,一个“合格序列剂量”是一个参数,它使一个感兴趣的序列的序列标签密度与在一个合格样品中确定的归一化序列的标签密度进行关联。
术语“序列标签密度”在此是指序列读数的数目,这些读数被映射到一个参考基因组序列上,例如,针对染色体21的序列标签密度是由测序方法产生的背映射到参考基因组的染色体21上的序列读数的数目。术语“序列标签密度比”在此是指被映射到参考基因组的染色体(例如染色体21)的序列标签数目与参考基因组染色体的长度的比率
术语“下一代测序(NGS)”在此是指允许对克隆扩增的分子和单个的核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括使用可逆染料终止子的合成法测序、以及连接法测序。
术语“参数”在此是指表征物理特性的一种数字关系。时常,参数在数字上表征量化数据集和/或量化数据集之间的数字关系。例如,映射到一个染色体上的序列标签的数目和这些标签所映射到上面的染色体的长度之间的比率(或比率的函数)就是一个参数。
术语“阈值”和“合格阈值”在此是指用作截止以表征例如含有来自怀疑患有一种医学病状的生物体的核酸的测试样品等样品的任何数目。阈值可与参数 值进行比较,以确定产生该参数值的样品是否表明该生物体患有该医学病状。在某些实施方案中,使用合格数据集计算合格阈值,并且充当诊断生物体中例如非整倍性等拷贝数变异的界限。如果从在此披露的方法获得的结果超过了一个阈值,那么受试者可以被诊断患有拷贝数变异,例如,三体21。通过分析对于一个训练组的样品计算出的归一化值(例如染色体剂量,NCV或NSV)可以识别用于在此说明的方法的适当阈值。使用包括合格的(即未受影响的)样品和受影响的样品的训练组中的合格的(即未受影响的)样品可以识别阈值。在已知具有染色体性非整倍性的训练组中的这些样品(即受影响的样品)可以用于确认这些选择的阈值在从测试组中的未受影响的样品辨别出受影响的样品中是有用的(参见在此的这些实例)。阈值的选择取决于使用者希望得到的做出分类的置信水平。在一些实施方案中,用于识别适当阈值的训练组包括至少10、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少2000、至少3000、至少4000、或更多个合格样品。可能有利的是使用更大组的合格样品来改进阈值的诊断效用。
术语“归一化值”在此是指一个数值,该数值使针对感兴趣的序列(例如染色体或染色体区段)所识别的序列标签数目与针对归一化序列(例如归一化染色体或归一化染色体区段)识别的序列标签数目进行关联。例如,“归一化值”可以是在本申请的其他地方说明的染色体剂量,或者它可以是在本申请的其他地方说明的NCV(归一化的染色体值),或者它可以是在本申请的其他地方说明的NSV(归一化的区段值)。
术语“读数”是指来自一部分核酸样品的序列读数。典型地,但不一定,读数表示样品中相邻碱基对的短序列。读数可通过样品样品部分的碱基对序列(ATCG)象征性地表示。该读数可存储在存储装置中,且酌情处理,以确定该读数是否与参考序列匹配或达到其他指标。读数可直接从测序装置获得,或者从有关样品的存储序列信息间接获得。在一些情况下,术语“读数”指的是一段足够长(比如至少30bp)的能用于识别更大的序列或者是区域的DNA序列, 比如能与一个染色体或者一个基因组区域或者一个基因进行比对和针对性的比对。
术语“序列标签”在此与术语“映射的序列标签”可互换地使用,是指已经通过比对确切地分配给(即对映到)更大序列(例如参考基因组)的序列读数。映射的序列标签独特地映射到参考基因组,即它们被分配给参考基因组的单位置。标签可作为数据结构或其他的数据集合提供。在某些实施方案中,标签包括读数序列和该读数的相关信息,例如基因组中序列的位置,例如染色体上的位置。在某些实施方案中,位置以正链方向说明。可对标签进行界定以在与参考基因组比对时提供有限量的错配。可以对映参考基因组中多于一个的位置的标签(即并不独特地映射的标签)可以不包括在分析中。
如在此所用,术语“比对(aligned、alignment或aligning)”是指将读数或标签与参考序列进行比较并且由此确定该参考序列是否包含该读数序列的过程。如果该参考序列包含该读数,那么该读数可映射到参考序列,或者在某些实施方案中,映射到参考序列中的具体位置。在一些情况下,比对简单地告知读数是否是具体参考序列的成员(即读数存在还是不存在于参考序列中)。举例来说,将读数与人染色体13的参考序列进行比对,将告知该读数是否存在于染色体13的参考序列中。提供此信息的工具可被判定集合成员身份测试器。在一些情况下,比对另外指示参考序列中读数或标签所映射的位置。举例来说,如果参考序列是全人类基因组序列,那么比对可指示读数存在于染色体13上,并且可进一步指示读数在染色体13的具体股和/或位点上。
比对的读数或标签是根据其核酸分子的次序,识别为与来自参考基因组的已知序列匹配的一个或多个序列。比对可人工进行,不过比对典型地通过计算机算法实现,因为对于实现在此披露的方法来说,在合理时间内比对读数是不可能的。用于比对序列的算法的一个实例是核苷酸数据有效局部比对(ELAND)计算机程序,该程序分配为伊路纳基因组学分析管道(Illumina Genomics Analysis pipeline)的一部分。作为替代方案,布隆过滤器(Bloom filter)或类似的集合成员身份测试器可用于将读数与参考基因组进行比对。参见于 2011年10月27日提交的美国专利申请号61/552,374,该专利申请通过引用以其全文结合于此。比对时序列读数的匹配可以是100%序列匹配或小于100%(非理想匹配)。
如在此所使用的,术语“参考基因组”或“参考序列”是指任何生物体或病毒的任何具体的已知基因组序列(无论是部分的或完整的),它可以用于对来自一个受试者的识别的序列进行参比。例如,用于人类受试者连同很多其他生物体的参考基因组可见于the National Center for Biotechnology Information(美国国家生物技术信息中心),在www.ncbi.nlm.nih.gov。“基因组”是指一个生物体或病毒的完整遗传学信息,这表达在核酸序列中。
在不同的实施方案中,参考序列明显大于与其进行比对的读数。举例来说,其可大至少约100倍,或大至少约1000倍,或大至少约10,000倍,或大至少约105倍,或大至少约106倍,或大至少约107倍。
在一个实例中,参考序列是全长人类基因组的序列。这些序列可称为基因组参考序列。在另一个实例中,参考序列限于具体的人染色体,例如染色体13。这些序列可称为染色体参考序列。参考序列的其他实例包括其他物种的基因组以及任何物种的染色体、亚染色体区域(例如股)等。
在不同的实施方案中,参考序列是衍生自多个个体的共同序列或其他组合。然而,在某些申请中,参考序列可取自一个具体的个体。
术语“人工目标序列基因组”在此是指涵盖已知多态位点的等位基因的已知序列群组。举例来说,“SNP参考基因组”是包括涵盖已知SNP的等位基因的序列群组的人工目标序列基因组。
术语“临床上相关的序列”在此是指一个核酸序列,该序列已知是或被怀疑是与一种遗传的或疾病的情况相关联或与之有牵连。在确定一种医学情况的诊断或确认该医学情况的诊断时、或提供对于一种疾病发展的预测时,确定存在或不存在临床上相关的序列可以是有用的。
当在一种核酸或一个核酸混合物的背景下使用术语“衍生的”时,在此是指从这种或这些核酸得起源的来源处获得这种或这些核酸的方式。例如,在一个 实施方案中,衍生自两个不同基因组的核酸的混合物是指这些核酸(例如cfDNA)是由细胞通过天然发生的过程(如坏死或凋亡)而自然地释放出的。在另一实施方案中,衍生自两个不同基因组的核酸的混合物是指这些核酸是从来自一个受试者的两种不同类型的细胞中提取的。
术语“患者样品”在此是指从患者(即医学救助、护理或治疗的接受者)中获得的生物样品。患者样品可以是在此描述的任何样品。在某些实施方案中,患者样品通过非侵入性程序获得,例如周边血样或粪便样品。在此描述的方法不必限于人类。因此,涵盖不同的兽医学应用,在此情况下,患者样品可以是来自非人类哺乳动物的样品(例如猫、猪、马、牛等等)。
术语“混合样品”在此是指含有衍生自不同基因组的核酸混合物的样品。
术语“母体样品”在此是指从怀孕受试者(例如女性)中获得的生物样品。
术语“生物学流体”在此是指取自生物来源的液体并且包括例如血液、血清、血浆、唾液、灌洗液、脑脊液、尿、精液、汗水、眼泪、唾液等等。如在此所用,术语“血液”、“血浆”以及“血清”清楚地涵盖其部分或加工部分。同样,在样品取自活组织检查、棉签、涂片等等的情况下,“样品”明确地涵盖衍生自活组织检查、棉签、涂片等等的加工部分或部分。
术语“母体核酸”和“胎儿核酸”在此分别是指怀孕女性受试者的核酸和该怀孕女性所携带的胎儿的核酸。
如在此所用,术语“与......相对应”有时是指存在于不同受试者的基因组中,并且在所有基因组中无需具有相同序列,而是用以提供例如基因或染色体等感兴趣的序列的身份而非遗传信息的例如基因或染色体等核酸序列。
如在此所用,术语“实质上无细胞”涵盖从所需样品除去通常与之相连的细胞组分的所需样品制剂。举例来说,通过除去例如红细胞等通常与血浆相连的血细胞,使血浆样品实质上无细胞。在某些实施方案中,对实质上无细胞样品进行加工,以除去细胞,否则这些细胞将对待针对CNV进行测试的所希望的遗传物质产生影响。
如在此所用,术语“胎儿分数”是指包括胎儿和母体核酸的样品中存在的胎 儿核酸的分数。胎儿分数经常用以表征母亲血液中的cfDNA。
如在此所用,术语“染色体”是指活细胞中承担遗传的基因载体,其衍生自染色质并且包括DNA和蛋白质组分(尤其是组蛋白)。在此采用国际上公认的常规个别人类基因组染色体编号系统。
如在此所用,术语“多核苷酸长度”是指序列中或参考基因组的区域中核酸分子(核苷酸)的绝对数目。术语“染色体长度”是指以碱基对为单位的已知的染色体长度,例如可见于万维网genome.ucsc.edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=上的人染色体的NCBI36/hg18集合中所提供。
术语“受试者”在此是指人类受试者以及非人类受试者,例如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌以及病毒。虽然在此的实例涉及人类并且语言主要是针对人类问题,但是在此披露的概念适用于来自任何植物或动物的基因组,并且适用于兽医学、畜牧学、研究实验室等等领域。
术语“病状”在此是指“医学病状”,作为广义的术语,其包括所有疾病和病症,还可包括[损伤]和例如怀孕等正常健康状况,其可能影响一个人的健康,受益于医疗救护或具有医学治疗的蕴含意义。
术语“完整”在此在提及染色体非整倍性时使用,是指整个染色体的获得或丢失。
术语“部分”在提及染色体非整倍性时使用时,在此是指染色体的一部分(即区段)的获得或丢失。
术语“嵌合体”在此是指表示一个从单受精卵发育而来的个体中存在具有不同核型的两种细胞群体。嵌合性可能由发育期间仅仅蔓延到一个成人细胞子集的突变引起。
术语“非嵌合体”在此是指包括具有一种核型的细胞的生物体,例如人类胎儿。
术语“使用染色体”在提及确定染色体剂量时使用时,在此是指使用针对染色体获得的序列信息,即针对染色体获得的序列标签的数目。
如在此所用的术语“灵敏性”等于真阳性的数目除以真阳性与假阴性之和。
如在此所用的术语“专一性”等于真阴性的数目除以真阴性与假阳性之和。
术语“亚二倍体”在此是指一个染色体数,它比对于该物种而言的染色体组特征的正常单倍体数要小一或更多。
“多态位点”是发生核苷酸序列歧异的基因座。基因座可以小到一个碱基对。示意性标记物具有至少两个等位基因,每一个出现的频率大于所选定的群体的1%,并且更典型地大于10%或20%。多态位点可以是单核苷酸多态性(SNP)、小规模多碱基缺失或插入、多核苷酸多态性(MNP)或短串联重复(STR)的位点。术语“多态基因座”与“多态位点”在此互换使用。
“多态序列”在此是指包括一个或多个多态位点(例如一个SNP或一个串联SNP)的核酸序列,例如DNA序列。根据本技术的多态序列可用于特定地将包括胎儿与母体核酸混合物的母体样品中母体与非母体等位基因辨别开。
如在此所用,“单核苷酸多态性”(SNP)出现在单核苷酸占据的多态位点上,该位点是等位基因的序列之间发生变异的位点。该位点通常前面与后面是等位基因高度保守的序列(例如在小于群体1/100或1/1000个成员中变化的序列)。SNP通常因多态位点上一个核苷酸被另一个核苷酸取代而产生。转换是一个嘌呤被另一个嘌呤置换或一个嘧啶被另一个嘧啶置换。颠换是嘌呤被嘧啶置换或嘧啶被嘌呤置换。SNP也可以由相对于参考等位基因的核苷酸缺失或核苷酸插入引起。单核苷酸多态性(SNP)是人类群体中两个替代碱基以可观的频率(>1%)出现的状况,并且是最常见类型的人类遗传变异。
术语“串联SNP”在此是指在一个多态目标核酸序列内存在的两个或更多个SNP。
如在此所用,术语“短串联重复”或“STR”是指当两个或更多个核苷酸的模式重复并且重复序列直接彼此相邻时出现的一类多态性。该模式的长度可在从2个到10个碱基对(bp)(例如基因组区域中(CATG)n)范围内,并且典型地在非编码内含子区域中。通过检查若干个STR基因座并且计数在既定基因座上有多少个特定STR序列重复,有可能建立个体独特的基因概况。
如在此所用,术语“miniSTR”在此是指跨越小于约300个碱基对、小于约250个碱基对、小于约200个碱基对、小于约150个碱基对、小于约100个碱基对、小于约50个碱基对或小于约25个碱基对的四个或更多个碱基对串联重复。“miniSTR”是可从cfDNA模板扩增的STR。
术语“多态目标核酸”、“多态序列”、“多态目标核酸序列”以及“多态核酸”在此互换使用,是指包括一个或多个多态位点的核酸序列(例如DNA序列)。
术语“多个多态目标核酸”在此是指各包括至少一个多态位点(例如一个SNP)的大量核酸序列,使得1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个或更多个不同多态位点从该多态目标核酸扩增,以识别和/或量化包括胎儿和母体核酸的母体样品中存在的胎儿等位基因。
术语“富集”在此是指将母体样品一部分中所包含的多态目标核酸扩增并且将所扩增产物与除去该部分的母体样品的其余部分组合的过程。举例来说,母体样品的其余部分可以是原始母体样品。
术语“原始母体样品”在此是指从充当移除一部分以扩增多态目标核酸的来源的怀孕受试者(例如女性)中获得的非富集生物样品。“原始样品”可以是从怀孕受试者中获得的任何样品和其加工部分,例如从母体血浆样品中提取的纯化cfDNA样品。
如在此所用,术语“引物”是指当置于引发与核酸股补偿的引物延伸产物合成的条件下时(即在核苷酸和例如DNA多聚酶等引发剂存在下以及在适合温度和pH值下),能够充当合成起始点的分离寡核苷酸。为最高效率地扩增,引物优选是单股,但作为替代方案,可以是双股。如果是双股,那么在用于制备延伸产物前首先对引物进行处理以分离其股。引物优选是寡脱氧核糖核苷酸。引物必须足够长,以在引发剂存在下引发延伸产物合成。引物的精确长度将取决于许多因素,包括温度、引物来源、方法的使用以及用于引物设计的参数。
短语“有待采取的行为(cause)”是指医学专业人士(例如医生)或者控制或指导受试者医疗护理的人所采取的控制和/或准许争论中的一种或多种药 剂/一种或多种化合物给予受试者的行动。给药可包括诊断和/或确定适当治疗或预防方案,和/或为受试者开出具体药剂/化合物。该开处方可包括例如起草处方组成、写病历卡等等。同样,例如诊断程序的“有待执行的行为(cause)”是指医学专业人士(例如医生)或者控制或指导受试者医疗护理的人所采取的控制和/或准许对受试者执行一个或多个诊断方案的行动。
引言
在此披露了用于确定测试样品中不同感兴趣的序列的拷贝数变异(CNV)的方法、设备、系统以及试剂盒,该测试样品包含衍生自两个不同基因组并且已知或怀疑一个或多个感兴趣的序列的量不同的核酸的混合物。还提供了用于确定由核酸混合物中的两个基因组所贡献的分数的方法、设备、系统以及试剂盒。通过此处披露的方法和设备确定的拷贝数变异包括整个染色体的获得或丢失、涉及到显微镜可见的极大染色体区段的变化以及尺寸从千碱基(kb)到兆碱基(Mb)的DNA片段的大量亚微观拷贝数变异。在不同的实施方案中,这些方法包括一种机器实现的统计方法,该统计方法说明由工艺相关的变异性、染色体间的变异性以及序列间变异性造成的自然增加的变异性。该方法适用于确定任何胎儿非整倍性的CNV,以及已知或怀疑与多种医学病状有关的CNV。可根据本发明方法确定的CNV包括染色体1到22、X和Y中任意一个或多个的三体性和单体性、其他染色体多体性以及任一种或多种染色体的区段的缺失和/或复制,通过仅对测试样品的核酸测序一次,即可检测到。任何非整倍性可从通过仅对测试样品的核酸测序一次即获得的测序信息中确定出。
在人类基因组中的CNV显著影响人类多样性和对疾病的易感性(Redon(雷东)等人,Nature(自然)23:444-454[2006],Shaikh(谢赫)等人.Genome Res(基因组研究)19:1682-1690[2009]。已知CNV通过不同机制构成遗传疾病,导致多数情况下的基因剂量不平衡亦或基因破坏。除了它们直接与遗传性障碍相关,还已知CNV介导可以是有害的表型改变。最近,若干研究已经报道,如与正常对照相比,在复杂失调,例如自闭症、ADHD(多动症)、和精 神分裂症中,罕见或重新的CNV的增加的负担,突出了罕见或独特的CNV的潜在致病性(Sebat(塞伯特)等人,316:445-449[2007];Walsh(沃尔什)等人,Science(科学)320:539-543[2008]。来自基因组重排的CNV上升,主要因为缺失、复制、插入、和不平衡的易位事件。
在此描述的方法、设备或装置可采用进行大规模平行测序的下一代测序技术(NGS)。在某些实施方案中,以流动槽内的大规模平行方式测序克隆地扩增的DNA模板或单DNA分子(例如像在Volkerding(沃克尔丁)等人,Clin Chem(临床化学)55:641-658[2009];Metzker(梅兹可)M,Nature Rev(自然评论)11:31-46[2010]中所述)。除了高通量序列信息,NGS提供了定量信息,其中每一序列读数是可计算的“序列标签”,这些序列标签代表个体克隆DNA模板或单DNA分子。NGS的测序技术包括焦磷酸测序、借助可逆染料终止子的合成法测序、通过寡核苷酸探针连接的测序和离子半导体测序。可以单独地测序来自单独的样品的DNA(即singleplex测序),或者在单测序轮次时,作为索引基因组分子,来自多个样品的DNA可以被汇集在一起并进行测序(即多重测序),以产生高达若干亿的DNA序列的读数。以下说明测序技术的实例,可以用于获得根据本发明的方法的序列信息。
在一些实施方案中,在此披露的方法和设备可采用以下顺序的一些或全部操作:从患者获得核酸测试样品(典型地通过非侵入性程序);加工测试样品,准备进行测序;对来自测试样品的核酸进行测序,以产生大量读数(例如至少10,000个);将这些读数与参考序列/基因组的一部分进行比对,并且确定映射到参考序列的界定部分(例如界定染色体或染色体区段)的DNA的量(例如读数的数目);通过用映射到针对界定部分所选定的一个或多个归一化染色体或染色体区段的DNA的量归一化映射到界定部分的DNA的量来计算一个或多个界定部分的剂量;确定该剂量是否指示该界定部分“受影响”(例如非整倍性或嵌合体);报导确定并且任选将其转变成诊断;使用该诊断或确定来发展治疗、监测或进一步测试患者的计划。
确定合格样品中的归一化序列:归一化染色体序列和归一化区段序列
使用来自一组得自受试者的合格样品识别归一化序列,这些受试者已知包括具有感兴趣的任何序列(例如染色体或其区段)的一个正常拷贝数。在图1中描绘的方法的实施方案的步骤110、120、130、140、和145中概述了归一化序列的确定。从合格样品获得的序列信息用于在统计学上有意义地识别测试样品中的染色体非整倍性(图1步骤165和实例)。
图1提供用于确定生物样品中例如染色体或其区段等感兴趣的序列的CNV的一个实施方案的流程图100。在一些实施方案中,从受试者获得生物学样品,并且该样品包括由不同基因组构成的核酸的混合物。可以由两个个体的样品构成不同基因组,例如由胎儿和怀有胎儿的母体构成不同基因组。可替代地,可以由来自相同受试者的非整倍性癌症细胞和正常整倍细胞的样品(例如来自癌症患者的血浆样品)构成基因组。
除分析患者的测试样品以外,还要选择每一个可能的感兴趣的染色体的一个或多个归一化染色体或一个或多个归一化染色体区段。归一化染色体或区段的识别与患者样品的正常测试异步进行,两者可在一个临床环境中进行。换句话说,在测试患者样品前识别归一化染色体或区段。存储归一化染色体或区段与感兴趣的染色体或区段之间的关联性以在测试期间使用。如以下说明,该关联性典型地保存测试许多样品所跨越的时间段。以下讨论涉及用于选择个别感兴趣的染色体或区段的归一化染色体或染色体区段的实施方案。
获得一组合格样品来识别合格的归一化序列,并且来提供变异值,用于确定测试样品中的CNV的统计上有意义的识别。在步骤110中,从多个受试者获得多个生物学合格样品,已知这些受试者包括具有感兴趣的任何一个序列的正常拷贝数的细胞。在一个实施方案中,从怀有胎儿的母体获得合格样品,已经使用细胞遗传学手段确认具有正常拷贝数的染色体。生物学合格样品可以是一种生物学流体,例如血浆,或如以下所述的任何适合的样品。在一些实施方案中,合格样品含有核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,合格样品是含有胎儿的和母体的cfDNA分子的混合物的母体的血浆 样品。通过使用任何已知测序方法,对这些核酸中的至少一部分(例如胎儿的和母体的核酸)进行测序,获得归一化染色体和/或其一部分的序列信息。优选地,在本申请的其他地方说明的下一代测序(NGS)方法中的任何一种被用于给作为单或克隆扩增的分子的胎儿的和母体的核酸测序。在不同的实施方案中,合格样品如以下所披露,在测序前和测序期间进行加工。这些样品可使用如在此披露的设备、系统以及试剂盒进行加工。
在步骤120,包含在合格样品内的所有合格核酸的每一个的至少一部分被测序,以产生百万个序列读数,例如36bp读数,这与参考基因组,例如hg18进行比对。在一些实施方案中,序列读数包括约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、about90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp、或约500bp。期待技术优势将使得能进行大于500bp的单端读数,在产生配对端读数时,该读数使能够用于大于约1000bp的读数。在一个实施方案中,映射的序列读数包括36bp。在另一个实施方案中,映射的序列读数包括25bp。与参考基因组比对的序列读数,以及独特对映到参考基因组的读数,已知它们作为序列标签。在一个实施方案中,从独特对映参考基因组的读数中获得至少约3x106个合格序列标签、至少约5x106个合格序列标签、至少约8x106个合格序列标签、至少约10x106个合格序列标签、至少约15x106个合格序列标签、至少约20x106个合格序列标签、至少约30x106个合格序列标签、至少约40x106个合格序列标签、或至少约50x106个包括20和40bp读数之间的合格序列标签。
在步骤130,计数得自测序合格样品中的核酸的所有标签,以确定合格序列标签密度。在一个实施方案中,序列标签密度被确定为参考对应于参考基因组上感兴趣的序列的这多个合格序列标签。在另一实施方案中,合格序列标签密度为确定为映射到感兴趣的序列的这多个合格序列标签,被归一化为它们映射的感兴趣的合格序列的长度。被确定为标签密度相对于感兴趣的序列的长度 的比率的序列标签密度在此称为标签密度比率。并不需要归一化到感兴趣的序列的长度,并且可以被包括为一个步骤,减少一个数中的位数,来简化它用于人工解释。所有合格序列标签被对映并计数到每一合格样品,在合格样品中的感兴趣的序列(例如临床上相关的序列)的序列标签密度被确定,同时顺序识别额外序列(归一化序列来自它)的序列标签密度。
在某些实施方案中,感兴趣的序列是与完整染色体非整倍性相关联的染色体,例如染色体21,并且合格归一化序列是不与染色体非整倍性相关联并且序列标签密度的变化接近例如染色体21等感兴趣的序列(即染色体)的完整染色体。所选定的归一化染色体可以是最接近感兴趣的序列的序列标签密度变化的一个染色体或一组染色体。染色体1-22、X和Y中的任何一个或多个可以是感兴趣的序列,并且这一个或多个染色体可以被识别为合格样品中的任一个染色体1-22、X、Y中的每一个的归一化序列。归一化染色体可以是单独的染色体,或者它可以是本申请的其他地方所述的一组染色体。
在另一个实施方案中,感兴趣的序列是与部分非整倍性(例如染色体缺失或插入或不平衡染色体易位)相关联的染色体区段,并且归一化序列是不与部分非整倍性相关联并且序列标签密度的变化接近与部分非整倍性相关联的染色体区段的一个染色体区段(或一组区段)。所选定的归一化染色体区段可以是最接近感兴趣的序列的序列标签密度变化的一个或多个染色体区段。任何一个或多个染色体1-22、X、和Y的任何一个或多个区段可以是感兴趣的序列。
在其他实施方案中,感兴趣的序列是与部分非整倍性相关联的染色体区段,并且归一化序列是一个全染色体或多个全染色体。在再其他实施方案中,感兴趣的序列是与非整倍性相关联的一个全染色体并且归一化序列是不与该非整倍性相关联的一个染色体区段或多个染色体区段。
无论合格样品中单序列或一组序列识别为任一个或多个感兴趣的序列的归一化序列,都可以选择序列标签密度变化最接近或有效接近如在合格样品中确定的感兴趣的序列的合格归一化序列。举例来说,合格归一化序列是当用以对感兴趣的序列进行归一化时,在合格样品间产生最小的变异性的序列,即归 一化序列的变异性最靠近合格样品中确定的感兴趣的序列的变异性。换句话说,合格归一化序列是被选择为使序列剂量(感兴趣的序列)在合格样品间的变化最小的序列。因此,该过程选择在用作归一化染色体时,预计会产生感兴趣的序列的不同批次间的染色体剂量中的最小的变异性的序列。
合格样品中针对任一个或多个感兴趣的序列所识别的归一化序列保持是选择用于在测试样品中确定存在或不存在非整倍性的归一化序列长达数日、数周、数月以及可能数年的时间,其条件是程序需要产生测序文库,并且对样品进行的测序随时间基本不变。如上所述,用于确定存在非整倍性的归一化序列因在样品间(例如不同样品)和测序轮次间(例如同一天和/或不同天进行的测序轮次)映射到其的序列标签数目的变异性最接近使用其作为归一化参数的感兴趣的序列的变异性(以及可能其他理由)而选择。这些程序的实质性更改将影响映射到所有序列的标签的数目,从而又将要确定哪个或哪组序列在相同和/或不同测序轮次中、同一天或不同天在样品间的变异性最接近感兴趣的序列的变异性,此将需要再确定该组归一化序列。程序的实质性更改包括用于制备测序文库的实验室方案发生变化,包括与制备用于多重测序而非单路测序的样品有关的变化;以及测序平台的变化,包括用于测序的化学物质的变化。
在一些实施方案中,归一化序列是从一个或多个受影响的样品中最好地辨别出一个或多个合格样品的序列,这意味着归一化序列是具有最大可分辨性的序列,即归一化序列的可分辨性是这样,使得提供最优差异化给受影响的测试样品中的感兴趣的序列,用来容易地从其他未受影响的样品中辨别出受影响的测试样品。在其他实施方案中,归一化序列是具有最小的变异性与最大的可分辨性的组合的序列。
可分辨性的水平可以被确定为在一群合格样品中的序列剂量(例如染色体剂量或区段剂量)和一个或多个测试样品中的这一个或多个染色体剂量之间的统计差异,如以下所述并且在这些实例中示出。例如,可分辨性可以被数字表示为T检验值,它代表一群合格样品中的染色体剂量和一个或多个测试样品中的一个或多个染色体剂量之间的统计差异。z-score for chromosome doses as  long as the distribution for the NCV is normal.<}0{>可替代地,可分辨性可以被数字表示为归一化的染色体值(NCV),只要NCV的分布是正常的,它就是染色体剂量的z分数。类似地,可分辨性可以被数字表示为T检验值,它代表一群合格样品中的区段剂量和一个或多个测试样品中的一个或多个区段剂量之间的统计差异。在染色体区段是感兴趣的序列的情况下,区段剂量的可分辨性可在数字上表示为归一化的区段值(NSV),该归一化的区段值是染色体区段剂量的z分数,只要NSV的分布正常即可。在确定z分数中,可以使用在一组合格样品中的染色体的或区段的剂量的平均值和标准差。可替代地,可以使用包括合格样品和受影响样品的训练组中染色体的或区段的剂量的平均值和标准差。在其他实施方案中,归一化序列是具有最小的变异性和最大的可分辨性或者小的变异性与大的可分辨性的最佳组合的序列。
该方法识别固有地具有类似特征的序列,并且倾向于样品和测序轮次间的类似变异,并且它对于确定测试样品中的序列剂量是有用的。
确定合格样品中的序列剂量(即染色体剂量或区段剂量)
在步骤140,基于计算的合格标签密度,感兴趣的序列的合格序列剂量(即染色体剂量或区段剂量)被确定为感兴趣的序列的序列标签密度和额外序列(在步骤145随后识别来自它的归一化序列)的合格序列标签密度的比率。识别的归一化序列随后被用于确定测试样品中的序列剂量。
在一个实施方案中,合格样品中的序列剂量是一个染色体剂量,该染色体剂量被计算为感兴趣的染色体的这个序列标签数目和合格样品中的归一化染色体序列的这个序列标签数目的比率。归一化染色体序列可以是单染色体、一组染色体、一个染色体的区段、或来自不同染色体的一组区段。因此,在样品中感兴趣的染色体的染色体剂量被确定为:(i)感兴趣的染色体的这多个标签和由单染色体构成的归一化染色体序列的这多个标签的比率,(ii)针对感兴趣的染色体的标签的数目与针对包括两个或更多个染色体的归一化染色体序列的标签的数目的比率;(iii)针对感兴趣的染色体的标签的数目与针对包括一 个染色体的单区段的归一化区段序列的标签的数目的比率;(iv)针对感兴趣的染色体的标签的数目与针对包括来自一个染色体的两个或更多个区段的归一化区段序列的标签的数目的比率;或(v)针对感兴趣的染色体的标签的数目与针对包括两个或更多个染色体的两个或更多个区段的归一化区段序列的标签的数目的比率。根据(i)-(v),用于确定感兴趣的染色体的染色体剂量的实例如下:感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度和全部剩余染色体(即染色体1-20、染色体22、染色体X、和染色体Y)的每一个的序列标签密度的比率;(i)感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度和两个或更多个剩余染色体的全部可能组合的序列标签密度的比率;(ii)感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度和另一染色体(例如染色体9)的区段的序列标签密度的比率;(iii)感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度和另一染色体的两个区段(例如染色体9的两个区段)的序列标签密度的比率;(iv)以及感兴趣的染色体(例如染色体21)的染色体剂量被确定为染色体21的序列标签密度和两个不同染色体的两个区段(例如染色体9的区段和染色体14的区段)的序列标签密度的比率。
在另一个实施方案中,合格样品中的序列剂量是区段剂量,其计算为合格样品中针对非全染色体的感兴趣的区段的序列标签的数目与针对归一化区段序列的序列标签的数目的比率。归一化区段序列可以是例如一个全染色体、一组全染色体、一个染色体的一个区段或来自不同染色体的一组区段。举例来说,在合格样品中,感兴趣的区段的区段剂量被确定为(i)感兴趣的区段的这多个标签和由染色体的单一区段构成的归一化区段序列的这多个标签的比率,(ii)感兴趣的区段的这多个标签和由一个染色体的两个或更多区段构成的归一化区段序列的这多个标签的比率,或(iii)感兴趣的区段的这多个标签和由两个或更多个染色体的两个或更多个区段构成的归一化区段序列的这多个标签的比率。
在全部合格样品中确定感兴趣的一个或多个染色体的染色体剂量,并且在步骤145中识别归一化染色体序列。类似地,在全部合格样品中确定感兴趣的一个或多个区段的区段剂量,并且在步骤145中识别归一化区段序列。
从合格序列剂量识别归一化序列
在步骤145中,基于所计算的序列剂量,识别感兴趣的序列的归一化序列为例如使感兴趣的序列的序列剂量在所有合格样品间最小的变异性的序列。该方法识别固有地具有类似特征的序列,并且倾向于样品和测序轮次的类似变异,并且它对于确定测试样品中的序列剂量是有用的。
在一组合格样品中,可以识别感兴趣的一个或多个序列的归一化序列,并且在合格样品中识别的序列可以随后用于计算每一测试样品中的感兴趣的一个或多个序列的序列剂量(步骤150),以确定在每一测试样品中存在或不存在非整倍性。在使用不同测序平台时,和/或在要测序核酸的纯化和/或测序文库的制备中存在差异时,对感兴趣的染色体或区段,识别的归一化序列可以不同。根据在此描述的方法使用归一化序列为染色体或其区段的拷贝数变异提供专一并且灵敏的测量,不管样品制备和/或使用的测序平台如何。
在一些实施方案中,识别多于一个的归一化序列,即,可以对感兴趣的一个序列确定不同归一化序列,并且可以对感兴趣的一个序列,确定多个序列剂量。例如,在使用染色体14的序列标签密度时,感兴趣的染色体21的染色体剂量中的变异(例如变异系数)最小。然而,可以识别两个、三个、四个、五个、六个、七个、八个或更多个归一化序列,用于在确定测试样品中感兴趣的序列的序列剂量中使用。作为一个实例,可以使用染色体7、染色体9、染色体11或染色体12作为归一化染色体序列,确定在任何一个测试样品中的染色体21的第二剂量,因为这些染色体全部具有接近染色体14的CV的CV(参见实例8表10)。优选地,在选择单染色体作为感兴趣的染色体的归一化染色体序列时,归一化染色体将是一个染色体,该染色体导致感兴趣的染色体的染色体剂量具有跨全部测试样品(例如合格样品)的最小变异性。
归一化染色体序列作为染色体的归一化序列
在其他事实方案中,归一化染色体序列可以是单序列,或者它可以是一组序列。例如,在一些实施方案中,归一化序列是被识别为染色体1-22、X和Y的任意一个或多个的归一化序列的一组序列,例如一组染色体。构成感兴趣的染色体的归一化序列(即归一化染色体序列)的该组染色体,可以是一组二、三、四、五、六、七、八、九、十、十一、十二、十三、十四、十五、十六、十七、十八、十九、二十、二十一、或二十二染色体,并且包括或排除染色体X和Y中的一个或这二者。被识别为归一化染色体序列的该组染色体是这样一组染色体,它们导致感兴趣的染色体的染色体剂量具有跨全部测试样品(即合格样品)的最小变异性。优选地,在一起测试单独的或多组的染色体,针对它们最佳模拟感兴趣的序列的能力,为此选择它们作为归一化染色体序列。
在一个实施方案中,染色体21的归一化序列是选自染色体9、染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、和染色体17。在另一实施方案中,染色体21的归一化序列是选自染色体9、染色体1、染色体2、染色体11、染色体12、和染色体14。可替代地,染色体21的归一化序列是选自染色体9、染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、染色体16、和染色体17的一组染色体。在另一实施方案中,该组染色体是选自染色体9、染色体1、染色体2、染色体11、染色体12、和染色体14的一个组。
在一些实施方案中,通过使用归一化序列进一步改进该方法,通过单独地以及在与全部剩余染色体的全部可能组合中使用每一染色体的全部染色体剂量的系统计算确定归一化序列(参见实例13)。例如,通过使用染色体1-22、X、和Y中任一个,以及染色体1-22、X、和Y中的两个或更多个的组合以确定哪个单个或成组的染色体是归一化染色体,该归一化染色体导致跨一组合格样品的感兴趣的染色体的染色体剂量的最小变异性,由此系统计算全部可能染色体,可以对每一感兴趣的染色体确定系统确定的归一化染色体(参见实例13)。 因此,在一个实施方案中,染色体21的系统计算的归一化序列是由染色体4、染色体14、染色体16、染色体20、and染色体22组成的一组染色体。对基因组中的全部染色体,可以确定单个或成组的染色体。
在一个实施方案中,染色体18的归一化序列是选自染色体8、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体9、染色体10、染色体11、染色体12、染色体13、和染色体14。优选地,染色体18的归一化序列是选自染色体8、染色体2、染色体3、染色体5、染色体6、染色体12、和染色体14。在一个实施方案中,染色体18的归一化序列是选自染色体8、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体9、染色体10、染色体11、染色体12、染色体13、和染色体14的一组染色体。优选地,该组染色体是选自染色体8、染色体2、染色体3、染色体5、染色体6、染色体12、和染色体14的一个组。
在另一实施方案中,通过单独地以及按归一化染色体的全部可能组合使用每一可能归一化染色体,由此系统计算全部可能染色体剂量确定染色体18的归一化序列(如本申请的其他地方所解释的)。因此,在一个实施方案中,染色体18的归一化序列是由一组染色体组成的归一化染色体,该组染色体由染色体2、染色体3、染色体5、和染色体7组成。
在一个实施方案中,染色体X的归一化序列是选自染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、和染色体16。优选地,染色体X的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6和染色体8。在一个实施方案中,染色体X的归一化序列是选自染色体1、染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体13、染色体14、染色体15、和染色体16的一组染色体。优选地,该组染色体是选自染色体2、染色体3、染色体4、染色体5、染色体6、和染色体8的一个组。
在另一实施方案中,通过单独地以及按归一化染色体的全部可能组合使 用每一可能归一化染色体,由此系统计算全部可能染色体剂量确定染色体X的归一化序列(如本申请的其他地方所解释的)。因此,在一个实施方案中,染色体X的归一化序列是由染色体4和染色体8的该组所组成的归一化染色体。
在一个实施方案中,染色体13的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体14、染色体18、和染色体21的一个染色体。优选地,染色体13的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6、and染色体8的一个染色体。在另一实施方案中,染色体13的归一化序列是选自染色体2、染色体3、染色体4、染色体5、染色体6、染色体7、染色体8、染色体9、染色体10、染色体11、染色体12、染色体14、染色体18、和染色体21的一组染色体。优选地,该组染色体是选自染色体2、染色体3、染色体4、染色体5、染色体6、和染色体8的一个组。
在另一实施方案中,针对染色体13的归一化序列是单独地使用每一可能归一化染色体以及归一化染色体的全部可能的组合,通过系统计算全部可能染色体剂量来确定的(如本申请的其他地方所解释的)。因此,在一个实施方案中,染色体13的归一化序列是包括染色体4和染色体5的该组的归一化染色体。在另一个实施方案中,染色体13的归一化序列是由染色体4和染色体5的该组所组成的归一化染色体。
独立于在确定染色体Y剂量中使用的哪个归一化染色体,染色体Y的染色体剂量中的变异大于30。因此,选自染色体1-22和染色体X的一组两个或更多个染色体可以被用作染色体Y的归一化序列。在一个实施方案中,至少一个归一化染色体是由染色体1-22、和染色体X组成的一组染色体。在另一实施方案中,该组染色体由染色体2、染色体3、染色体4、染色体5、和染色体6组成。
在另一实施方案中,通过单独地以及按归一化染色体的全部可能组合使用每一可能归一化染色体,由此系统计算全部可能染色体剂量确定染色体Y的归一化序列(如本申请的其他地方所解释的)。因此,在一个实施方案中,染 色体Y的归一化序列是包括由染色体4和染色体6组成的该组染色体的归一化染色体。在另一个实施方案中,染色体Y的归一化序列是由一组染色体组成的归一化染色体,该组染色体由染色体4和染色体6组成。
用于计算感兴趣的不同染色体或感兴趣的不同区段的剂量的归一化序列可以是相同的,或者分别对于不同染色体或区段,它可以是不同的归一化序列。例如,归一化序列,感兴趣的染色体A的归一化序列(例如归一化染色体)(一个或一组)可以是相同的,或者它可以不同于感兴趣的染色体B的归一化序列(例如归一化染色体)(一个或一组)。
完整染色体的归一化序列可以是一个完整染色体或一组完整染色体,或者它可以是染色体的区段,或一个或多个染色体的一组区段。
归一化区段序列作为染色体的归一化序列
在另一实施方案中,染色体的归一化序列可以是归一化区段序列。归一化区段序列可以是单一区段,或者它可以是一个染色体的一组区段,或者它们可以是来自两个或更多个不同染色体的多个区段。通过基因组中区段序列的全部组合的系统计算,可以确定归一化区段序列。举例来说,染色体21的归一化区段序列可以是比约47Mbp(百万碱基对)的染色体21的尺寸大或小的单区段,例如归一化区段可以是染色体9的一个区段,其约140Mbp。作为替代方案,染色体21的归一化序列可以是例如来自两个不同染色体(例如来自染色体1和来自染色体12)的区段序列的组合。
在一个实施方案中,针对染色体21的归一化序列是染色体1-20、22、X、和Y的一个区段或一组两个或更多个区段的一个归一化区段序列。在另一实施方案中,针对染色体18的归一化序列是染色体1-17、19-22、X′、和Y的一个区段或多组区段。在另一实施方案中,针对染色体13的归一化序列是染色体1-12、14-22、X′、和Y的一个区段或多组区段。在另一实施方案中,针对染色体X的归一化序列是染色体1-22、和Y的一个区段或多组区段。在另一实施方案中,针对染色体Y的归一化序列是染色体1-22、和X的一个区段或一组 区段。对一个基因组中的全部染色体可以确定单个或多组区段的归一化序列。归一化区段序列的两个或更多个区段可以是来自一个染色体的区段,或者这两个或更多个区段可以是两个或更多个不同染色体的区段。如对归一化染色体序列所说明的,一个归一化区段序列对两个或更多个不同染色体而言可以是相同的。
归一化区段序列作为染色体区段的归一化序列
当感兴趣的序列是一个染色体的区段时,可以确定存在或不存在感兴趣的序列的CNV。染色体区段的拷贝数中的变异允许确定存在或不存在一种部分染色体性非整倍性。以下说明的是与不同胎儿异常和病情相关联的部分染色体性非整倍性的实例。染色体的区段可以具有任何长度。例如,它可以范围从千碱基到数亿个碱基。人类基因组只占超过30亿个DNA碱基,它可以被分为数十、数千、数十万以及成百万的具有不同大小的区段,它们的拷贝数可以根据本发明的方法来确定。一个染色体区段的归一化序列是这样一种归一化区段序列,它可以是来自染色体1-22、X和Y中任何一个的单一区段,或者它可以是来自染色体1-22、X、和Y中任何一个的一组区段。
针对一个感兴趣的区段的归一化序列是这样一个序列,该序列具有跨多个染色体并且跨多个样品的变异性,该变异性最接近感兴趣的片断的变异性。在该归一化序列是染色体1-22、X和Y中的任意一个或多个的一组区段时,可以如所述来进行归一化序列的确定,用于确定感兴趣的染色体的归一化序列。通过使用针对在一组合格样品(即已知是感兴趣的区段的二倍体的样品)的每一个样品中的感兴趣的区段作为归一化序列的两个或更多个区段的一个以及全部可能的组合来计算区段剂量,可以识别一个或一组区段的归一化区段序列,并且这个归一化序列被确定为是提供了一个区段剂量的归一化序列,这个区段剂量跨全部合格样品针对这个感兴趣的区段具有最低的变异性,正如以上对归一化染色体序列的说明。
例如,对感兴趣的区段它是1Mb(兆碱基),大约3Gb人类基因组中的剩余3百万个区段(减去感兴趣的1mg区段)可以被单独地或相互组合使用, 以计算在合格组的样品中的感兴趣的区段的区段剂量,从而确定哪一个或哪组区段将用作合格的和测试的样品的归一化区段序列。感兴趣的区段可以从约1000个碱基变化到数千万个碱基。归一化区段序列可以由与感兴趣的序列大小相同的一个或多个区段构成。在其他实施方案中,归一化区段序列可以由不同于感兴趣的序列,和/或彼此不同的区段构成。例如,对于一个100,000碱基长度的序列的归一化序列可以是20,000个碱基长,并且可以包括例如在7,000+8,000+5,000个碱基的不同长度的序列的组合。如在本申请的其他地方对归一化染色体序列所说明的,通过独立地以及以归一化区段的全部可能组合使用每一可能的归一化染色体区段系统地计算全部可能的染色体和/或区段剂量,可以确定归一化区段序列(如本申请的其他地方所解释的)。对基因组中的全部区段和/或染色体,可以确定单个或成组的区段。
用于计算感兴趣的不同染色体区段的剂量的归一化序列可以是相同的,或者它可以是针对不同的感兴趣的染色体区段的不同归一化序列。例如,针对感兴趣的染色体区段A的归一化序列,例如一个归一化区段(一个或一组)可以是相同的,或者它可以不同于针对感兴趣的染色体区段B的归一化序列,例如一个归一化区段(一个或一组)。
归一化染色体序列作为染色体区段的归一化序列
在另一个实施方案中,染色体区段的拷贝数变异可使用归一化染色体确定,该归一化染色体可以是如上所述的单染色体或一组染色体。归一化染色体序列可以是通过系统地确定哪个或哪组染色体使一组合格样品中染色体剂量的变异性最低,来针对一组合格样品中感兴趣的染色体识别的归一化染色体或染色体群组。举例来说,为确定存在或不存在染色体7的部分缺失,用于分析部分缺失的归一化染色体或染色体群组是首先在一组合格样品中识别为使整个染色体7的染色体剂量最低的归一化序列的染色体或染色体群组。如在此其他地方针对感兴趣的染色体的归一化染色体序列所述,可通过使用每一个可能归一化染色体个别和归一化染色体的所有可能组合系统地计算所有可能的染色体剂量,来确定染色体区段的归一化染色体序列(如在此其他地方所解释的)。 可针对基因组中所有染色体区段确定单染色体或染色体群组。说明使用归一化染色体确定存在部分染色体缺失和部分染色体复制的实例提供为实例17和18。
在某些实施方案中,通过首先将感兴趣的染色体再分成可变长度的段或数据箱来确定染色体区段的CNV。数据箱长度可为至少约1kbp、至少约10kbp、至少约100kbp、至少约1mbp、至少约10mbp或至少约100mbp。数据箱长度愈小,获得用以定位感兴趣的染色体中区段的CNV的分辨率愈高。
确定存在或不存在感兴趣的染色体区段的CNV可通过将测试样品中感兴趣的染色体的数据箱每一者的剂量与针对一组合格样品中同等长度的数据箱每一者确定的相应数据箱剂量的均值进行比较来实现。每一个数据箱的归一化的二进制值可如以上针对归一化的区段值所述计算为归一化的二进制值(NBV),该归一化的二进制值将测试样品中的数据箱剂量与一组合格样品中相应数据箱剂量的均值相关联。该NBV计算为:
NBV ij = x ij - μ ^ j σ ^ j
其中分别是对于一组合格样品中第j个数据箱剂量的估算均值和标准差,并且xij是对测试样品i所观测到的第j个数据箱剂量。
确定测试样品中的非整倍性
基于合格样品中识别的一个或多个归一化序列,针对在测试样品中的一个感兴趣的序列来确定一个序列剂量,该样品包括核酸混合物,这些核酸衍生自在一个或多个感兴趣的序列上不同的基因组。
在步骤115,从怀疑或已知携带感兴趣的序列的临床相关CNV的一位受试者获得一个测试样品。这个测试样品可以是一种生物学流体(例如血浆)或如以下所述的任何适合的样品。如所说明,样品可使用例如简单抽血等非侵入性程序获得。在一些实施方案中,测试样品含有核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,该测试样品是含有胎儿的和母体的cfDNA分子的混合物的一个母体血浆样品。
在步骤125,如对合格样品所说明的情况,对在该测试样品中的至少一部分测试核酸进行测序,以产生成百万的序列读数(例如36bp读数)。如在步骤120中,从对该测试样品中的核酸进行测序所产生的读数被独特地映射到一个参考基因组上或与一个参考基因组比对以产生标签。如在步骤120中所述,从独特地映射参考基因组的读数中获得至少约3x106个合格序列标签、至少约5x106个合格序列标签、至少约8x106个合格序列标签、至少约10x106个合格序列标签、至少约15x106个合格序列标签、至少约20x106个合格序列标签、至少约30x106个合格序列标签、至少约40x106个合格序列标签、或至少约50x106个合格序列标签,这些合格序列标签包括20和40bp之间的读数。在某些实施方案中,通过测序装置产生的读数以电子格式提供。使用如下讨论的计算装置完成比对。将个别读数与经常极大(数百万个碱基对)的参考基因组进行比较,以识别读数与参考基因组独特对应的位点。在某些实施方案中,比对程序允许读数与参考基因组之间有限的错配。在一些情况下,一个读数中允许1个、2个或3个碱基对与参考基因组中相应碱基对错配,然而仍然产生映射。
在步骤135中,使用如下所述的计算装置,将从对测试样品中的核酸进行测序所获得的所有或大部分标签计数以确定测试序列标签密度。在某些实施方案中,将每一个读数与参考基因组的一个具体区域(在大多数情况下是一个染色体或区段)进行比对,并且通过将位点信息附加到读数上,使读数转变成标签。当该过程开展时,计算装置可保持对映射到参考基因组的每一个区域(在大多数情况下是染色体或区段)的标签/读数的数目进行滚动计数。存储每一个感兴趣的染色体或区段和每一个相应归一化染色体或区段者的计数。
在某些实施方案中,参考基因组具有一个或多个被排除的区域,这个或这些被排除的区域是真正生物基因组的一部分,但不包括在参考基因组中。对可能与这些被排除的区域进行比对的读数不计数。被排除的区域的实例包括长重复序列的区域、X与Y染色体之间的类似区域等等。
在某些实施方案中,该方法确定当多个读数与参考基因组或序列上的同 一个位点进行比对时是否对标签计数超过一次。可能存在两个标签具有相同序列因此与参考序列上相同的位点进行比对的时候。用以计数标签的方法在某些情况下可将衍生自相同测序样品的相同标签排斥在计数外。如果既定样品中不相称的数目的标签相同,那么表明程序中存在巨大偏差或其他缺陷。因此,根据某些实施方案,计数法不对来自既定样品的与来自该样品的以前计数过的标签相同的标签进行计数。
当从单一样品忽略相同的标签时,可设置不同的指标用于选择。在某些实施方案中,界定百分比的计数标签必须是独特的。如果比该阈值多的标签不是独特的,那么忽略这些标签。举例来说,如果界定百分比要求至少50%是独特的,那么直到样品的独特标签的百分比超过50%,才计数相同的标签。在其他实施方案中,独特标签的临界数目是至少约60%。在其他实施方案中,独特标签的临界百分比是至少约75%,或至少约90%,或至少约95%,或至少约98%,或至少约99%。对于染色体21,阈值可以设在90%下。如果30M标签与染色体21进行比对,那么至少27M的标签必须是独特的。如果3M计数标签不是独特的并且第30,000,000标签不是独特的,那么其不计数在内。
可使用适当的统计分析,选择用以确定何时不计数另外相同的标签的具体阈值或其他指标。影响该阈值或其他标准的一个因素是测序样品相对于标签可进行比对的基因组的尺寸的量。其他因素包括读数的尺寸和类似考虑因素。
在一个实施方案中,映射到一个感兴趣的序列上的序列标签数目被归一化到它们映射到上面的一个感兴趣的序列的已知长度上,以提供一个测试序列标签密度比。如对这些合格样品所述,并不一定要求归一化到一个感兴趣的序列的已知长度上,并且这可以被包括为一个步骤来减少一个数目中的数字位数从而将其简化以供人工解读。随着测试样品中全部映射的测试序列标签都被计数,在这些测试样品中针对感兴趣的序列(例如临床上相关的序列)的序列标签密度被确定,同样被确定的是针对额外序列的序列标签密度,这些额外序列对应于在这些合格样品中识别出的至少一个归一化序列。
在步骤150,基于在这些合格样品中的至少一个归一化序列的识别,对测 试样品中的一个感兴趣的序列确定出有关测试序列剂量。在不同的实施方案中,测试序列剂量通过操作如在此描述的感兴趣的序列和相应归一化序列的序列标签密度以计算的方式确定。负责该任务的计算装置电子存取感兴趣的序列与其相关联的归一化序列之间的关联性,其可存储在数据库、表、图表中或作为代码包括在程序指令中。
如在本申请的其他地方所说明,该至少一个归一化序列可以是一个单序列或一组序列。在测试样品中针对一个感兴趣的序列的序列剂量是对该测试样品中感兴趣的序列确定的序列标签密度与在该测试样品中确定的至少一个归一化序列的序列标签密度的比率,其中在该测试样品中的归一化序列对应于在这些合格样品中针对感兴趣的具体序列识别的归一化序列。例如,如果针对这些合格样品中的染色体21识别的归一化序列别被确定为是一个染色体(例如染色体14),那么针对染色体21(感兴趣的序列)的测试序列剂量就被确定为针对染色体21的序列标签密度与针对染色体14的序列标签密度的比率,每一个都是在测试样品中确定的。类似地,确定了针对染色体13、18、X、Y以及与多种染色体性非整倍性相关联的其他染色体的染色体剂量。针对感兴趣的染色体的归一化序列可以是一个或一组染色体,或一个或一组染色体区段。如上所述,一个感兴趣的序列可以是染色体的一部分,例如一个染色体区段。因此,针对一个染色体区段的剂量可以被确定为针对在该测试样品中的这个区段确定的序列标签密度与针对该测试样品中的归一化染色体区段的序列标签密度的比率,其中在该测试样品中的归一化区段对应于在这些合格样品中针对感兴趣的具体区段识别的归一化区段(单个或一组区段)。染色体区段在大小上可以是范围从千碱基(kb)到兆碱基(Mb)。(例如约1kb到10kb,或约10kb到100kb,或约100kb到1Mb)。<}0{>
在步骤155,从对多个合格样品中确定的合格序列剂量和对已知是感兴趣的序列的非整倍的样品确定的序列剂量建立的标准差值中衍生出多个阈值。注意该操作典型地与患者测试样品的分析异步执行。它可与例如从合格样品选择归一化序列同时执行。准确分类取决于对于不同类别(即:非整倍性类型)的 概率分布之间的差异。在某些实例中,从针对每一类型的非整倍性(例如三体性21)的经验分布中选择出多个阈值。如在实例中所述,用于对三体性13、三体性18、三体性21、和单体性X非整倍性进行分类建立了可能的阈值,它们说明了用于通过对提取自一个母体样品的cfDNA进行测序来确定染色体性非整倍性的方法的用途,这个母体样品包括胎儿的和母体的核酸的混合物。被确定为用于辨别出针对一种染色体的非整倍而受影响的样品的这种阈值与被确定为用于辨别出针对一种不同非整倍性而受影响样品的阈值可以是相同的或不同的。如在这些实例中所示,针对每一感兴趣的染色体的阈值是从跨多个样品和多个测序轮次的感兴趣的染色体的剂量中的变异性来确定的。针对任何感兴趣的任何染色体的染色体剂量的可变性越小,针对跨全部未受影响样品的感兴趣的染色体的剂量中的分散就越窄,而这些样品被用来设定用于确定不同非整倍性的阈值。
回到与对患者测试样品进行分类相关联的工艺流程,在步骤160,通过将针对感兴趣的序列的测试序列剂量与从这些合格样品剂量建立的至少一个阈值进行比较,在该测试样品中确定了感兴趣的序列的拷贝数变异。该操作可以通过用以测量序列标签密度和/或计算区段剂量的相同计算装置执行。
在步骤165,将针对感兴趣的测试序列计算的剂量与设定为阈值的剂量进行比较,而这些阈值的选择是根据一个使用者定义的可靠性阈值,以此将该样品分类为“正常的”、“受影响的”或“无判定(no call)”。这些“无判定”样品是对其不能做出有可靠性的确定性诊断的样品。每一种类型受影响样品(例如21三体性、21部分三体性、X单体性)都具有其自己的阈值,一个用于判定正常(未受影响)样品并且另一个用于判定受影响样品(虽然在一些情况下两个阈值重合)。如在此其他地方所描述,在某些情况下,如果测试样品中核酸的胎儿分数足够高,那么无判定可以转变成判定(受影响或正常)。测试序列的分类可通过用于该工艺流程的其他操作的计算装置报告。在一些情况下,分类以电子格式报告,并且可显示、发电子邮件、发短信给相关的人等等。
某些实施方案提供了一种方法,该方法用于提供在一个包括胎儿的和母 体的核酸分子的生物学样品中的胎儿非整倍性的产前诊断。这种诊断是基于以下步骤做出的:获得对衍生自一个生物学测试样品(例如母体血浆样品)的胎儿的和母体的核酸分子混合物中的至少一部分进行测序的序列信息;从该测序数据中计算出针对一个或多个感兴趣的染色体的一个归一化染色体剂量、和/或针对一个或多个感兴趣的区段的一个归一化区段剂量;并且确定在对应地该测试样品中的针对这个感兴趣的染色体的染色体剂量和/或针对这个感兴趣的区段的区段剂量与在多个合格的(正常的)样品中确立的一个阈值之间的一个统计学上显著的差异,并且基于该统计差异提供产前诊断。如在该方法的步骤165中所述,做出一个正常或受影响的诊断。在不能有信心地做出正常或受影响的诊断的情况下,提供一个“无判定”。
样品和样品加工
样品
用于确定例如染色体非整倍性、部分非整倍性等CNV的样品可包括取自任何细胞、组织或器官的将确定一个或多个感兴趣的序列的拷贝数变异的样品。希望这些样品包含存在于细胞中的核酸和/或“无细胞”核酸(例如cfDNA)。
在某些实施方案中,有利的是获得无细胞核酸,例如无细胞DNA(cfDNA)。包括无细胞DNA在内的无细胞核酸可通过本领域中已知的不同的方法从包括但不限于血浆、血清以及尿的生物样品中获得(参见例如范(Fan)等人,美国国家科学院院刊(Proc Natl Acad Sci)105:16266-16271[2008];小出(Koide)等人,产前诊断(Prenatal Diagnosis)25:604-607[2005];陈(Chen)等人,自然医学(Nature Med.)2:1033-1035[1996];卢(Lo)等人,柳叶刀(Lancet)350:485-487[1997];波特扎图(Botezatu)等人,临床化学(Clin Chem.)46:1078-1084,2000;和苏(Su)等人,分子诊断学杂志(J Mol.Diagn.)6:101-107[2004])。为将样品中无细胞DNA与细胞分离,可使用不同的方法,包括但不限于分级分离、离心(例如密度梯度离心)、DNA特异性沉淀或高通量细胞分选和/或其他分离方法。可获得用于人工和自动分离cfDNA的可商购的试剂盒 (印第安纳州印第安纳波利斯市罗氏诊断(Roche Diagnostics,Indianapolis,IN)、加利福尼亚州巴伦西亚市凯杰(Qiagen,Valencia,CA)、特拉华州迪伦市迈凯瑞纳杰尔(Macherey-Nagel,Duren,DE))。包含cfDNA的生物样品已用于通过可检测染色体非整倍性和/或不同的多态性的测序检验,用在确定存在或不存在例如21三体性等染色体异常的检验中。
在不同的实施方案中,存在于样品中的cfDNA可在使用前(例如在制备测序文库前)特定富集或非特定富集。样品DNA的非特定富集是指样品的基因组DNA片段的全基因组扩增,其可用于在制备cfDNA测序文库前提高样品DNA的含量。非特定富集可以是在包括一个以上基因组的样品中存在的两个基因组之一的选择性富集。举例来说,非特定富集可对母体样品中胎儿基因组具有选择性,其可通过已知方法实现以增加样品中胎儿DNA相对于母体DNA的比例。作为替代方案,非特定富集可以是样品中存在的两个基因组的非选择性扩增。举例来说,非特定扩增可以是在包括来自胎儿和母体基因组的DNA的混合物的样品中胎儿和母体DNA的扩增。全基因组扩增的方法在本领域中已知。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)以及多重置换扩增(MDA)是全基因组扩增方法的实例。在某些实施方案中,包括来自不同基因组的cfDNA的混合物的样品不富集混合物中存在的基因组的cfDNA。在其他实施方案中,包括来自不同基因组的cfDNA的混合物的样品不特定富集存在于样品中的任一个基因组。
在此描述的方法所应用的包括核酸的样品典型地包括生物样品(“测试样品”),例如以上所述的。在某些实施方案中,通过大量众所周知的方法中的任一方法来纯化或分离准备对一个或多个CNV进行筛选的核酸。
因此,在某些实施方案中,样品包括或其组成为经过纯化或分离的多核苷酸,或可包括例如组织样品、生物学流体样品、细胞样品等样品。适合的生物学流体样品包括但不限于血液、血浆、血清、汗水、眼泪、痰、尿、痰、耳流出物、淋巴、唾液、脑髓液、灌洗液(ravages)、骨髓悬浮液、阴道流体、经子宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠以及生殖泌尿道分泌物、羊 水、乳汁以及白细胞透入样品。在某些实施方案中,样品是通过无创性过程序容易地可获得的样品,例如血液、血浆、血清、汗水、眼泪、痰、尿、痰、耳流出物、唾液或粪便。在某些实施方案中,样品是周边血液样品或周边血液样品的血浆和/或血清部分。在其他实施方案中,这种生物学样品是棉签或涂片、活组织检查标本、或细胞培养。在另一实施方案中,这种样品是两种或更多种生物学样品的混合物,例如生物学样品可以包括两种或更多种生物学流体样品、组织样品、和细胞培养样品。如在此所使用的,术语“血液”、“血浆”和“血清”明确涵盖它们的分级部分或加工的部分。类似地,当一个样品是取自一种活组织检查、棉签、涂片等时,该“样品”明确地涵盖衍生自这种活组织检查、棉签、涂片等的加工的分离部或部分。
在某些实施方案中,样品可以得自多个来源,包括但不限于:来自不同个体的样品,来自相同或不同个体的不同发展阶段的样品,来自不同的患病个体(例如患有癌症的或怀疑具有遗传性障碍的个体)、正常个体的样品,在个体的疾病的不同阶段获得的样品,得自经历对疾病的不同治疗的个体的样品,来自经历不同环境因素的个体的样品,来自对一种病情易感的个体的样品,来自暴露于一种传染病因素(例如HIV)的个体等等。
在一个示意性但非限制性的实施方案中,这种样品是得自怀孕雌性(例如孕妇)的母体样品。在这种情况下,该样品可以使用在此说明的方法来进行分析,以提供胎儿中潜在染色体异常的产前诊断。这种母体样品可以是组织样品、生物学流体样品、或细胞样品。生物学流体包括(作为非限制性实例):血液,血浆,血清,汗水,眼泪,痰,尿,痰,耳流出物,淋巴,唾液,脑脊液,灌洗液,骨髓悬浮液,阴道流出物,经宫颈的灌洗液,脑液,腹水,乳汁,呼吸、肠和生殖泌尿道的分泌物,和白细胞分离术样品。
在另一个示意性但非限制性的实施方案中,母体样品是两种或更多种生物学样品的混合物,例如,该生物学样品可以包括两种或更多种生物学流体样品、组织样品、和细胞培养样品。在一些实施方案中,这种样品是通过无创性过程容易地可获得的样品,例如,血液、血浆、血清、汗水、眼泪、痰、尿、 乳汁、痰、耳流出物、唾液和粪便。在一些实施方案中,这种生物学样品是外周血样品、和/或其血浆或血清部分。在其他实施方案中,这种生物学样品是棉签或涂片、活组织检查标本、或细胞培养的样品。如以上披露的,术语“血液”、“血浆”和“血清”明确涵盖它们的分离部或加工的部分。类似地,当一个样品取自活组织检查、棉签、涂片等时,这个“样品”明确涵盖衍生自活组织检查、棉签、涂片等的加工的分离部或部分。
在某些实施方案中,样品还可以是得自体外培养的组织、细胞、或其他含多核苷酸的来源。这些培养的样品可以取自多个来源,包括但不限于:维持在不同培养基和条件(例如pH值、压力、或温度)下的培养物(例如组织或细胞),维持了不同长度的时段的培养物(例如组织或细胞),用不同因子或试剂(例如药物候选,或调节剂)处理的培养物(例如组织或细胞),或不同类型的组织和/或细胞的培养物。
从生物学来源分离核酸的方法是人们熟知的、并且取决于源的性质将不同。本领域的普通技术人员可以容易地从一个源分离出如对于在此说明的方法所需要的一种或多种核酸。在一些情况中,将核酸样品中的核酸分子片段化可以是有利的。片段化可以是随机的,或者它可以是特异的,例如使用限制性内切酶消化所达到的情况。用于随机片段化的方法在本领域是为人熟知的,并且包括例如限制性DNA酶消化、碱处理和物理剪切。在一个实施方案中,样品核酸以cfDNA形式获得,其未经历片段化。
在其他示意性实施方案中,样品核酸以基因组DNA形式获得,其被片段化成约300或更多、约400或更多或约500或更多碱基对的片段,并且NGS方法可容易地应用于其上。
测序文库制备
在一个实施方案中,在此描述的方法可利用下一代测序技术(NGS),这些技术允许多个样品以基因组分子形式个别测序(即单路测序)或作为包括编索引的基因组分子的汇集样品在单一测序批次上测序(例如多重测序)。这些 方法可产生DNA序列的多达几亿个读数。在不同的实施方案中,基因组核酸和/或编索引的基因组核酸的序列可使用例如在此描述的下一代测序技术(NGS)确定。在不同的实施方案中,可使用如在此描述的一个或多个处理器来分析使用NGS获得的大量序列数据。
在不同的实施方案中,这些测序技术的使用不涉及到测序文库的制备。
然而,在某些实施方案中,在此涵盖的测序方法涉及到测序文库的制备。在一个示意性方法中,测序文库的制备包括产生一系列随机的经适配子修饰的准备进行测序的DNA片段(例如多核苷酸)。多核苷酸的测序文库可从包括DNA或cDNA(例如作为在反转录酶的作用下由RNA模板产生的互补或拷贝DNA的DNA或cDNA)的同等物、类似物在内的DNA或RNA制备。多核苷酸可起始于双股形式(例如dsDNA(例如基因组DNA片段)、cDNA、PCR扩增产物等等),或在某些实施方案中,多核苷酸可起始于单股形式(例如ssDNA、RNA等等)并且已转变成dsDNA形式。举例来说,在某些实施方案中,单股mRNA分子可拷贝成适用于制备测序文库的双股cDNA。主要多核苷酸分子的精确序列总体上对文库制备的方法来说并不重要,并且可能是已知或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更具体地说,在某些实施方案中,多核苷酸分子代表生物体的整个遗传补体或实质上生物体的整个遗传补体,并且是典型地包括内含子序列与外显子序列(编码序列)以及非编码调节序列(例如启动子和强化子序列)的基因组DNA分子(例如细胞DNA、无细胞DNA(cfDNA)等等)。在某些实施方案中,主要多核苷酸分子包括人类基因组DNA分子,例如存在于怀孕受试者的周边血液中的cfDNA分子。
通过使用包括特定范围的片段尺寸的多核苷酸来促进某些NGS测序平台的测序文库的制备。这些文库的制备典型地包括将大的多核苷酸(例如细胞基因组DNA)片段化以获得所需尺寸范围内的多核苷酸。
可通过本领域普通技术人员已知的多种方法中的任一者来实现片段化。举例来说,可通过包括但不限于喷雾、声处理以及水力剪切的机械手段来实现片段化。然而,机械片段化典型地会使DNA主链在C-O、P-O以及C-C键上 裂解,从而产生具有断开的C-O、P-O以及C-C键的钝端与3′-和5′-突出端的多相混合物(参见例如阿奈瑞(Alnemri)和立瓦克(Liwack),生物化学杂志(J Biol.Chem)265:17323-17333[1990];理查德(Richards)和布瓦耶(Boyer),分子生物学期刊(J Mol Biol)11:327-240[1965]),这些末端可能需要修复,因为其可能缺乏对制备供测序用的DNA所需要的随后酶反应(例如测序适配子的连接)来说所必需的5′-磷酸盐。
相比之下,cfDNA典型地以小于约300碱基对的片段形式存在,因此对于使用cfDNA样品来产生测序文库来说,并不典型地需要片段化。
典型地,无论多核苷酸是用力破碎成片段(例如离体破碎成片段),还是天然以片段形式存在,其都要转变成具有5′-磷酸盐和3′-羟基的钝端DNA。例如用于使用例如在此其他地方所述的伊路纳平台测序的方案等标准方案指导用户对样品DNA进行末端修复,以在dA加尾前纯化进行末端修复的产物并且在文库制备的适配子连接步骤前纯化dA加尾的产物。
在此描述的序列文库制备方法的不同的实施方案无需执行标准方案典型地要求的用以获得可通过NGS测序的经修饰的DNA产物的一个或多个步骤。以下描述了简略法(ABB法)、一步法以及两步法。连续的dA加尾和适配子连接在此称为两步工艺。连续的dA加尾、适配子连接以及扩增在此称为一步法。在不同的实施方案中,ABB法以及两步法可在溶液中或固体表面上执行。在某些实施方案中,一步法在固体表面上执行。
图2中图示了例如伊路纳等标准方法与根据本发明的实施方案用于制备DNA分子供通过NGS进行测序的简略法(ABB;实例2)、两步法以及一步法(实例3-6)的比较。
简略制备-ABB
在一个实施方案中,提供了用于制备序列文库的简略法(ABB法),其包括末端修复、dA加尾以及适配子连接的连续步骤(ABB)。在用于制备测序文库的无需dA加尾步骤的实施方案(参见例如使用罗氏454和SOLIDTM3平台进行测序的方案)中,末端修复和适配子连接的步骤可不包括在适配子连接前 将末端修复的产物进行纯化的步骤。
包括末端修复、dA加尾以及适配子连接的连续步骤的测序文库制备方法在此称为简略法(ABB),并且显示出产生了质量出乎意料地改善同时样品分析加快的测序文库(参见例如实例2)。根据该方法的一些实施方案,ABB法可在溶液中执行,如在此所例证。ABB法还可以在固体表面上执行,是通过首先在溶液中对DNA进行末端修复和dA加尾,并且随后如在此其他地方针对在固体表面上的一步或两步制备所描述的将DNA结合到固体表面。包括将适配子连接到带dA尾的DNA上的步骤在内的三个酶促步骤都在没有聚乙二醇的情况下执行。用于执行包括适配子连接到DNA在内的连接反应的公开方案指导用户在存在聚乙二醇的情况下执行连接。申请者确定适配子连接到带dA尾的DNA上可在没有聚乙二醇的情况下执行。
在另一个实施方案中,制备测序文库无需在dA加尾步骤前对cfDNA进行末端修复。申请者已经确定,无需破碎成片段的cfDNA不必进行末端修复,并且根据本发明的实施方案制备cfDNA测序文库不包括末端修复步骤和纯化步骤,从而组合酶促反应并且进一步简化待测序的DNA的制备。cfDNA以钝端与3′-和5′-突出端的混合物形式存在,这些末端是在使细胞基因组DNA裂解成末端为5′-磷酸盐和3′-羟基的cfDNA片段的核酸酶的作用下在体内产生。末端修复步骤的消除将选择天然以钝端分子形式存在的cfDNA分子和天然具有5′突出端的cfDNA分子,这些5′突出端通过例如用于如下所述将一个或多个脱氧核苷酸附接到3′-OH上(dA加尾)的克列诺外切聚合酶(Klenow Exo-)等酶的聚合酶活性被填充。cfDNA的末端修复步骤的消除不选择具有3′-突出端(3′-OH)的cfDNA分子。意外地,这些3′-OH cfDNA分子排除在测序文库之外不影响文库中基因组序列的表达,这表明cfDNA分子的末端修复步骤可以从测序文库的制备中排除掉(参见实例)。除cfDNA外,可用于制备测序文库的其他类型的未修复多核苷酸包括由RNA分子(例如mRNA、siRNA、sRNA)反转录产生的DNA分子和作为从磷酸化引物合成的DNA扩增子的未修复DNA分子。当使用未磷酸化引物时,从RNA反转录的DNA和/或从DNA模 板扩增的DNA(即DNA扩增子)也可以在通过多核苷酸激酶合成后磷酸化。
在另一个实施方案中,未修复的DNA被用于根据两步法制备测序文库,其中不包括DNA的末端修复,并且未修复的DNA进行dA加尾和适配子连接这两个连续步骤(参见图2)。两步法可在溶液中或固体表面上执行。当在溶液中执行时,两步法包括利用从生物样品获得的DNA,不包括对该DNA进行末端修复的步骤,并且例如通过例如塔克(Taq)聚合酶或克列诺外切聚合酶等某些类型DNA多聚酶的活性来添加单脱氧核苷酸(例如脱氧腺苷(A))到未修复的DNA样品中的多核苷酸的3′-端。在随后连续步骤中,dA加尾的产物连接到适配子,这些产物与可商购的适配子的每一个双螺旋体区域的3′端上存在的`T`突出端相容。dA加尾防止了两个钝端多核苷酸的自我连接,以利于形成经连接适配子的序列。因此,在一些实施方案中,未修复的cfDNA进行dA加尾和适配子连接的连续步骤,其中带dA尾的DNA是从未修复的DNA制备的、并且在dA加尾反应后不进行纯化步骤。双股适配子可连接到带dA尾的DNA的两端。可利用一组具有相同序列的适配子或一组两个不同的适配子。在不同的实施方案中,还可以使用一组或多个不同组的相同或不同适配子。适配子可包括索引序列以能够对文库DNA进行多重测序。适配子连接到带dA尾的DNA上任选地在没有聚乙二醇的情况下执行。
两步-在溶液中制备
在不同的实施方案中,当两步法在溶液中执行时,可纯化适配子连接反应的产物以除去未连接的适配子、可能已彼此连接的适配子。纯化还可以选择用于成簇产生的模板的尺寸范围,之前可以任选地先进行扩增,例如PCR扩增。连接产物可通过包括但不限于凝胶电泳、固相可逆固定(SPRI)等等的多种方法中的任一者纯化。在一些实施方案中,经过纯化的连接适配子的DNA在测序前进行扩增,例如PCR扩增。某些测序平台要求文库DNA进一步进行另一次扩增。举例来说,根据伊路纳技术,伊路纳平台要求文库DNA的成簇扩增应作为测序的不可分割的部分被执行。在其他实施方案中,使经过纯化的连接适配子的DNA变性并且使单股DNA分子附接到测序仪的流动池。因此, 在某些实施方案中,用于在溶液中从未修复的DNA制备测序文库以供NGS测序的方法包括从样品获得DNA分子;并且对从样品获得的未修复的DNA分子进行dA加尾和适配子连接的连续步骤。
如以上所指示,在不同的实施方案中,文库制备的这些方法被合并到确定例如非整倍性等拷贝数变异(CNV)的方法中。因此,在一个示意性实施方案中,提供一种用于确定存在或不存在一种或多种胎儿染色体非整倍性的方法,该方法包括:(a)获得包括胎儿与母体无细胞DNA的混合物的母体样品;(b)将胎儿与母体cfDNA的混合物从所述样品中分离;(c)由胎儿与母体cfDNA的混合物制备测序文库;其中制备该文库包括对cfDNA进行dA加尾和适配子连接的连续步骤,并且其中制备该文库不包括对cfDNA进行末端修复,并且该制备是在溶液中执行;(d)对该测序文库中的至少一部分进行大规模平行测序,以便获得针对样品中胎儿和母体cfDNA的序列信息;(e)至少暂时地将该序列信息存储在一种计算机可读媒质中;(f)使用该存储的序列信息,以计算的方式识别出一个或多个感兴趣的染色体中每一个的序列标签的数目和任一个或多个感兴趣的染色体中每一个的归一化序列的序列标签的数目;(g)使用这个或这些感兴趣的染色体中每一个的序列标签的数目和这个或这些感兴趣的染色体中每一个的归一化序列的序列标签的数目,针对这个或这些感兴趣的染色体中的每一个以计算的方式计算出染色体剂量;并且(h)将针对这个或这些感兴趣的染色体中的每一个染色体剂量与针对这个或这些感兴趣的染色体中的每一个的一个相应阈值进行比较,并且由此在样品中确定存在或不存在胎儿染色体非整倍性,其中步骤(e)-(h)是使用一个或多个处理器执行的。此方法例证于实例3和4中。
两步和一步-固相制备
在某些实施方案中,测序文库根据以上针对在溶液中制备文库所描述的两步法在固体表面上制备。根据两步法在固体表面上制备测序文库包括从样品获得例如cfDNA等DNA分子,并且执行dA加尾和适配子连接的连续步骤, 其中适配子连接是在固体表面上执行的。可使用修复或未修复的DNA。在某些实施方案中,将连接适配子的产物从固体表面分离、纯化并且在测序前扩增。在其他实施方案中,将连接适配子的产物从固体表面分离、纯化并且在测序前不扩增。在另外的其他实施方案中,将连接适配子的产物扩增、从固体表面分离、并且纯化。在某些实施方案中,对经过纯化的产物进行扩增。在其他实施方案中,不对经过纯化的产物进行扩增。测序方案可包括扩增,例如成簇扩增。在不同的实施方案中,分离的连接适配子的产物在扩增和/或测序前被纯化。
在某些实施方案中,测序文库是根据一步法在固体表面上制备。在不同的实施方案中,根据一步法在固体表面上制备测序文库包括从样品获得例如cfDNA等DNA分子,并且执行dA加尾、适配子连接和扩增的连续步骤,其中适配子连接是在固体表面上执行的。连接适配子的产物无需在纯化前被分离。
图3描绘了用于在固体表面上制备测序文库的两步法和一步法。可使用修复或未修复的DNA在固体表面上制备测序文库。在某些实施方案中,使用未修复的DNA。可用于在固体表面上制备测序文库的未修复的DNA的实例包括但不限于cfDNA、已经使用磷酸化引物从RNA反转录的DNA、已经使用磷酸化引物从DNA模板扩增的DNA(即磷酸化DNA扩增子)。可用于在固体表面上制备测序文库的修复的DNA的实例包括但不限于cfDNA和已经形成钝端并且磷酸化的成片段的基因组DNA(即通过例如mRNA、sRNA、siRNA等RNA反转录所产生的修复的磷酸化DNA)。在某些示意性实施方案中,从母体样品获得的未修复的cfDNA被用于制备测序文库。
在固体表面上制备测序文库包括用两部分结合物的第一部分涂布固体表面、通过将两部分结合物的第二部分附接到适配子上来修饰第一适配子、并且通过两部分结合物的第一与第二部分的结合相互作用将适配子固定在固体表面上。举例来说,在固体表面上制备测序文库可包括将多肽、多核苷酸或小分子附接到文库适配子的一个末端,该多肽、多核苷酸或小分子能够与固定在固体表面上的多肽、多核苷酸或小分子形成结合复合物。可用于固定多肽、多核苷酸或小分子的固体表面包括但不限于塑料、纸、薄膜、滤纸、芯片、针或载 玻片、硅石或聚合物珠粒(例如聚丙烯、聚苯乙烯、聚碳酸酯)、2D或3D分子骨架或用于固相合成多肽或多核苷酸的任何支撑物。
多肽-多肽、多肽-多核苷酸、多肽-小分子以及多核苷酸-多核苷酸结合物之间的成键可以是共价或非共价的。优选地,结合复合物通过非共价键结合。举例来说,可用于在固体表面上制备测序文库的结合物包括但不限于抗生蛋白链菌素-生物素结合物、抗体-抗原结合物以及配体-受体结合物。可用于在固体表面上制备测序文库的多肽-多核苷酸结合物的实例包括但不限于DNA-结合蛋白-DNA结合物。可用于在固体表面上制备测序文库的多核苷酸-多核苷酸结合物的实例包括但不限于oligodT-oligoA和oligodT-oligodA。多肽-小分子和多核苷酸-小分子结合物的实例包括抗生蛋白链菌素-生物素。
根据如图3中所示的固体表面方法的实施方案(一步和两步),用例如抗生蛋白链菌素等多肽来涂布用于制备测序文库的容器(例如聚丙烯PCR管或96孔盘)的固体表面。第一组适配子的末端通过附接例如生物素分子等小分子来修饰,并且生物素酰化的适配子被结合到固体表面上的抗生蛋白链菌素(1)。随后,未修复或修复的DNA连接到抗生蛋白链菌素结合的生物素酰化适配子上,从而将其固定到固体表面(2)上。第二组适配子连接到固定的DNA(3)上。
两步-在固相上制备
在一个实施方案中,两步法是使用例如cfDNA等未修复的DNA来执行,用于在固体表面上制备测序文库。未修复的DNA是通过将例如dA等单核苷酸碱基附接到例如cfDNA等未修复的DNA的股的3′端上进行dA加尾。任选地,多个核苷酸碱基可附接到未修复的DNA上。包括经带dA尾的DNA的混合物被加入固定在固体表面上的适配子中,该DNA连接到适配子上。对DNA进行dA加尾和适配子连接的步骤是连续的,即不执行经过dA加尾的产物的纯化(如图2中针对两步法所示)。如上所述,适配子可具有与未修复的DNA分子上的突出端互补的突出端。随后,第二组适配子被加入DNA-生物素酰化 适配子复合物中以提供连接适配子的DNA文库。任选地,使用修复的DNA来制备文库。修复的DNA可以是已经成片段并且进行3′和5′端的离体酶修复的基因组DNA。在一个实施方案中,在如针对在溶液中执行的简略法所描述的末端修复、dA加尾以及适配子连接的连续步骤中,对例如母体cfDNA等DNA进行末端修复,dA加尾以及适配子连接到固定在固体表面上的适配子上。
在利用两步法的某些实施方案中,将连接适配子的DNA通过化学或物理手段(例如热、紫外线等等)从固体表面分离(图2中4a)、纯化(图2中5),并且任选地,在开始测序过程前,其在溶液中进行扩增。在其他实施方案中,不对连接适配子的DNA进行扩增。在不扩增的情况下,连接到DNA的适配子可构造成包括与测序仪的流动池上存在的寡核苷酸杂交的序列(库扎日瓦(Kozarewa)等人,自然方法(Nat Methods)6:291-295[2009]),并且避免了会引入用于将文库DNA与测序仪的流动池杂交的序列的扩增。如针对在溶液中产生的连接适配子的DNA所描述的,对连接适配子的DNA的文库进行大规模平行测序(图2中6)。在某些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是使用连接法测序进行大规模平行测序。测序工艺可包括固相扩增,例如成簇扩增,如在此其他地方所描述的。
因此,在不同的实施方案中,用于在固体表面上从未修复的DNA制备测序文库以供NGS的方法可包括从样品获得DNA分子;并且对未修复的DNA分子进行dA加尾和适配子连接的连续步骤,其中适配子连接是在固相上执行的。在某些实施方案中,适配子可包括索引序列,以允许在单一反应容器(例如流动池的一个通道)内对多个样品进行多重测序。如上所述,DNA分子可以是cfDNA分子,其可以是从RNA转录的DNA分子,其可以是DNA分子的扩增子等等。
如以上所指示的,在不同的实施方案中,这些文库制备方法被合并到确定例如非整倍性等拷贝数变异(CNV)的方法中。因此,在某些实施方案中,用于在固体表面上从未修复的cfDNA制备测序文库的方法被合并到用于分析 母体样品以确定存在或不存在胎儿染色体非整倍性的方法中。因此,在一个实施方案中,提供一种用于确定存在或不存在一种或多种胎儿染色体非整倍性的方法,该方法包括:(a)获得包括胎儿与母体无细胞DNA的混合物的母体样品;(b)将胎儿与母体cfDNA的混合物从所述样品中分离;(c)由胎儿与母体cfDNA的混合物制备测序文库;其中制备该文库包括对cfDNA进行dA加尾和适配子连接的连续步骤,其中制备该文库不包括对cfDNA进行末端修复,并且制备是在固体表面上执行;(d)对该测序文库中的至少一部分进行大规模平行测序,以便获得针对样品中胎儿和母体cfDNA的序列信息;(e)至少暂时地将该序列信息存储在一种计算机可读媒质中;(f)使用该存储的序列信息,以计算的方式识别出一个或多个感兴趣的染色体中每一个的序列标签的数目和任一个或多个感兴趣的染色体中每一个的归一化序列的序列标签的数目;(g)使用一个或多个感兴趣的染色体中每一个的序列标签的数目和这个或这些感兴趣的染色体中每一个的归一化序列的序列标签的数目,针对这个或这些感兴趣的染色体中的每一个以计算的方式计算出染色体剂量;并且(h)将针对这个或这些感兴趣的染色体中每一个染色体剂量与针对这个或这些感兴趣的染色体中每一个的一个相应阈值进行比较,并且由此在样品中确定存在或不存在胎儿染色体非整倍性,其中步骤(e)-(h)的使用一个或多个处理器执行的。样品可以是生物学流体样品,例如血浆、血清、尿以及唾液。在某些实施方案中,样品是母体血样、或其血浆和血清部分。此方法例证于实例4中。
一步-在固相上制备
在另一个实施方案中,对未修复的DNA进行dA加尾,但在扩增前不对dA加尾产物进行纯化,这样使得dA加尾、适配子连接以及扩增的步骤连续或连贯地执行。在测序前连续的dA加尾、适配子连接以及扩增、随后纯化在此称为一步工艺。一步法可在固体表面上执行(参见例如图3)。将第一组适配子附接到固体表面(1)、将未修复和带dA尾的DNA连接到表面结合的适配子(2)上和将第二组适配子连接到表面结合的DNA(3)上的步骤可以如以上针对两步法所述来执行。然而,在一步法中,可对连接适配子的表面结合的DNA 进行扩增,同时附接到固体表面上(图2中4b)。随后,将在固体表面上产生的连接适配子的DNA的所得文库分离并纯化(图2中5),接着如针对在溶液中产生的连接适配子的DNA所述的进行大规模平行测序。在某些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是使用连接法测序的大规模平行测序。
因此,在某些实施方案中,提供一种用于制备供NGS测序的测序文库的方法,该方法通过执行包括以下各项的步骤进行:从一个样品获得DNA分子;并且对DNA分子进行dA加尾、适配子连接以及扩增的连续步骤,其中适配子连接是在固体表面上执行的。如针对两步法所述,在不同的实施方案中,适配子可包括索引序列,以允许在单一反应容器(例如流动池的一个通道)内对多个样品进行多重测序。
在某些实施方案中,DNA可以是修复的。DNA分子可以是cfDNA分子,其可以是从RNA转录的DNA分子,或DNA分子可以是DNA分子的扩增子。适配子连接是如上所述执行的。过量的未连接的适配子可以从固定的连接适配子的DNA上洗去;将扩增所需的试剂加入固定的连接适配子的DNA中,该DNA经受多轮扩增,例如PCR扩增,如本领域中已知的。在其他实施方案中,不对连接适配子的DNA进行扩增。在不扩增的情况下,连接适配子的DNA可以通过化学或物理手段(例如热、紫外线灯等)从固体表面除去。在不扩增的情况下,连接到DNA的适配子可包括与测序仪的流动池上存在的寡核苷酸杂交的序列(库扎日瓦(Kozarewa)等人,自然方法(Nat Methods)6:291-295[2009])。
在不同的实施方案中,样品可以是生物学流体样品(例如血液、血浆、血清、尿、脑髓液、羊水、唾液等等)。在某些实施方案中,在一种用于分析母体样品以确定存在或不存在胎儿染色体非整倍性的方法中包括用于在固体表面上从未修复的cfDNA制备测序文库的该方法作为一个步骤。
因此,在一个实施方案中,提供一种用于确定存在或不存在一种或多种胎儿染色体非整倍性的方法,该方法包括:(a)获得包括胎儿与母体无细胞 DNA的混合物的母体样品;(b)将胎儿与母体cfDNA的混合物从所述样品中分离;(c)由胎儿与母体cfDNA的混合物制备测序文库;其中制备该文库包括对cfDNA进行dA加尾、适配子连接以及扩增的连续步骤,并且其中制备是在固体表面上执行的;(d)对该测序文库中的至少一部分进行大规模平行测序,以便获得针对样品中胎儿和母体cfDNA的序列信息;(e)至少暂时地将该序列信息存储在一种计算机可读媒质中;(f)使用该存储的序列信息,以计算的方式识别出一个或多个感兴趣的染色体中的每一个的序列标签的数目和任一个或多个感兴趣的染色体中的每一个的归一化序列的序列标签的数目;(g)使用这个或这些感兴趣的染色体中的每一个的序列标签的数目和这个或这些感兴趣的染色体中的每一个的归一化序列的序列标签的数目,针对这个或这些感兴趣的染色体中的每一个以计算的方式计算出染色体剂量;并且(h)将针对这个或这些感兴趣的染色体中的每一个染色体剂量与针对这个或这些感兴趣的染色体中的每一个的一个相应阈值进行比较,并且由此在样品中确定存在或不存在胎儿染色体非整倍性,其中步骤(e)-(h)是使用一个或多个处理器执行的。在某些实施方案中,对DNA进行末端修复。在其他实施方案中,制备该文库不包括对cfDNA进行末端修复。此方法例证于实例5和6中。
如上所述用于制备测序文库的工艺适用于样品分析方法,包括但不限于用于确定拷贝数变异(CNV)的方法,和用于在包含单基因组的样品中和包含被已知或怀疑其一个或多个感兴趣的序列不同的至少两个基因组的混合物的样品中确定存在或不存在任何感兴趣的序列的多态性的方法,。
可能需要在固相上或在溶液中制备的连接适配子的产物的扩增,以将与一些NGS平台中存在的流动池或其他表面进行杂交所需的寡核苷酸序列引入连接适配子的模板分子中。扩增反应的内容是本领域的普通技术人员已知的、并且包括适当底物(例如dNTPs)、酶(例如DNA多聚酶)以及扩增反应所需的缓冲组分。任选地,可省去连接适配子的多核苷酸的扩增。总体上,扩增反应需要至少两个扩增引物,例如引物寡核苷酸,这些引物可相同或不同、并且可包括能够在退火步骤期间在待扩增的多核苷酸分子(或如果模板看作单股, 那么其补体)中退火成引物结合序列的“适配子特定部分”。
一旦形成,根据以上描述的方法制备的模板的文库可用于某些NGS平台可能需要的固相核酸扩增。如在此所用,术语“固相扩增”是指在固体支撑物上或在与固体支撑物相关联地进行的任何核酸扩增反应,使得所有或一部分的扩增产物在其形成时被固定在固体支撑物上。在具体的实施方案中,该术语涵盖固相聚合酶链式反应(固相PCR)和其固相等温扩增,这些反应是类似于标准溶液相扩增的反应,除了正向和反向扩增引物的一者或两者被固定在固体支撑物上。固相PCR还包括例如以下各项系统:乳液,其中一个引物锚定到珠粒并且另一个引物处于自由溶液中;固相凝胶基质中集落形成,其中一个引物锚定到表面并且一个引物处于自由溶液中。
在不同的实施方案中,扩增后,可以通过微流体性毛细管电泳来分析测序文库以确保文库不含适配子二聚体或单股DNA。模板多核苷酸分子的文库尤其适用于固相测序方法中。除提供用于固相测序和固相PCR的模板外,文库模板还提供用于全基因组扩增的模板。
用于追踪和验证样品完整性的标记物核酸
在不同的实施方案中,可通过对样品基因组核酸(例如cfDNA)以及例如在加工前已引入样品中的伴随的标记物核酸的混合物的测序来验证样品的完整性和追踪样品。
标记物核酸可与测试样品(例如生物来源样品)组合并且经受包括例如以下一个或多个步骤的过程:将生物来源样品分级分离,例如从全血样品获得基本无细胞的血浆部分、从进行分级分离的生物来源样品(例如血浆)或未未进行分级分离的生物来源样品(例如组织样品)下纯化核酸、以及测序。在某些实施方案中,测序包括制备测序文库。与来源样品组合的标记物分子的序列或序列组合经过选择而对来源样品来说是独特的。在某些实施方案中,样品中的独特标记物分子都具有相同序列。在其他实施方案中,样品中的独特标记物分子是多个序列,例如两个、三个、四个、五个、六个、七个、八个、九个、 十个、十五个、二十个或更多个不同序列的组合。
在一个实施方案中,样品的完整性可使用具有相同序列的多个标记物核酸分子进行验证。作为替代方案,样品的身份可使用具有至少两个、至少三个、至少四个、至少五个、至少六个、至少七个、至少八个、至少九个、至少十个、至少11个、至少12个、至少13、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少25个、至少30个、至少35个、至少40个、至少50个或更多个不同序列的多个标记物核酸分子进行验证。验证多个生物样品(即两个或更多个生物样品)的完整性需要这两个或更多个样品中的每一个都用具有对所标记的多个测试样品中的每一个来说是独特的序列的标记物核酸进行标记。举例来说,第一个样品可用具有序列A的标记物核酸标记,并且第二个样品可用具有序列B的标记物核酸标记。作为替代方案,第一个样品可用都具有序列A的多个标记物核酸分子标记,并且第二个样品可用序列B与C的混合物标记,其中序列A、B以及C是具有不同序列的标记物分子。
标记物核酸可在文库制备(如果要制备文库)和测序前发生的样品制备的任何阶段中被加入样品中。在一个实施方案中,标记物分子可与未加工来源样品组合。举例来说,标记物核酸可被提供在用以收集血样的收集管中。作为替代方案,标记物核酸可在抽血后加入血样中。在一个实施方案中,标记物核酸被加入用以收集生物学流体样品的容器中,例如标记物核酸被加入用以收集血样的血液收集管中。在另一个实施方案中,标记物核酸被加入生物学流体样品的一个部分中。举例来说,标记物核酸被加入血样的血浆和/或血清部分(例如母体血浆样品)中。在又另一个实施方案中,标记物分子被加入经过纯化的样品(例如已经从生物样品纯化的核酸样品)中。举例来说,标记物核酸被加入经过纯化的母体和胎儿cfDNA的样品中。同样,标记物核酸可在加工标本前被加入活组织检查标本中。在某些实施方案中,标记物核酸可与递送标记物分子到生物样品的细胞中的载体组合。细胞递送载体包括pH敏感性脂质体和阳离子型脂质体。
在不同的实施方案中,标记物分子具有反基因链序列,这些序列是生物学来源样品的基因组中不存在的序列。在一个例示性实施方案中,用以验证人类生物来源样品的完整性的标记物分子具有在人类基因组中不存在的序列。在一个替代实施方案中,标记物分子具有在来源样品中和任一个或多个已知基因组中不存在的序列。举例来说,用以验证人类生物来源样品的完整性的标记物分子具有在人类基因组中和老鼠基因组中不存在的序列。替代方案允许验证包括两个或更多个基因组的测试样品的完整性。举例来说,从被病原体(例如细菌)侵袭的受试者中获得的人类无细胞DNA样品的完整性可使用具有在人类基因组与侵袭细菌的基因组中都不存在的序列的标记物分子进行验证。许多病原体(例如细菌、病毒、酵母、真菌、原生动物等等)的基因组的序列,公众可在万维网ncbi.nlm.nih.gov/genomes上获得。在另一个实施方案中,标记物分子是具有在任何已知基因组中不存在的序列的核酸。标记物分子的序列可通过算法随机产生。
在不同的实施方案中,标记物分子可以是天然存在的脱氧核糖核酸(DNA)、核糖核酸或人工核酸类似物(核酸模拟物),这些人工核酸类似物包括肽核酸(PMA)、吗啉代核酸、锁核酸、二醇核酸以及苏糖核酸(其与天然存在的DNA或RNA的不同之处在于分子主链发生变化)或不具有磷酸二酯主链的DNA模拟物。脱氧核糖核酸可以来自于天然存在的基因组或可以通过使用酶或通过固相化学合成在实验室中产生。化学方法也可用以产生天然未发现的DNA模拟物。磷酸二酯键被置换,但脱氧核糖保留的可得DNA衍生物包括但不限于具有通过硫甲缩醛或甲酰胺键形成的主链的DNA模拟物,已经证明这些模拟物是优良的结构DNA模拟物。其他的DNA模拟物包括吗啉代衍生物和包含基于N-(2-氨乙基)甘氨酸的假肽主链的肽核酸(PNA)(生物物理学与生物分子结构年评(Ann Rev Biophys Biomol Struct)24:167-183[1995])。PNA是非常优良的DNA(或核糖核酸[RNA])结构模拟物,并且PNA寡聚物能够与沃森-克里克(Watson-Crick)互补DNA和RNA(或PNA)寡聚物形成很稳定的双螺旋结构,并且其还可以通过螺旋侵入而结合到双螺旋DNA中的 目标上(分子生物技术(Mol Biotechnol)26:233-248[2004])。可用作标记物分子的另一个优良的DNA类似物的结构模拟物/类似物是磷硫酰DNA,其中一个非桥接氧被硫置换。此修饰降低了包括5′到3′和3′到5′DNA POL 1外切核酸酶、核酸酶S1和P1、核糖核酸酶、血清核酸酶以及蛇毒磷酸二酯酶在内的内切核酸酶和外切核酸酶2的作用。
标记物分子的长度可以与样品核酸的长度不同或差不多,即标记物分子的长度可类似于样品基因组分子的长度,或者其可大于或小于样品基因组分子的长度。标记物分子的长度是通过构成标记物分子的核苷酸或核苷酸类似物碱基的数目来测量。可以使用本领域中已知的分离方法将长度不同于样品基因组分子长度的标记物分子与源核酸辨别开。举例来说,标记物与样品核酸分子的长度差异可通过例如毛细管电泳等电泳分离来测定。尺寸区分可能有利于对标记物核酸和样品核酸的质量进行量化和评定。优选地,标记物核酸比基因组核酸短,并且长度足以排除其被映射到样品基因组。举例来说,独特映射到人类基因组需要30碱基的人类序列。因此,在某些实施方案中,用于人类样品的测序生物检验中的标记物分子应为至少30bp长。
标记物分子长度的选择主要通过用以验证来源样品完整性的测序技术确定。还可以考虑所测序的样品基因组核酸的长度。举例来说,某些测序技术采用多核苷酸的克隆扩增,其可要求待以克隆方式扩增的基因组多核苷酸具有最小长度。举例来说,使用伊路纳GAII序列分析器进行测序包括通过最小长度为110bp的多核苷酸的桥式PCR(亦称成簇扩增)进行离体克隆扩增,适配子连接到这些多核苷酸上,以提供以克隆方式扩增的至少200bp并且小于600bp的核酸并且测序。在某些实施方案中,连接适配子的标记物分子的长度在约200bp与约600bp之间,约250bp与550bp之间,约300bp与500bp之间或约350与450之间。在其他实施方案中,连接适配子的标记物分子的长度是大约200bp。举例来说,当对母体样品中存在的胎儿cfDNA进行测序时,可选择标记物分子的长度是类似于胎儿cfDNA分子的长度的。因此,在一个实施方案中,用在包括对母体样品中cfDNA进行大规模平行测序以确定存在或不存在 胎儿染色体非整倍性的检验中的标记物分子的长度可大约150bp、约160bp、170bp、约180bp、约190bp或约200bp;标记物分子优选是大约170bp。例如SOLiD测序、聚合酶克隆测序(Polony Sequencing)以及454测序等其他测序方法使用乳液PCR以克隆方式扩增DNA分子以供测序,并且每一种技术都规定了待扩增分子的最小和最大长度。呈以克隆方式扩增的核酸形式的待测序的标记物分子的长度可达到约600bp。在某些实施方案中,待测序的标记物分子的长度可大于600bp。
不采用分子克隆扩增并且能够对在极宽模板长度范围内的核酸进行测序的单分子测序技术在大部分情况下都不要求待测序分子具有任何特定长度。然而,每单位质量的序列产率取决于3′端羟基的数目,因此具有相对短的模板用于测序是比具有长的模板更有效的。如果从长于1000nt的核酸开始,那么总体上宜将这些核酸剪切到100到200nt的平均长度,以便从相同质量的核酸可以产生更多的序列信息。因此,标记物分子的长度可在几十碱基到数千碱基范围内。用于单分子测序的标记物分子的长度可达到约25bp、达到约50bp、达到约75bp、达到约100bp、达到约200bp、达到约300bp、达到约400bp、达到约500bp、达到约600bp、达到约700bp、达到约800bp、达到约900bp、达到约1000bp或更多。
选择用于标记物分子的长度还由所测序的基因组核酸的长度决定。举例来说,cfDNA作为细胞基因组DNA的基因组片段在人类血流中循环。在孕妇血浆中发现的胎儿cfDNA分子总体上比母体cfDNA分子短(陈(Chan)等人,临床化学(Clin Chem)50:8892[2004])。循环胎儿DNA的尺寸分级分离已经证实,循环胎儿DNA片段的平均长度<300bp,而估计母体DNA在约0.5Kb与1Kb之间(李(Li)等人,临床化学,50:1002-1011[2004])。这些发现与使用NGS确定胎儿cfDNA很少超过340bp的范(Fan)等人(范等人,临床化学56:1279-1286[2010])的发现一致。用基于硅石的标准方法从尿分离的DNA由两部分组成:来源于脱落细胞的高分子量DNA和经肾DNA(Tr-DNA)的低分子量(150-250碱基对)部分(波特扎图等人,临床化学46:1078-1084,2000; 和苏等人,分子诊断学杂志6:101-107,2004)。新近发展的用于从体液中分离无细胞核酸的技术在分离经肾核酸的应用中显示,尿中存在的DNA和RNA片段比150碱基对短的多(美国专利申请公开号20080139801)。在cfDNA为进行测序的基因组核酸的实施方案中,选择的标记物分子可大致达到cfDNA的长度。举例来说,呈单核酸分子形式或呈以克隆方式扩增的核酸形式的、用于待测序的母体cfDNA样品中的标记物分子的长度可在约100bp与600之间。在其他实施方案中,样品基因组核酸是较大分子的片段。举例来说,进行测序的样品基因组核酸是成片段的细胞DNA。在对成片段的细胞DNA进行测序的实施方案中,标记物分子的长度可达到DNA片段的长度。在某些实施方案中,标记物分子的长度至少是将序列读数独特映射到适当参考基因组所需要的最小长度。在其他实施方案中,标记物分子的长度是排除标记物分子被映射到样品参考基因组所需要的最小长度。
此外,标记物分子可用于验证未通过核酸测序进行检验并且可通过除测序以外的常见生物技术(实时PCR)验证的样品。
样品对照(例如用于测序和/或分析的过程中阳性对照)
在不同的实施方案中,例如以上所述的引入样品中的标记物序列可充当阳性对照,以验证测序以及随后加工和分析的准确性和效力。
因此,提供了用于提供对样品中DNA进行测序的过程中阳性对照(IPC)的组合物和方法。在某些实施方案中,提供了用于对包括基因组混合物的样品中的cfDNA进行测序的阳性对照。IPC可用于将从不同组样品(例如在不同测序批次上在不同时间进行测序的样品)中获得的序列信息的基线位移相关联。因此,举例来说,IPC可将针对母体测试样品获得的序列信息与从在不同时间进行测序的一组合格样品获得的序列信息相关联。
同样,在片段分析的情况下,IPC可将从受试者针对具体的片段获得的序列信息与从在不同时间进行测序的一组合格样品获得的序列(类似序列)相关联。在某些实施方案中,IPC可将从受试者针对具体的癌症相关基因座获得的 序列信息与从一组合格样品(例如从已知扩增/缺失等等)获得的序列信息相关联。
此外,IPC可用作在测序过程中追踪样品的标记物。IPC还可以提供感兴趣的染色体的一种或多种非整倍性(例如21三体性、13三体性、18三体性)的定性阳性序列剂量值(例如NCV)以提供更恰当的解读并且确保数据的可靠性和准确性。在某些实施方案中,可建立包括来自男性和女性基因组的核酸的IPC,以提供母体样品中染色体X和Y的剂量,从而确定胎儿是否是男性。
过程中对照的类型和数目取决于所需测试的类型或性质。举例来说,对于需要对来自包括基因组混合物的样品的DNA进行测序以确定是否存在染色体非整倍性的测试,过程中对照可包括从已知包括相同染色体非整倍性的测试样品获得的DNA。在某些实施方案中,IPC包括来自已知包括感兴趣的染色体非整倍性的样品的DNA。举例来说,用以确定在母体样品中存在或不存在胎儿三体性(例如21三体性)的测试的IPC包括从具有21三体性的个体获得的DNA。在某些实施方案中,IPC包括从两个或更多个具有不同非整倍性的个体获得的DNA的混合物。举例来说,对于用以确定存在或不存在13三体性、18三体性、21三体性和X单体性的测试,IPC包括从各自携带测试三体性之一的胎儿的孕妇获得的DNA样品的组合。除完整染色体非整倍性外,可建立为用以确定存在或不存在部分非整倍性的测试提供阳性对照的IPCs。
充当用于检测单一非整倍性的对照的IPC可使用从两个受试者获得的细胞基因组DNA的混合物来建立,其中一个受试者是非整倍体基因组的捐助者。举例来说,作为用以确定胎儿三体性(例如21三体性)的测试的对照的IPC可以通过将来自携带该三体性染色体的男性或女性受试者的基因组DNA与已知不携带该三体性染色体的女性受试者的基因组DNA进行组合来建立。基因组DNA可从两个受试者的细胞中提取,并且进行剪切以提供约100bp到400bp之间、约150bp到350bp之间或约200bp到300bp之间的片段以模拟母体样品中的循环cfDNA片段。选择来自携带非整倍性(21三体性)的受试者的成片段的DNA的比例以便模拟在母体样品中发现的循环胎儿cfDNA的比例,而 提供包括包含约5%、约10%、约15%、约20%、约25%、约30%的来自携带该非整倍性的受试者的DNA的成片段的DNA混合物的IPC。该IPC可包括来自各自携带不同非整倍性的不同受试者的DNA。举例来说,IPC可包括约80%的未患病女性DNA,并且剩余20%可以是来自各自携带一种三体性染色体21、三体性染色体13以及三体性染色体18的三个不同受试者的DNA。制备片段式的DNA的混合物用于测序。对成片段的DNA的混合物进行加工可包括制备测序文库,该测序文库可以使用任何大规模平行方法以单路或多重模式测序。基因组IPC的原液可存储并且用于多个诊断性试验。
作为替代方案,IPC可使用从已知携带了具有已知染色体非整倍性的胎儿的母亲中获得的cfDNA来建立。举例来说,cfDNA可以从携带具有21三体性的胎儿的孕妇获得。cfDNA是从母体样品中提取的,并且克隆到细菌载体中并在细菌中生长,以提供不间断的IPC来源。可使用限制酶将DNA从细菌载体中提取。作为替代方案,克隆的cfDNA可以通过例如PCR扩增。可对IPC DNA进行加工,以在与来自待分析存在或不存在染色体非整倍性的测试样品的cfDNA相同的批次中测序。
虽然以上描述了IPC相对于三体性的建立,但是应了解,可建立反映包括例如不同的片段扩增和/或缺失在内的其他部分非整倍性的IPC。因此,举例来说,在已知不同的癌症与具体的扩增相关联的情况下(例如乳癌与20Q13相关联),可建立合并了那些已知的扩增的IPCs。
测序方法
如上文所指出,作为鉴别拷贝数变异的程序的一部分,对所制备的样品(例如,测序文库)进行测序。可以利用多种测序技术中的任一种。
有些测序技术在商业上可购得,诸如阿非美公司(桑尼维尔,CA)(Affymetrix Inc.(Sunnyvale,CA))的杂交法测序平台及454生命科学(布拉德福德,CT)(454Life Sciences(Bradford,CT))、伊鲁米/索乐科萨(海沃德,CA)(Illumina/Solexa(Hayward,CA))以及海里科思生物科学(坎布里奇,MA) (Helicos Biosciences(Cambridge,MA))的合成法测序平台、以及应用生物系统(福斯特城,CA)(Applied Biosystems(Foster City,CA))的连接法测序平台,如下文所述。除使用海里科思生物科学的合成测序法进行的单分子测序之外,其他单分子测序技术包括但不限于太平洋生物科学(Pacific Biosciences)的SMRTTM技术、ION TORRENTTM技术、以及例如牛津纳米孔技术(Oxford Nanopore Technologies)开发的纳米孔测序法。
虽然自动化的桑格尔方法(Sanger method)被认为是‘第一代’技术,但在此所述的方法中也可以使用包括自动化桑格尔测序法的桑格尔测序法。另外的适当测序方法包括但不限于核酸成像技术,例如原子力显微镜(AFM)或透射电子显微术(TEM)。示意性的测序技术更详细地描述于下文中。
在一个示意性但非限制性的实施方案中,在此所述的方法包括使用海里科思真正的单分子测序(tSMS)技术(例如,哈里斯T.D.(Harris T.D.)等人,科学(Science)320:106-109[2008]中所述)这种单分子测序技术来获得测试样品中的核酸的序列信息,例如母体样品中的cfDNA、针对癌症所筛查的受试者的cfDNA或细胞DNA等等。在tSMS技术中,DNA样品分裂成具有大致100个到200个核苷酸的股,并且多A序列被添加到各个DNA股的3’端。各个股通过添加荧光标记的腺苷核苷酸加以标记。然后使DNA股与流动池杂交,流动池含有数百万个固定到流动池表面的寡T捕捉位点。在某些实施方案中,模板密度可为大约1亿个模板/cm2。然后将流动池装载于仪器中,例如HeliScopeTM测序仪,并且激光照射流动池表面,从而显示各个模板的位置。CCD摄像机可以测定模板在流动池表面上的位置。模板荧光标记然后分裂并且洗掉。测序反应通过引入DNA多聚酶和荧光标记的核苷酸开始。寡T核酸充当引物。聚合酶使所标记的核苷酸以模板引导方式结合到引物中。除去聚合酶和未结合的核苷酸。引导荧光标记的核苷酸的结合的模板通过流动池表面成像来辨别。成像之后,分裂步骤除去了荧光标记,并且对其他荧光标记的核苷酸重复该程序,直到获得所希望的读取长度。利用各个核苷酸添加步骤收集序列信息。通过单分子测序技术进行全基因组测序可在制备测序文库时排除或典 型地避免基于PCR的扩增,并且这些方法允许直接测量样品,而非测量那个样品的拷贝。
在另一个示意性但非限制性的实施方案中,在此所述的方法包括使用454测序法(Roche)(例如,玛古纳斯M.(Margulies,M.)等人,自然(Nature)437:376-380[2005]中所述)获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、针对癌症所筛查的受试者的cfDNA或细胞DNA等等。454测序法典型地包括两个步骤。第一步,将DNA剪切成具有大致300到800个碱基对的片段,并且这些片段为钝端的。然后将寡核苷酸适配子连接到片段的末端。适配子充当片段扩增以及测序的引物。片段可使用例如含有5’-生物素标签的适配子B附接于DNA捕捉珠粒上,例如涂布抗生蛋白链菌素的珠粒。附接于珠粒上的片段在水包油乳液滴内进行PCR扩增。结果为以克隆方式扩增的DNA片段在各个珠粒上的多重拷贝。第二步,将珠粒捕捉于孔(例如,皮升尺寸的孔)中。对各个DNA片段平行进行焦磷酸测序。添加一个或多个核苷酸产生光信号,该光信号在测序仪器中被CCD摄像机记录到。信号强度与结合的核苷酸数目成比例。焦磷酸测序法是利用焦磷酸(PPi)在核苷酸添加时可脱离。PPi在腺苷5’磷酸硫酸盐存在下通过ATP硫酸化酶被转化为ATP。荧光素酶使用ATP将荧光素转化为氧化荧光素,并且此反应产生光,测量这个光并且加以分析。
在另一个示意性的但非限制性的实施方案中,在此所述的方法包括使用SOLiDTM技术(应用生物系统公司(Applied Biosystems))来获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、针对癌症所筛查的受试者的cfDNA或细胞DNA等等。在SOLiDTM连接测序法中,将基因组DNA剪切成片段,并且将适配子附接于片段的5’端和3’端以产生片段文库。作为替代方案,可以如下引入内适配子:将适配子连接到片段的5’端和3’端,使片段成环,消化该成环片段以产生内适配子,并且将适配子附接到所得片段的5’端和3’端以产生配对文库。接下来,在含有珠粒、引物、模板以及PCR组分的微型反应器中制备克隆珠粒群。继PCR之后,将模板变性并且富集珠粒以分离具 有已扩增的模板的珠粒。对选出的珠粒上的模板进行3’修饰,以允许结合到载玻片上。可以通过部分随机寡核苷酸与通过具体荧光团鉴别的中心测定的碱基(或碱基对)的依序杂交和连接来测定序列。记录颜色之后,将所连接的寡核苷酸分裂并且除去,然后重复该过程。
在另一个示意性的但非限制性的实施方案中,在此所述的方法包括使用太平洋生物科学公司的单分子实时(SMRTTM)测序技术来获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、针对癌症所筛查的受试者的cfDNA或细胞DNA等等。在SMRT测序法中,在DNA合成期间,对染料标记的核苷酸的连续结合进行成像。单DNA多聚酶分子附接于获得了序列信息的单独零模式波长检测器(ZMW检测器)的底表面,而磷酸连接的核苷酸正结合成生长的引物股。ZMW检测器包含密闭结构,其允许以在ZMW范围外(例如微秒)快速扩散的荧光核苷酸为背景观测单一核苷酸通过DNA多聚酶的结合。核苷酸结合成生长股典型地需要数毫秒。在此期间,荧光标记被激发并且产生荧光信号,并且使荧光标签分裂。测量相应的染料荧光指示了哪个碱基被结合。重复该过程以得到序列。
在另一个示意性的但非限制性的实施方案中,在此所述的方法包括使用纳米孔测序法(例如,索里GV和麦乐A.,临床化学(Clin Chem)53:1996-2001[2007])来获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、针对癌症所筛查的受试者的cfDNA或细胞DNA等等。纳米孔测序DNA分析技术已由多个公司开发,包括例如牛津纳米孔技术公司(英国牛津城)(Oxford Nanopore Technologies(Oxford,United Kingdom))、斯魁龙公司(Sequenom)、纳博思公司(NABsys)等等。纳米孔测序法为单分子测序技术,其中当单分子DNA穿过纳米孔时直接对其测序。纳米孔为小孔,其直径典型地为大约1纳米。将纳米孔浸入导电流体中并且横跨其施加电位(电压),因离子传导通过纳米孔而产生微小电流。流过的电流量对纳米孔的尺寸和形状敏感。当DNA分子通过纳米孔时,DNA分子上的各个核苷酸对纳米孔造成不同程度的阻塞,从而使通过纳米孔的电流量值发生不同程度的变化。因此,当DNA分子通过 纳米孔时发生的电流的此变化提供了DNA序列的读数。
在另一个示意性的但非限制性的实施方案中,在此所述的方法包括使用化学敏感性场效应晶体管(chemFET)阵列(例如,美国专利申请公开号2009/0026082中所述)来获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA、针对癌症所筛查的受试者的cfDNA或细胞DNA等等。在此技术的一个实例中,可以把DNA分子放入反应室中,并且可以使模板分子与结合到聚合酶上的测序引物杂交。一个或多个三磷酸盐在测序引物3’端结合成新的核酸股可以通过chemFET以电流变化加以辨别。一个阵列可以具有多个chemFET传感器。在另一个实例中,可以使单核酸附接于珠粒,并且可以在珠粒上扩增核酸,并且可以将单独的珠粒转移到chemFET阵列上的单独反应室中,其中每个室具有chemFET传感器,并且可以对核酸进行测序。
在另一个实施方案中,本发明方法包括利用使用透射电子显微术(TEM)的霍尔康分子技术(Halcyon Molecular’s technology)来获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA。称为单独分子安置快速纳米传递(IMPRNT)的方法包括:利用单原子分辨率透射电子显微镜对经重原子标记物选择性标记的高分子量(150kb或更大)DNA进行成像,以及使这些分子以一致的碱基到碱基间距、以高度密集(3nm股到股)的平行阵列排列在超薄薄膜上。电子显微镜用来对薄膜上的分子成像以测定重原子标记物的位置并且提取DNA的碱基序列信息。该方法进一步描述于PCT专利公开WO 2009/046445中。该方法允许在十分钟以内测定完全人类基因组的序列。
在另一个实施方案中,DNA测序技术为离子流(Ion Torrent)单分子测序法,其将半导体技术与简单测序化学技术配合以将化学编码信息(A、C、G、T)直接转换成半导体芯片上的数字信息(0、1)。实质上,当核苷酸通过聚合酶结合成DNA股时,氢离子作为副产物释放。离子流是使用微加工孔的高密度阵列、以大规模平行方式进行这个生化过程。每个孔容纳不同的DNA分子。孔下方为离子敏感层,并且离子敏感层下方为离子传感器。当添加核苷酸(例如C)到DNA模板、然后结合成DNA股时,将释放氢离子。那个离子的电荷 将改变溶液的pH值,这可以通过离子流(Ion Torrent)的离子传感器检测到。测序仪(基本上为世界上最小的固态PH计)读取碱基(从化学信息直接到数字信息)。离子个人基因组机器(PGMTM)测序仪然后用核苷酸一个接一个地连续冲击芯片。若冲击芯片的下一个核苷酸不匹配,则不会记录到电压变化并且不会被判定碱基。若DNA股上存在两个相同碱基,则电压会加倍,并且芯片会记录所被判定的两个相同碱基。直接检测可记录数秒内的核苷酸结合。
在另一个实施方案中,本发明方法包括使用杂交测序法获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA。杂交测序法包括使多个多核苷酸序列与多个多核苷酸探针接触,其中多个多核苷酸探针中的每一者可以任选地系留到底物上。底物可能是包含已知核苷酸序列阵列的平坦表面。与该阵列杂交的图案能够用来测定样品中存在的多核苷酸序列。在其他实施方案中,每个探针系留到珠粒上,例如磁珠等等。可以测定与珠粒的杂交且用来鉴别样品内的多个多核苷酸序列。
在另一个实施方案中,本发明方法包括使用伊鲁米纳(Illumina)合成测序法以及基于可逆终止子的测序化学技术(例如,本特利(Bentley)等人,自然(Nature)6:53-59[2009]中所述),通过对数百万DNA片段进行大规模平行测序来获得测试样品中的核酸的序列信息,例如母体测试样品中的cfDNA。模板DNA可以为基因组DNA,例如cfDNA。在某些实施方案中,所分离细胞的基因组DNA用作模板,并且将其片段化成为几百个碱基对的长度。在其他实施方案中,cfDNA用作模板,并且因为cfDNA作为短片段存在,所以不要求片段化。举例来说,胎儿cfDNA作为长度大致170个碱基对(bp)的片段在血流中循环(范(Fan)等人,临床化学(Clin Chem)56:1279-1286[2010]),并且在测序之前,不要求将DNA片段化。伊鲁米纳测序技术依赖于成片段的基因组DNA附接到寡核苷酸锚所结合的光学透明平坦表面上。模板DNA末端经修复而产生5′-磷酸化钝端,并且克列诺片段(Klenow fragment)的聚合酶活性用来使单A碱基添加到钝端磷酸化DNA片段的3′端。这个添加制备了用于连接到寡核苷酸适配子上的DNA片段,这些片段在其3′端具有单T碱基突 出端以提高连接效率。适配子寡核苷酸与流动池锚互补。在限制性稀释条件下,将经适配子修饰的单股模板DNA添加到流动池中并且通过杂交固定到锚上。延伸并且桥式扩增所附接的DNA片段以建立具有亿万丛的超高密度测序流动池,每个丛含有约1,000个拷贝的相同模板。在一个实施方案中,随机成片段的基因组DNA(例如cfDNA)在经受成簇扩增之前使用PCR加以扩增。作为替代方案,使用无扩增的基因组文库制剂,并且单独使用成簇扩增法(高纳娃(Kozarewa)等人,自然方法(Nature Methods)6:291-295[2009])富集随机成片段的基因组DNA,例如cfDNA。利用使用了具有可去除荧光染料的可逆终止子的可靠四色DNA合成测序技术对模板测序。使用激光激发和全内反射光学装置获得高灵敏度荧光检测。将约20bp到40bp(例如36bp)的短序列读数对照经重复片段遮蔽的参考基因组进行比对,并且使用专门开发的数据分析管道软件来鉴别短序列读数对参考基因组的唯一映射。还可以使用非重复片段遮蔽的参考基因组。无论使用重复片段遮蔽的参考基因组,还是非重复片段遮蔽的参考基因组,只对唯一映射到参考基因组的读数计数。第一次读取完成之后,可以将模板原位再生以便从片段的相反端能够进行第二次读取。因此,可以使用DNA片段的单端或配对端测序。对存在于样品中的DNA片段进行部分测序,并且对包含预定长度(例如36bp)的读数、映射到已知参考基因组的序列标签进行计数。在一个实施方案中,参考基因组序列为NCBI36/hg18序列,其可在万维网genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg 18&hgsid=166260105获得。作为替代方案,参考基因组序列为GRCh37/hg19,其可在万维网genome.ucsc.edu/cgi-bin/hgGateway获得。其他公用序列信息来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室(European Molecular BiologyLaboratory))以及DDBJ(日本DNA数据库)。有多种计算机算法可供比对序列使用,包括但不限于BLAST(奥茨秋(Altschul)等人,1990)、BLITZ(MPsrch)(斯特罗科和柯林斯(Sturrock&Collins),1993)、FASTA(普尔逊和李普曼(Person&Lipman),1988)、BOWTIE(郎格米(Langmead)等人,基因组生 物学(Genome Biology)10:R25.1-R25.10[2009])、或ELAND(伊鲁米纳公司,圣地亚哥,CA,USA(Illumina,Inc.,San Diego,CA,USA))。在一个实施方案中,对血浆cfDNA分子的以克隆方式扩增的拷贝的一端进行测序并且通过伊鲁米纳基因组分析仪(Illumina Genome Analyzer)的生物信息学比对分析加以处理,伊鲁米纳基因组分析仪使用大规模高效比对的核苷酸数据库(ELAND)软件。
在此所述方法的某些实施方案中,所映射的序列标签包括约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的序列读数。预计技术进步将能够实现大于500bp的单端读数,当产生配对端读数时,能够实现大于约1000bp的读数。在一个实施方案中,所映射的序列标签包括36bp序列读数。通过比较标签序列与参考序列来确定所测序的核酸(例如cfDNA)分子的染色体起点可获得序列标签的映射,并且不需要具体的遗传序列信息。较小程度的错配(每个序列标签0到2个错配)可以解释参考基因组与混合样品中的基因组之间可能存在的微小多态性。
每种样品典型地获得多个序列标签。在某些实施方案中,利用读数映射到参考基因组,每种样品获得了至少约3×106个序列标签、至少约5×106个序列标签、至少约8×106个序列标签、至少约10×106个序列标签、至少约15×106个序列标签、至少约20×106个序列标签、至少约30×106个序列标签、至少约40×106个序列标签、至少约50×106个序列标签,这些序列标签包含20bp与40bp之间(例如36bp)的读数。在一个实施方案中,所有序列读数被映射到参考基因组的所有区域。在一个实施方案中,对已经映射到参考基因组的所有区域(例如所有染色体)的标签进行计数,并且测定混合DNA样品中感兴趣的序列(例如染色体或其一部分)的CNV(即,过度代表或代表不足)。该方法不要求在两个基因组之间作出区分。
正确确定样品中是否存在或缺乏CNV(例如非整倍性)所必需的准确性是根据测序操作中映射到参考基因组的序列标签数目在各样品间的变化(染色体间变异性)、和不同测序操作中映射到参考基因组的序列标签数目的变化(序列间变异性)判断的。举例来说,映射到富GC或贫GC参考序列的标签的变化可能特别显著。其他变化可因使用不同的核酸提取和纯化方案、制备测序文库以及使用不同的测序平台所引起。本发明方法根据对归一化序列(归一化染色体序列或归一化区段序列)的了解而使用序列剂量(染色体剂量或区段剂量),从而在本质上解释因染色体间变异性(同批)和序列间变异性(轮次间)和平台相关的变异性所致的自然增加的变异性。染色体剂量是基于对归一化染色体序列的了解,归一化染色体序列可以包括单染色体,或包括两个或更多个选自染色体1到22、X和Y的染色体。作为替代方案,归一化染色体序列可以包括单染色体区段,或包括一个染色体或两个或更多个染色体的两个或更多个区段。区段剂量是基于对归一化区段序列的了解,归一化区段序列可以包括任一个染色体的单区段,或包括染色体1到22、X和Y中的任何两个或更多个染色体的两个或更多个区段。
单重测序
图4展示了该方法的一个实施方案的流程图,其中将标记物核酸与单样品的源样品核酸组合以分析遗传异常,同时确定生物学源样品的完整性。在步骤410中,获得了包含基因组核酸的生物学源样品。在步骤420中,将标记物核酸与生物学源样品组合而得到标记物样品。在步骤430中制备以克隆方式扩增的源样品基因组核酸与标记物核酸的混合物的测序文库,并且在步骤440中以大规模平行方式对文库进行测序以提供与样品源基因组核酸和标记物核酸有关的测序信息。大规模平行测序方法提供了关于序列读数的测序信息,这些序列读数被映射到一个或多个参考基因组以产生可以分析的序列标签。在步骤450中,分析所有测序信息,并且在步骤460中,根据与标记物分子有关的测序信息,检验源样品的完整性。检验源样品完整性是通过确定在步骤450获得 的标记物分子的测序信息与在步骤420添加到原始源样品中的标记物分子的已知序列之间的一致性完成的。可以对分别测序的多个样品应用相同过程,其中每个样品包含具有该样品独有的序列的分子,即一个样品用唯一的标记物分子标记,并且对其与测序仪的流动池或载玻片中的其他样品分开测序。若检验样品完整性,则可以分析与样品基因组核酸有关的测序信息,以提供例如与源样品所得自的受试者的状况有关的信息。举例来说,若检验样品完整性,则分析与基因组核酸有关的测序信息以确定存在或不存在染色体异常。若不检验样品完整性,则不考虑测序信息。
图4中所描绘的方法还适用于包括对单分子进行单重测序的生物学分析,例如海里科思的tSMS、太平洋生物科学的SMRT、牛津纳米孔的BASE、及其他技术,诸如IBM提出的技术,其不要求制备文库。
多重测序
每批测序操作可以获得的大量序列读数允许对合并的样本进行分析,即多重分析,其最大化了测序能力并且减少了工作流程。举例来说,使用伊鲁米纳基因组分析仪的八泳道流动池对八个文库进行的大规模平行测序可以多重进行以对每个泳道中的两个或更多个样品测序,以便在单操作中对16、24、32等等或更多个样品进行测序。对多个样品进行平行测序(即,多重测序)要求在测序文库制备期间将样品特定性索引序列(亦称为条形码)合并。测序索引是在基因组核酸和标记物核酸的3’端添加的大约5个、大约10个、大约15个、大约20个、大约25个或更多个碱基的独特碱基序列。多重系统能够在单批测序操作中对数百个生物样品进行测序。可以通过将索引序列并入用于成簇扩增的PCR引物之一中来制备编索引的测序文库以用于对以克隆方式扩增的序列进行测序。作为替代方案,索引序列可以并入适配子中,在PCR扩增之前连接到cfDNA。用于单分子测序的索引文库可以通过在位于标记物和基因组分子的3’端或添加与流动池锚杂交所需的序列(例如添加多A尾以便使用tSMS进行单分子测序)的5’端合并索引序列来建立。对唯一标记且编索引的核酸进行 测序提供了鉴别所合并样品文库中的样品的索引序列信息,并且标记物分子的序列信息使基因组核酸的测序信息与样品源相互关联。在对多个样品单独进行测序(即,单重测序)的实施方案中,只需要修饰每个样品的标记物和基因组核酸分子以按照需要通过测序平台包含适配子序列并且排除索引序列。
图5提供了用于检验样品完整性的方法的实施方案500的流程图,对这些样品进行多步骤多重测序生物学分析,即,将个别样品的核酸组合并且作为复杂混合物加以测序。在步骤510中,获得多个生物学源样品,每个样品包含基因组核酸。在步骤520中,将唯一标记物核酸与各生物学源样品组合而得到多个唯一标记样品。在步骤530中,针对每个唯一标记样品制备样品基因组核酸和标记物核酸的测序文库。预定进行多重测序的样品的文库制备包括将独特索引标签并入样品和每个唯一标记样品的标记物核酸中以提供其源核酸序列能够与对应标记物核酸序列相互关联并且在复合物溶液中得以鉴别的样品。在包括可以进行酶法修饰的标记物分子(例如DNA)的方法的实施方案中,可以在样品和标记物分子的3’端通过连接包含索引序列的可测序适配子序列来并入索引分子。在包括不能进行酶法修饰的标记物分子(例如不具有磷酸主链的DNA类似物)的方法的实施方案中,索引序列是在合成期间在类似物标记物分子的3’端并入的。将两个或更多个样品的测序文库合并并且加载到测序仪的流动池中,在步骤540中以大规模平行方式对它们测序。在步骤550中,分析所有测序信息并且在步骤560中,根据与标记物分子有关的测序信息而检验源样品的完整性。检验多个源样品每一者的完整性是通过首先将与相同索引序列有关的序列标签分组以使属于由多个样品的基因组分子构成的每个文库的这些基因组序列和标记物序列与判别序列相关而完成的。然后对所分组的标记物和基因组序列进行分析,以检验针对标记物分子所获得的序列对应于添加到对应源样品中的已知唯一序列。若检验样品完整性,则可以分析与样品基因组核酸有关的测序信息,以提供与源样品所得自的受试者有关的遗传信息。举例来说,若检验样品完整性,则分析与基因组核酸有关的测序信息以确定存在或不存在染色体异常。标记物分子的测序信息与已知序列之间缺乏一致性表示样 品混乱,并且不考虑与基因组cfDNA分子有关的附随测序信息。
测定CNV用于产前诊断
在母体血液中循环的无细胞胎儿DNA和RNA可以被用于数目不断增加的遗传状况的早期无创性产前诊断(NIPD),既可用于妊娠管理也可帮助生殖决策。在血流中循环的无细胞DNA的存在已经为人所知超过50年了。最近,在怀孕期间的母体血流中发现了存在小量循环的胎儿DNA(Lo(罗)等人,Lancet(柳叶刀)350:485-487[1997])。被认为是源自垂死的胎盘细胞,无细胞胎儿DNA(cfDNA)已经被证明是由长度上典型地小于200bp的短片段组成,(Chan(陈)等人,临床化学,50:88-92[2004]),在早到只有4周妊娠的时候可以被辨明(Illanes(伊拉尼斯)等人,Early Human Dev(早期人类发育),83:563-566[2007]),并且已知在分娩的数小时内即被从母体循环中清除(Lo(罗)等人,Am J Hum Genet(美国人类遗传学杂志),64:218-224[1999])。除了cfDNA外,在母体血流中还可以辨明无细胞胎儿RNA的(cfRNA)的片段,这是源自在胎儿或胎盘中被转录的基因。来自母体血液样品的这些胎儿遗传要素的提取和随后的分析提供了用于NIPD的新机会。
本方法是一种独立于多态性的方法,它是供在NIPD中使用的并且它不要求从母体cfDNA辨别出胎儿cfDNA以便能够确定胎儿非整倍性。在一些实施方案中,该非整倍性是一种完整染色体三体性或单体性,或一种部分三体性或单体性。部分非整倍性是由获得或丢失部分染色体引起的,并且涵盖染色体不平衡,这些不平衡生成自不平衡的易位、不平衡的倒位、缺失和插入。至今,与生命能共存的最常见的已知非整倍性是三体性21,即唐氏综合症(DS),它由存在部分或全部的染色体21引起的。很少情况下,DS可以由一种遗传的或偶发的缺陷引起,由此染色体21的全部或部分的一个额外拷贝变成附接到另一染色体(通常是染色体14)上,以形成一个单畸变染色体。DS是与智力损伤、严重的学习困难以及由长期健康问题(例如心脏病)引起的超额死亡率相关联的。具有已知临床显著性的其他非整倍性包括爱德华综合症(三体性18) 和帕塔综合征(三体性13),它们在前几个月的生命经常是致命性的。与性染色体数目相关的非整倍性也是已知的、并且包括单体性X,例如在女性新生儿中的特纳综合征(XO))和三倍X综合症(XXX),以及在男性新生儿中的柯林菲特综合征(XXY)和XYY综合症,它们全部都与包括不育和智力技能降低的不同表型相关联。单体性X[45,X]是早孕流产的常见原因,其在自发性流产中占大约7%。基于1-2/10,000的45,X(也称为特纳综合征)活产频率,估计不到1%的45,X胎体幸存到分娩期。大约30%的特纳综合征患者是45,X细胞系和46,XX细胞系或含有重排X染色体的细胞系的嵌合体(虎克(Hook)和沃伯顿(Warburton),1983)。活产婴儿的表型相对温和(考虑高胚胎致死率)且已假设患有特纳综合征的可能所有活产女性携带含有两个性染色体的细胞系。单体性X能够以45,X或以45,X/46XX发生于女性中,并且以45,X/46XY发生于男性中。人类中的常染色体单体性总体上被认为是与生命不相容的;然而,相当多的细胞遗传学报告描述了活产幼儿的一个染色体21的完全单体性(沃斯兰娃(Vosranova)等人,分子细胞遗传学(Molecular Cytogen.)1:13[2008];朱坦(Joosten)等人,产前诊断(Prenatal Diagn.)17:271-5[1997])。在此描述的方法可用于产前诊断这些及其他染色体异常。
根据一些实施方案,在此披露的方法可以确定染色体1到22、X和Y中任一染色体的染色体三体性的存在或不存在。可以根据本发明方法检测的染色体三体性实例包括但不限于三体性21(T21;唐氏综合征)、三体性18(T18;爱德华综合征)、三体性16(T16)、三体性20(T20)、三体性22(T22;猫眼综合征)、三体性15(T15;普瑞德威利综合征)、三体性13(T13;帕塔综合征)、三体性8(T8;华卡尼综合征(Warkany Syndrome))、三体性9、和XXY(克莱里菲尔特综合征)、XYY或XXX三体性。其他常染色体的完全三体性以非嵌合态存在时是致命的,但是以嵌合态存在时可以与生命相容。应了解,在胎儿cfDNA中,不同的完全三体性(不论以嵌合态或非嵌合态存在)以及部分三体性可以根据在此提供的传授内容加以测定。
可以利用本发明方法测定的部分三体性的非限制性实例包括但不限于部 分三体性1q32-44、三体性9p、三体性4嵌合体、三体性17p、部分三体性4q26-qter、部分2p三体性、部分三体性1q和/或部分三体性6p/单体性6q。
在此披露的方法还可以用于测定染色体单体性X、染色体单体性21、以及部分单体性,诸如单体性13、单体性15、单体性16、单体性21以及单体性22,已知它们与怀孕流产有关。还可以利用在此描述的方法来测定典型地与完全非整倍性有关的染色体的部分单体性。可以根据本发明的方法确定的缺失综合征的非限制性实例包括因染色体部分缺失所致的综合征。可以根据在此描述的方法测定的部分缺失的实例包括但不限于染色体1、4、5、7、11、18、15、13、17、22以及10的部分缺失,其描述于下文中。
1q21.1缺失综合征或1q21.1(复发性)微缺失是染色体1的罕见畸形。缺失综合征之后,还存在1q21.1复制综合征。尽管缺失综合征在特定点缺少DNA的一部分,但复制综合征在相同点存在DNA的类似部分的两个或三个拷贝。文献中提及了缺失和复制是1q21.1拷贝数变异(CNV)。1q21.1缺失可以与TAR综合征(血小板减少症伴桡骨缺失)有关。
沃尔夫-赫奇霍恩综合征(Wolf-Hirschhorn syndrome,WHS)(OMIN#194190)是一种与染色体4p16.3的半合子缺失有关的毗连基因缺失综合征。沃尔夫-赫奇霍恩综合征是一种先天性畸形综合征,其特征为出生前和出生后生长不足、不同程度的发育障碍、有特点的颅面特征(呈‘希腊战士头盔’外貌的鼻、高前额、凸颊、器官距离过远、高弓形眉毛、眼睛突出、内眦赘皮、短人中、嘴巴明晰嘴角下转、以及小下颌)、以及癫痫症。
染色体5的部分缺失(亦称为5p-或5p减,并且称为猫叫综合征(Cris du Chat syndrome(OMIN#123450))是因染色体5的短臂(短臂)(5p15.3-p15.2)缺失所致。患有此病状的婴儿经常发出听起来象猫叫的高音调叫声。该病症的特征为智能障碍和发育延缓、头尺寸小(小头畸形)、出生体重低、以及婴儿期肌张力弱(张力过弱)、有特点的面部特征以及可能存在的心脏缺陷。
亦称为染色体7q11.23缺失综合征(OMIN 194050)的威廉-毕仁综合征(Williams-Beuren Syndrome)是导致多系统病症的毗连基因缺失综合征,其因 染色体7q11.23上的1.5Mb到1.8Mb的半合子缺失所引起,这个半合子缺失含有大致28个基因。
亦称为11q缺失病症的雅克布森综合征(Jacobsen Syndrome)是一种罕见的先天性病症,其因包括区带11q24.1的染色体11的末端区域缺失所引起。其可导致智能障碍、有特点的面貌、以及各种各样的实际问题,包括心脏缺陷和流血病症。
被称为单体性18p的染色体18的部分单体性是一种罕见的染色体病症,其中缺失染色体18的全部或部分的短臂(p)(单染色体的)。这种疾病典型地特征在于身材矮小,程度可变的精神发育迟缓,语言发育迟缓,颅骨和面部(颅面)区域的畸形,和/或额外的身体异常。对于不同案例,相关颅面缺损可以在范围和严重性上变化很大。
由染色体15的结构或拷贝数目的变化引起的病况包括安格曼综合征和普瑞德-威利氏综合征,它们涉及在染色体15的同一个部分(15q11-q13区域)中的基因活性的丢失。应当理解,在父母携带者中,若干易位和微缺失可以是无症状的,但仍可以引起后代中的主要遗传疾病。例如,携带15q11-q13微缺失的健康母亲可以生出患有安格曼综合征(一种严重的神经变性疾病)的孩子。因此,在此描述的方法、设备以及系统可以用于识别胎儿中的此类部分缺失和其他缺失。
部分单体性13q是一种罕见的染色体疾病,它发生在染色体13的长臂(q)的一段缺失时(单体的)。出生时患有部分单体性13q的婴儿会表现出低出生体重、头和面部(颅面区域)的畸形、骨骼异常(尤其是手和脚)、以及其他身体异常。精神发育迟缓是该病况的特征。在出生时患有该疾病的个体中,婴儿期的死亡率是很高的。几乎所有部分单体性13q的病例都没有明显原因而随机发生(偶发性的)。
史密斯-玛吉尼斯综合征(Smith-Magenis syndrome)(SMS-OMIM#182290)是因染色体17的一个拷贝上的缺失或遗传物质丢失所致。这个有名的综合征与发育迟缓、精神发育迟缓、智力低下、先天异常(诸如心脏和肾脏缺陷)、 以及神经行为异常(诸如严重睡眠紊乱和自我伤害行为)有关。史密斯-玛吉尼斯综合征(SMS)在大多数情况(90%)下是因染色体17p11.2中的3.7-Mb中间缺失所致。
22q11.2缺失综合征,也称为迪格奥尔格综合征,是由一小段染色体22的缺失引起的综合症。这种缺失(22q11.2)发生在这对染色体之一的长臂上的染色体中部附近。该综合症的特征甚至在同一家族的成员中也会变化非常广,并且影响身体的很多部分。特征性迹象和症状可以包括出生缺陷,如先天性心脏病,最常见地涉及关闭的神经肌肉问题(腭咽关闭不全)的颚缺陷,学习障碍,面部特征中的轻微差异,以及复发性感染。染色体区域22q11.2中的微缺失是与精神分裂症的20至30倍的风险增加相关联的。
染色体10短臂上的缺失与迪格奥尔格综合征样的表型有关。染色体10p的部分单体性是罕见的,但是已经在一部分显示迪格奥尔格综合征特征的患者中观察到。
在一个实施方案中,在此描述的方法、设备以及系统被用来测定部分单体性,包括但不限于染色体1、4、5、7、11、18、15、13、17、22以及10的部分单体性,还可以使用该方法来测定例如部分单体性1q21.11、部分单体性4p16.3、部分单体性5p15.3-p15.2、部分单体性7q11.23、部分单体性11q24.1、部分单体性18p、染色体15的部分单体性(15q11-q13)、部分单体性13q、部分单体性17p11.2、染色体22的部分单体性(22q11.2)、以及部分单体性10p。
可以根据在此描述的方法测定的其他部分单体性包括:不平衡易位t(8;11)(p23.2;p15.5);11q23微缺失;17p11.2缺失;22q13.3缺失;Xp22.3微缺失;10p14缺失;20p微缺失[del(22)(q11.2q11.23)]、7q11.23以及7q36缺失;1p36缺失;2p微缺失;1型神经纤维瘤病(17ql1.2微缺失)、Yq缺失;4p16.3微缺失;1p36.2微缺失;11q14缺失;19q13.2微缺失;鲁宾斯坦-泰比综合征(Rubinstein-Taybi)(16p13.3微缺失);7p21微缺失;米勒-迪克综合征(Miller-Dieker syndrome)(17p13.3);以及2q37微缺失。部分缺失可以是染色体的一部分的小缺失,或其可以是染色体的微缺失,其中可以发生单基因的缺 失。
已经鉴别出因染色体臂的一部分复制所致的若干种复制综合征(参见OMIN[在线人类孟德尔遗传(Online Mendelian Inheritance in Man),在ncbi.nlm.nih.gov/omim在线查看)。在一个实施方案中,本发明方法可用于确定染色体1到22、X和Y中任一种染色体区段的复制和/或扩增的存在或不存在。可以根据本发明方法确定的复制综合征的非限制性实例包括染色体8、15、12以及17的一部分的复制,其描述于下文中。
8p23.1复制综合征是因人类染色体8的一个区域的复制所引起的罕见遗传性障碍。这个复制综合征在出生者中的发病率估计为1/64,000,并且是8p23.1缺失综合征的的倒数。8p23.1复制与不同表型有关,包括说话迟缓、发育迟缓、轻度异常形态、伴有前额凸出和弓形眉、以及先天性心脏病(CHD)中的一项或多项。
染色体15q复制综合征(Dup15q)是一种临床上能够鉴别的综合征,其因染色体15q11-13.1的复制所引起。患有Dup15q的婴儿通常呈现张力过弱(肌张力低)、生长迟缓;他们可能生来患有唇裂和/或腭裂或心脏、肾脏或其他器官畸形;他们显示某些程度的认知迟缓/障碍(精神发育迟缓)、说话和语言迟缓、以及感官处理失调。
帕尼斯特-凯廉综合征(Pallister Killian syndrome)是额外#12染色体物质的结果。通常存在细胞混合物(嵌合体),有些具有额外的#12物质,而有些为正常的(不具有额外#12物质的46条染色体)。患有这个综合征的婴儿存在很多问题,包括严重精神发育迟缓、肌张力低、“粗俗”的面部特征、以及前额凸出。他们倾向于具有非常薄的上唇、较厚的下唇、以及短鼻。其他健康问题包括癫痫、喂养不良、关节强硬、成人期白内障、听力损失和心脏缺陷。患有帕尼斯特-凯廉综合征的人寿命缩短。
患有指定为dup(17)(p11.2p11.2)或dup17p的遗传病状的个体在染色体17的短臂上携带额外的遗传信息(被称为复制)。染色体17p11.2的复制导致伯托奇-鲁普奇综合征(Potocki-Lupski syndrome,PTLS),其为刚识别出的遗传病 状,医学文献中报告的病例只有几十例。具有这种复制的患者经常呈现肌张力低、喂养不良、以及婴儿期的发育停滞,并且还呈现动作和语言里程碑的发展延缓。患有PTLS的很多个体在发音和语言处理上有困难。另外,患者可能具有类似于自闭症或自闭症谱系障碍患者中所见的行为特征。患有PTLS的个体可能患有心脏缺陷和睡眠呼吸暂停。包括基因PMP22的染色体17p12中的较大区域的复制已知可导致查考特-玛利-吐斯疾病(Charcot-Marie-Tooth disease)。
CNV已与死产有关。然而,由于传统细胞遗传学的固有限制,因此认为CNV导致死产是未被充分代表的(哈里斯(Harris)等人,产前诊断(Prenatal Diagn)31:932-944[2011])。正如实例中所显示和本文中其他处所述,本方法能够确定部分非整倍性的存在,例如染色体区段的缺失和扩增,并且可用于鉴别和确定与死产有关的CNV的存在或不存在。
确定完整的胎儿染色体非整倍性
在一个实施方案中,提供了用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在任何一种或多种不同的、完整的胎儿染色体非整倍性的方法。优选地,该方法确定了存在或不存在任何四种或更多种不同的、完整的胎儿染色体非整倍性。该方法的步骤包括:(a)获得针对在母体测试样品中的胎儿和母体核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中每一个而识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中每一个的一个归一化染色体序列而识别出序列标签的一个数目。这种归一化染色体序列可以是一个单染色体,或者它可以是选自染色体1-22、X、和Y的一组染色体。该方法进一步在步骤(c)中使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述任何一个或多个感兴趣 的染色体中的每一个的一个阈值进行比较,由此来确定在该母本测试样品中存在或不存在任何一种或多种完整的、不同的胎儿染色体非整倍性。
在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的序列标签数目的比率。
在其他实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体识别出的序列标签数目的比率。在其他实施方案中,步骤(c)包括通过使针对感兴趣的染色体获得的序列标签数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化染色体序列的标签数目与归一化染色体序列的长度进行关联来计算一个感兴趣的染色体的序列标签比率,并且针对感兴趣的染色体来计算一个染色体剂量作为感兴趣的染色体的序列标签密度与针对归一化染色体序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。针对来自不同母体受试者的测试样品可以重复步骤(a)-(d)。
通过该实施方案的一个实例在一个包含胎儿和母体无细胞DNA分子的混合物的母体测试样品中确定了四种或更多种完整的胎儿染色体非整倍性,该实例包括:(a)对无细胞DNA分子中的至少一部分进行测序以便获得针对在测试样品中的胎儿和母体的无细胞DNA分子的序列信息;(b)使用该序列信息来针对选自染色体1-22、X、以及Y中的每一个感兴趣的任何二十个或更多个染色体识别出序列标签的一个数目并且来针对所述感兴趣的二十个或更多个染色体中每个的一个归一化染色体识别出序列标签的一个数目;(c)使用针对所述感兴趣的二十个或更多个染色体中每个所识别出的所述序列标签的数目以及针对每个归一化染色体识别出的序列标签的数目来对于所述感兴趣的二十个或更多个染色体中的每一个计算出一个单染色体剂量;并且(d)将针对所述感兴趣的二十个或更多个染色体中每一个的每个单染色体剂量与针对所述感 兴趣的二十个或更多个染色体中每一个的一个阈值进行比较,并且由此来确定在测试样品中存在或不存在任何二十种或更多种不同的、完整的胎儿染色体非整倍性。
在另一实施方案中,如以上所述的用于确定在母体测试样品中存在或不存在任何一个或多个不同的、完整的胎儿染色体非整倍性的方法使用了一个归一化区段序列用于确定感兴趣的染色体的剂量。在这种情况中,该方法包括:(a)获得针对在所述样品中的胎儿和母体核酸的序列信息;并且(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述任何一个或多个感兴趣的染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目。该归一化区段序列可以是染色体的单区段,或者它可以是来自一个或多个不同染色体的一组区段。该方法进一步在步骤(c)中使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签数目以及针对所述归一化区段序列识别出的所述序列标签数目来针对所述任何一个或多个感兴趣的染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述一个或多个感兴趣的染色体中的每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、完整的胎儿染色体非整倍性。
在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化区段序列识别出的序列标签数目的比率。
在其他实施方案中,步骤(c)包括通过使针对感兴趣的染色体获得的序列标签数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化区段序列的标签数目与归一化区段序列的长度进行关联来计算一个感兴趣的染色体的序列标签比率,并且针对所述感兴趣的染色体来计算一个染色体剂量作为所述感兴趣的染色体的序列标签密度与针对归一化区段序 列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同母体受试者的测试样品重复步骤(a)-(d)。
通过确定归一化的染色体值(NCV)提供了用于比较不同样品组的染色体剂量的手段,这使测试样品中的染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联。计算这个NCV,作为:
NCV ij = x ij - u ^ j &sigma; ^ j
其中分别对应地是对于在一组合格样品中的第j个染色体剂量的估算平均值以及标准差,并且是对于测试样品i所观察到的第j个染色体剂量。
在一些实施方案中,确定了存在或不存在至少一种完整的胎儿染色体非整倍性。在其他实施方案中,在一个样品中确定了存在或不存在至少两种、至少三种、至少四种、至少五种、至少六种、至少七种、至少八种、至少九种、至少十种、至少十一种、至少石二种、至少十三种、至少十四种、至少十五种、至少十六种、至少十七种、至少十八种、至少十九种、至少二十种、至少二十一种、至少二十二种、至少二十三种、或二十四种完整的胎儿染色体非整倍性,其中完整的胎儿染色体非整倍性中的二十二种对应于任何一种或多种常染色体的的完整的染色体性非整倍性;第二十三和第二十四种染色体性非整倍性对应于染色体X和Y的完整的胎儿染色体非整倍性。因为性染色体的非整倍性可以包括四体性、五体性和其他多体性,所以可以根据本方法确定的不同的完整的染色体性非整倍性的数目可以是至少24种、至少25种、至少26种、至少27种、至少28种、至少29种、或至少30种完整的染色体性非整倍性。因此,被确定的不同的完整的染色体性非整倍性的数目与选择用于分析的感兴趣的染色体的数目是相关的。
在一个实施方案中,如以上所述的确定在母体测试样品中存在或不存在任何一个或多个不同的、完整的胎儿染色体非整倍性使用了针对一个感兴趣的 染色体的归一化区段序列,它是选自染色体1-22、X、和Y。在其他实施方案中,两个或更多个感兴趣的染色体是选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X、或Y中的任何两个或更多个。在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体包括选自染色体1-22、X、和Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的、完整的胎儿染色体非整倍性。在其他实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体是全部的染色体1-22、X、和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的胎儿染色体非整倍性。可以确定的完整的不同胎儿染色体非整倍性包括完整染色体三体性、完整染色体单体性以及完整染色体多体性。完整的胎儿染色体非整倍性的实例包括但不局限于:任何一个或多个常染色体的三体性,例如三体性2、三体性8、三体性9、三体性20、三体性21、三体性13、三体性16、三体性18、三体性22;性染色体的三体性,例如47,XXY、47XXX、以及47XYY;性染色体的四体性,例如48,XXYY、48,XXXY、48XXXX、以及48,XYYY;性染色体的五体性,例如49,XXXYY、49,XXXXY、49,XXXXX、49,XYYYY;以及单体性X。以下将说明可以根据本方法确定的其他完整的胎儿染色体非整倍性。
确定部分的胎儿染色体非整倍性
在另一个实施方案中,提供了用于在包含胎儿和母体核酸分子的母体测试样品中确定存在或不存在任何一种或多种不同的、部分的胎儿染色体非整倍性的方法。该方法的步骤包括:(a)获得针对所述样品中的胎儿和母体核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个识别出序列标签的一个数目,并且针对用于任何一个或多个感兴趣的染色体中的所述任何一个或多个区段中的每一个的一个归一化区段序列识别出序列标签的一个数目。该归一化区段序列可以是一个染色体的单区段,或者它可以是来自一个或 多个不同染色体的一组区段。该方法在步骤(c)中进一步使用针对所述任何一个或多个感兴趣的染色体的任何一个或多个区段识别出的所述序列标签的数目以及针对每个所述归一化区段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个计算出一个单区段剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体的任何一个或多个区段中每一个的每个所述单染色体剂量与针对所述任何一个或多个感兴趣的染色体的任何一个或多个染色体区段每一个的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、部分的胎儿染色体非整倍性。
在一些实施方案中,步骤(c)包括对于任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个计算出一个单区段剂量,作为针对任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个识别出的序列标签数目与针对所述任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个的所述归一化区段序列识别出的序列标签数目的比率。
在其他实施方案中,步骤(c)包括如下针对一个感兴趣的区段计算出一个序列标签比率:通过使针对感兴趣的区段获得的序列标签的数目与感兴趣的区段的长度进行关联、并且使针对感兴趣的区段的相应的归一化区段序列的标签的数目与归一化区段序列的长度进行关联、并且针对感兴趣的区段来计算一个区段剂量作为感兴趣的区段的序列标签密度与针对该归一化区段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同母体受试者的测试样品重复步骤(a)-(d)。
通过确定一个归一化的区段值(NSV)提供了用于比较不同样品组的区段剂量的手段,这使一个测试样品中的区段剂量与一组合格样品中的相应的区段剂量的平均值进行关联。计算NSV,作为:
NCV ij = x ij - u ^ j &sigma; ^ j
其中对应地是对于在一组合格样品中的第j个区段剂量的估算平 均值以及标准差,并且xij是对于测试样品i所观察到的第j个区段剂量。
在一些实施方案中,确定了存在或不存在一种部分的胎儿染色体非整倍性。在其他实施方案中,在一个样品中确定了存在或不存在两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、二十五种、或更多种部分的胎儿染色体非整倍性。在一个实施方案中,选自染色体1-22、X、和Y中的任何一个的感兴趣的一个区段是选自染色体1-22、X、和Y。在另一实施方案中,选自染色体1-22、X、和Y的感兴趣的两个或更多个区段是选自染色体染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X、或Y。在一个实施方案中,选自染色体1-22、X、和Y的感兴趣的任何一个或多个区段包括选自染色体1-22、X、和Y的至少一个、五个、十个、15个、20个、25个或更多个区段,并且其中确定了存在或不存在至少一种、五种、十种、15种、20种、25种不同的、部分的胎儿染色体非整倍性。可以确定的不同的、部分的胎儿染色体非整倍性包括部分复制、部分倍增、部分插入以及部分缺失。部分的胎儿染色体非整倍性的实例包括常染色体的部分单体性和部分三体性。常染色体的部分单体性包括染色体1的部分单体性、染色体4的部分单体性、染色体5的部分单体性、染色体7的部分单体性、染色体11的部分单体性、染色体15的部分单体性、染色体17的部分单体性、染色体18的部分单体性、以及染色体22的部分单体性。以下将说明可以根据本方法确定的其他部分的胎儿染色体非整倍性。
在上述任何一个实施方案中,这种测试样品是选自血液、血浆、血清、尿和唾液样品的母本样品。在一些实施方案中,该母体测试样品是血浆样品。该母体样品的核酸分子是胎儿的和母体的无细胞DNA分子的混合物。可以使用如在本申请的其他地方所说明的下一代测序(NGS)进行核酸的测序。在一些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是连接法测序。在另外的其他实施方案中,测序是单分子测序。可任选地,在测序前进行一个扩增步骤。
测定临床病症的CNV
除早期测定出生缺陷之外,在此描述的方法可以用于测定基因组内的遗传序列在表达上的任何异常。基因组内的遗传序列在表达上的异常数目已经与不同病状有关。此类病状包括但不限于癌症、传染性以及自身免疫性疾病、神经系统疾病、新陈代谢和/或心血管疾病等等。
相应地,在不同的实施方案中考虑了将在此所述的方法用于诊断和/或监视和/或治疗此等病状的用途。举例来说,这些方法可以用于确定疾病的存在或不存在、监视疾病的进展和/或治疗方案的功效、确定病原体(例如病毒)核酸的存在或不存在、确定与移植物抗宿主疾病(GVHD)有关的染色体异常、以及确定个体在法医检定法中的作用。
癌症的CNV
已经证明,来自癌症患者的血浆和血清DNA含有可测量的量值的肿瘤DNA,它可以被回收并用作肿瘤DNA的代用源,并且肿瘤的特征为非整倍性、或者基因序列或甚至完整染色体的不适当数目。确定在来自一位个体的样品中的一个给定序列(即感兴趣的序列)的量的差异可以因此用于医学情况的预后和诊断。在一些实施方案中,本方法可以用于确定在怀疑或已知患有癌症的患者中存在或不存在染色体性非整倍性。
在某些实施方案中,非整倍性是受试者的基因组的特征、并且引起了癌症易患性的总体提高。在某些实施方案中,易患肿瘤形成或肿瘤形成易患性提高的特定细胞(例如,肿瘤细胞、原肿瘤赘生性细胞等等)具有非整倍性特征。特定非整倍性与特定癌症或特定癌症易患性有关,如下文所述。
相应地,在此所述方法的不同实施方案提供了对受试者的测试样品中感兴趣的序列(例如临床相关序列)拷贝数变异的测定,其中拷贝数的某种变异提供了对存在癌症和/或癌症易患性的指标。在某些实施方案中,该样品包含来源于两种或更多种细胞的核酸的混合物。在一个实施方案中,该核酸混合物来源于正常细胞和癌细胞,癌细胞是来源于罹患医学病状(例如癌症)的受试者。
癌症的发展经常伴随全染色体数目的变化,即完全染色体非整倍性,和/或染色体区段数目的变化,即部分非整倍性,这些变化起因于被称为染色体不稳定性(CIN)的过程(汤姆(Thoma)等人,瑞士医学周刊(Swiss Med Weekly)2011:141:w13170)。人们相信很多实体瘤(诸如乳癌)通过若干遗传畸形的积累而从开始发展到转移。[萨托(Sato)等人,癌症研究(Cancer Res.),50:7184-7189[1990];简斯玛(Jongsma)等人,临床病理学杂志:分子病理学(J Clin Pathol:Mol Path)55:305-309[2002])]。此类遗传畸形当积累时可能赋予增生性优势、遗传不稳定性和快速发展抗药性的附带能力、以及血管新生增强、蛋白质水解和转移。遗传畸形可能影响隐性的“肿瘤抑制基因”或显性作用的癌基因。缺失和导致杂合性丢失(LOH)的再组合通过揭露突变的肿瘤抑制等位基因而被认为在肿瘤进展中起主要作用。
cfDNA已经被发现在诊断患有恶性病的患者的循环系统中,这些恶性病包括但不限于肺癌(帕萨卡(Pathak)等人,临床医学52:1833-1842[2006])、前列腺癌(薛华兹巴奇(Schwartzenbach)等人,临床癌症研究(Clin Cancer Res)15:1032-8[2009])和乳癌(薛华兹巴奇等人,可在breast-cancer-research.com/content/11/5/R71在线获得[2009])。鉴别与癌症(能够根据癌症病人的循环cfDNA确定)有关的基因组不稳定性是一种潜在的诊断和预后工具。在一个实施方案中,在此所述的方法被用来测定样品(例如包含核酸混合物的样品,这些核酸来源于怀疑患有或已知患有癌症的受试者,例如癌、肉瘤、淋巴瘤、白血病、生殖细胞瘤以及母细胞瘤)中一个或多个感兴趣的序列的CNV。在一个实施方案中,该样品是外周血液所衍生(经处理)的血浆样品,该外周血液可能包含来源于正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中,需要确定是否存在CNV的生物样品是来源于其他生物学组织的细胞,若存在癌症,则该细胞包括癌细胞和非癌细胞的混合物,其他生物学组织包括但不限于生物学流体,诸如血清、汗水、眼泪、痰、尿、痰、耳流出物、淋巴、唾液、脑脊髓液、灌洗液、骨髓悬浮液、阴道流体、经子宫颈灌洗液、脑流体、腹水、乳汁,呼吸道、肠道以及生殖泌尿道的分泌液, 以及白细胞清除术样品,或在组织活检、棉签或涂片中。在其他实施方案中,该生物样品是大便(粪便)样品。
在此所述的方法不限于cfDNA的分析。应了解,可以对细胞DNA样品进行类似分析。
在不同的实施方案中,感兴趣的序列包括已知或怀疑在癌症发展和/或进展中起作用的核酸序列。感兴趣的序列的实例包括在如下文所述的癌细胞中扩增或缺失的核酸序列,例如完全染色体和/或染色体区段。
总CNV数以及癌症风险。
常见癌症SNPs和以此类推的常见癌症CNVs各自使疾病风险只产生微小的增大。然而,总体而言,他们可能导致癌症风险实质上升高。关于这一点,应指出已经报告的大DNA片段的种系获得和丢失作为个体易患成神经细胞瘤、前列腺癌和结肠直肠癌、乳癌和BRCA1相关卵巢癌的因素(参见例如克莱匹奇(Krepischi)等人,乳癌研究(Breast Cancer Res.),14:R24[2012];迪斯金(Diskin)等人,自然(Nature)2009,459:987-991;刘(Liu)等人,癌症研究(Cancer Res)2009,69:2176-2179;鲁斯托(Lucito)等人,癌症生物学及治疗(Cancer Biol Ther)2007,6:1592-1599;斯恩(Thean)等人,基因染色体癌症(Genes Chromosomes Cancer)2010,49:99-106:范卡塔查兰(Venkatachalam)等人,国际癌症杂志(Int J Cancer)2011,129:1635-1642;和吉原(Yoshihara)等人,基因染色体癌症(Genes Chromosomes Cancer)2011,50:167-177)。应指出,在健康种群中时常发现的CNVs(常见CNVs)被认为在癌症病因学中起作用(参见例如丝林(Shlien)和麦金(Malkin)(2009)基因组医学(Genome Medicine),1(6):62)。在一项研究测试中,测试如下假设:常见CNVs与恶性病(丝林(Shlien)等人,美国国家科学院院刊(Proc NatlAcad Sci USA)2008,105:11264-11269)有关,这是一种每个已知CNV的映射,其基因座与真实癌症相关基因的基因座一致(如哈金(Higgins)等人,核酸研究(Nucleic Acids Res)2007,35:D721-726中所分类)。这些CNV称为“癌症CNVs”。在最初分析(丝林(Shlien)等人,美国国家科学院院刊(Proc Natl Acad Sci USA)2008, 105:11264-11269)中,使用阿非美500K(Affymetrix 500K)阵列集(其平均探针间距离为5.8kb)评估770个健康基因组。由于总体上认为CNVs在基因区中被排除(雷唐(Redon)等人(2006),自然(Nature)2006,444:444-454),因此令人惊讶地发现,在一个大参考种群的多人中,49个癌症基因被CNV直接涵盖或重叠。在前十个基因中,可以在四个或更多的人中发现癌症CNVs。
因此认为,可使用CNV频率作为癌症风险的度量(参见例如美国专利公开号:2010/0261183A1)。CNV频率可以简单地通过有机体的组成性基因组来测定或它可以代表来源于一种或多种肿瘤(赘生性细胞)(若这些存在)的部分。
在某些实施方案中,使用在此针对拷贝数变异所述的方法测定测试样品(例如包含组成性(种系)核酸的样品)中或核酸混合物(例如种系核酸和来源于赘生性细胞的核酸)中的CNVs数目。识别出测试样品中的CNVs数目提高(例如与参考值相比)表示受试者有癌症风险或有癌症易患性。应理解,参考值可以随指定种群而变。还应理解,CNV频率增幅的绝对值将取决于用于测定CNV频率及其他参数的方法的分辨率而变。典型地,测定出CNV频率增加为参考值的至少约1.2倍表示癌症风险(参见例如美国专利公开号:2010/0261183 A1),例如例如,CNV频率增加为参考值的至少1.5倍或约1.5倍或更大(诸如参考值的2到4倍)是癌症风险提高的指标(例如,与正常健康参考种群相比)。
还认为测定出哺乳动物基因组的结构变异(与参考值相比)表示癌症风险。在此上下文中,在一个实施方案中,术语“结构变异”可用哺乳动物的CNV频率乘以哺乳动物的平均CNV尺寸(bp)加以定义。因此,高结构变异分数将因为CNV频率增大和/或因发生大基因组核酸缺失或复制的。因此,在某些实施方案中,使用在此所述的方法测定测试样品(例如,包含组成性(种系)核酸的样品)中的CNVs数目,以测定拷贝数变异尺寸和数目。在某些实施方案中,大于约1兆碱基、或大于约1.1兆碱基、或大于约1.2兆碱基、或大于约1.3兆碱基、或大于约1.4兆碱基、或大于约1.5兆碱基、或大于约1.8兆碱 基、或大于约2兆碱基DNA的基因组DNA内的结构变异总分表示癌症风险。
这些方法被认为可提供任何癌症风险的度量,这些癌症包括但不限于急性和慢性白血病、淋巴瘤、间质或上皮组织的很多实体瘤、脑癌、乳癌、肝癌、胃癌、结肠癌、B细胞淋巴瘤、肺癌、支气管癌、结肠直肠癌、前列腺癌、乳癌、胰腺癌、胃癌、卵巢癌、膀胱癌、脑癌或中枢神经系统癌症、外周神经系统癌症、食道癌、宫颈癌、黑色素瘤、子宫癌或子宫内膜癌、口腔癌或咽癌、肝癌、肾癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、脂肉瘤、睾丸癌、以及恶性纤维组织细胞瘤、以及其他癌症。
完全染色体非整倍性。
如上文所指出,在癌症中存在高频率的非整倍性。在检查体细胞拷贝数变异(SCNAs)在癌症中的流行率的某些研究中,已经发现非整倍性的全臂SCNAs或全染色体SCNAs对典型癌细胞的四分之一基因组有影响(参见例如伯柔金(Beroukhim)等人,自然(Nature)463:899-905[2010])。在若干癌症类型中反复观察到全染色体变异。例如例如,在10%到20%的急性髓细胞白血病(acute myeloid leukaemia,AML)病例中,以及某些实体瘤(包括艾文氏肉瘤(Ewing’s Sarcoma)和纤维样瘤)中见到染色体8的获得(参见例如拜耳纳德(Bamard)等人,白血病(Leukemia)10:5-12[1996];茅里茨(Maurici)等人,癌症遗传学和细胞遗传学(Cancer Genet.Cytogenet.)100:106-110[1998];奇(Qi)等人,癌症遗传学和细胞遗传学(Cancer Genet.Cytogenet.)92:147-149[1996];拜耳纳德D.R.(Bamard,D.R.)等人,血液(Blood)100:427-434[2002];等等。人类癌症中染色体获得和丢失的示意性但非限制性目录显示于表1中。
表1:人类癌症中示意性的特定重现染色体的获得和丢失(参见例如戈登(Gordon)等人(2012),自然综述遗传学(Nature Rev.Genetics),13:189-203)。
在不同的实施方案中,在此所述的方法可用于检测和/或量化与癌症总体上有关和/或与具体癌症有关的全染色体非整倍性。因此,例如,在某些实施方案中,考虑了检测和/或量化其特征在于以表1中所示的获得或丢失的全染色体非整倍性。
臂水平染色体区段拷贝数变异。
多项研究已报告臂水平拷贝数变异跨大量癌症标本的模式(林(Lin)等人,癌症研究(Cancer Res)68,664-673(2008);乔治(George)等人,PLoS ONE2,e255(2007);戴米彻里斯(Demichelis)等人,基因染色体癌症(Genes Chromosomes Cancer)48:366-380(2009);伯柔金(Beroukhim)等人,自然(Nature.)463(7283):899-905[2010])。另外已经观察观察到,臂水平拷贝数变异的频率随着染色体臂长度而降低。根据此倾向调整,大部分染色体臂表现优先获得或丢失的有力证据,但跨多个癌症谱系,两者均罕见(参见例如伯柔金(Beroukhim)等人,自然(Nature)463(7283):899-905[2010])。
因此,在一个实施方案中,在此描述的方法用来测定样品中的臂水平CNVs(包含一个染色体臂或基本上一个染色体臂的CNVs)。在包含组成性(种系)核酸的测试样品中的CNVs中,CNVs能够被测定,并且在些组成性核酸中,臂水平CNVs能够被识别。在某些实施方案中,在包含核酸混合物(例如,来源于正常细胞的核酸和来源于赘生性细胞的核酸)的样品中识别臂水平CNVs(若存在)。在某些实施方案中,样品来源于怀疑或已知患有癌症(例如,癌、肉瘤、淋巴瘤、白血病、生殖细胞瘤、母细胞瘤、以及类似癌症)的受试者。在一个实施方案中,样品是外周血液所衍生(经处理)的血浆样品,该外周血液可以包含来源于正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中,用于确定存在的CNV的生物样品是否来源于细胞,若存在癌症,则 这些细胞包括来自其他生物学组织的癌细胞和非癌细胞的混合物,该其他生物学组织包括但不限于生物学流体,例如血清,汗水,眼泪,痰,尿,痰,耳流出物,淋巴,唾液,脑脊髓液,灌洗液(ravages),骨髓悬浮液,阴道流体,经子宫颈灌洗液,脑流体,腹水,乳汁,呼吸道、肠道和生殖泌尿道分泌液,以及白细胞分离术样品,或在组织活检、棉签或涂片中。在其他实施方案中,生物样品是粪便(粪便的)粪便(粪便的)样品。
在不同的实施方案中,经识别表示癌症存在或癌症风险增大的CNVs包括但不限于表2中所列举的臂水平CNVs。如在表2中所说明,包括实质性臂水平获得的某些CNVs表示存在癌症或某些癌症风险增大。因此,例如,1q获得表示急性成淋巴细胞白血病(ALL)、乳癌、GIST、HCC、肺NSC、髓母细胞瘤、黑素瘤、MPD、卵巢癌和/或前列腺癌存在或风险增大。3q获得表示食道鳞状细胞癌、肺SC和/或MPD存在或风险增大。7q获得表示结肠直肠癌、神经胶质瘤、HCC、肺NSC、髓母细胞瘤、黑素瘤、前列腺癌和/或肾癌存在或风险增大。7p获得表示乳癌、结肠直肠癌、食道腺癌、神经胶质瘤、HCC、肺NSC、髓母细胞瘤、黑素瘤、和/或肾癌存在或风险增大。20q获得表示乳癌、结肠直肠癌、去分化性脂肪肉瘤、食道腺癌、食道鳞癌、神经胶质瘤癌、HCC、肺NSC、黑素瘤、卵巢癌、和/或肾癌等等存在或风险增大。
类似地,如表2中所说明,包括实质性臂水平丢失的某些CNVs表示某些癌症存在和/或风险增大。因此,例如,1p丢失表示胃肠基质肿瘤存在或风险增大。4q丢失表示结肠直肠癌、食道腺癌、肺sc、黑素瘤、卵巢癌和/或肾癌存在或风险增大。17p丢失表示乳癌、结肠直肠癌、食道腺癌、HCC、肺NSC、肺SC、和/或卵巢癌等等存在或风险增大。
表2:16种癌症亚型(乳癌、结肠直肠癌、去分化性脂肪肉瘤、食道腺癌、食道鳞癌、GIST(胃肠基质肿瘤)、神经胶质瘤、HCC(肝细胞癌)、肺NSC、肺SC、髓母细胞瘤、黑素瘤、MPD(骨髓增生性障碍)、卵巢癌、前列腺癌、急性成淋巴细胞白血病(ALL)和肾癌)的每一个中的显著臂水平染色体区段拷贝数变异(参见例如伯柔金(Beroukhim)等人,自然(Nature)(2010)463(7283):899-905)。
臂水平拷贝数变异之间关系的实例旨在为示意性的而非限制性的。其他臂水平拷贝数变异和其癌症关系已为本领域那些技术人员所知。
更小(例如焦点)拷贝数变异。
如上文所指出,在某些实施方案中,在此描述的方法可用于测定染色体扩增的存在或不存在。在一些实施方案中,染色体扩增是一个或多个整个染色体的获得。在其他实施方案中,染色体扩增是染色体中一个或多个区段的获得。仍在其他其他实施方案中,染色体扩增是两个或更多个染色体中两个或更多个区段的获得。在不同的实施方案中,染色体扩增可以涉及一个或多个癌基因的获得。
与人类实体瘤相关联的显性开放基因典型地通过过表达或改变的表达来发挥它们的作用。基因扩增是导致基因表达上调的一种常见机制。来自细胞遗传学研究的证据表明,在超过50%的人乳癌中发生了显著扩增。最值得注意的是,位于染色体17(17(17q21-q22))上的原癌基因人表皮生长因子受体2(HER2)的扩增造成了在细胞表面上的HER2受体的过表达,从而在导致乳癌和其他恶性肿瘤中的过量的并且调节异常的信号(Park(朴)等人,Clinical Breast Cancer(临床乳癌),8:392-401[2008])。在其他人类恶性肿瘤中已经发现了多种癌基因被扩增。人类肿瘤中细胞癌基因扩增的实例包括以下各项的扩增:前髓细胞性白血病细胞系HL60、以及小细胞肺癌中的c-myc,原发成神经细胞瘤(阶 段III和IV)、成神经细胞瘤细胞系、视网膜母细胞瘤细胞系和原发肿瘤、以及小细胞肺癌细胞系和肿瘤中的N-myc,小细胞肺癌细胞系和肿瘤中的L-myc,急性髓细胞性白血病中和结肠癌细胞系中的c-myb,表皮样癌细胞、以及原发神经胶质瘤中的c-erbb,肺、结肠、膀胱、以及直肠的原发癌中的c-K-ras-2,乳腺癌细胞系中的N-ras(Varmus(瓦穆斯)H.,Ann Rev Genetics(遗传学年鉴),18:553-612(1984),[引用在Watson(沃森)等人,Molecular Biology of the Gene(基因的分子生物学)(第4版;Benjamin/Cummings Publishing Co.公司1987)]。
癌基因复制是很多类型的癌症的共同病因,P70-S6激酶1扩增和乳癌就是这种情况。在此类情况下,遗传复制发生于体细胞中并且只影响癌细胞自身(而不是整个有机体)的基因组,对于任何后来的子代的影响则小得多。在人类癌症中扩增的癌基因的其他实例包括乳癌中的MYC、ERBB2(EFGR)、CCND1(周期素D1)、FGFRi和FGFR2;宫颈癌中的MYC和ERBB2;宫颈癌中的HRAS、KRAS和MYB;食道癌中的MYC、CCND1和MDM2;胃癌中的CCNE、KRAS和MET;胶质母细胞瘤中的ERBB1和CDK4;头颈癌中的CCND1、ERBB1和MYC;肝细胞癌中的CCND1;成神经细胞瘤中的MYCB;MYC:卵巢癌中的ERBB2和AKT2;肉瘤中的MDM2和CDK4;小细胞肺癌中的MYC。在一个实施方案中,本发明方法可用于确定与癌症有关的癌基因的扩增存在或不存在。在某些实施方案中,所扩增的癌基因与乳癌、宫颈癌、结肠直肠癌、食道癌、胃癌、胶质母细胞瘤、头颈癌、肝细胞癌、成神经细胞瘤、卵巢癌、肉瘤和小细胞肺癌有关。
在一个实施方案中,本方法可以被用于确定存在或不存在一种染色体缺失。在一些实施方案中,这种染色体缺失是丢失一个或多个完整染色体。在其他实施方案中,这种染色体缺失是丢失染色体的一个或多个区段。在另外的其他实施方案,这种染色体缺失是丢失两个或更多个染色体的两个或更多个区段。这种染色体缺失可以涉及丢失一个或多个肿瘤抑制基因。
涉及肿瘤抑制基因的染色体缺失被认为在实体瘤的发展和进展中起一种 重要作用。视网膜母细胞瘤肿瘤抑制基因(Rb-1)(位于染色体13q14)是最广泛地特征化的肿瘤抑制基因。Rb-1基因产物(一种105kDa的核磷蛋白)显然在细胞周期调控中起到重要作用(Howe(豪依)等人,Proc Natl Acad Sci(美国国家科学院院刊)(美国),87:5883-5887[1990])。由通过一个点突变亦或染色体缺失的这两个基因的等位基因的失活引起Rb蛋白的改变的或丢失的表达。已经发现Rb-i基因改变不仅存在于视网膜母细胞瘤中,而且还存在于其他恶性肿瘤中,如骨肉瘤、小细胞肺癌(Rygaard(瑞格德)等人,Cancer Res(癌症研究),50:5312-5317[1990)])和乳癌。限制性片段长度多态性(RFLP)研究已经表明,此类肿瘤类型经常在13q丢失了杂合性,提示由于总的染色体缺失,Rb-1基因的等位基因之一已经被丢失(Bowcock(伯考克)等人,Am J Hum Genet(美国人类遗传学杂志),46:12[1990])。包括涉及染色体6和其他同伴染色体的复制、缺失和不平衡易位的染色体1异常表明染色体1的区域,特别是q21-1q32和1p11-13,可能容纳与骨髓组织增殖性赘生物的慢性和高级阶段发病上有关的癌基因或肿瘤抑制基因(Caramazza(卡拉马萨)等人,Eur J Hematol(欧洲血液学杂志),84:191-200[2010])。骨髓组织增殖性赘生物还与染色体5的缺失相关联。染色体5的完整丢失或中间缺失是骨髓增生异常综合征(MDS)中最常见的核型异常。分离的del(5q)/5q-MDS患者具有比患有额外核型缺陷的那些患者更有利的预后,他们倾向于发展骨髓组织增殖性赘生物(MPN)和急性髓细胞性白血病。不平衡的染色体5缺失的频率已经引出一个想法,即:5q容纳一个或多个肿瘤抑制基因,这些基因在造血干细胞/造血祖细胞(HSCsHPC)的生长控制中起到根本作用。通常缺失的区域(CDR)的细胞遗传学映射集中在5q31和5q32识别的候选肿瘤抑制基因,包括核糖体亚基RPS14、转录因子Egr1/Krox20和细胞骨架重塑蛋白、α-联蛋白(Eisenmann(艾斯曼),Oncogene(癌基因),28:3429-3441[2009])。新鲜肿瘤和肿瘤细胞系的细胞遗传学和等位基因型研究已经证明,来自染色体3p上的若干明确区域(包括3p25、3p21-22、3p21.3、3p12-13和3p14)的等位基因的丢失是在肺癌、乳癌、肾癌、头颈癌、卵巢癌、子宫颈癌、结肠癌、胰腺癌、食道癌、 膀胱癌和其他器官的癌症的广谱的主要上皮癌中所涉及的最早和最常见的基因组异常。若干肿瘤抑制基因已经被映射到染色体3p区域,并且认为中间缺失或启动子高度甲基化先于在癌的发展中的3p或完整染色体3的丢失((Angeloni(安格罗尼)D.,Briefings Functional Genomics(功能基因组学简报),6:19-39[2007])。
患有唐氏综合征(DS)的新生儿和儿童通常呈现先天的暂时性白血病并且具有急性髓细胞性白血病和急性成淋巴细胞白血病的增加的风险。染色体21(容纳约300个基因)可以牵涉多种结构畸变,例如在白血病、淋巴瘤、和实体瘤中的易位、缺失、以及扩增。此外,已经识别位于染色体21上的基因在肿瘤发生中所起的重要作用。染色体21的实体数目的连同结构的畸变是与白血病相关联的,并且特定基因包括RUNX1、TMPRSS2、和TFF,它们位于21q,在肿瘤发生中起作用(Fonatsch(冯纳茨克)C,Gene Chromosomes Cancer(基因、染色体和癌),49:497-508[2010])。
考虑到上述内容,在不同的实施方案中,在此描述的方法可用于确定区段CNVs,这些CNVs已知包括一个或多个癌基因或肿瘤抑制基因和/或已知与癌症或癌症风险增大有关。在某些实施方案中,可以测定包含组成性(种系)核酸的测试样品中的CNVs,并且在那些组成性核酸中可以识别区段。在某些实施方案中,在包含核酸混合物(例如,来源于正常细胞的核酸和来源于赘生性细胞的核酸)的样品中识别区段CNVs(若存在)。在某些实施方案中,样品来源于怀疑或已知患有癌症(例如,癌、肉瘤、淋巴瘤、白血病、生殖细胞瘤、母细胞瘤等等)的受试者。在一个实施方案中,样品是外周血液所衍生(经处理)的血浆样品,该外周血液可以包含来源于正常细胞和癌细胞的cfDNA的混合物。在另一个实施方案中,用于确定存在德尔CNV的生物样品是否来源于细胞,若存在癌症,则该细胞包括来自其他生物学组织的癌细胞和非癌细胞的混合物,该其他生物学组织包括但不限于生物学流体,例如血清、汗水、眼泪、痰、尿、痰、耳流出物、淋巴、唾液、脑脊髓液、灌洗液(ravages)、骨髓悬浮液、阴道流体、经子宫颈灌洗液、脑流体、腹水、乳汁、呼吸道、肠道 和生殖泌尿道分泌液、和白细胞分离术样品,或在组织活检、棉签或涂片中。在其他实施方案中,生物样品是粪便(粪便的)样品。
用于确定癌症存在和/或癌症风险增大的CNVs可以包括扩增或缺失。
在不同的实施方案中,经识别表示癌症存在或癌症风险增大的CNVs包括表3中所示的一个或多个扩增。
表3:其特征为与癌症有关的扩增的示意性但非限制性的染色体区段。所列举的癌症类型是伯柔金(Beroukhim),自然(Nature)18:463:899-905中所识别的那些。
在某些实施方案中,与上文(在此)所述的扩增组合或分别地,经识别表示存在癌症或癌症风险增大的CNVs包括表4中所示的一个或多个缺失。
表4:其特征为与癌症有关的缺失的示意性但非限制性的染色体区段。所列举的癌症类型是伯柔金(Beroukhim),自然(Nature)18:463:899-905中所识别的那些。
经识别表征不同癌症的非整倍性(例如,表3和表4中所识别的非整倍性)可包含已知牵涉癌症病因学的基因(例如肿瘤抑制子、癌基因等)。还可以探测这些非整倍性以识别相关的、但是预先未知的基因。
例如,上述伯柔金(Beroukhim)等人利用GRAIL(所牵涉的Loci20之间的基因关系)(一种搜索基因组区域之间函数关系的算法),根据拷贝数改变来评估潜在致癌基因。基于提及基因的所有论文的公开摘要在某些目标基因以共同途径起作用的观点上的文本相似性,GRAIL评价一组基因组区域中的每一基因与其他区域中的基因的‘相关性’。这些方法允许识别/表征争议中的预先与具体癌症不相关的基因。表5说明已知位于所识别的扩增区段和预测基因内的目标基因,并且表6说明已知位于所识别的缺失区段和预测基因内的目标基因。
表5:已知或预测存在于其特征在于不同癌症中的扩增的区域中的示意性、但非限制性染色体区段和基因(参见例如上述伯柔金(Beroukhim)等人)。
表6:已知或预测存在于其特征在于不同癌症中的扩增的区域中的示意性、但非限制性染色体区段和基因(参见例如上述伯柔金(Beroukhim)等人)。
在不同的实施方案中,考虑了使用在此识别的方法识别包含表5中所识别的扩增区域或基因的区段的CNV,和/或使用在此识别的方法识别包含表6中所识别的缺失区域或基因的区段的CNV。
在一个实施方案中,在此描述的这些方法提供了一种手段来评定基因扩增和肿瘤演化的程度之间的关联性。扩增和/或缺失以及癌症阶段或等级之间的关联对于预后可以是重要的,因为此类信息可以构成遗传性肿瘤等级的定义,这会更好地预测具有最坏预后的更晚期肿瘤的未来病程。此外,关于早期扩增和/或缺失事件的信息在将这些事件作为随后疾病进展的预测因素方面进行关联时可以是有用的。
可以将通过本方法识别的基因扩增和缺失与其他已知参数(如肿瘤等级、病史、Brd/Urd标记物指数、激素状态、淋巴结转移、肿瘤大小、生存时间和从流行病学和生物统计学研究可获得的其他肿瘤特性)进行关联。例如,有待通过本方法进行测试的肿瘤DNA可以包括不典型增生、导管的原位癌、阶段I-III的癌症以及转移性淋巴结,以便允许识别在扩增和缺失与阶段之间的关联性。所做出的关联可以使得有效的治疗性干预成为可能。例如,一致扩增的区域可以含有一个过表达的基因,其产物也许能够接受治疗性附接(例如,生长因子受体酪氨酸激酶p185HER2)。
在不同的实施方案中,在此描述的这些方法通过确定从原发癌症到已经转 移到其他部位的细胞的那些核酸序列的拷贝数变异,可以用于识别与抗药性相关的扩增和/或缺失事件。如果基因扩增和/或缺失是允许抗药性迅速发展的核型不稳定性的一种表现,那么与来自化疗敏感的患者的肿瘤相比,将会期待在来自化疗抗性的患者的原发肿瘤中的更多扩增和/或缺失。例如,如果特定基因的扩增造成了抗药性的发展,那么在来自化疗抗性的患者的肿瘤细胞中而不是在原发肿瘤中将会期待围绕那些基因的区域得到了一致的扩增。在基因扩增和/或缺失与抗药性发展之间的关联性的发现可以允许识别将能够或将不能受益于辅助疗法的患者。
以类似于针对确定在母体样品中确定存在或不存在完整的和/或部分的胎儿染色体非整倍性所说明的方式,在此描述的方法、设备、和系统可以被用于确定在包含核酸(例如DNA或cfDNA)的任何患者样品(包括不是母体样品的患者样品)中确定存在或不存在完整的和/或部分的染色体性非整倍性。这种患者样品可以是如在本申请的其他地方所说明的任何生物学样品类型。优选地,这种样品是通过无创性过程获得的。例如,这种样品可以是血液样品,或其血清和血浆部分。可替代地,这种样品可以是尿样品或粪样品。在另外的其他实施方案,这种样品是一种组织活检样品。在全部情况下,这种样品包括核酸,例如cfDNA或基因组DNA,它被纯化,并且使用上述任何NGS测序方法进行测序。
与癌症的形成和进展相关联的完整的以及部分的染色体性非整倍性二者都可以根据本方法来确定。
在不同的实施方案中,当使用在此描述的方法确定癌症存在和/或风险增大时,可以相对于所测定的CNV的一个或多个染色体将数据归一化。在某些实施方案中,可以相对于所测定的CNV的一个或多个染色体臂将数据归一化。在某些实施方案中,可以相对于所测定的CNV的一个或多个具体区段将数据归一化。
除CNV在癌症中的作用之外,CNV还与越来越多的常见复杂疾病有关,包括人免疫缺陷症病毒(HIV)、自身免疫性疾病和一系列的神经精神病症。
传染性疾病和自身免疫性疾病中的CNV
迄今为止,大量研究已经报告涉及发炎和免疫反应的基因的CNV与HIV、哮喘、克罗恩疾病(Crohn’s disease)及其他自身免疫性病症之间的关系(范茨尼(Fanciulli)等人,临床遗传学(Clin Genet)77:201-213[2010])。例如,CCL3L1中的CNV已和HIV/AIDS易感性(CCL3L1,17q11.2缺失)、类风湿性关节炎(CCL3L1,17q11.2缺失)以及川崎氏病(Kawasaki disease)(CCL3L1,17q11.2复制)有牵连;HBD-2中的CNV已报告易患结肠性克罗恩病(HDB-2,8p23.1缺失)和牛皮癣(HDB-2,8p23.1缺失);FCGR3B中的CNV已表明易患系统性红斑狼疮中的肾小球性肾炎(FCGR3B,1q23缺失,1q23复制)、抗嗜中性细胞质抗体(ANCA)相关血管炎(FCGR3B,1q23缺失),以及患类风湿性关节炎的风险增大。至少有两种发炎或自身免疫性疾病已表明与不同基因座的CNV有关。例如,克罗恩病不仅与HDB-2的拷贝数低有关,而且与编码p47免疫性相关GTPase家族成员的IGRM基因上游的常见缺失多态性有关。除与FCGR3B拷贝数有关之外,还报告SLE易感性在补体组成部分C4拷贝数较低的受试者中显著增加。
GSTM1(GSTM1,1q23缺失)和GSTT1(GSTT1,22q11.2缺失)基因座的基因组缺失与变应性哮喘风险增大之间的关系已经报告于大量的独立研究中。在一些实施方案中,在此描述的方法可用于确定与发炎和/或自身免疫性疾病有关的CNV的存在或不存在。例如,这些方法可用于确定怀疑患有HIV、哮喘或克罗恩病的患者中CNV的存在。与此类疾病有关的CNV实例包括但不限于17q11.2、8p23.1、1q23和22q11.2处的缺失,以及17q11.2和1q23处的复制。在一些实施方案中,本发明方法可用于确定基因中CNV的存在,这些基因包括但不限于CCL3L1、HBD-2、FCGR3B、GSTM、GSTT1、C4和IRGM。
神经系统的CNV疾病
新生CNV和遗传CNV与若干常见神经病学和精神病学疾病之间的关系已经报告于自闭症、精神分裂症和癫痫、以及神经变性的疾病的某些病例中,例 如帕金森病、肌萎缩性侧索硬化症(ALS)和常染色体显性阿兹海默病(范茨尼(Fanciulli)等人,临床遗传学(Clin Genet)77:201-213[2010])。已经在患有自闭症和自闭症谱系障碍(ASD)的患者中观察到在15q11-q13处存在复制的细胞遗传异常。根据自闭症基因组计划联盟(Autism Genome project Consortium),包括若干复发性CNV的154CNV位于染色体15q11-q13亦或新的基因组位置,包括染色体2p16、1q21,以及在与史密斯-马吉利综合征有关、与ASD重叠的区域中的17p12。染色体16p11.2上的复发性微缺失或微复制已强调以下观察结果:新生CNV在已知可调控突触分化和调控谷氨酸能神经传递质释放的基因的基因座检测到,例如SHANK3(22q13.3缺失)、突触前膜外伸蛋白1(NRXN1,2p16.3缺失)和神经胶质素(NLGN4,Xp22.33缺失)。精神分裂症还与多个新生CNV有关。与精神分裂症有关的微缺失和微复制包含属于神经发育和谷氨酸能途径的基因过度代表,提示影响这些基因的多个CNV可直接构成精神分裂症的发病机理,例如ERBB4,2q34缺失;SLC1A3,5p13.3缺失;RAPEGF4,2q31.1缺失;CIT,12.24缺失;和具有新生CNV的多基因。CNV还与其他神经病症有关,包括癫痫(CHRNA7,15q13.3缺失)、帕金森病(SNCA 4q22复制)和ALS(SMN1,5q12.2.-q13.3缺失;和SMN2缺失)。在一些实施方案中,在此描述的方法可用于确定与神经系统疾病有关的CNV的存在或不存在。例如,这些方法可用于确定怀疑患有自闭症、精神分裂症、癫痫、神经变性的疾病(诸如帕金森病)、肌萎缩性侧索硬化症(ALS)或常染色体显性阿兹海默病的患者中的CNV的存在。方法可用于测定与神经系统疾病(包括但不限于自闭症谱系障碍(ASD)、精神分裂症和癫痫中的任一者)有关的基因的CNV,以及与神经变性的病症(诸如帕金森病)有关的基因的CNV。与此类疾病有关的CNV实例包括但不限于15q11-q13、2p16、1q21、17p12、16p11.2和4q22处的复制,以及在22q13.3、2p16.3、Xp22.33、2q34、5p13.3、2q31.1、12.24、15q13.3和5q12.2处的缺失。在一些实施方案中,这些方法可用于确定基因中CNV的存在,这些基因包括但不限于SHANK3、NLGN4、NRXN1、ERBB4、SLC1A3、RAPGEF4、CIT、CHRNA7、SNCA、SMN1 及SMN2。
CNV和新陈代谢的或心血管的疾病
新陈代谢的和心血管的病特点(例如家族性高胆固醇血症(FH)、动脉粥样硬化症和冠状动脉病)与CNV之间的关系已经报告于大量研究中(范茨尼(Fanciulli)等人,临床遗传学(Clin Genet)77:201-213[2010])。例如,已经在未携带其他LDLR突变的某些FH患者的LDLR基因(LDLR,19p13.2缺失/复制)处观察到种系重排(主要为缺失)。另一个实例是编码阿朴脂蛋白(a)(apo(a))的LPA基因,阿朴脂蛋白(a)的血浆浓度与冠状动脉病、心肌梗死(MI)和中风的风险有关。包含脂蛋白Lp(a)的apo(a)的血浆浓度在个体之间的变异性超过1000倍,并且此变异性90%在遗传上在LPA基因座决定,其中血浆浓度和Lp(a)同种型尺寸与高度变化的‘kringle 4’重复序列数目(范围5到50)成比例。这些数据表明至少两种基因中的CNV可以与心血管风险关联。在此描述的方法可以在大型研究中特定用于搜索CNV与心血管病症的关系。在一些实施方案中,本发明方法可用于确定与新陈代谢的或心血管的疾病有关的CNV的存在或不存在。例如,本发明方法可用于确定怀疑患有家族性高胆固醇血症的患者中CNV的存在。在此描述的方法可用于测定与新陈代谢的或心血管的疾病(例如高胆固醇血症)有关的基因的CNV。与此类疾病有关的CNV实例包括但不限于LDLR基因中的19p13.2缺失/复制,和LPA基因中的扩增。
测定患者样品中的完全染色体非整倍性
在一个实施方案中,提供了方法,用于在包含核酸分子的患者测试样品中确定存在或不存在任何一种或多种不同的、完整的染色体性非整倍性。在一些实施方案中,该方法确定存在或不存在任何一种或多种不同的、完整的染色体性非整倍性。该方法的步骤包括:(a)获得针对在患者测试样品中的患者核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述感兴趣的任何一个或更多个染色体中的每一个的一个归一化染色体序列识别出序列标签的一个数目。这个归一化染色体序列可以是一个单染 色体,或者它可以是选自染色体1-22、X、和Y的一组染色体。该方法进一步在步骤(c)中使用针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对每个所述归一化染色体序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的任何一个或更多个染色体中的每一个的一个阈值进行比较,由此来确定在该患者测试样品中存在或不存在任何一种或多种不同的、完整的患者染色体性非整倍性。
在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体序列识别出的序列标签数目的比率。
在其他实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化染色体识别出的序列标签数目的比率。在其他实施方案中,步骤(c)包括:通过使针对感兴趣的染色体获得的序列标签的数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化染色体序列的标签数目与归一化染色体序列的长度进行关联,针对一个感兴趣的染色体计算出一个序列标签比率,并且针对这个感兴趣的染色体来计算一个染色体剂量,作为感兴趣的染色体的序列标签密度与针对归一化染色体序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同患者的测试样品重复步骤(a)-(d)。
通过该实施方案的一个实例在包含无细胞DNA分子的癌症患者测试样品中确定了一个或多个完整的染色体性非整倍性,该实例包括:(a)对无细胞DNA分子中的至少一部分进行测序以便获得针对在测试样品中的患者无细胞DNA分子的序列信息;(b)使用该序列信息来针对选自染色体1-22、X、以及Y的每一个感兴趣的任何二十个或更多个染色体识别出序列标签的一个数目 并且来针对每个所述感兴趣的二十个或更多个染色体的一个归一化染色体识别出序列标签的一个数目;(c)使用针对每个所述感兴趣的二十个或更多个染色体所识别出的所述序列标签的数目以及针对每个归一化染色体识别出的序列标签的数目来对于每个感兴趣的二十个或更多个染色体计算出一个单染色体剂量;并且(d)将针对每个所述感兴趣的二十个或更多个染色体的每个单染色体剂量与针对每个感兴趣的二十个或更多个染色体的一个阈值进行比较,并且由此来确定在患者测试样品中存在或不存在任何二十种或更多种不同的、完整的染色体性非整倍性。
在另一实施方案中,如以上所述用于确定在患者测试样品中存在或不存在任何一个或多个不同的、完整的染色体性非整倍性的方法使用了一个归一化区段序列来确定感兴趣的染色体的剂量。在这个实例中,该方法包括:(a)获得针对在所述样品中的核酸的序列信息;并且(b)使用所述序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于所述感兴趣的任何一个或更多个染色体中的每一个的一个归一化区段序列识别出序列标签的一个数目。该归一化区段序列可以是一个染色体的单区段,或者它可以是来自一个或多个不同染色体的一组区段。该方法进一步在步骤(c)中使用了针对所述任何一个或多个感兴趣的染色体中的每一个识别出的所述序列标签的数目以及针对所述归一化区段序列识别出的所述序列标签的数目来针对所述感兴趣的任何一个或更多个染色体中每一个计算出一个单染色体剂量;并且(d)将针对所述任何一个或多个感兴趣的染色体中的每一个的每个所述单染色体剂量与针对所述感兴趣的一个或更多个染色体中的每一个的一个阈值进行比较,并且由此来确定在患者样品中存在或不存在一种或多种不同的、完整的染色体性非整倍性。
在一些实施方案中,步骤(c)包括针对每个所述感兴趣的染色体来计算一个单染色体剂量,作为针对每个所述感兴趣的染色体识别出的序列标签数目与针对每个所述感兴趣的染色体的所述归一化区段序列识别出的序列标签数目的比率。
在其他实施方案中,步骤(c)包括:通过使针对感兴趣的染色体获得的序列标签数目与感兴趣的染色体的长度进行关联、并且使针对感兴趣的染色体的相应的归一化区段序列的标签数目与归一化区段序列的长度进行关联,针对一个感兴趣的染色体计算出一个序列标签比率,并且针对这个感兴趣的染色体来计算一个染色体剂量,作为感兴趣的染色体的序列标签密度与针对归一化区段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同患者的测试样品重复步骤(a)-(d)。
通过确定一个归一化的染色体值(NCV)提供了用于比较不同样品组的染色体剂量的一种手段,它使测试样品中的染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联。计算NCV,作为:
NCV ij = x ij - &mu; ^ j &sigma; ^ j
其中分别是合格样品集的第j次染色体剂量的估算均值和标准差,并且xij是测试样品i的第j次染色体剂量观察值。
在一些实施方案中,确定了存在或不存在一个完整的染色体性非整倍性。在其他实施方案中,在一个样品中确定存在或不存在两种、三种、四种、五种、六种、七种、八种、九种、十种、十一种、十二种、十三种、十四种、十五种、十六种、十七种、十八种、十九种、二十种、二十一种、二十二种、二十三种、或二十四种完整的染色体性非整倍性,其中二十二种完整的染色体性非整倍性对应于任何一个或多个常染色体的完整的染色体性非整倍性;第二十三和第二十四种染色体性非整倍性对应于染色体X和Y的完整的染色体性非整倍性。因为非整倍性可以包括三体性、四体性、五体性和其他多体性,并且在不同疾病中和在相同疾病的不同阶段中,完整的染色体性非整倍性的数目发生变化,根据本方法确定的完整的染色体性非整倍性的数目是至少24、至少25、至少26、至少27、至少28、至少29、至少30complete、至少40、至少50、至少60、至少70、至少80、至少90、至少100或更多种染色体性非整倍性。肿瘤的系统核型分析已经揭示,在癌细胞中的染色体数目是高度可变的,范围从亚 二倍体(相当地少于46个染色体)到四倍体和超四倍体(高达200个染色体)(Storchova(斯托克瓦)和Kuffer(枯否),J Cell Sci(细胞科学杂志),121:3859-3866[2008])。在一些实施方案中,该方法包括确定在来自一位怀疑或已知患有癌症(例如结肠癌)的患者的样品中存在不或不存在高达200种或更多种染色体性非整倍性。这些染色体性非整倍性包括丢失一个或多个完整的染色体(亚二倍体),获得包括三体性、四体性、五体性、以及其他多体性的完整染色体。如在本申请的其他地方所说明的,还可以确定染色体区段的获得和/或丢失。该方法适用于确定在来自怀疑或已知患有如在本申请的其他地方所说明的癌症的患者的样品中存在或不存在不同的非整倍性。
在一些实施方案中,染色体1-22、X和Y中的任何一个可以是在确定在如上所述的患者测试样品中存在或不存在任何一种或多种不同的、完整的染色体性非整倍性中的感兴趣的染色体。在其他实施方案中,两个或更多个感兴趣的染色体是选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16,17、18、19、20、21、22、X、或Y中的任何两个或更多个。在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体包括选自染色体1-22、X、和Y的至少二十个染色体,并且其中确定了存在或不存在至少二十种不同的、完整的染色体性非整倍性。在其他实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的染色体是全部的染色体1-22、X、和Y,并且其中确定了存在或不存在全部染色体1-22、X、和Y的完整的染色体性非整倍性。可以被确定的完整的、不同的染色体性非整倍性包括染色体1-22、X和Y中的任何一个或多个的完整的染色体单体性;染色体1-22、X和Y中的任何一个或多个的完整的染色体三体性;染色体1-22、X和Y中的任意一个或多个的完整的染色体四体性;染色体1-22、X和Y中的任何一个或多个的完整的染色体五体性;以及染色体1-22、X和Y中的任何一个或多个的其他完整的染色体多体性。
测定患者样品中的部分染色体非整倍性
在另一个实施方案中,提供了多种方法,用于在包含核酸分子的患者测试样品中确定存在或不存在任何一种或多种不同的、部分的染色体性非整倍性。该方法的步骤包括:(a)获得针对所述样品中的患者核酸的序列信息;并且(b)使用该序列信息来针对选自染色体1-22、X、以及Y的任何一个或多个感兴趣的染色体中的每一个识别出序列标签的一个数目,并且针对用于任何一个或多个感兴趣的染色体中的所述任何一个或多个区段中的每一个的一个归一化区段序列识别出序列标签的一个数目。该归一化区段序列可以是一个染色体的单区段,或者它可以是来自一个或多个不同染色体的一组区段。该方法在步骤(c)中进一步使用了针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个区段识别出的所述序列标签的数目以及针对每个所述归一化区段序列识别出的所述序列标签的数目来针对所述任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个计算出一个单区段剂量;并且(d)将针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个区段中的每个所述单染色体剂量与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个染色体区段的一个阈值进行比较,并且由此来确定在所述样品中存在或不存在一种或多种不同的、部分的染色体性非整倍性。
在一些实施方案中,步骤(c)包括:对于每个任何一个或多个感兴趣的染色体的任何一个或多个区段计算出一个单区段剂量,作为针对每个任何一个或多个感兴趣的染色体的任何一个或多个区段识别出的序列标签数目与针对每个所述任何一个或多个感兴趣的染色体的任何一个或多个区段的所述归一化区段序列识别出的序列标签数目的比率。
在其他实施方案中,步骤(c)包括:通过使针对感兴趣的区段获得的序列标签的数目与感兴趣的区段的长度进行关联、并且使针对感兴趣的区段的相应的归一化区段序列的标签数目与归一化区段序列的长度进行关联,针对一个感兴趣的区段计算出一个序列标签比率,并且针对这个感兴趣的区段来计算一个区段剂量,作为感兴趣的区段的序列标签密度与针对归一化区段序列的序列标签密度的比率。针对全部感兴趣的序列的每一个重复该计算。可以针对来自不同 患者的测试样品重复步骤(a)-(d)。
通过确定归一化的区段值(NSV)提供了用于比较不同样品组的区段剂量的一种手段,这使测试样品中的区段剂量与在一组合格样品中的相应的区段剂量的平均值进行关联。计算NSV,作为:
NCV ij = x ij - &mu; ^ j &sigma; ^ j
其中分别是合格样品集的第j次区段剂量的估算均值和标准差,并且xij是测试样品i的第j次区段剂量观察值。
在一些实施方案中,确定了存在或不存在一种部分的染色体性非整倍性。在其他实施方案中,在一个样品中确定了存在或不存在两种、三种、四种、五种、六种、七种、八种、九种、十种、十五种、二十种、二十五种、或更多种部分的染色体性非整倍性。在一个实施方案中,选自染色体1-22、X、和Y中的任何一个的一个感兴趣的区段是选自染色体1-22、X、和Y。在其他实施方案中,选自染色体1-22、X、和Y的两个或更多个感兴趣的区段是选自染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16,17、18、19、20、21、22、X、或Y中的任何两个或更多个。在一个实施方案中,选自染色体1-22、X、和Y的任何一个或多个感兴趣的区段包括选自染色体1-22、X、和Y的至少一个、五个、十个、15个、20个、25个、50个、75个、100个或更多个区段,并且其中确定了存在或不存在至少一种、五种、十种、15种、20种、25种、50种、75种、100种、或更多种不同的、部分的染色体性非整倍性。可以确定的不同的、部分的染色体性非整倍性包括部分复制、部分倍增、部分插入以及部分缺失。
可用于确定在患者中存在或不存在染色体性非整倍性(部分的或完整的)的样品可以是在本申请的其他地方所说明的任何生物学样品。可用于确定患者中的非整倍性的样品类型或样品将取决于患者已知或被怀疑患有的疾病的类型。例如,可以选择粪便样品作为DNA源来确定存在或不存在与结肠直肠癌症相关联的非整倍性。该方法还适用于在此所述的组织样品。优选地,该样品 是通过无创性方式获得的生物学样品,例如血浆样品。如在本申请的其他地方所说明,可以使用在本申请其他地方所说明的下一代测序(NGS)来进行患者样品中的核酸的测序。在一些实施方案中,测序是使用借助可逆染料终止子的合成法测序的大规模平行测序。在其他实施方案中,测序是连接法测序。在另外的其他实施方案,测序是单分子测序。可任选地,在测序前进行一个扩增步骤。
在一些实施方案中,确定了一位患者体内存在或不存在非整倍性,这位患者怀疑患有如在本申请的其他地方所说明的癌症,例如肺癌、乳癌、肾癌、头颈癌、卵巢癌、子宫颈癌、结肠癌、胰腺癌、食道癌、膀胱癌和其他器官的癌症,以及血液癌症。血液癌症包括骨髓、血液、和淋巴系统的癌症,而淋巴系统包括淋巴结、淋巴管、扁桃体、胸腺、脾脏、以及消化道淋巴组织。始于骨髓的白血病和骨髓瘤,以及始于淋巴系统的淋巴瘤是最常见的血癌症类型。
在患者样品中可以做出存在或不存在一种或多种染色体性非整倍性的确定而对以下各项没有限制,即:确定患者对一种具体癌症的易感性,作为在已知或不知易感一种癌症的患者当中常规筛查的一部分来确定存在或不存在所关心的癌症,提供对疾病的预后,评估对辅助疗法的需要,并且确定疾病的进展或复原。
遗传咨询
胎儿染色体异常是导致流产、先天异常和围产期死亡的主要原因(韦尔斯利(Wellesley)等人,欧洲人类遗传学杂志(Europ.J.Human Genet.),20:521-526[2012];长冈(Nagaoka)等人,自然综述遗传学(Nature Rev.Genetics)13:493-504[2012])。自从引入了羊膜穿刺,随后引入了绒膜绒毛采样(CVS),孕妇已经有权获得有关胎儿染色体状况的信息(ACOG实践公告第77号(ACOG Practice Bulletin No.77):产科学与妇科学(Obstet Gynecol)109:217-227[2007])。在获得足够的组织时,对从这些程序获得的胎儿细胞或绒膜绒毛进行细胞遗传核型定型,在绝大多数情况下使诊断灵敏度和特异性很高(约99%)(哈勒曼 (Hahnemann)和弗吉斯勒(Vejerslev),产前诊断(Prenat Diagn.),17:801-8201997;NICHD羊膜穿刺研究国家注册JAMA 236:1471-1476[1976])。然而,这些程序也对胎儿和孕妇带来了风险(奥迪博(Odibo)等人,产科学与妇科学(Obstet Gynecol)112:813-819[2008];奥迪博(Odibo)等人,产科学与妇科学(Obstet Gynecol)111:589-595[2008])。
为了减轻这些风险,已经开发出一系列产前筛查算法,针对出现最常见胎儿三体性-T21(唐氏综合征)和三体性18(T18,爱德华综合征),以及较小程度的三体性13(T13,帕塔综合征)的它们的可能性将妇女分级。筛查典型地涉及在不同时点测量母体血清中的多种生物化学分析物,结合超声波检查测量胎儿颈半透明度(NT),以及其他母体因素(例如年龄)的合并,以产生风险评分。根据其多年的发展和改进并且取决于何时给予筛查(仅妊娠期的最初三个月或第二个三个月,连续或充分整体化)以及如何给予筛查(仅血清或血清与NT组合),已开发出具有不同检出率(65%到90%)和高筛检阳性率(5%)的选项菜单(ACOG实践公告第77号(ACOG Practice Bulletin No.77):产科学与妇科学(Obstet Gynecol)109:217-227[2007])。
对于患者而言,在这个多步骤程序之后,所得信息或“风险评分”可能令其困惑并且引发其焦虑,特别是在综合性咨询缺乏的情况下。最后,在妇女作出决定时,针对因侵入性程序所致的流产风险权衡结果。获得关于胎儿染色体状况的更明确信息的更好非侵入性方式协助在此背景下作出决定。获得关于胎儿染色体状况的更明确信息的此类非侵入性改良手段被认为可通过在此所述的方法提供。
在不同的实施方案中,考虑了遗传咨询作为使用在此所述的分析的一部分,特别是在临床背景下。相反,在此所述的非整倍性检测方法可以包括在产前护理和相关遗传咨询背景下提供的一个选项。
因此,在不同的实施方案中,在此所述的方法可以作为初步筛查(例如,对于有前设的怀孕风险的妇女)或作为对“常规”筛查呈阳性的那些妇女的二次筛查被提供。在某些实施方案中,考虑了在此所述的非侵入性产前测试(NIPT) 方法另外包括遗传咨询部分,并和/或在此所述的NIPT方法中任选地或明确地并入遗传咨询和怀孕“管理”。
例如,在某些实施方案中,妇女存在一种或多种前设的怀孕风险。此类风险包括但不限于以下一项或多项:
1)母亲年龄超过35岁,虽然指出,约80%生来患有唐氏综合征的儿童是由不到35岁的妇女生下的。
2)具有常染色体三体性的先前胎儿/儿童。取决于三体性类型、先前怀孕是否自然流产、以及初次发生时的母亲年龄和后来产前诊断时的母亲年龄,认为再发生率为母亲年龄风险的约1.6倍到约8.2倍。
3)具有的性染色体异常的先前胎儿/儿童——不是所有的性染色体异常具有母体来源,并且并非都具有再发生的风险。当它们发生时,再发生率为母体年龄风险的约1.6倍到约1.5倍。
4)染色体易位的亲代携带者。
5)染色体倒位的亲代携带者。
6)亲代非整倍性或嵌合性。
7)使用某些辅助生殖技术。
在此类情形下,服从述不同考虑,母亲,例如经与医师、遗传咨询师等人磋商,可以被提供使用在此所述的方法,用于非侵入性确定胎儿非整倍性(例如三体性21、三体性18、三体性13、单体性X等等)的存在或不存在。在这点上,应指出在此所述的方法被认为是有效的,即使在妊娠期的最初三个月。因此,在某些实施方案中,考虑了早在8周时使用在此所述的NIPT方法,并且在不同的实施方案中,在约10周或更晚。
在某些实施方案中,可以向“常规”筛查呈阳性的那些妇女提供在此所述的方法作为二次筛查。例如,在某些实施方案中,孕妇可能呈现结构异常,例如例如胎儿水囊状淋巴管瘤,或提高的颈半透明度,例如像使用超声波探测术所检测。典型地,在18周到22周进行结构缺陷的超声波检测,并且特别是当观察到不规则性时,可以和胎儿超声心电图偶联。在此考虑了当观察到异常(例 如,“常规”筛查呈阳性)时,母亲,例如经与医师、遗传咨询师等人磋商,可以被提供使用在此所述的方法,用于非侵入性确定胎儿非整倍性(例如三体性21、三体性18、三体性13、单体性X等等)的存在或不存在。
因此,在不同的实施方案中,考虑了遗传咨询,其中提供在此所述的(NIPT)分析作为产前护理、怀孕管理和/或分娩方案的开发/设计的一个组成部分。通过向常规筛查呈阳性(或其他前设风险)的那些妇女提供NIPT作为二次筛查,预计可减少不必要的羊膜穿刺和CVS程序的次数。然而,因为同意书是NIPT的重要组成部分,所以遗传咨询的必要性提高。
由于NIPT阳性结果(使用在此所述的方法)更类似于羊膜穿刺或CVS的阳性结果,因此应在此测试之前,在遗传咨询时,向妇女提供可决定其是否需要这个程度的信息的机会。测试前的NIPT遗传咨询还应该包括讨论/建议以确认经由CVS、羊膜穿刺、脐带穿刺等(取决于妊娠年龄)的异常测试结果,从而对结果的所期望的时间安排可以给予适当考虑,用于测试后的规划按照国家遗传咨询师学会(NSGC,USA)关于该主题的声明(参见例如戴弗斯(Devers)等人,非侵入性产前测试/非侵入性产前诊断:国家遗传咨询师学会的立场(通过NSGC公共政策委员会)NSGC立场声明2012(Noninvasive Prenatal Testing /Noninvasive Prenatal Diagnosis:the position of the National Society of Genetic Counselors(by NSGC Public Policy Committee).NSGC Position Statements 2012;伯恩(Benn)等人,产前诊断(Prenat Diagn),31:519-522[2011]),因为NIPT目前不筛查所有的染色体或遗传状况,所以它可能不会取代标准的风险评估和产前诊断。在此考虑了具有暗示染色体异常的其他因素(例如,某些异常的超声波研究结果)的患者应该接受遗传咨询,其中向他们提供常规验证性诊断测试的选项,而不管NIPT结果。妇女在遗传咨询时还应该意识到,对于某些患者而言,NIPT结果可能信息量不大。
与羊膜穿刺相比,在非整倍性的检测典型地表示胎儿的染色体组成,但是在有些情况下可能表示受限制的胎盘非整倍性或受限制的胎盘嵌合性(CPM)方面,使用在此所述方法的NIPT也许更类似于CVS,。在今天的CVS结果中, 约1%到2%的情况存在CPM,并且一些妇女在CVS之后,在更晚的妊娠年龄经历羊膜穿刺,来使得在清楚分离的胎盘非整倍性对比胎儿非整倍性之间产生差别。随着NIPT实施更广泛,因此预计CPM情况可产生一定数目的可能随后不会被侵入性程序(特别是羊膜穿刺)确认的阳性NIPT结果。再一次,在不同的实施方案中,考虑了此信息在遗传咨询的背景下(例如通过医师、遗传咨询师等)呈现给患者。
应认识到,在不同的实施方案中,遗传咨询的一个组成部分可能是推荐确诊方式,告知风险水平时间安排,并且针对不同确诊方式进行时间安排,可以用来提供关于通过此等验证方法所提供的信息值的输入,特别是在选择怀孕时间的背景下。在不同的实施方案中,遗传咨询还可以确立一个方案,用来监控怀孕(例如后续超声波检查、额外的医师出诊等等),并且用来在适当时设立一系列决策点。此外,遗传咨询可以建议并且有助于开发出分娩方案,分娩方案可以包括例如关于分娩地点(例如家、医院、专门设施等等)、分娩地点所涉及的人员、婴儿可获得的第三方护理等等。
虽然以上论述集中于在此所述的方法作为产前诊断的一个组成部分(并且也许是第二工具),但随着临床经验积累并且如果从比较研究到常规筛查的结果成功,那么在此所述的NIPT方法可能取代现有的筛查方案并且可能用作主要工具。
还考虑了在此所述的方法将针对多胎妊娠的怀孕发现用途。
典型地,预计遗传咨询(例如上文所述)可通过医师(例如主要医师、产科医师等)和/或通过遗传咨询师或其他合格的医学专业人士提供。在某些实施方案中,面对面提供咨询,然而应认识到,在某些情况下,可通过远程访问(例如,通过文本、手机、手机应用程序、平板计算机应用程序、因特网等等)提供咨询。
还应认识到,在某些实施方案中,遗传咨询或其一个组成部分可以通过计算机系统递送。例如,可以提供“智能建议“系统,其响应于测试结果、来自医疗护理供应者的指令和/或响应于查询(例如来自患者查询)而提供遗传咨询信 息(例如上文所述)。在某些实施方案中,信息将是通过医师、保健系统和/或患者提供的特定临床信息。在某些实施方案中,信息能够以迭代方式提供。因此,例如,患者可以提供“如果之类”的查询并且系统可以返回信息,例如诊断选项、风险系数、时间安排、以及不同结果的涵义。
在某些实施方案中,信息能够以暂时性方式提供(例如,在计算机屏幕上呈现)。在某些实施方案中,信息能够以非暂时性方式提供。因此,例如,信息可以打印出(例如,作为选项和/或建议的菜单,其任选地附有相关时间安排等)和/或储存在计算机可读媒体(例如磁性媒体,例如本地硬盘、服务器等;光学媒体;闪存等等)上。
应了解,此类系统典型地被配置为提供足够的安全性,以便维持患者隐私,例如根据行业中的现行标准。
遗传咨询的以上论述旨在为示意性的而非限制性的。遗传咨询是医学科学中的一个良好确认的分支,并且关于在此所述的分析的咨询组成部分的结合属于从业者的技能范围内。此外,应认识到,随着该领域发展,遗传咨询和相关信息以及建议的性质很可能改变。
确定胎儿分数
胎儿分数确定方法披露于美国专利申请公开2010-0010085(117.201)、美国专利申请公开2011-0201507(120.201)、美国专利申请号13/365,240(2012年2月2日提交)和美国专利申请号13/445,778(2012年4月12日提交)中。在这些文件中可以找到用于确定胎儿分数的技术的充分论述。
在此所述的方法使能够确定样品中的胎儿分数,该样品包括胎儿和母体核酸的混合物,或更一般来说,是来源于两个不同基因组的核酸的混合物。为此论述的目的,将描述母体和胎儿核酸,但是应理解,可以因此替代任何两个基因组。在一些实施方案中,确定胎儿分数,同时确定拷贝数变异(例如非整倍性)的存在或不存在。如下文更充分描述,可采用测试样品的一组标签确定胎儿分数和拷贝数变异。
量化胎儿分数的方法是依赖于胎儿基因组与母体基因组之间的差异。在此所述的某些实施方案中,确定样品DNA的胎儿分数依赖于已知容纳一种或多种多态性的序列位点处的多重DNA序列读数。在一些实施方案中,在对序列标签彼此和/或参考序列进行比对的同时发现多态位点或目标核酸序列。在某些实施方案中,样品DNA的胎儿分数是通过考虑具体染色体或染色体序列的拷贝数信息来确定,其中母体染色体与胎儿染色体之间存在拷贝数差异。在此类实施方案中,样品DNA的胎儿分数是通过考虑母亲和胎儿的样品DNA相对数量来确定,其中染色体或区段本来就确定或已知具有拷贝数变异。在此类实施方案中,胎儿分数可以使用母体染色体和胎儿染色体之间的拷贝数变异加以计算。为此目的,该方法和设备可以计算如下文所述的归一化的染色体值(NCV),或类似度量标准。
某些方法受到胎儿性别的限制,例如用于量化胎儿分数的方法依赖于对Y染色体具有特异性的序列的存在或决定男性胎儿的X染色体的染色体剂量。在某些实施方案中,量化胎儿DNA是针对胎儿目标,这些胎儿目标没有母体配对物,例如Y染色体序列(范(Fan)等人,国家科学院院刊(Proc Natl Acad Sci)105:16266-16271[2008]和美国专利申请公开号2010/0112590,2009年11月6日提交,罗(Lo)等人)或RhD阴性母体中没有RHD1基因,亦或通过在多个DNA碱基对,不同于与母体背景。其他方法独立于胎儿性别,并且依赖于胎儿与母体基因组之间的多态性差异。
多态性中的等位基因不平衡可以通过不同技术检测并且量化。在一些实施方案中,使用数字PCR确定多态性中的等位基因不平衡,例如mRNA上的SNP。可替代地,使用毛细管凝胶电泳来检测多态区域尺寸的差异,例如在STR情况下。
在一些实施方案中,可以检测外遗传差异,例如启动子区域有差异的甲基化,可单独或与数字PCR组合用于确定胎儿基因组与母体基因组之间的差异并且量化胎儿分数(童(Tong)等人,临床化学(Clin Chem)56:90-98[2010])。还包括外遗传方法的变型,例如基于甲基化的DNA辨别(艾尼奇(Erich)等 人,AJOG 204:第205.e1页到第205.e11页[2011])。在一些实施方案中,使用如在本申请的其他地方所说明的一个或多个预选定的组的多态序列的测序,来估计胎儿分数。
除如在本申请的其他地方所说明的对多组预选多态序列进行测序的方法之外,用于量化母体血浆中的胎儿DNA的方法包括但不限于实时qPCR、质谱测定法、数字PCR(包括微流体数字PCR)、毛细管凝胶电泳。
本节论述开始考虑胎儿分数,如从不(或经确定不)具有拷贝数变异的染色体或染色体区段的一种或多种多态性或其他信息所进行确定。通过此类技术确定的胎儿分数在此将称为非CNV胎儿分数或“NCNFF”。在本节后面的部分,描述了多种技术,用于从经确定拥有拷贝数变异的染色体或染色体区段计算胎儿分数。从此类技术确定的胎儿分数在此将称为CNV胎儿分数或“CNFF”。
在一些实施方案中,通过确定来源于胎儿基因组的多态性等位基因的相对贡献和来源于母体基因组的相应多态性等位基因的贡献来评估胎儿分数。在一些实施方案中,通过确定来源于胎儿基因组的多态性等位基因的相对贡献对比来源于胎儿基因组与母体基因组的相应多态性等位基因的总贡献来评估胎儿分数。
多态性可以是指示性的,信息性的(informative),或两者。指示性多态性表明母体样品中存在胎儿无细胞DNA(“cfDNA”)。信息性多态性(例如信息性SNP)产生关于胎儿的信息,例如,疾病的存在或不存在、遗传异常、或任何其他生物信息,例如妊娠阶段或性别。在这种情况下,信息性多态性是识别母亲与胎儿的序列之间差异的那些,并且用于在此披露的方法中。换言之,信息性多态性是拥有不同序列的核酸样品(即,它们具有不同的等位基因)中的多态性,且这些序列以不同的量存在。在此的一些方法中,使用不同数量的序列/等位基因确定胎儿分数,特别是NCNFF。
多态位点包括但不限于单核苷酸多态性(SNP)、串联SNP、小规模多碱基缺失或插入(IN-DELS或缺失插入多态性(DIP))、多核苷酸多态性(MNP)、短串联重复片段(STR)、限制性片断长度多态性(RFLP),或染色体中拥有任 何其他等位基因序列变异的任何多态性。在一些实施方案中,每个目标核酸包含两个串联SNP。串联SNP作为单一单元(例如,作为短单体型)加以分析,且在此作为具有两个SNP的多个集合而提供。
在一些实施方案中,胎儿分数是通过统计学和近似技术来确定,这些技术通过使用用来确定相对贡献的多态位点来评估胎儿和母体基因组的配型的相对贡献。还可以通过电泳法确定胎儿分数,其中将某些类型的多态位点以电泳方式分离并且用于识别来自胎儿基因组的多态性等位基因的相对贡献和来自母体基因组的相应多态性等位基因的相对贡献。
在图6工艺流程图所示的一个实施方案中,胎儿分数是通过方法600确定,方法600包括首先在操作610中获得包含胎儿与母体核酸的混合物的测试样品,在操作620中针对多态目标核酸富集核酸混合物,在操作630中对富集的核酸混合物进行测序,并且在操作640中同时确定样品中的胎儿分数和非整倍性。
图7显示用于一些实施方案的工艺流程图。通过以下确定胎儿分数:(i)在操作710中获得母体血浆样品,(ii)在操作720中纯化样品中的cfDNA,(iii)在操作730中扩增多态核酸,(iv)在操作740中使用大规模平行测序方法对混合物测序,和(v)在操作760中计算胎儿分数。在另一个实施方案中,通过以下确定胎儿分数:(i)在操作710中获得母体血浆样品,(ii)在操作720中纯化样品中的cfDNA,(iii)在操作730中扩增多态核酸,(iv)在操作750中使用电泳法按照尺寸分离核酸,和(v)在操作770中计算胎儿分数。
在图8工艺流程图所示的一个实施方案中,通过以下确定胎儿分数:(i)在操作810中获得包含胎儿与母体核酸的混合物的样品,(ii)在操作820中扩增样品,(iii)在操作830中通过将扩增的样品与初始混合物的未扩增样品合并来富集样品,(iv)在操作840中纯化样品,和(v)在操作850中使用不同方法对样品测序以确定胎儿分数,在860操作中同时确定胎儿分数和非整倍性的存在或不存在。
在图9工艺流程图所示的另一实施方案中,通过以下确定胎儿分数:(i)在操作910中获得包含胎儿与母体核酸的混合物的样品,(ii)在操作920中纯 化样品,(iii)在操作930中扩增样品的一部分,(iv)在操作940中通过将扩增的样品与初始混合物的初始样品的经纯化但未扩增的部分组合来富集样品,和(v)在操作950中对样品测序以确定胎儿分数,在960操作中使用不同方法同时确定胎儿分数和非整倍性的存在或不存在。
在图10工艺流程图所示的另一个实施方案中,通过以下确定胎儿分数:(i)在操作1010中获得包含胎儿和母体核酸的混合物的样品,(ii)在操作1020中纯化样品,(iii)在操作1040中扩增样品的第一部分,(iv)在操作1050中制备样品的经扩增部分的测序文库,(v)在操作1030中制备样品的第二个经纯化但未扩增部分的测序文库,(vi)在操作1060中通过将两个测序文库组合来富集混合物,和(vii)在操作1070中对混合物测序,在1080操作中使用不同方法同时确定胎儿分数和非整倍性的存在或不存在。
在另一个实施方案中,通过以下确定胎儿分数:(i)获得包含胎儿和母体核酸的混合物的样品,(ii)纯化样品,(iii)使用经标记的引物扩增样品,和(iv)使用电泳法对样品测序,以使用不同方法确定胎儿分数。
在另一个实施方案中,通过以下确定胎儿分数:(i)获得包含胎儿和母体核酸的混合物的样品,(ii)纯化样品,(iii)通过扩增样品的一部分来任选地富集样品,和(iv)对样品测序,以使用不同方法确定胎儿分数。
纯化最初获得的样品、经扩增的样品、或经扩增和富集的样品、或与在此披露的方法有关的其他核酸样品(例如在操作720、840、920和1020中),可以通过任何常规技术完成。为从细胞中分离cfDNA,可以使用分级分离、离心(例如密度梯度离心)、DNA特异性沉淀、或高通量细胞分选、和/或分离方法。任选地,所得样品可以在纯化或扩增之前片段化。如果所用样品包含cfDNA,那么可不要求片段化,因为cfDNA在性质上片段化,其中片段尺寸时常为约150bp到200bp。
在上述一些程序中,使用选择性扩增和富集提高来自多态性所处的区域中的核酸的相对数量。类似结果可以通过对基因组的所选区域(特别是多态性所处的区域)进行深入测序来获得。
扩增
获得样品并且纯化样品之后,使用胎儿和母体核酸(例如cfDNA)的纯化混合物的一部分扩增多个多态目标核酸,每个核酸包含多态位点。扩增胎儿和母体核酸混合物中的目标核酸,在某些实现方式中,是通过使用PCR(聚合酶链式反应)或该方法的变异的任何方法(包括但不限于不对称PCR、解螺旋酶依赖性扩增、热启动PCR、qPCR、固相PCR、和降落PCR)实现。在一些实施方案中,样品可以部分地扩增以协助确定胎儿分数。在一些实施方案中,不进行扩增。在操作730、820、930和1040中可使用所披露的扩增方法及其他扩增技术。
扩增SNP
有大量的核酸引物可供用来扩增包含SNP的DNA片段,并且可以获得其序列,例如来自本领域普通技术人员所知的数据库。还可以设计另外的引物,例如使用以下文献所公开的类似方法:维克斯E.F.(Vieux,E.F.),郭P-Y(Kwok,P-Y)和米勒R.D.(Miller,R.D.),生物技术(BioTechniques)(2002年6月),第32卷,增刊:“SNP:标记物疾病的发现(SNPs:Discovery ofMarker Disease)”,第28页到第32页。
选择序列特异性引物以扩增目标核酸。在一个实施方案中,如扩增子扩增包含多态位点的目标核酸。在另一个实施方案中,如扩增子扩增包含两个或更多个多态位点(例如两个串联SNP)的目标核酸。至少约100 bp的经扩增的目标核酸扩增子包含单个或串联SNP。用于扩增包含串联SNP的目标序列的引物经设计可涵盖两个SNP位点。
扩增STR
一些核酸引物可供用来扩增包含STR的DNA片段,并且此类序列可以从本领域一个技术人员已知的数据库获得。
在一些实施方案中,使用胎儿和母体核酸混合物的一部分作为用于扩增具有至少一个STR的目标核酸的模板。关于STR、所公开的PCR引物、常见多重系统和相关种群数据的参考文献、论据和序列信息的综合性目录汇编于 STRBase中,该STRBase可经由因特网在cstl.nist.gov/strbase处进行访问。来自在ncbi.nlm.nih.gov/genbank的的、针对常用STR基因座的序列信息通过STRBase也是可访问的。
STR多重系统允许在单一反应中同时扩增多个不重叠的基因座,从而实质上提高通量。因为STR的多态性高,所以大部分个体是杂合型。STR可用于如下文进一步描述的电泳分析中。
还可以使用miniSTRs进行扩增以产生尺寸减小的扩增子,从而辨别在长度上更短的STR等位基因。所披露实施方案的方法涵盖确定已富集目标核酸的母体样品中的胎儿核酸分数,目标核酸各自包含一个miniSTR,该方法包括量化位于一个多态性miniSTR的至少一个胎儿和一个母体等位基因,其可以扩增以产生长度约为循环胎儿DNA片段的尺寸的扩增子。任一对miniSTR引物或两对或更多对miniSTR引物的组合可用于扩增至少一个miniSTR。
富集
加以富集的样品可包括:血液样品的血浆分离部分;从血浆中提取出的经纯化cfDNA的样品;从胎儿和母体核酸的经纯化混合物制备的测序文库样品;等等。
在某些实施方案中,在对全基因组测序之前,针对全基因组非特异性富集包含DNA分子混合物的样品,即,在测序之前,进行全基因组扩增。非特异性富集核酸混合物是指对DNA样品的基因组DNA片段进行全基因组扩增该DNA样品可用于在通过测序识别多态性之前提高样品DNA的水平。非特异性富集可以是样品中存在的两个基因组(胎儿和母体)之一的选择性富集。
在其他实施方案中,样品中的cfDNA经特异性富集。特异性富集是指基因组样品针对特定序列(例如多态性目标序列)的富集,其通过包括特异性扩增目标核酸序列的方法完成,目标核酸序列包含多态位点。
在其他实施方案中,存在于样品中的核酸混合物是针对各自包含多态位点的多态目标核酸加以富集。在操作620中可使用此类富集。富集胎儿和母体核酸的混合物包括,从最初母体样品所包含的核酸的一部分中扩增目标序列,并 且将部分或整个扩增产物与最初母体样品的剩余部分组合,例如在操作830和940中。
在又一个实施方案中,加以富集的样品是由胎儿和母体核酸的纯化混合物制备的测序文库样品。选择用于富集初始样品的扩增产物的量以获得足以用于确定胎儿分数的序列信息。从测序获得的序列标签的总数中至少约3%、至少约5%、至少约7%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%或更多被映射以确定胎儿分数。
在一个实施方案中,在图10中,富集包括在操作1040中将胎儿和母体核酸的纯化混合物的初始样品(例如,已从母体血浆样品中纯化的cfDNA)的一部分中所包含的目标核酸扩增。类似地,在操作1050中,使用经纯化但未扩增的cfDNA的一部分制备初级测序文库。在操作1060中,将目标文库的一部分与由未扩增的核酸混合物产生的初级文库结合,并且在操作1070中对两个文库中所包含的胎儿和母体核酸混合物进行测序。富集的文库可包括目标文库的至少约5%、至少约10%、至少约15%、至少约20%或至少约25%。在操作1080中,对来自测序轮次的数据进行分析,并且如图6所描绘的实施方案的操作640中所述,同时确定胎儿分数和非整倍性的存在或不存在。
测序技术
对富集的胎儿和母体核酸混合物进行测序。为确定胎儿分数所必需的序列信息可以使用任何已知的DNA测序方法获得,其中很多方法已在本申请的其他地方说明。此类测序方法包括下一代测序法(NGS)、桑格尔测序法(Sanger sequencing)、海里科思真正的单分子测序法(Helicos True Single Molecule Sequencing)(tSMSTM)、454测序法(Roche)、SOLiD技术(应用生物系统)、单分子实时(SMRTTM)、测序技术(太平洋生物科学)、纳米孔测序法、化学敏感性场效应晶体管(chemFET)阵列、使用透射电子显微术(TEM)的霍尔康分子法(Halcyon Molecular’s method)、离子流单分子测序法、杂交测序法等等。在某些实施方案中,采用大规模平行测序法。在一个实施方案中,使用伊鲁米纳合成法测序和基于可逆终止子的测序化学技术。在某些实施方案中,使 用部分测序法。
所测序的DNA映射到参考基因组。参考基因组可为人工基因组或可为人类参照序列基因组。此类参考基因组包括:包含多态目标核酸序列的人工目标序列基因组;人工SNP参考基因组;人工STR参考基因组;人工串联STR参考基因组;人类参照序列基因组NCBI36/hg18序列,其在因特网genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105可获得;以及包括目标多态序列的人类参照序列基因组NCBI36/hg18序列和人工目标序列基因组,例如SNP基因组。在映射过程中允许存在某些错配。
在一个实施方案中,对在操作630中获得的测序信息进行分析并且同时作出确定,确定胎儿分数和确定非整倍性的存在或不存在。
如上文所说明,每种样品获得多个序列标签。在某些实施方案中,利用读数映射到参考基因组,每种样品获得至少约3x106个序列标签、至少约5x106个序列标签、至少约8x106个序列标签、至少约10x106个序列标签、至少约15x106个序列标签、至少约20x106个序列标签、至少约30x106个序列标签、至少约40x106个序列标签、或至少约50x106个序列标签,这些序列标签包含20 bp与40 bp之间的读数。在一个实施方案中,所有序列读数映射到参考基因组的所有区域。在一个实施方案中,对包含已映射到人类参照序列基因组的所有区域(例如所有染色体)的读数的标签进行计数,并且在混合的DNA样品中确定胎儿非整倍性,即,感兴趣的序列(例如染色体或其一部分)的过度代表或代表不足,并且对包含映射到人工目标序列基因组的读数的标签进行计数以确定胎儿分数。该方法不要求在母体基因组与胎儿基因组之间作出区分。
在一个实施方案中,对来自测序轮次的数据进行分析并且同时确定胎儿分数,以及存在或不存在非整倍性。
测序文库
在一些实施方案中,使用所扩增的多态序列的一部分或全部来制备用于以所述平行方式测序的测序文库。在一个实施方案中,制备文库以便使用伊鲁米纳基于可逆终止子的测序化学技术进行合成法测序。可以从纯化的cfDNA制 备文库并且包括至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、或至少约50%的扩增产物。
对通过图11所描绘的任一种方法产生的文库进行测序,提供了来源于扩增的目标核酸的序列标签和来源于最初未扩增的母体样品的标签。胎儿分数是从映射到人工参考基因组的标签数目来计算。
计算胎儿分数
如所解释,对有关DNA进行测序之后,可利用计算方法将序列映射或比对到具体基因、染色体、等位基因、或其他结构上。存在多种用于比对序列的计算机算法,包括但不限于BLAST(奥茨秋(Altschul)等人,1990)、BLITZ(MPsrch)(斯特罗科和柯林斯(Sturrock&Collins),1993)、FASTA(普尔逊和李普曼(Pearson&Lipman),1988)、BOWTIE(郎格米(Langmead)等人,基因组生物学(Genome Biology)10:R25.1-R25.10[2009])、或ELAND(伊鲁米纳公司,圣地亚哥,CA,美国(Illumina,Inc.,San Diego,CA,USA))。在一些实施方案中,数据箱序列发现于本领域那些技术人员已知的核酸数据库中,包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。可利用BLAST或类似工具对照序列数据库搜索所识别的序列,并且可利用搜索命中将所识别的序列分类成适当的数据箱。可替代地,可采用布隆过滤器(Bloom filter)或类似的集合成员测试器(set membershiptester)将读数与参考基因组比对。参见2011年10月27日提交的美国专利申请号61/552,374,该申请以其全文通过引用结合在此。
如所提及,根据一些实施方案(特别是NCNFF技术)确定胎儿分数是基于映射到第一等位基因的标签总数和映射到第二等位基因的总数,第二等位基因位于参考基因组所包含的信息性多态位点(例如SNP)。信息性多态位点是通过等位基因序列的差异和每个可能等位基因的数量加以识别。胎儿cfDNA经常以<10%母体cfDNA的浓度存在。因此,相对于母体等位基因的主要贡献,存在可以分配给胎儿的、胎儿和母体核酸混合物的等位基因的次要贡献。来源于母体基因组的等位基因在此称为主等位基因,并且来源于胎儿基因组的等位 基因在此称为次等位基因。用所映射的序列标签的类似水平表示的等位基因代表母体等位基因。对包含来源于母体血浆样品的SNP的目标核酸进行示例性多重扩增的结果显示于图12中。
在这里,术语“染色体性非整倍性”和“完整染色体性非整倍性”在此是指由损失或获得整个染色体而引起的遗传物质的不平衡,并且包括种系非整倍性和嵌合性非整倍性。术语“部分非整倍性”和“部分染色体性非整倍性”在此是指由损失或获得染色体的一部分(例如,部分单体性和部分三体性)而引起的遗传物质的不平衡,并且涵盖由易位、缺失和插入引起的不平衡。
使用等位基因比率估计胎儿分数
对于预定多态位点处的两个等位基因中的每一者而言,胎儿cfDNA在母体样品中的相对丰度可以被确定,作为映射到参考基因组上的目标核酸序列的独特序列标签的总数的参数。在一个实施方案中,针对每个信息性等位基因(等位基因x)如下计算胎儿和母体核酸混合物中胎儿核酸的分数:
等式1
并且计算针对样品的胎儿分数,作为所有信息性等位基因的胎儿分数平均值。任选地,针对每个信息性等位基因(等位基因x),如下计算胎儿和母体核酸混合物中胎儿核酸的分数:
等式2
为了补偿两个胎儿等位基因的存在,一个被母体背景遮蔽。
通过对预先确定的多态序列进行测序来确定胎儿分数
关于通过对预先确定的多态序列进行测序来确定胎儿分数的更多细节提供如下。
参见图7,操作720、730、740以及760展示通过对经过PCR扩增的多态目标核酸进行大规模平行测序来确定一个母体生物样品中的胎儿核酸的分数的一个工艺流程。在步骤720中,从一个受试者获得包含胎儿和母体核酸的 混合物的母体样品。该样品是从一个怀孕女性(例如孕妇)获得的母体样品。其他母体样品可以来自于哺乳动物,例如母牛、马、狗或猫。如果受试者是人类,那么样品可以在妊娠的第一个或第二个三月期获取。任何母体生物样品都可以用作包含在细胞中或无细胞的胎儿和母体核酸的来源。在某些实施方案中,有利的是获得包含无细胞核酸(cfDNA)的母体样品。优选地,该母体生物样品是生物学流体样品。优选地,该母体样品是选自血液、血浆、血清、尿以及唾液的孕妇样品。在某些实施方案中,该母体样品是血浆样品。
在步骤720中,胎儿和母体核酸的混合物从例如血浆等样品部分进一步处理,以获得包含胎儿和母体核酸(例如cfDNA)的纯化混合物的样品。用于处理母体样品的方法在本文其他地方描述。
在步骤730中,胎儿和母体cfDNA的纯化混合物的一部分用于扩增多个多态目标核酸,每一个多态目标核酸都包含一个多态位点。在某些实施方案中,这些目标核酸各自包括SNP。在其他实施方案中,这些目标核酸各自包含一对串联SNP。在另外的其他实施方案中,每个目标核酸都包含STR。目标核酸中所包含的多态位点包括而不限于单核苷酸多态性(SNP)、串联SNP、小规模多碱基缺失或插入(称为IN-DELS,也称为缺失插入多态性或DIP)、多核苷酸多态性(MNP)、短串联重复片段(STR)、限制性片断长度多态性(RFLP),或包括染色体中任何其他序列变化的多态性。在某些实施方案中,该方法所涵盖的多态位点位于常染色体上,由此能够确定与胎儿性别无关的胎儿分数。与除染色体13、18、21以及Y以外的染色体相关联的多态性也可以用于在此描述的方法中。
多态性可以是指示性的,信息性的,或两者。指示性多态性表明母体样品中存在胎儿无细胞DNA。举例来说,具体的遗传序列(例如SNP)越多,一种方法就越容易将其存在转化成具体的色彩强度、色彩密度或可检测并且可测量并且表明具体的DNA区段和/或具体的多态性(例如胚胎的SNP)的存在、不存在以及量的某些其他性质。关于本发明,这些方法不是使用一个基因组中的所有可能的SNP进行,而是使用预先选定的很可能识别出母亲与胎儿之间 的序列差异的多态性(即信息性多态性)来进行。信息性多态位点通过等位基因的序列的差异和可能的等位基因中的每一个的量来识别。通过在此描述的测序方法产生的读数所涵盖的任何多态位点都可以用于确定胎儿分数。
使用样品中胎儿和母体核酸(例如cfDNA)混合物的一部分被用作对包含至少一个SNP的目标核酸进行扩增的模板。在某些实施方案中,每一个目标核酸都包括单个(即一个)SNP。包含SNP的目标核酸序列可以从可公开访问的数据库获得,这些数据库包括但不限于万维网地址是wi.mit.edu的人类SNP数据库、万维网地址是ncbi.nlm.nih.gov的NCBI dbSNP主页、万维网地址lifesciences.perkinelmer.com、万维网地址是appliedbiosystems.com的Life TechnologiesTM(加利福尼亚州卡尔斯巴德市(Carlsbad,CA))的应用生物系统(Applied Biosystems)、万维网地址是celera.com的Celera人类SNP数据库、万维网地址是gan.iarc.fr的基因组分析组(GAN)的SNP数据库。在一个实施方案中,选择用来富集胎儿和母体cfDNA的SNP是选自帕克斯(Pakstis)等人(帕克斯等人,人类遗传学(Hum Genet)127:315-324[2010])描述的92个个别识别SNP(IISNP)的群组,这些SNP已经显示遍及群体在频率上具有非常小的变化(Fst<0.06)并且在全世界是具有高度信息性,平均杂合性≥0.4。本发明方法所涵盖的SNP包括连接和未连接的SNP。可应用或适用于在此描述的方法的其他可用SNP披露于美国专利申请号20080070792、20090280492、20080113358、20080026390、20080050739、20080220422以及20080138809中,这些专利申请通过引用以其全文结合于此。每一个目标核酸包含至少一个多态位点,例如单SNP,该多态位点不同于在另一个目标核酸上存在的多态位点,从而产生含有足够数目的多态位点的一组多态位点,例如SNP,其中至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19个、至少20个、至少25个、至少30个、至少40个或更多个是信息性的。举例来说,一组SNP 可以被配置为包含至少一个信息性SNP。在一个实施方案中,目标是进行扩增的SNP是选自rs560681、rs1109037、rs9866013、rs13182883、rs13218440、rs7041158、rs740598、rs10773760、rs4530059、rs7205345、rs8078417、rs576261、rs2567608、rs430046、rs9951171、rs338882、rs10776839、rs9905977、rs1277284、rs258684、rs1347696、rs508485、rs9788670、rs8137254、rs3143、rs2182957、rs3739005以及rs530022。在一个实施方案中,该组SNP包括至少3个、至少5个、至少10个、至少13个、至少15个、至少20个、至少25个、至少30个或更多个SNP。在一个实施方案中,该组SNP包括rs560681、rs1109037、rs9866013、rs13182883、rs13218440、rs7041158、rs740598、rs10773760、rs4530059、rs7205345、rs8078417、rs576261以及rs2567608。包含SNP的多态核酸可以使用在实例24中提供并且披露为SEQ ID NOs:63-118的例示性引物对来扩增。
在其他实施方案中,每一个目标核酸包含两个或更多个SNP,即每一个目标核酸包含串联SNP。优选地,每一个目标核酸包含两个串联SNP。串联SNP作为单一单元(例如,作为短单体型)加以分析,并且在此作为具有两个SNP的多个集合而提供。为识别出适合的串联SNP序列,可以搜索国际人类基因组单体型图团体(Intemational HapMap Consortium)数据库(国际人类基因组单体型图计划(The International HapMap Project),自然(Nature)426:789-796[2003])。该数据库可以在万维网上hapmap.org处获得。在一个实施方案中,目标用于进行扩增的串联SNP是选自串联SNP对的以下集合:rs7277033-rs2110153;rs2822654-rs1882882;rs368657-rs376635;rs2822731-rs2822732;rs1475881-rs7275487;rs1735976-rs2827016;rs447340-rs2824097;rs418989-rs13047336;rs987980-rs987981;rs4143392-rs4143391;rs1691324-rs13050434;rs11909758-rs9980111;rs2826842-rs232414;rs1980969-rs1980970;rs9978999-rs9979175;rs1034346-rs12481852;rs7509629-rs2828358;rs4817013-rs7277036;rs9981121-rs2829696;rs455921-rs2898102;rs2898102-rs458848;rs961301-rs2830208;rs2174536-rs458076;rs11088023-rs11088024;rs1011734-rs1011733; rs2831244-rs9789838;rs8132769-rs2831440;rs8134080-rs2831524;rs4817219-rs4817220;rs2250911-rs2250997;rs2831899-rs2831900;rs2831902-rs2831903;rs11088086-rs2251447;rs2832040-rs11088088;rs2832141-rs2246777;rs2832959-rs9980934;rs2833734-rs2833735;rs933121-rs933122;rs2834140-rs12626953;rs2834485-rs3453;rs9974986-rs2834703;rs2776266-rs2835001;rs1984014-rs1984015;rs7281674-rs2835316;rs13047304-rs13047322;rs2835545-rs4816551;rs2835735-rs2835736;rs13047608-rs2835826;rs2836550-rs2212596;rs2836660-rs2836661;rs465612-rs8131220;rs9980072-rs8130031;rs418359-rs2836926;rs7278447-rs7278858;rs385787-rs367001;rs367001-rs386095;rs2837296-rs2837297;以及rs2837381-rs4816672。
在一个实施方案中,使用样品中胎儿和母体核酸(例如cfDNA)混合物的一部分作为用于对包含至少一个STR的目标核酸进行扩增的模板。在某些实施方案中,每一个目标核酸包括单(即一个)SNP。STR基因座在基因组中几乎每个染色体上都可以找到并且可以使用多种聚合酶链反应(PCR)引物进行扩增。四核苷酸重复片段由于在PCR扩增中的保真度而在法医科学家当中为优选,不过也使用某些三核苷酸和五核苷酸重复片段。有关STR、公开的PCR引物、常用多重系统以及相关群体数据的参考、事实以及序列信息的明细表编辑在STRBase中,STRBase可以通过万维网ibm4.carb.nist.gov:8800/dna/home.htm访问。来自(http://www2.ncbi.nlm.nih.gov/cgi-bin/genbank)的关于常用STR基因座的序列信息也可以通过STRBase获得。可用于分析STR基因座的商业试剂盒通常提供全部必要的反应组分和扩增所需要的对照。STR多重系统允许在单个反应中同时扩增多个不重叠的基因座,这实质性地增加了通过量。使用多色荧光检测,甚至重叠的基因座也可以多重进行。遍及人类基因组广布的串联重复DNA序列的多态性使这些序列成为重要的遗传标记物,用于基因定位研究、连接分析以及人类识别测试。因为STR的多态性高,所以大多数个体将是杂合型,即, 大多数人拥有两个等位基因(版本)——一个由每个亲代遗传而来——每个具有不同的重复数目。包含STR的PCR产物可以使用人工、半自动化或自动化方法来分离和检测。半自动化系统是基于凝胶的,并且将电泳、检测以及分析组合成一个单元。在半自动式系统上,凝胶装配和样品加载仍然是人工过程;然而,一旦样品加载在凝胶上,电泳、检测以及分析将自动进行。当荧光标记的片段迁移通过固定点处的检测器并且可以随着收集它们来观察到它们时,“实时”进行数据收集。顾名思义,毛细管电泳是在微细管中而非在玻璃板之间进行。一旦将样品、凝胶聚合物和缓冲液加载于仪器上,则毛细管充满凝胶聚合物并且自动加载样品。因此,非母体遗传的胎儿STR序列将在重复数目上与母体序列不同。扩增这些STR序列可以产生一种或两种与母体等位基因(和母体遗传的胎儿等位基因)相对应的主要扩增产物,和一种与非母体遗传的胎儿等位基因相对应的次要产物。这项技术于2000年首次报导(普洱(Pertl)等人,人类遗传学(Human Genetics)106:45-49[2002])并且随后已经使用实时PCR同时识别多种不同STR区域而得到发展(Liu等人,Acta Obset Gyn Scand 86:535-541[2007])。已经使用各种尺寸的PCR扩增子来辨别循环胎儿和母体DNA物质的对应粒径分布,并且已经展示孕妇血浆中胎儿DNA分子通常比母体DNA分子短(Chan等人,临床化学(Clin Chem)50:8892[2004]。循环胎儿DNA的尺寸分级分离已经证实,循环胎儿DNA片段的平均长度<300bp,而估计母体DNA在约0.5 Kb与1 Kb之间(Li等人,临床化学,50:1002-1011[2004])。本发明提供了一种用于在一个母体样品中确定胎儿核酸分数的方法,该方法包含确定位于一个多态miniSTR位点的至少一个胎儿和一个母体等位基因的拷贝量,miniSTR可以经过扩增以产生长度大约是循环胎儿DNA片段的尺寸(例如小于约250个碱基对)的扩增子。在一个实施方案中,胎儿分数可以通过一种包括对经过扩增的多态目标核酸的至少一部分进行测序的方法确定,每一个目标核酸都包含一个miniSTR。位于信息性STR位点的胎儿和母体等位基因通过其不同的长度,即,重复数目来辨别,并且胎儿分数可以通过位于该位点的胎儿母体等位基因的量的比率百分比来计算。该方法可以使用一 个信息性miniSTR或任何数目的信息性miniSTR的组合来确定胎儿核酸的分数。在一个实施方案中,该方法包括确定至少位于一个多态miniSTR的至少一个胎儿和至少一个母体等位基因的拷贝数,该miniSTR经过扩增以产生小于约300 bp、小于约250 bp、小于约200 bp、小于约150 bp、小于约100 bp或小于约50 bp的扩增子。在另一个实施方案中,通过对miniSTR进行扩增所产生的扩增子小于约300 bp。在另一个实施方案中,通过对miniSTR进行扩增所产生的扩增子小于约250 bp。在另一个实施方案中,通过对miniSTR进行扩增所产生的扩增子小于约200 bp。信息性等位基因的扩增包括使用miniSTR引物,这些引物可以对尺寸减小的扩增子进行扩增以检测小于约500 bp、小于约450 bp、小于约400 bp、小于约350 bp、小于约300碱基对(bp)、小于约250 bp、小于约200 bp、小于约150 bp、小于约100 bp或小于约50 bp的STR等位基因。使用miniSTR引物产生的尺寸减小的扩增子被称为miniSTR,这些miniSTR根据与它们已经映射的基因座相对应的标记物名称识别。在一个实施方案中,miniSTR引物包括针对在可商购的STR试剂盒中发现的所有13个CODIS STR基因座,除D2S1338、Penta D和pentaE之外,已经允许对扩增子尺寸最大程度地尺寸减小的miniSTR引物(布特勒(Butler)等人,法医学杂志(J ForensicSci)48:1054-1064[2003])、如库柏(Coble)和布特勒所述的未与CODIS标记物连接的miniSTR基因座(库柏和布特勒,法医学杂志50:43-53[2005])以及已经在NIST表征的其他miniSTR。有关在NIST表征的miniSTR的信息可以经由万维网cstl.nist.gov/biotech/strbase/newSTRs.htm获得。任一对miniSTR引物或两对或更多对miniSTR引物的组合可用于扩增至少一个miniSTR。
扩增胎儿和母体核酸(例如cfDNA)混合物中的目标核酸是通过使用PCR或如在本申请的其他地方描述的变异的任何方法实现。扩增这些目标序列是使用每一个能够在多重PCR反应中扩增包括多态位点(例如SNP)的一个目标核酸序列的引物对实现的。多重PCR反应包括将至少2个、至少三个、至少3个、至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少40个或更多个引物集合组合于同一个反应中,以量化在同一个测序反应 中包括至少两个、至少三个、至少5个、至少10个、至少15个、至少20个、至少25个、至少30个、至少40个或更多个多态位点的经过扩增的目标核酸。引物集合的任何小组都可以被配置为扩增至少一个信息性多态序列。
引物被设计成与一个接近cfDNA上的SNP位点的序列杂交以确保该SNP位点包括在通过测序仪产生的读数的长度内。如实例中所提供,用于识别任一个多态位点的引物集合中的两个引物中的至少一个以足够接近多态位点的方式杂交,以使该多态位点涵盖在通过在伊鲁米纳分析仪GII上进行大规模平行测序所产生的36 bp读数内,并且产生长度足以在成簇形成期间进行桥式扩增的扩增子。因此,引物被设计成能产生至少110 bp的扩增子,这些扩增子在与用于成簇扩增的通用适配子(加利福尼亚州圣地亚哥市伊鲁米纳公司(Illumina Inc.,San Diego,CA))组合时产生至少200 bp的DNA分子。在表33中给出的SNP用于在一个多重检验中同时扩增13个目标序列。在表33中提供小组是一个例示性SNP小组。可以采用更少或更多的SNP来针对多态目标核酸富集胎儿和母体DNA。可以使用的额外的SNP包括在表34中给出的SNP。SNP等位基因用粗体展示并且加下划线。可用于根据本发明的方法确定胎儿分数的其他SNP包括rs315791、rs3780962、rs1410059、rs279844、rs38882、rs9951171、rs214955、rs6444724、rs2503107、rs1019029、rs1413212、rs1031825、rs891700、rs1005533、rs2831700、rs354439、rs1979255、rs1454361、rs8037429和rs1490413。这些SNP已经通过TaqMan PCR针对确定胎儿分数来分析,并且披露于美国专利申请公开2010-0010085中。
每一个引物集合中的正向或反向引物与一个足够接近所述多态位点的DNA序列杂交以包括在通过对经过扩增的预先选定的多态核酸进行所述大规模平行测序所产生的序列读数内。序列读数的长度与具体的测序技术有关。大规模平行测序方法提供了尺寸从几十碱基对到数百碱基对变化的序列读数。每一个引物集合中的至少一个引物被设计成能识别在20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、 约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp的序列读数内存在的一个多态位点。在某些实施方案中,每一个所述引物集合中的至少一个引物被设计成能识别在约25bp、约40bp、约50bp或约100bp的序列读数内存在的一个多态位点。
循环无细胞DNA约<300bp。因此,引物集合被设计成能与长度平均多达约300bp的多态序列杂交并且对其进行扩增,其中胎儿DNA长度平均是约170 bp。在某些实施方案中,引物集合与DNA杂交,产生多达约300 bp的扩增子。在其他实施方案中,引物集合与所述DNA序列杂交,产生至少约100bp、至少约150bp、至少约200bp的扩增子。引物集合可以与在相同染色体上存在的DNA序列杂交或与在不同染色体上存在的DNA序列杂交。举例来说,一个或多个引物集合可以与在相同染色体上存在的序列杂交。可替代地,两个或更多个引物集合与在不同染色体上存在的序列杂交。在一个实施方案中,引物对在染色体1到22中的一个或多个上存在的多态序列进行扩增。在某些实施方案中,引物集合不与在染色体13、18、21、X或Y上存在的DNA序列杂交。
在步骤740(图7)中,使用所扩增的多态序列的一部分或全部来制备用于以所述平行方式测序的测序文库。在一个实施方案中,制备文库以便使用伊鲁米纳的基于可逆终止子的测序化学技术合成法进行测序。
在步骤740中,确定胎儿分数所需要的序列信息使用任一种已知的DNA测序方法来获得。优选地,在此描述的方法采用下一代测序技术(NGS)来提供如在本申请的其他地方所描述的可计数的序列标签。测序可以是合成法大规模平行测序。优选地,合成法大规模平行测序使用可逆染料终止子。可替代地,大规模平行测序可以是连接法测序,或单分子测序。
对所扩增的目标多态核酸进行部分测序,并且对包含预定长度(例如36 bp)的读数、映射到已知参考基因组的序列标签进行计数。仅仅与参考基因组独特比对的序列读数作为序列标签进行计数。在一个实施方案中,参考基因组是包含多态目标核酸(SNP)序列的人工目标序列基因组。在一个实施方案中,参考基因组是人工SNP参考基因组。在另一个实施方案中,参考基因组是人工 STR参考基因组。在又一个实施方案中,参考基因组是人工串联STR参考基因组。人工参考基因组可以使用目标多态核酸序列编辑。人工参考基因组可以包括每一个包含一种或多种不同类型的多态序列的多态目标序列。举例来说,人工参考基因组可以包括包含SNP等位基因和/或STR的多态序列。在一个实施方案中,参考基因组是人类参考序列基因组NCBI36/hg18序列,其在万维网genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105可获得。其他公开的序列信息来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室(European Molecular Biology Laboratory))以及DDBJ(日本DNA数据库)。在另一个实施方案中,参考基因组包括人类参考基因组NCBI36/hg18序列和包括目标多态序列的人工目标序列基因组,例如SNP基因组。通过将映射标签的序列与参考基因组的序列进行比较来确定所测序的核酸(例如cfDNA)分子的染色体起点可实现序列标签的映射,并且不需要具体的遗传序列信息。多种计算机算法可以用于比对序列,包括而不限于BLAST(奥茨秋(Altschul)等人,1990)、BLITZ(MPsrch)(斯特罗科和柯林斯(Sturrock&Collins),1993)、FASTA(普尔逊和李普曼(Pearson&Lipman),1988)、BOWTIE(郎格米(Langmead)等人,基因组生物学(Genome Biology)10:R25.1-R25.10[2009])、或ELAND(美国加利福尼亚州圣地亚哥市伊鲁米纳公司(Illumina,Inc.,San Diego,CA,USA))。在一个实施方案中,对血浆cfDNA分子的以克隆方式扩增的拷贝的一端进行测序并且通过伊鲁米纳基因组分析仪的生物信息学比对分析加以处理,伊鲁米纳基因组分析仪使用核苷酸数据库(ELAND)软件的大规模高效比对来进行。在包括使用NGS测序方法确定存在或不存在非整倍性和胎儿分数的方法的实施方案中,为确定非整倍性而对测序信息进行的分析可允许较小程度的错配(每个序列标签0到2个错配),以解释参考基因组与混合样品中的基因组之间可能存在的微小多态性。为确定胎儿分数而对测序信息进行的分析可以允许较小程度的错配,这取决于多态序列。举例来说,如果多态序列是STR,那么可以允许较小程度的错配。在多态序列是SNP的情况下,首先对与位于SNP位点的两个等位基因中的任一个精 确匹配的所有序列进行计数并且从剩余读数中过滤掉,对于剩余读数,可以允许较小程度的错配。可以如在此所描述,或者使用采用将感兴趣的染色体的序列标签的中位数相对于其他常染色体中每一个的标签的中位数归一化(范(Fan)等人,美国国家科学院院刊(Proc Natl Acad Sci)105:16266-16271[2008])或比较与每一个染色体进行比对的独特读数的数目和与所有染色体进行比对的读数总数以得出每一个染色体的基因组表达百分比的替代分析,确定与每一个染色体进行比对的序列读数的数目的量化以确定染色体非整倍性。产生“z分数”以表示感兴趣的染色体的基因组表达百分比与相同染色体在整倍体对照组之间的平均表达百分比之间的差异除以标准差(赵(Chiu)等人,临床化学(Clin Chem)56:459-463[2010])。在另一个实施方案中,测序信息可以如2010年1月19日申请的标题是“归一化的生物学检验”的美国临时专利申请案号32047-768.101中所述来确定,该申请通过引用以其全文结合于此。
为确定胎儿分数而对测序信息进行的分析可以允许较小程度的错配,这取决于多态序列。举例来说,如果多态序列是STR,那么可以允许较小程度的错配。在多态序列是SNP的情况下,首先对与位于SNP位点的两个等位基因中的任一个精确匹配的所有序列进行计数并且从剩余读数中过滤掉,对于剩余读数,可以允许较小程度的错配。通过对核酸进行测序来确定胎儿分数的本发明方法可以与其他方法组合使用。
在步骤760中,胎儿分数是基于在参考基因组中所包含的信息性多态位点(例如SNP)上映射到第一等位基因的标签的总数和映射到第二等位基因的标签的总数来确定。举例来说,参考基因组是涵盖了包括SNP rs560681、rs1109037、rs9866013、rs13182883、rs13218440、rs7041158、rs740598、rs10773760、rs4530059、rs7205345、rs8078417、rs576261、rs2567608、rs430046、rs9951171、rs338882、rs10776839、rs9905977、rs1277284、rs258684、rs1347696、rs508485、rs9788670、rs8137254、rs3143、rs2182957、rs3739005以及rs530022的多态序列的人工目标序列基因组。在一个实施方案中,人工参考基因组包括SEQ ID NO:7到62的多态目标序列(参见实例24)。
在另一个实施方案中,人工基因组是涵盖了包含串联SNP的多态序列的人工目标序列基因组。在另一个实施方案中,人工目标基因组涵盖了包含STR的多态序列。人工目标序列基因组的组成将视用于确定胎儿分数的多态序列而变化。因此,人工目标序列基因组不限于在此例证的SNP、串联SNP或STR序列。
信息性多态位点(例如SNP)通过等位基因的序列的差异和可能的等位基因中的每一个的量来识别。胎儿cfDNA以低于母体cfDNA 10%的浓度存在。因此,相对于母体等位基因的主要贡献,存在可以分配给胎儿的等位基因对胎儿和母体核酸混合物的次要贡献。来源于母体基因组的等位基因在此称为主等位基因,并且来源于胎儿基因组的等位基因在此称为次等位基因。用所映射的序列标签的类似水平表示的等位基因代表母体等位基因。对包含SNP并且来源于母体血浆样品的目标核酸进行例示性多重扩增的结果显示于图12中。将信息性SNP与位于多态位点的单一核苷酸变化进行辨别,并且胎儿等位基因通过与母体核酸对胎儿和母体核酸混合物的主要贡献进行比较,其对样品中该混合物的贡献相对次要来辨别。因此,对于预定多态位点处的两个等位基因中的每一者而言,胎儿cfDNA在母体样品中的相对丰度可以被确定,作为映射到参考基因组上的目标核酸序列的独特序列标签的总数的参数。在一个实施方案中,针对每个信息性等位基因(等位基因x),如在本申请的其他地方所述,计算胎儿和母体核酸混合物中胎儿核酸的分数。
使用STR序列和毛细管电泳法估计胎儿分数
因重复数目不同,个体具有不同的STR长度。因为STR的多态性高,所以大多数个体将是杂合型,即,大多数人拥有两个等位基因(版本)——一个由每个亲代遗传而来——每个具有不同的重复数目。非母体遗传的胎儿STR序列将在重复数目上与母体序列不同。扩增这些STR序列可以产生一种或两种与母体等位基因(和母体遗传的胎儿等位基因)相对应的主要扩增产物,和一种与非母体遗传的胎儿等位基因相对应的次要产物。当测序时,可以将所收 集的样品与相应等位基因相关联且进行计数以通过使用等式3确定相对分数。
通过使用荧光标记的引物对纯化的样品进行PCR。可以使用人工、半自动化或自动化电泳法分离并且检测包含STR的PCR产物。半自动化系统是基于凝胶的并且将电泳、检测和分析组合成一个单元。在半自动化系统上,凝胶装配和样品加载仍然是人工程序;然而,一旦样品加载于凝胶上,则电冰、检测和分析自动进行。顾名思义,毛细管电冰是在微细管中而非在玻璃板之间进行。一旦样品、凝胶聚合物和缓冲液加载于仪器上,则毛细管充满凝胶聚合物并且自动加载样品。当荧光标记的片段迁移通过固定点处的检测器并且可以随着收集它们可以观察到它们时,“实时”进行数据收集。共毛细管电冰获得的序列可以通过测量荧光标记波长的程序加以检测。胎儿分数的计算是基于平均所有信息性标记物。信息性标记物是通过电泳图谱上峰值的存在加以识别,这些峰值落在针对所分析的STR的预设数据箱参数内。
针对任何指定信息性标记物的次等位基因的分数是通过次要成分的峰值高度除以主成分的峰值高度总和来计算,并且该分数表示为如下针对每个信息性基因座的百分比:
等式3
会计算针对包含两个或更多个信息性STR的样品的胎儿分数,作为针对两个或更多个信息性标记物所计算的胎儿分数平均值。
使用混合模型估计胎儿分数
在此披露的实施方案中,存在多达四种不同的数据类型(配型情况),它们构成在考虑中的多态性的次等位基因频率数据。
如图13中所显示,情况1和情况2是多态性情况,其中母亲在某一等位基因处是纯合型。在情况1中,如果婴儿和母亲都是纯合型,那么多态性是情况1多态性。此情形典型地不是令人特别感兴趣,因为所收集的数据仅在所分析的多态位点存在一种类型的等位基因。在情况2中,如果母亲是纯合型并且婴儿是杂合型,那么胎儿分数f在名义上由次等位基因计数与覆盖范围的比率 的2倍得到。覆盖范围定义为映射到多态性特定位点的读数或标签(胎儿与母体)总数。情况2中以胎儿和母体样品的分数来对胎儿分数进行近似估计的等式如下:
等式4
在情况3中,其中母亲是杂合型并且婴儿是纯合型的,胎儿分数在名义上是次等位基因计数与覆盖范围的比率的1-2倍。在情况3中,以胎儿和母体样品这二者中总读取数的分数来对胎儿分数进行近似的等式如下:
等式5
最后,在情况4中,其中母亲和胎儿都是杂合型,次等位基因分数应该总是0.5(不包括误差)。对于落在情况4中的多态性,无法推导出胎儿分数。
表7概述如果主等位基因读数的数目是300并且次等位基因读数的数目是200,那么使用等式4和5估计胎儿分数的实例。覆盖范围会是500。
表7:使用配型估计胎儿分数的实例
在某些实施方案中,可采用混合模型将多态性集合分类成两个或更多个所提出的配型情况,并且同时针对这些情况中的每一者从平均等位基因频率估计 胎儿DNA分数。总体而言,混合模型假定具体数据集合是由不同类型的数据的混合组成,其每一个具有它自己的期望的分布(例如正态分布)。该程序试图找到每一类型数据的平均值和可能的其他特征。在此披露的实施方案中,存在多达四种不同的数据类型(配型情况),其构成在考虑中的针对多态性的次等位基因频率数据。
在采用混合模型的某些实施方案中,针对正考虑为多态性的位置计算由等式1给出的一个或多个阶乘矩。例如,使用多个在DNA序列中所考虑的SNP位置计算阶乘矩Fi(或阶乘矩的一个集)。如下文等式10所示,每个不同阶乘矩Fi是对给定位置,针对次等位基因频率ai与覆盖范围di的比率,所考虑的所有不同多态性位置上的总和。如下文等式11所示,这些阶乘矩还涉及与上述四种配型情况中的每一者有关的参数α和pi。确切地说,它们涉及针对每一情况的概率pi,以及由α给定的、在所考虑的多态性的集中的四种情况中每一者的相对量。如所解释,概率pi是在母亲血液中的无细胞DNA中,胎儿DNA的分数的函数。如下文更充分解释,通过计算足够数量的这些阶乘矩,该方法提供足够数量的表达式来求出所有未知量。此情况下的未知量会是在所考虑的多态性种群中,四种情况中的每一者的相对量以及与这些四种情况中的每一者相关的概率(并且由此是胎儿DNA分数)。使用其他版本的混合模型可以获得类似结果。某些版本仅利用落在情况1和情况2中的多态性,其中情况3和情况4的多态性是通过阈值技术加以过滤。
因此,阶乘矩可用作混合模型的一部分,以识别配型的四种情况的任何组合的概率。并且,如所提及,这些概率,或至少针对情况2和情况3的这些概率,直接涉及母亲血液中的总无细胞DNA中的胎儿DNA分数。
还应该提及,由e给定的测序误差可用于降低必须求解的阶乘矩等式的系统复杂性。在这点上,应该认识到测序误差实际上可以具有四种结果中的任一个(对应于位于任何给定的多态性位置的四个可能碱基中的每一个)。
假设在基因组位置j的主等位基因计数是B,在位置j的计数(读数的计数)的一阶统计量。主等位基因,b,是对应的自变量最大值(arg max)。当考 虑一个以上SNP时,使用下标。按以下给出主等位基因计数:
等式6
假设位置j的次等位基因计数是A,在位置j的计数(即,次最高的等位基因计数)的二阶统计量:
A &equiv; A i &equiv; { a j } = w j , i ( 2 ) 等式7
覆盖范围定义为映射到多态性具体位点的总读取数(胎儿与母体)。假设位置j的覆盖范围定义为D:
D≡Dj={di}=Aj+Bj等式8
在这个实施方案中,次等位基因频率A是如等式9中所示的四项的总和。所述的四种杂合性情况提示针对在点(ai,di)的ai个次等位基因计数的分布的以下二项式混合模型,其中di是覆盖范围:
A={αi}~α1数据箱(p1,di)+α2数据箱(p2,di)+α3数据箱(p3,di)+α4数据箱(p4,di)
其中
1=α1234
m=4
等式9
每一项对应于四种配型情况之一。每一项是多态性分数α与次等位基因频率的二项式分布的乘积。这些α表示落在四种情况中每一者中的多态性的分数。每个二项式分布具有相关的概率,p,和覆盖范围,d。情况2的次等位基因概率例如由f/2给定,其中f是胎儿分数。用于使pi与胎儿分数和测序误差率关联的不同模型描述如下。参数αi涉及种群特异性参数并且相对于如亲代的种族和后代,让这些值“浮动”的能力可赋予这些方法额外的鲁棒性。
所披露的实施方案利用针对考虑中的等位基因频率数据的阶乘矩。众所周知,分布平均值是一阶矩。它是次等位基因频率的期望值。方差是二阶矩。它是从等位基因频率平方的期望值计算而来。
对于不同的杂合性情况,以上等式9可以解出胎儿分数。在某些实施方案中,胎儿分数是通过阶乘矩方法解出,其中混合参数可以用矩表示,这些矩可以容易地从观察数据估计出。
跨所有多态性的等位基因频率数据可用于计算第i个阶乘矩Fi(第一阶乘矩F1、第二阶乘矩F2等),如等式10所示。(SNP仅用于实例的目的。其他类型的多态性可如在本申请的其他地方所论述使用。)给定n个SNP位置,则阶乘矩如下定义:
F 1 = 1 n &Sigma; i = 1 n a i d i
F 2 = 1 n &Sigma; i = 1 n a i ( a i - 1 ) d i ( d i - 1 )
F j = 1 n &Sigma; i = 1 n a i ( a i - 1 ) &CenterDot; &CenterDot; &CenterDot; ( a i - j + 1 ) d i ( d i - 1 ) ( d i - j + 1 ) 等式10
如由这些等式所显示,阶乘矩是超过i项(数据集中的个体多态性)的总和,其中数据集中存在n个此类多态性。求和的各项是次等位基因计数ai,和覆盖范围值di的函数。
有用的是,阶乘矩与αi和pi的值有关,如等式11中所说明。阶乘矩可以与{αi,pi}关联,从而
F 1 &ap; &Sigma; i = 1 m &alpha; i p i 1
F 2 &ap; &Sigma; i = 1 m &alpha; i p i 2
F j &ap; &Sigma; i = 1 m &alpha; i p i j
F g &ap; &Sigma; i = 1 m &alpha; i p i g 等式11
从概率pi可以确定胎儿分数f。例如,并且因此,可靠的逻辑可以求出方程组的解,这个方程组使未知量α和p变量与针对跨所考 虑的多个多态性中次等位基因分数的阶乘矩表达式关联。当然,在所披露的实施方案的范围内存在对混合模型求解的其他技术。
当n>2*(要估计的参数数目)时,通过求出由以上关系等式8推导出的方程组中{αi,pi}的解可以识别一个解。显而易见,该问题在数学上变得困难得多,因为g越高,需要估计的{αi,pi}越多。
典型地不可能通过更低胎儿分数下的简单阈值准确地区分情况1与情况2(或情况3与情况4)的数据。通过在点进行区分,可将情况1和情况2的数据容易地与情况3和情况4的数据分离,其中A是次等位基因计数并且D是覆盖范围并且T是阈值。已发现使用T=0.5可表现满意。
注意,采用等式10和等式11的混合模型方法是利用所有多态性的数据,但没有分别说明测序误差。将第一和第二情况的数据从第三和第四情况的数据分离的适当方法可以说明测序误差。
在另外的实例中,提供给混合模型的数据集仅包含针对情况1和情况2的多态性的数据。这些是针对母亲为纯合型的多态性。可采用阈值技术消除情况3和4的多态性。例如,在采用混合模型之前,将其中次等位基因频率大于具体阈值的多态性排除。利用经适当过滤的数据和已按照下文等式13和14化简的阶乘矩,人们能够计算出胎儿分数f,如等式15中所示。注意等式13是针对混合模型的这个实现方式的等式9的再表述。还注意在这个具体实例中,与机器读数有关的测序误差是未知的。作为结果,必须分别求出方程组的误差,e。
图14显示使用这个混合模型的结果和已知胎儿分数(X轴)以及估计的胎儿分数(Y轴)的比较。如果混合模型完美地预测出胎儿分数,那么描绘的结果将遵循短划线。然而,估计的分数明显地好,特别是考虑到大部分数据在应用混合模型之前被排除。
为了进一步详述,可利用若干其他方法对来自等式7的模型进行参数估计。在一些情况下,可以通过将卡方统计量(chi-squared statistic)导数设定为为零来找到易处理的解。在通过直接微分不能够找到容易解的情况下,对二项式概 率分布函数(PDF)或其他近似多项式进行泰勒级数展开可以是有效的。最小卡方估计式已众所周知为有效的。从等式9求矩解的方法可用作迭代法的起始点。可使用以下卡方估计式:
    等式12
其中Pi是计数i的点数。莱卡恩(Le Cam)的迭代方法[“估计和测试性假设的渐近理论(Asymptotic Theory ofEstimation and Testing Hypotheses)”,第三次伯克来数理统计和概率研讨会论文集(Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability),第1卷,伯克来,加利福尼亚(Berkeley CA):加利福尼亚大学出版社(University ofCA Press),1956,第129页到第156页]是使用似然函数中的拉尔夫-牛顿迭代(Ralph-Newton iteration)。
根据另一种应用,论述一种解析混合模型的方法,其涉及对近似β-分布的混合进行操作的期望值最大化方法。
模型1:情况1和2,测序误差未知
考虑仅说明杂合性情况1和2的缩小模型。在这种情况下,混合物分布可写成:
A={ai}~a1Bin(e,di)+a2Bin(f/2,di)
其中
1=α12
m=4           等式13。
并且将方程组:
F1=α1e+(1-α1)(f/2)
F2=α1e2+(1-α1)(f/2)2
F3=α1e3+(1-a1)(f/2)3等式14,
解出e(测序误差率)、α(情况1点的比例)以及f(胎儿分数),其中Fi如以上等式10中所定义。胎儿分数的闭合形式解选择为以下等式的实数解:
f &ap; ( F 1 - 1 ) F 2 &PlusMinus; F 2 4 F 1 3 + F 2 - 3 F 1 ( 2 + F 1 F 2 + 4 F 2 2 ) 2 ( F 1 2 - F 2 ) 等式15,
该解在0与1之间。
为了测量推算式的性能,用设计为{1%,3%,5%,10%,15%,20%以及25%}的胎儿分数和1%的恒定测序误差率来构造哈迪-温博格平衡点(Hardy-Weinberg Equilibrium points)的模拟数据集(αi,di)。1%误差率是所使用的测序机器和方案当前所接受的比率,并且与图15中所示出的伊鲁米纳基因组成部分析器II数据一致。将等式15应用于该数据并且发现除了四个点向上偏差之外,与“已知的”胎儿分数大体一致。令人感兴趣的是,据估计,测序误差率,e,正好高于1%。
模型2:情况1和2,测序误差已知
在下一个混合物模型实例中,再次采用阈值确定或另一种过滤技术来去除属于情况3和4的针对多态性的数据。然而,在这种情况下,测序误差是已知的。此举简化了胎儿分数,f,的所得表达式,如等式16中所示。图16示出了混合物模型的这种版本与等式15所采用的方法相比提供了改良的结果。在随后的等式中,使测序机器误差率为e。
在等式17和18中示出了一种类似的方法。该方法认识到,只有一些测序误差添加到次等位基因计数。然而,每四个测序误差中只有一个应当增加次等位基因计数。图17示出了使用该技术时实际的与估计的胎儿分数之间的非常良好契合性。
因为使用的机器的测序误差率在很大程度上是已知的,所以通过消除作为欲求解的变量的e可降低计算的偏差和复杂性。因此,我们获得了针对胎儿分数F的方程组:
F1=α1e+(1-α1)(f/2)
F2=α1e2+(1-α1)(f/2)2等式16,以便获得解:
f &ap; 2 ( e F 1 - F 2 ) ( e - F 1 ) .
图16显示,使用机器误差率作为已知的参数可减少点向上偏差。
模型3:情况1和2,测序误差已知,改进的误差模型
为了改善该模型中的偏差,我们展开了以上等式的误差模型以说明以下事 实:在杂合性情况1中,不是每个测序误差事件都会增加到次等位基因计数A=ai。此外,我们允许以下事实:测序误差事件可能有助于杂合性情况2的计数。因此,我们通过对以下因子矩关系的系统进行求解来确定胎儿分数f:
F1=α1e/4+(1-α1)(e+f/2)
F 2 = &alpha; 1 ( e 4 ) 2 + ( 1 - &alpha; 1 ) ( e + f / 2 ) 2 等式17。
则该系统的解是:
f &ap; - 2 ( e 2 - 5 e F 1 + 4 F 2 ) ( e - 4 F 1 ) 等式18。
图17示出了使用机器误差率作为已知参数,增强情况1和2的误差模型的模拟数据,使向上偏差大大降低至小于针对低于0.2的胎儿分数的点。
使用胎儿分数对受影响的样品进行分类
在某些实施方案中,采用胎儿分数估计值来进一步表征受影响的样品。在一些情况下,胎儿分数估计值允许将受影响的样品分类为嵌合性、完整的非整倍性或部分的非整倍性。相对于图18的流程图来描绘用于获得该信息的一种计算机实施的方法。可进行这种和相关的方法来同时提供胎儿分数的估计、CNV的确定以及CNV的分类。换言之,可以采用相同的标签来进行这三种功能中的任一种。
为了使用该方法,采用两种评估胎儿分数的模式。一种模式产生NCNFF值,而另一种模式产生CNFF值。如所解释,CNFF值是使用依赖于被确定拥有拷贝数变异的染色体或染色体区段的技术而获得。不需要依赖多态性来计算胎儿分数。用来计算胎儿分数的非多态技术的一个实例描述于实例17中,该实例假设存在全染色体的复制或缺失并且采用以下表达式:
ff(i)=2*NCVjACVjU等式28,
其中j代表非整倍性染色体的识别,并且CV代表从合格样品中获得的用来确定针对NCV的表达式中的平均值和标准差的变异系数。
NCNFF值是使用依赖于不具有拷贝数变异的染色体或染色体区段的技术而获得。换言之,NCN胎儿分数是在假设用来计算胎儿分数的基因组的部分 的正常倍性的情况下,通过可靠地确定胎儿分数的技术来确定。CN胎儿分数是通过假设予以考虑的样品具有非整倍性的一种形式的技术来确定。受影响的染色体或染色体区段的CNV用来计算CN胎儿分数。下文呈现用于其计算的技术。
通过比较NCN胎儿分数的估计值对比CN胎儿分数的估计值,一种方法可确定样品中可能存在的非整倍性的类型。基本上,如果NCN胎儿分数和CN胎儿分数值匹配,那么在用于评估CN胎儿分数的技术中的倍性假设可被视为是真实的。例如,如果计算CN胎儿分数的方法假设样品具有完整的染色体非整倍性,该非整倍性展现一个染色体的一个单一附加拷贝或一个染色体的一个单一缺失,并且NCN胎儿分数值匹配CN胎儿分数值,那么该方法可得出以下结论:该样品展现完整的染色体非整倍性。作出该假设的基础更详细地描述于下文中。
NCN胎儿分数可通过不同的技术来确定。在一些实施方案中,使用参照序列基因组中的所选择的多态性估计NCN胎儿分数。这些技术的实例描述于上文中。在其他实施方案中,NCN胎儿分数使用已知不是非整倍体或者已经确定不是非整倍体的染色体的相对量来确定。举例来说,样品中已知不是非整倍体的染色体可能是男性胎儿中的染色体X。因此,在其他实施方案中,使用包含来自怀有儿子的孕妇的DNA的样品中的X染色体或Y染色体的相对量(例如,这样的染色体的染色体剂量)来确定NCN胎儿分数。儿子的基因组应不包括X染色体的第二拷贝。已知这一点,X染色体DNA的相对量可用于提供胎儿分数的NCN值。在包含女性胎儿DNA的样品中,已知不是非整倍体的染色体可以是已知不与生命相容的染色体。可替代地,对于包含来自男性或女性胎儿的DNA的样品,可以使用序列标签确定染色体剂量(和NCV或NSV)以证实染色体可用于确定NCN胎儿分数,来确定可用于确定NCN胎儿分数的染色体的正常倍数性的存在。
转到图18的流程图1800,比较NCN胎儿分数估计值1802和CN胎儿分数估计值1804。如果它们匹配,如方框1806处所指示,那么该过程得出结论, 并且确定用于估计CN胎儿分数的技术中所含假设是真实的。在不同的实施方案中,该假设为:胎儿的染色体之一中存在三体性或单体性。
另一方面,如果该比较指出,两个胎儿分数的值不匹配(条件1808)并且实际上CN胎儿分数的估计值小于NCN胎儿分数,那么将如方框1810处所指示执行该方法的第二阶段。
在该第二阶段中,该方法确定样品是包含部分的非整倍性还是嵌合性。此外,如果样品包括部分的非整倍性,那么该方法确定非整倍性驻留在非整倍体染色体上的何处。在某些实施方案中,这是通过首先将受影响的染色体装箱成多个基块来实现。在一个实例中,各基块在长度上是约1百万个碱基对。当然,可以使用其他基块长度,如约1千碱基、约10千碱基、约100千碱基等。这些基块不重叠并且跨越该染色体的大部分或所有长度。将这些基块或数据箱彼此相比较,并且该比较提供关于条件的见解。在一种方法中,针对各基块或数据箱,对映射的标签进行计数并且任选地转化成数据箱剂量。如果这些数据箱或基块中的任一者是非整倍体,那么这些计数或数据箱剂量就将其指出。作为单独的数据箱的分析的一部分,可以比较适当的是将来自各个数据箱的信息归一化以说明数据箱间变异,如G-C含量。所得归一化的数据箱可以称为针对归一化的数据箱值的NBV;NBV是染色体区段的一个实例,该染色体区段归一化到映射到具有类似GC含量的区段的GC含量的归一化区段的标签(如以下实例19中)。在一些实施方案中,针对各数据箱计算胎儿分数并且比较胎儿分数值的单独值。各数据箱的该序列分析描绘于图18的方框1812中。如果任何数据箱或基块被识别为具有非整倍性(通过考虑标签密度、胎儿分数或其他信息),那么该方法确定该样品包含部分的非整倍性并且另外地用其中标签计数充分偏离预期值的数据箱来定位该非整倍性。参见方框1814。
然而,如果当分析予以考虑的染色体的单独这些末端时,该方法不识别展现非整倍性的任何染色体区域,那么该方法确定样品包含嵌合性。参见方框1816。
在受影响的样品的感兴趣的染色体上和已知不是非整倍体的染色体(例如,染色体X)上使用多态性,例如SNP,来计算并且比较真实的胎儿分数,以便确定男性胎儿中存在或不存在完整的或部分的非整倍性
如所解释,使用信息多态序列,例如信息SNP,确定的胎儿分数(FF)可用于区分完整的染色体非整倍性与部分的非整倍性。
存在或不存在非整倍性,无论是部分的还是完整的,可以从使用感兴趣的染色体上所存在的多态目标序列确定的胎儿分数的值来确定,并且与使用该样品中不同的染色体上所存在的多态目标序列确定的胎儿分数的值进行比较。在胎儿是男性的样品中,可确定感兴趣的染色体上的FF,并且与同一样品中针对染色体X确定的FF进行比较。例如,给定母体样品来自怀有具有21三体性的男性胎儿的母亲,那么选择多态序列,例如包含至少一个信息SNP的序列,以便呈现在染色体21上和染色体X上;对多态目标序列进行扩增和测序,并且如在本申请的其他地方说明确定胎儿分数。
给定胎儿分数与样品中胎儿染色体的量成比例,那么使用母体样品中三体性染色体上所存在的多态序列确定的胎儿分数将是使用相同母体样品中的男性胎儿中已知不是非整倍体的染色体(例如,染色体X)上的多态序列确定的胎儿分数的1+1/2倍。例如,在正常样品中,当使用染色体21上的多态性组确定胎儿分数(FF21)并且使用染色体X上的多态性组确定胎儿分数(FFX)时,已知染色体X在男性胎儿中是未受影响的,那么FF21=FFX。然而,如果胎儿针对染色体21是三体性的,那么针对三体性染色体21的胎儿分数(FF21)将等于相同样品中染色体X的胎儿分数(FFX)的一又二分之一倍(FF21=1.5*FFX)。于是,如果FF21<FFX,那么分析逻辑可得出以下结论:存在染色体21的部分的缺失和/或存在嵌合性。如果FF21>FFX,那么分析逻辑可得出以下结论:染色体21的一部分有所增加,例如染色体21的部分的复制或倍增或者完整的复制,染色体21在用于由染色体21计算胎儿分数的技术中未进行说明。两个结果之间的差异可一被解决为部分的复制,将产生<1.5*FFX的FF。可替代地,嵌合性的部分的复制、缺失或存在可通过例如增加染色体21上的多态序列数以便沿该染色体的长度获得多个FF值来进行确定,使得针对FF的双重 或多重值的局部存在表明染色体的一部分有所增加。可替代地,如将作为针对嵌合性样品的情况,由多态序列确定的FF在染色体的整个长度上保持不变,表明完整的染色体的量总体增加,但该增加小于针对FFX的增加,如上文所述。在存在整个染色体的损失的情况下,例如染色体X单体性,那么FF单体性=1/2FFX。由信息多态序列获得的胎儿分数值可以被用于与序列剂量和其归一化的剂量值,例如NCV、NSV组合,用于确认存在完整的非整倍性。
由非整倍体序列的染色体剂量计算胎儿分数
根据以下等式计算针对感兴趣的染色体的NCV:
NCV ij = x ij - &mu; ^ j &sigma; ^ j 等式19,
其中对应地为针对合格的样品集中的第j个染色体剂量的估计均数和标准差,而xij是测试样品i的观测第j个染色体剂量。
总体上,针对三体性的染色体剂量将与胎儿分数(ff)成比例地增加。因此,针对含有三体性染色体的样品中的染色体剂量的ff将相对于胎儿分数成比例地增加:
R jA = ( 1 + ff 2 ) R jU 等式20;
针对单体性的染色体剂量将与胎儿分数(ff)成比例地减少。因此,针对含有单体性染色体的样品中的染色体剂量的ff将相对于胎儿分数成比例地减少:
R jA = ( 1 - ff 2 ) R jU 等式21;等式20和21中,RjA是受影响的样品(例如,待测试的母体样品)i中针对染色体j的染色体剂量(xij);ff是未受影响的(合格的)样品U中的预期胎儿分数;并且RjU是未受影响的样品中的染色体剂量。基于以下假设包括因子“2”:等式20中的计算符号为“加号”,即存在感兴趣的染色体的一个额外的拷贝;等式21中的计算符号为“减号”,即缺少感兴趣的染色体的一个完整拷贝。如果另外作出不同的假设(例如,这是感兴趣的染色体的部分的复制),那么因子“2”不代表实际意义。
替代等式19中的染色体剂量RA
NCV jA = R jA - R jU &OverBar; &sigma; jU 等式22
其中的等效表示,并且σjU的等效表示;如下解出ff:
NCV jA = ( 1 + ff 2 ) R jU &OverBar; - R jU &OverBar; &sigma; jU NCV jA = ( 1 - ff 2 ) R jU &OverBar; - R jU &OverBar; &sigma; jU 等式23
NCV jA = ( ff 2 ) R jU &OverBar; &sigma; jU NCV jA = - ( ff 2 ) R jU &OverBar; &sigma; jU 等式24
NCV jA = ff 2 CV jU NCV jA = - ff 2 CV jU 等式25。
因此,可将针对三体性染色体假设的任何染色体的百分比“ff(i)”确定为:
ff(i)=2*NCVjACVjU等式26。
可将针对单体性染色体假设的任何染色体的百分比“ff(i)”确定为:
ff(i)=-2*NCVjACVjU等式27。
等式27的假设是染色体的一个完整拷贝缺失。该染色体对应的NCVjA必然是负数。因此,虽然等式27含有负号,但计算得到的胎儿分数仍然是正数值。
由于胎儿分数不可能是负数,任何染色体的“ff(i)”可以通过以下等式来计算:
ff(i)=2*|NCVjACVjU|等式28
使用胎儿分数来解决无判定
基于第一个基因组的相对序列贡献相对于第二个基因组的贡献来断定确定两个基因组的混合物中所存在的一个或多个序列的表达的显著差异的能力。例如,使用母体样品中的cfDNA的非侵入性产前诊断具有挑战性,因为只有一小部分DNA样品来源于胎儿。针对产前诊断分析,母体DNA的背景形成 了对灵敏度的实际限制,并且因此,母体样品中所存在的胎儿DNA的分数是一个重要参数。通过对DNA分子计数进行的胎儿非整倍性检测的灵敏度取决于胎儿DNA分数和所计数的分子数。
典型地,通过大规模平行测序针对胎儿非整倍性进行分析的母体测试样品中约1%是“无判定”样品,对其而言,不充分的测序信息,例如胎儿序列标签数,阻碍了自信地确定母体样品中存在或不存在一个或多个胎儿非整倍性。“无判定”确定可能由于胎儿cfDNA含量相对于母体贡献给用于提供测序信息样品的含量而言过低以致由合格的样品中所确定的测序信息来辨别非整倍体样品所致。为了确定““无判定”样品是或不是非整倍体样品,凭经验确定和/或例如由NVC值得到胎儿分数,并且用于确定或否定染色体非整倍性的存在。如本文其他部分所述,ff可用于表征测试样品中所存在的非整倍性的类型。例如,针对将“无判定”区设在2.5与4NCV值之间的阈值,具有接近4倍NCV阈值的NCV并且显示具有较低(例如小于3%)胎儿分数的测试样品可能是受影响的样品。反之,具有接近2.5NCV阈值的NCV并且显示具有较高(例如大于40%)胎儿分数的测试样品可能是未受影响的样品。拆分“无判定”样品可能依赖于胎儿分数的一种确定。优选地,根据两种或更多种不同的方法,或由使用利用相同的方法从样品的两个或更多个不同的染色体中确定的NCV来确定胎儿分数,类似地,胎儿分数可用于评定NCV略大于4或略小于NCV 2.5的样品对应地是否可能是假阳性或假阴性判定。
用于确定CNV的设备和系统
对测序数据的分析和源自于其的诊断典型地使用不同的计算机执行的算法和程序来进行。因此,某些实施方案采用涉及在一个或多个计算机系统或其他处理系统中对数据进行存储或通过其进行转移的工艺。本发明的多个实施方案还关于用于进行这些操作的设备。该设备可针对所需目的特别地构造,或其可以是由计算机中存储的计算机程序和/或数据结构选择性地激活或重新配置的通用计算机(或一组计算机)。在一些实施方案中,一组处理器以协作方式和/或同时执行一些或所有叙述的分析操作(例如通过网络或云计算)。用于执 行本文所述的方法的一个处理器或一组处理器可属于不同的类型,包括微控制器和微处理器,如可编程装置(例如CPLD和FPGA)和非可编程装置,如门阵列ASIC或通用微处理器。
另外,某些实施方案关于有形的和/或非暂时性的计算机可读媒体或计算机程序产品,这些媒体或产品包括程序指令和/或数据(包括数据结构),这些程序指令和/或数据(包括数据结构)用于执行不同的由计算机实施的操作。计算机可读媒体的实例包括但不限于半导体存储装置;磁媒体,如磁盘驱动器、磁带;光学媒体,如CD;磁光媒体;以及经过特别配置以存储并且执行程序指令的硬件装置,如只读存储装置(ROM)和随机存取存储器(RAM)。计算机可读媒体可由最终用户直接地控制,或媒体可由最终用户间接地控制。受直接控制的媒体的实例包括位于不与其他机构共享的用户装置和/或媒体处的媒体。受间接控制的媒体的实例包括用户通过外部网络和/或通过提供共享资源的服务(如“云”)而间接地可存取的媒体。程序指令的实例包括机器码(如由编译程序产生的)以及包含可由计算机使用解释器执行的高级代码的文件。
在不同的实施方案中,所披露的方法以及设备中采用的数据或信息是以电子格式提供。这些数据或信息可包括源自于核酸样品的读数和标签、与参照序列的特定区域比对(例如与染色体或染色体区段比对)的这些标签的计数或密度、参照序列(包括仅仅或主要提多态性的参照序列)、染色体和区段剂量、判定(如非整倍性判定)、归一化的染色体和区段值、成对染色体或区段和相应的归一化染色体或区段、咨询建议、诊断等。如本文所使用,以电子格式提供的数据或其他信息可存储在机器上并且在机器之间传输。常规地,呈电子格式的数据以数位形式提供,并且可作为比特和/或字节形式存储在不同的数据结构、列表、数据库等中。该数据可以电子、光学等方式体现。
在一个实施方案中,本发明提供一种计算机程序产品,该产品用于产生指示测试样品中存在或不存在非整倍性(例如胎儿非整倍性)或癌症的输出。该计算机产品可含有用于执行任何一种或多种用于确定染色体异常的上述方法的指令。如所说明,该计算机产品可包括非暂时性的和/或有形的计算机可读 媒体,该计算机可读媒体上具有记录在其上的计算机可执行的或可编译的逻辑(例如指令)以便启动处理器来确定染色体剂量以及在一些情况下存在还是不存在胎儿非整倍性。在一个实例中,该计算机产品包含计算机可读媒体,该计算机可读媒体具有记录在其上的计算机可执行的或可编译的逻辑(例如指令)以便启动处理器来诊断胎儿非整倍性,该计算机产品包含:一个接收程序,用于接收来自母体生物样品的至少一部分核酸分子的测序数据,其中该测序数据包含经计算的染色体和/或区段剂量;计算机辅助逻辑,用于根据该接收的数据分析胎儿非整倍性;以及一个输出程序,用于产生指示该胎儿非整倍性的存在、不存在或种类的输出。
来自予以考虑的样品的测序信息可映射到染色体参照序列以识别许多针对任何一个或多个感兴趣的染色体中每一者的序列标签并且识别许多针对所述任何一个或多个感兴趣的染色体中每一者的归一化区段序列的序列标签。在不同的实施方案中,这些参照序列存储在数据库中,例如关系曲线或目标数据库。
应理解,让一个不使用辅助工具的人来执行本文所披露的方法的计算操作在大多数情况下是不切实际的或甚至不可能的。例如,在无计算装置辅助的情况下将来自样品的单一30bp读数映射到任一个人类染色体可能需要几年的努力。当然,该问题由于可靠的非整倍性判定总体上需要映射一个或多个染色体的数千(例如至少约10,000)或甚至数百万个读数而复杂化。
本文所披露的方法可使用计算机可读媒体来执行,该计算机可读媒体具有存储在其上的计算机可读指令,用于执行用于识别任何CNV,例如染色体或部分的非整倍性的方法。因此,在一个实施方案中,本发明提供一种计算机可读媒体,该计算机可读媒体具有存储在其上的计算机可读指令,用于执行用于鉴别完整的和部分的染色体非整倍性,例如胎儿非整倍性的方法。这些指令可以包括例如用于进行以下操作的指令:(a)获得针对一个样品中的胎儿和母体核酸的序列信息和/或至少暂时性地将这些信息存储在计算机可读媒体中;(b)使用所存储的序列信息从胎儿和母体核酸的混合物中计算机识别许多针对任 何一个或多个选自染色体1-22、X以及Y的感兴趣的染色体中每一者的序列标签,并且识别许多针对该一个或多个感兴趣的染色体中每一者的至少一个归一化染色体序列的序列标签;以及(c)使用针对该一个或多个感兴趣的染色体中每一者识别的序列标签数和针对各归一化染色体序列识别的序列标签数,由计算机计算各感兴趣的染色体的单一染色体剂量。这些指令可以使用一个或多个经过适当地设计或配置的处理器来执行。这些指令可以另外地包括将各染色体剂量与相关阈值进行比较,并且由此确定该样品中存在或不存在任何四种或更多种部分的或完整的不同胎儿染色体非整倍性。如上文所说明,存在许多关于该工艺的变化方案。所有这些变化方案都可以在如此处所述使用处理和存储特征时实施。
在一些实施方案中,这些指令可以进一步包括在针对提供母体测试样品的人类受试者的患者医疗记录中自动地记录关于该方法的信息,如染色体剂量和存在或不存在胎儿染色体非整倍性。该患者医疗记录可以由例如实验室、医师办公室、医院、健康维护组织、保险公司或个人医疗记录网站保存。此外,基于由处理器实施的分析的结果,该方法可进一步涉及开处方、起始和/或改变取得母体测试样品的人类受试者的治疗。这可能涉及对取自该受试者的附加样品进行一种或多种附加测试或分析。
所披露的方法还可以使用计算机处理系统来执行,该计算机处理系统经过调适或配置以执行用于识别任何CNV,例如染色体或部分的非整倍性的方法。因此,在一个实施方案中,本发明提供一种计算机处理系统,其经过调适或配置以执行如本文所述的方法。在一个实施方案中,该设备包含一个测序装置,该测序装置经过调适或配置用于对样品中的至少一部分核酸分子进行测序以获得本文其他部分所述的序列信息类型。该设备还可以包括用于处理样品的装置。这些装置描述于本文其他部分中。
序列或其他数据可直接或间接地输入到计算机中或存储在计算机可读媒体上。在一个实施方案中,计算机系统被直接连接到可读取和/或分析来自样品的核酸序列的测序装置上。得自这些工具的序列或其他信息通过界面提供在计 算机系统中。作为替代方案,由序列存储源,如数据库或其他存储库提供通过系统处理的序列。在用该处理装置后,存储装置或大容量存储装置至少暂时性地缓冲或存储核酸的序列。另外,存储装置可以存储针对不同的染色体或基因组的标签计数等。该存储器还可以存储用于分析存在的序列或映射数据的不同的子程序和/或程序。这些程序/子程序可包括用于执行统计分析的程序等。
在一个实例中,用户向测序装置中提供一个样品。通过连接到计算机的测序装置来收集和/或分析数据。该计算机上的软件允许数据收集和/或分析。数据可存储、显示(通过监视器或其他类似装置)和/或发送到另一位置。可将该计算机连接到因特网,用于将数据传输到远程用户(例如医师、科学家或分析员)所使用的手持型装置中。应理解,可以在传输之前存储和/或分析数据。在一些实施方案中,收集原始数据并且发送给将对该数据进行分析和/或存储的远程用户或装置。可通过因特网进行传输,但也可以通过卫星或其他连接进行。作为替代方案,可以将数据存储在计算机可读媒体上,并且可将该媒体送到最终用户处(例如通过邮件)。该远程用户可处于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或大陆。
在一些实施方案中,这些方法还包括收集关于多个多核苷酸序列的数据(例如读数、标签和/或参照染色体序列)并且将该数据发送到计算机或其他计算系统。例如,可以将该计算机连接到实验室设备,例如样品收集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后,该计算机可收集由实验室装置采集的适当数据。可以在任何步骤,例如在收集时实时、在发送之前、在发送期间或同时或者在发送之后将该数据存储在计算机上。可以将该数据存储在可从该计算机中拔出的计算机可读媒体上。所收集或存储的数据可以从该计算机传输到远程位置,例如通过局域网或广域网,如因特网。在该远程位置处,可如下文所述对所传输的数据进行不同的操作。
可在本文所披露的系统、装置以及方法中存储、传输、分析和/或操作的电子格式化数据的类型如下:
通过对测试样品中的核酸进行测序获得的读数
通过将读数与参照基因组或其他参照序列进行比对获得的标签
该参照基因组或序列
序列标签密度-针对参考基因组或其他参照序列的两个或更多个区域(典型地为染色体或染色体区段)中的每一者的计数或标签数
针对感兴趣的特定染色体或染色体区段的归一化染色体或染色体区段的一致性
针对获自感兴趣的染色体或区段和相应的归一化染色体或区段的染色体或染色体区段(或其他区域)的剂量
用于判定染色体剂量受影响、未受影响或无判定的阈值;
染色体剂量的实际判定
诊断(与这些判定相关的临床条件)
源自于这些判定和/或诊断的针对其他测试的建议
源自于这些判定和/或诊断的治疗和/或监测计划
这些不同的数据类型可在一个或多个位置使用不同的装置获得、存储、传输、分析和/或操作。处理选择跨越较宽范围。在该范围的一端,在处理该测试样品的位置,例如医生办公室或其他临床环境对所有或多数该信息进行存储和使用。在另一种极端中,在一个位置获得样品,在不同的位置对其进行处理并且可任选地进行测序,在一个或多个不同的位置比对读数并且进行判定,并且在再另一个位置(其可以是获得样品的位置)制作诊断、建议和/或计划。
在不同的实施方案中,利用该测序装置产生这些读数,然后传输到远程站点,在该远程点处对其进行处理以产生非整倍性判定。在该远程位置,举例而言,将这些读数与参照序列进行比对以产生标签,对其进行计数并且分配给感兴趣的染色体或区段。同样在该远程位置,使用相关的归一化染色体或区段将这些计数转化成剂量。再进一步,在该远程位置,将这些剂量用来产生非整倍性判定。
可在不同位置采用的处理操作如下:
样品收集
测序前的样品处理
测序
分析序列数据并且推导非整倍性判定
诊断
向患者或护理供应商报告诊断和/或判定
制定针对进一步治疗、测试和/或监测的计划
执行该计划
咨询
这些操作中的任何一个或多个可如本文其他部分所述自动化。典型地,测序和对序列数据进行分析以及推导非整倍性判定将在计算机上执行。其他操作可人工地或自动地执行。
可以进行样品收集的位置的实例包括保健人员办公室、诊所、患者家(其中提供样品收集工具或试剂盒)以及移动护理车辆。可以进行测序前样品处理的位置的实例包括保健人员办公室、诊所、患者家(其中提供样品处理装置或试剂盒)、移动护理车辆以及非整倍性分析供应商的设施。可以进行测序的位置的实例包括保健人员办公室、诊所、保健人员办公室、诊所、患者家(其中提供样品测序装置和/或试剂盒)、移动护理车辆以及非整倍性分析供应商的设施。进行测序的位置可提供有专用网络连接以用于传输呈电子格式的测序数据(典型地为读数)。该连接可以是有线的或无线的,而且已经并且可能经过配置以便在传输到处理点之前将数据发送到可以处理和/或汇总数据的站点。数据汇总器可以由保健组织维护,如健康维护组织(HMO)。
分析和/或推导操作可在任何上述位置,或作为替代方案,在致力于计算和/或核酸序列数据分析服务的另一远程站点进行。这些位置包括例如集群,如通用服务器区、非整倍性分析服务业设施等。在一些实施方案中,用于执行分析的计算装置是租借或租用的。计算资源可以是处理器在因特网可存取的集合的一部分,如俗称为云的处理资源。在一些情况下,计算由彼此关联的或未关联的平行或大规模平行处理器群组来执行。处理可以使用分布式处理来实现, 如集群计算、网格计算等。在这些实施方案中,计算资源的集群或网格集中形成由一起作用以执行本文所述的分析和/或推导的多个处理器或计算机构成的一个超级虚拟计算机。这些技术以及更多常规巨型计算机可用于处理如本文所述的序列数据。各自为依赖于处理器计算机的平行计算形式。在网格计算的情况下,这些处理器(经常是完整的计算机)通过网络(私人的、公共的或因特网)通过常规网络协议(如以太网)连接。相反,巨型计算机具有由本地高速计算机总线连接的许多个处理器。
在某些实施方案中,在与分析操作相同的位置处产生诊断(例如胎儿患有唐氏综合征或患者患有特定类型的癌症)。在其他实施方案中,其是在不同的位置执行。在一些实例中,报告诊断是在获取样品的位置处执行,但情况也不一定如此。可产生或报告诊断和/或制定计划的位置的实例包括保健人员办公室、诊所、计算机可存取的因特网站点以及具有连接到网络的有线或无线连接的手持型装置,如手机、平板、智能电话等。进行咨询的位置的实例包括保健人员办公室、诊所、计算机可存取的因特网站点、手持型装置等。
在一些实施方案中,在第一个位置进行样品收集、样品处理以及测序操作,并且在第二个位置进行推导操作。然而,在一些情况下,样品收集是在一个位置(例如保健人员办公室或诊所)收集,而样品处理和测序是在一个不同的位置进行,该位置可任选地为进行分析和推导的同一位置。
在不同的实施方案中,以上列出的操作的顺序可由开始样品收集、样品处理和/或测序的用户或机构来触发。在已开始执行一个或多个这些操作之后,其他操作可以自然地随后。例如,测序操作可使读数被自动地收集并且发送到处理装置,然后该处理装置通常自动地并且可能在无其他用户干预的情况下进行序列分析和推导非整倍性操作。在一些实现方式中,然后将该处理操作的结果自动地递送(可能伴随重新格式化作为诊断)到系统组件或机构,该系统组件或机构处理信息并且报告给健康专家和/或患者。如所说明,该信息,可能与咨询信息一起,还可以经过自动处理以产生治疗、测试和/或监测计划。因此,开始早期操作可以触发端对端顺序,在其中向健康专家、患者或其他相关团体 提供诊断、计划、咨询和/或可用于作用于身体健康状况的其他信息。即使整个系统的各部分在物理上分离并且可能远离例如样品和序列装置的位置,此举也能实现。
图19示出了用于从测试样品中产生判定或诊断的分散系统的一个实现方式。样品收集位置01用于从患者,如怀孕女性或假定的癌症病人处获得测试样品。然后将样品提供到处理和测序位置03,其中可如上文所述对测试样品进行处理和测序。位置03包括用于处理样品的装置以及用于对经过处理的样品进行测序的装置。如本文其他部分所述的测序结果是读数的集合,这些读数典型地以电子格式提供并且提供到网络,如因特网,该网络在图19中以参照编号05指示。
将该序列数据提供到远程位置07处,在其中进行分析和判定产生。该位置可以包括一或多个高效计算装置,如计算机或处理器。在位置07处的计算资源已经完成它们的分析并且从所接收的序列信息产生一个判定后,将该判定分程传递到网络05。在一些实施方式中,不仅在位置07处产生判定,而且还产生相关诊断。然后如图19中所说明将该判定和或诊断通过网络传输并且传回样品收集位置01。如所说明,这只不过是关于如何在不同的位置之间分配与产生判定或诊断相关的不同的操作的许多变化方案之一。一个常见变化方案涉及在单一位置提供样品收集和处理以及测序。另一变化方案涉及在与分析和判定产生相同的位置提供处理和测序。
图20对针对在不同的位置执行不同的操作的选择进行详述。在图20中所述的最全面的意义上,各以下操作是在分开的位置处进行:样品收集、样品处理、测序、读数比对、判定、诊断以及报告和/或计划制定。
在汇总这些操作中的一些的一个实施方案中,在一个位置进行样品处理和测序,并且在一个分开的位置进行读数比对、判定以及诊断。参见图20的由参照字母A标识的部分。在由图20中的字母B标识的另一种实现方式中,样品收集、样品处理以及测序都在同一个位置进行。在该实现方式中,读数比对和判定在第二个位置进行。最后,诊断以及报告和/或计划开展在第三个位置 进行。在由图20中的字母C所述的实现方式中,样品收集在第一个位置处进行,样品处理、测序、读数比对、判定以及诊断都一起在第二个位置处进行,而报告和/或计划制定在第三个位置处进行。最后,在由图20中的字母D所标记的实现方式中,样品收集在第一个位置处进行,样品处理、测序、读数比对以及判定都在第二个位置处进行,而诊断以及报告和/或计划处理在第三个位置处进行。
在一个实施方案中,本发明提供一种系统,用于确定包括胎儿和母体核酸的母体测试样品中存在或不存在任何一种或多种不同的完整的胎儿染色体非整倍性,该系统包括:一个测序器,用于接收核酸样品并且提供得自该样品的胎儿和母体核酸序列信息;一个处理器;以及一个机器可读取存储媒体,包括用于在该处理器上执行的指令,这些指令包括:
(a)用于获得该样品中的这些胎儿和母体核酸的序列信息的代码;
(b)用于使用所述序列信息通过计算机从这些胎儿和母体核酸中识别针对选自染色体1-22、X以及Y的任何一个或多个感兴趣的染色体中的每一个的许多序列标签,并且识别针对所述任何一个或多个感兴趣的染色体中的每一个的至少一个归一化染色体序列或归一化染色体区段序列的许多序列标签的代码;
(c)用于使用针对所述任何一个或多个感兴趣的染色体中的每一个所识别的所述序列标签数以及针对各归一化染色体序列或归一化染色体区段序列识别的所述序列标签数来计算针对该任何一个或多个感兴趣的染色体中的每一个的单一染色体剂量的代码;以及
(d)用于比较针对该任何一个或多个感兴趣的染色体中的每一个的各单一染色体剂量与针对该任何一个或多个感兴趣的染色体中的每一个的相应的阈值,并且由此确定该样品中存在或不存在任何一种或多种完整的不同胎儿染色体非整倍性的代码。
在一些实施方案中,用于计算针对任何一个或多个感兴趣的染色体中的每一个的单一染色体剂量的代码包括用于将所选择的一个感兴趣的染色体的 染色体剂量计算为针对所选择的感兴趣的染色体的序列标签数与针对所选择的感兴趣的染色体的相应的至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签数的比率的代码。
在一些实施方案中,该系统进一步包括用于重复计算针对任何一个或多个感兴趣的染色体的任何一个或多个区段的任何其余染色体区段中的每一个的染色体剂量的代码。
在一些实施方案中,选自染色体1-22、X以及Y的该一个或多个感兴趣的染色体包括至少二十个选自染色体1-22、X以及Y的染色体,并且其中这些指令包括用于确定存在或不存在至少二十种不同的完整的胎儿染色体非整倍性的指令。
在一些实施方案中,该至少一个归一化染色体序列是选自染色体1-22、X以及Y的一组染色体。在其他实施方案中,该至少一个归一化染色体序列是选自染色体1-22、X以及Y的一个单染色体。
在另一实施方案中,本发明提供一种系统,用于确定包括胎儿和母体核酸的母体测试样品中存在或不存在任何一种或多种不同的部分的胎儿染色体非整倍性,该系统包括:一个测序器,用于接收核酸样品并且提供得自该样品的胎儿和母体核酸序列信息;一个处理器;以及一个机器可读取存储媒体,包括用于在该处理器上执行的指令,这些指令包括:
(a)用于获得所述样品中的所述胎儿和母体核酸的序列信息的代码;
(b)用于使用所述序列信息通过计算机从这些胎儿和母体核酸中识别针对选自染色体1-22、X以及Y的任何一个或多个感兴趣的染色体的任何一个或多个区段中的每一个的许多序列标签,并且识别针对任何一个或多个感兴趣的染色体的所述任何一个或多个区段中的每一个的至少一个归一化区段序列的许多序列标签的代码;
(c)用于使用针对任何一个或多个感兴趣的染色体的所述任何一个或多个区段中的每一个所识别的所述序列标签数以及针对所述归一化区段序列识别的所述序列标签数来计算针对任何一个或多个感兴趣的染色体的所述 任何一个或多个区段中的每一个的单一染色体区段剂量的代码;以及
(d)用于比较针对任何一个或多个感兴趣的染色体的所述任何一个或多个区段中的每一个的所述单一染色体区段剂量中的每一个与针对任何一个或多个感兴趣的染色体的所述任何一个或多个染色体区段中的每一个的相应的阈值,并且由此确定所述样品中存在或不存在一种或多种不同的部分的胎儿染色体非整倍性的代码。
在一些实施方案中,用于计算单一染色体区段剂量的代码包括用于将所选择的一个染色体区段的染色体区段剂量计算为针对所选择的染色体区段所识别的序列标签数与针对所选择染色体区段的相应的归一化区段序列所识别的序列标签数的比率的代码。
在一些实施方案中,该系统进一步包括用于重复计算针对任何一个或多个感兴趣的染色体的任何一个或多个区段的任何其余染色体区段中的每一个的染色体区段剂量的代码。
在一些实施方案中,该系统进一步包括(i)用于针对来自不同的母体受试者的测试样品重复(a)-(d)的代码,以及(ii)用于确定所述样品中的每一个中存在或不存在任何一个或多个不同的部分的胎儿染色体非整倍性的代码。
在本文所提供的任何系统的其他实施方案中,该代码进一步包括用于根据(d)中所确定在针对提供母体测试样品的人类受试者的患者医疗记录中自动地记录存在或不存在胎儿染色体非整倍性的代码,其中使用处理器执行该记录。
在本文所提供的任何系统的一些实施方案中,测序器经过配置以执行下一代测序(NGS)。在一些实施方案中,测序器经过配置以使用合成法测序、利用可逆染料终止子来执行大规模平行测序。在其他实施方案中,测序器经过配置以执行连接法测序。在又其他实施方案中,测序器经过配置以执行单分子测序。
用于确定胎儿分数的设备
可以使用一种用于对样品进行医学分析的设备提供有关一个或两个基因组对核酸混合物所贡献的分数的信息,来进行对来源于测序样品(例如母体样品)的序列标签的分析。举例来说,提供了多种设备对从测序母体样品获得的序列标签进行分析以确定在母体样品中存在的胎儿和母体核酸的混合物中的胎儿核酸分数。所提供的医学设备包括一系列装置,这些装置用于进行如在本申请其他之处所描述用于确定胎儿分数的方法的步骤。
图65展示一种医学分析设备的一个实施方案,该医学分析设备用于在包含胎儿和母体核酸的混合物的母体测试样品中确定胎儿分数。该设备包括:
一个装置(a),用于接收来自所述母体测试样品中的所述胎儿和母体核酸多个序列读数;
一个装置(b),用于将所述多个序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相应的多个序列标签;
一个装置(c),用于识别来自一个或多个感兴趣的染色体或感兴趣的染色体区段的那些序列标签的一个数目,这些染色体或染色体区段选自染色体1-22、X和Y及其区段,并且用于针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个,识别来自至少一个归一化染色体序列或归一化染色体区段序列的那些序列标签的一个数目,以确定一个染色体剂量或染色体区段剂量,其中,所述感兴趣的染色体或感兴趣的染色体区段具有拷贝数变异;以及
一个装置(d),用于使用所述感兴趣的染色体的剂量或所述感兴趣的染色体区段的剂量来确定所述胎儿分数。
优选地,该装置(a)的信号输出端与该装(b)相连接,该装置(b)的信号输出端与该装置(c)相连接,该装置(c)的信号输出端与该装置(d)相连接。
在某些实施方案中,所述拷贝数变异是通过将所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个染色体或染色体区段的所述染色体剂 量与针对所述一个或多个感兴趣的染色体或感兴趣的染色体区段中的每一个染色体或染色体区段的一个相应阈值进行比较来确定的。
胎儿可以带有的拷贝数变异包括完整染色体复制、完整染色体缺失、部分复制、部分倍增、部分插入以及部分缺失。
在某些实施方案中,通过装置(c)确定的染色体或区段剂量计算为针对所述所选定的感兴趣的染色体或区段所识别的序列标签的数目与针对所选定的感兴趣的染色体或区段的相应的至少一个归一化染色体序列或归一化染色体区段序列所识别的序列标签的数目的比率。在某些实施方案中,通过装置(c)确定的所述染色体剂量或区段剂量计算为所述选定的感兴趣的染色体或区段的序列标签密度比与每个所述选定的感兴趣的染色体或区段的至少一个相应归一化染色体序列或归一化染色体区段序列的序列标签密度比的比率。
在某些实施方案中,该设备进一步包括装置(e),该装置(e)用于计算出一个归一化染色体值(NCV)或一个归一化区段值(NSV),其中计算该NCV使该染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联,作为:
NCV iA = R iA - R iU &OverBar; &sigma; iU
其中和σiU对应地是对于在该组合格样品中的第i个染色体剂量的估算平均值以及标准差,并且RiA是针对测试样品中第i个染色体计算出的染色体剂量,其中所述第i个染色体是所述感兴趣的染色体;其中计算该NSV使该染色体区段剂量与在一组合格样品中的相应的染色体区段剂量的平均值进行关联,作为:
NSV iA = R iA - R iU &OverBar; &sigma; iU
其中和σiU对应地是对于在该组合格样品中的第i个染色体区段剂量的估算平均值以及标准差,并且RiA是针对测试样品中第i个染色体区段计算出的染色体区段剂量,其中所述第i个染色体区段是所述感兴趣的染色体区段。优选地,器件(c)的信号输出端与器件(e)连接。
在某些实施方案中,该设备的装置(d)接着根据以下表达式确定胎儿分数:
ff=2×|NCViACViU|
其中ff是胎儿分数值,NCViA是在一个受影响样品(例如,待测试的母体样品)中在第i个染色体上的归一化的染色体值,并且CViU是在这些合格样品中确定的感兴趣的染色体的剂量的变异系数;或根据以下表达式确定胎儿分数:
ff=2×|NSViACViU|
其中ff是胎儿分数值,NSVix是在一个受影响样品(例如,待测试的母体样品)中在第i个染色体区段上的归一化的染色体区段值,并且CViU是在这些合格样品中确定的第i个染色体的剂量的变异系数,其中所述第i个染色体是所述感兴趣的染色体。优选地,装置(e)的信号输出端与器件(d)连接。
在某些实施方案中,感兴趣的染色体是常染色体或者男性胎儿的X染色体,感兴趣的染色体区段选自常染色体或者男性胎儿的X染色体。
在某些实施方案中,该至少一个归一化染色体序列或归一化染色体区段序列是针对一种相关联的感兴趣的染色体或区段所选定的一个染色体或区段,这是通过以下方式进行的,即:(i)识别针对该感兴趣的染色体或区段的多个合格样品;(ii)使用多个潜在的归一化染色体序列或归一化染色体区段序列来针对该所选定的染色体或染色体区段重复计算染色体剂量或染色体区段剂量;并且(iii)单独地或在一种组合中对该归一化染色体序列或归一化染色体区段序列进行选择,从而在所计算的染色体剂量或染色体区段剂量中给出最小的变异性或最大的可分辨性。在某些实施方案中,归一化染色体序列是染色体1到22、X和Y中任意一个或多个的一个单染色体;可替代地,归一化序列是染色体1到22、X和Y中任何染色体的一组染色体。在某些实施方案中,归一化区段序列是染色体1到22、X和Y中任意一个或多个的一个单区段;可替代地,归一化区段序列是染色体1到22、X和Y中任意一个或多个的一组区段。
在某些实施方案中,用于确定胎儿分数的设备进一步包括一个装置,该装置用于将使用染色体剂量或染色体区段剂量确定的所述胎儿分数与使用来 自母体测试样品的胎儿和母体核酸中表现出等位基因不平衡的存在于非所述感兴趣染色体的染色体的一个或多个多态性的信息确定的胎儿分数进行比较。
在某些实施方案中,该设备进一步包括一个测序装置(10),该测序装置(10)被配置为用于对一个母体测试样品中的胎儿和母体核酸进行测序并且获得序列读数。优选地,测序装置(10)的信号输出端与装置(a)连接。
在某些实施方案中,测序装置(10)被配置为用于进行合成法测序。合成法测序可以使用可逆染料终止子进行。在其他实施方案中,测序装置(10)被配置为用于进行连接法测序。在另外的其他实施方案中,测序装置(10)被配置为用于进行单分子测序。
在某些实施方案中,测序装置(10)与装置(a)-(d)位于分开的地点中,并且测序装置(10)的信号输出端与装置(a)通过网络连接。
在某些实施方案中,包括如所述的测序装置的该设备进一步包括装置(11),该装置(11)用于从一个怀孕母亲获取母体测试样品。用于获取母体测试样品的装置(11)与装置(a)-(d)以及(10)可以位于分开的地点中。除包括装置(a)-(d)以及(10)之外,该设备可以进一步包括装置(12),该装置(12)用于从该母体测试样品提取无细胞DNA。在某些实施方案中,用于提取无细胞DNA的装置(12)与测序装置(10)位于同一个地点中,并且用于获取母体测试样品的装置(11)位于一个远程地点中。
在某些实施方案中,该确定胎儿分数的设备还包括一个存储装置,用于至少暂时地存储装置(a)接受的序列读数。优选地,装置(a)的信号输出端与存储装置连接,存储装置的信号输出端与装置(b)连接。
用于确定胎儿分数的额外的设备-对拷贝数变异进行分类
还提供了一种额外的医学分析设备,用于对包含胎儿和母体核酸(例如无细胞DNA)的一个母体样品中的胎儿基因组中的拷贝数变异进行分类。该额外的设备包括用于确定胎儿分数的装置和用于比较通过不同的方法确定的胎儿分数值的装置。该额外的设备使用两个计算出的胎儿分数来对胎儿基因组 中的拷贝数变异进行分类。可以被该设备用于分析的母体样品可以选自血液、血浆、血清或尿样品。在某些实施方案中,母体样品是血浆样品。图66展示此类医学分析设备的一个实施方案。
在一个实施方案中,提供了一种用于对胎儿基因组中的拷贝数变异进行分类的医学分析设备,该设备包括:
装置(1),用于接收来自一个测试样品中的胎儿和母体核酸的序列读数;
装置(2),用于将所述序列读数与一个或多个染色体参考序列进行比对,并且由此提供与这些序列读数相对应的多个序列标签;
装置(3),识别出来自一个或多个感兴趣的染色体的这些序列标签的数目,并且确定该胎儿中的一个第一感兴趣的染色体带有一种拷贝数变异;
装置(4),用于通过一种第一方法来计算一个第一胎儿分数值,该第一方法不使用来自该第一感兴趣的染色体的这些标签的信息;
装置(5),用于通过一种第二方法来计算一个第二胎儿分数值,该第二方法使用来自该第一染色体的这些标签的信息;以及
装置(6),用于将该第一胎儿分数值与该第二胎儿分数值进行比较并且使用该比较对该第一染色体的该拷贝数变异进行分类。
优选地,装置(1)的信号输出端与装置(2)连接,装置(2)的信号输出端与装置(3)连接,装置(2)和(3)的信号输出端与装置(4)连接,装置(2)和(3)的信号输出端与装置(5)连接,并且装置(4)和(5)的信号输出端与装置(6)连接。该第一感兴趣的染色体可以选自染色体1到2、X和Y中的任一个。
在某些实施方案中,该额外的设备还包括一个存储装置,用于至少暂时地存储装置(1)接受的序列读数。优选地,装置(1)的信号输出端与存储装置连接,存储装置的信号输出端与装置(2)连接。
在某些实施方案中,用于计算第一胎儿分数的第一方法的装置(4)包括使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算该第一胎儿分数值的一个组件,所述多态性存在于 非所述第一感兴趣染色体的染色体;和用于计算第二胎儿分数值的该第二方法的装置(5)包括:
(a)组件(5-1),用于计算来自该第一感兴趣的染色体和至少一个归一化染色体序列的序列标签的数目以确定染色体剂量;和
(b)组件(5-2),用于使用该第二方法从该染色体剂量计算该胎儿分数值。在某些实施方案中,装置(2)和(3)的信号输出端与组件(5-1)连接,并且组件(5-1)的信号输出端连接到组件(5-2),并且组件(5-2)的信号输出端与装置(6)连接。
在某些实施方案中,第一方法的装置(4)使用的信息包括通过对预先确定的多态序列进行测序获得的序列标签,所述多态序列的每一个包括所述一个或多个多态位点。第一方法的装置(4)使用的信息也可以不是通过测序方法获得的,例如,通过qPCR、数字PCR、质谱测定法、或毛细管凝胶电泳等非测序方法获得的。
在某些实施方案中,用于第一方法的装置(4)包括使用来自于不具有拷贝数变异的染色体或染色体区段的标签计算该第一胎儿分数值的组件。举例来说,当该第一感兴趣的染色体是染色体21时,可以将使用来自于染色体21的序列标签所确定的胎儿分数与根据来自于男性胎儿中的染色体X的序列标签所确定的胎儿分数进行比较。已知不以非整倍性状态出现,或者通过在此描述的任何方法在测试样品中确定了不是非整倍体(例如通过计算其NCV或NSV来确定)的任何染色体或染色体区段都可以用于通过装置(4)确定胎儿分数。
在某些实施方案中,用于计算该胎儿分数值的该第二方法的装置(5)进一步包括用于计算出一个归一化染色体值(NCV)的组件(5-3),其中用于计算该NCV的该组件(5-3)使该染色体剂量与在一组合格样品中的相应的染色体剂量的平均值进行关联,作为:
NCV iA = R iA - R iU &OverBar; &sigma; iU
其中和σiU对应地是对于在该组合格样品中的第i个染色体剂量的估算平均值以及标准差,并且RiA是针对测试样品中第i个染色体计算出的染色体剂量,其中所述第i个染色体是所述感兴趣的染色体。
优选地,组件(5-1)的信号输出端与组件(5-3)连接,并且组件(5-3)的信号输出端与组件(5-2)连接。
在某些实施方案中,用于通过第二方法从该染色体剂量计算该胎儿分数值的组件(5-2)使用该归一化染色体值。用于计算该胎儿分数值的该第二方法的装置(5)的组件(5-2)根据以下表达式评估该胎儿分数:
ff=2×|NCViACViU|
其中ff是第二胎儿分数值,NCViA是在一个受影响样品(例如,待测试的母体样品)中在第i个染色体上的归一化的染色体值,并且CViU是在所述合格样品中确定的第i个染色体的剂量的变异系数,其中所述第i个染色体是所述感兴趣的染色体。
在某些实施方案中,计算第一胎儿分数的第一方法的装置(4)包括:(a)一个组件(4-1),用于计算来自非所述第一感兴趣染色体的染色体和至少一个归一化染色体序列的序列标签数目以确定该非所述第一感兴趣染色体的染色体的染色体剂量;以及(b)一个组件(4-2),用于通过该第一方法从该染色体剂量计算该第一胎儿分数值;和,计算第二胎儿分数的第二方法的装置(5)包括:(a)一个组件(5-1),用于计算来自该第一感兴趣的染色体和至少一个归一化染色体序列的序列标签数目以确定一个染色体剂量;以及(b)一个组件(5-2),用于通过该第二方法从该染色体剂量计算该第二胎儿分数值。
优选地,第一方法的装置(4)进一步包括一个组件(4-3),第二方法的装置(5)进一步包括一个组件(5-3),组件(4-3)和组件(5-3)分别计算归一化的染色体值(NCV),组件(4-3)和组件(5-3)分别将组件(4-1)和组件(5-1)确定的染色体剂量与一组合格样品中的相应染色体剂量的平均值相关联,作为:
NCV iA = R iA - R iU &OverBar; &sigma; iU
其中和σiU分别是对于该组合格样品中第i个染色体的剂量的估算平均值和标准差,并且RiA是计算的测试样品中第i个染色体的剂量,
其中,对于该第一方法的装置(4),所述第i个染色体是所述非所述第一感兴趣染色体的染色体;对于该第二方法的装置(5),所述第i个染色体是所述第一感兴趣的染色体。
优选地,组件(4-1)的信号输出端与组件(4-3)相连接,并且组件(4-3)的信号输出端与组件(4-2)相连接,其中组件(4-2)通过使用相应归一化的染色体值的所述第一方法从相应染色体剂量计算第一胎儿分数值;组件(5-1)的信号输出端与组件(5-3)相连接,并且组件(5-3)的信号输出端与组件(5-2)相连接,其中组件(5-2)通过使用相应归一化的染色体值的所述第二方法从相应染色体剂量计算第二胎儿分数值。
在某些实施方案中,第一方法的装置(4)的组件(4-2)和第二方法的装置(5)的组件(5-2)通过以下表达式求值:
ff=2×|NCViACViU|
其中ff是胎儿分数值,VCViA是在一个受影响样品(例如,待测试的母体样品)中在第i个染色体上的归一化的染色体值,并且CViU是所述合格样品中第i个染色体的剂量的变异系数;
其中,对于用于该第一方法的装置(4),所述第i个染色体是所述非所述第一感兴趣染色体的染色体;对于用于该第二方法的装置(5),所述第i个染色体是所述第一感兴趣的染色体。优选地,当所述胎儿是男性时,所述非所述第一感兴趣染色体的染色体是X染色体。
在某些实施方案中,比较所述第一胎儿分数值与所述第二胎儿分数值的装置(6)确定两个胎儿分数值是否近似相等。在某些实施方案中,装置(6)进一步包括在所述两个胎儿分数值近似相等时确定所述第二方法中暗含的一种倍数性假设真实的组件。所述第二方法中暗含的所述倍数性假设可以是,所述第一感兴趣的染色体具有一种完整染色体非整倍性,例如,所述第一感兴趣的染色体的完整染色体非整倍性是一种单体性或一种三体性。
在某些实施方案中,所述额外的设备进一步包括分析所述第一感兴趣的染色体的标签信息的一个装置(7),以确定是否(i)第一感兴趣的染色体带有一种部分非整倍性,或是(ii)该胎儿是一个嵌合体,其中分析该第一感兴趣的染色体的标签信息的装置(7)被配置为在所述比较第一胎儿分数值与第二胎儿分数值的装置(6)指示这两个胎儿分数值不近似相等时执行。优选地,装置(2)、(3)和(6)的信号输出端与装置(7)相连接。
在某些实施方案中,所述的额外的设备中,第一方法的装置(4)包括使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算该第一胎儿分数值的一个组件,所述多态性存在于非所述第一感兴趣染色体的染色体;第二方法的装置(5)包括使用来自展现该母体测试样品的胎儿和母体核酸中的等位基因不平衡的一种或多种多态性的信息来计算该第二胎儿分数值的一个组件,所述多态性存在于所述第一感兴趣的染色体。第一方法的装置(4)使用的信息可以包括通过对预先确定的多态序列进行测序获得的序列标签,所述多态序列的每一个包括所述一个或多个多态位点。第一方法的装置(4)使用的信息也可以不是通过测序方法获得的,例如,通过qPCR、数字PCR、质谱测定法、或毛细管凝胶电泳等非测序方法获得的。
在某些实施方案中,用于比较的装置(6)包括:当所述第二胎儿分数值与第一胎儿分数值的比率近似为1时确定所述第一感兴趣的染色体为二倍体的一个组件;当所述第二胎儿分数值与第一胎儿分数值的比率近似为1.5时确定所述第一感兴趣的染色体为三倍体的一个组件;和,当所述第二胎儿分数值与第一胎儿分数值的比率近似为0.5时确定所述第一感兴趣的染色体为单倍体的一个组件。
更优选的,用于对拷贝数变异进行分类的该额外的设备进一步包括分析所述第一感兴趣的染色体的标签信息的一个装置(7’),以确定是否(i)第一感兴趣的染色体带有一种部分非整倍性,或是(ii)该胎儿是一个嵌合体,其中分析该第一感兴趣的染色体的标签信息的装置(7’)被配置为在所述比较第一胎儿分数值与第二胎儿分数值的装置(6)指示第二胎儿分数值与第一胎儿分数 值的比率不是近似为1、1.5或0.5时执行。优选地,装置(2)、(3)和(6)的信号输出端与装置(7’)相连接。
在某些实施方案中,分析针对该第一感兴趣的染色体的标签信息的装置(7)或(7’)包括:(a)一个组件(7-1),用于将该第一感兴趣的染色体的序列装箱进入多个部分;(b)一个组件(7-2),用于确定所述部分中的任一个是否包含比一个或多个其他部分显著更多或显著更少的核酸;以及(c)一个组件(7-3),用于在与一个或多个其他部分相比如果所述部分任何一个含有显著更多或显著更少的核酸时确定该第一感兴趣的染色体带有一种部分非整倍性、或者在与一个或多个其他部分相比如果所述部分都没有包含显著更多或显著更少的核酸时确定该胎儿是一个嵌合体。优选地,装置(2)、(3)和(6)的信号输出端与组件(7-1)相连接,并且组件(7-1)的信号输出端被连接到组件(7-2),并且组件(7-2)的信号输出端被连接到组件(7-3)。在某些实施方案中,组件(7-3)进一步确定包含比一个或多个其他部分显著更多或显著更少的核酸的该第一感兴趣的染色体的一部分带有部分非整倍性。
在某些实施方案中,第一感兴趣的染色体是选自下组,该组由染色体1-22、X、和Y组成。
在某些实施方案中,装置(6)包括用于将该拷贝数变异分类成选自下组的一个类别的组件,该组由以下各项组成:完整染色体插入或倍增、完整染色体缺失、部分染色体复制、以及部分染色体缺失、以及嵌合体。
在某些实施方案中,该额外的医学分析设备进一步包括:
(i)装置(8),用于确定拷贝数变异是由部分非整倍性还是嵌合体引起;以及
(ii)装置(9),用于若该拷贝数变异由部分非整倍性引起,则确定在该第一感兴趣的染色体上的部分非整倍性的基因座。
其中装置(8)和(9)被配置为用于在用于将该第一胎儿分数值与该第二胎儿分数值进行比较的装置(6)确定该第一胎儿分数值与该第二胎儿分数值不近似相等时执行。优选地,装置(6)的信号输出端连接到装置(8),并且装置(8) 的信号输出端连接到装置(9)。在某些实施方案中,用于确定在该第一感兴趣的染色体上的部分非整倍性的基因座的装置(9)包括用于将该第一感兴趣的染色体的这些序列标签分成该第一感兴趣的染色体中的核酸数据箱或基块的组件;以及用于对每一个数据箱中的这些映射标签进行计数的组件。
在某些实施方案中,该额外的设备进一步包括一个测序装置(10),该测序装置被配置为对一个母体测试样品(例如,血液、血浆、血清、或尿样品)中的胎儿和母体核酸进行测序并且获得这些序列读数。优选地,胎儿和母体核酸是无细胞DNA(cfDNA)。优选地,测序装置(10)的信号输出端与该装置(1)相连接。
在某些实施方案中,测序装置(10)被配置为进行合成法测序。可以使用可逆染料终止子进行合成法测序。或者,测序装置(10)被配置为进行连接法测序。或者,测序装置(10)被配置为进行单分子测序。在某些实施方案中,测序装置(10)和该用于分类的额外设备的装置(1)-(6)位于分开的地点中。优选地,测序装置(10)的信号输出端通过一个网络与该装置(1)相连接。
在某些实施方案中,用于分类的该额外设备进一步包括从怀孕的母亲获取该母体测试样品的装置(11)。装置(11)和装置(1)-(6)可以位于分开的地点中。此外,该额外的设备还可以进一步包括从该母体测试样品提取无细胞DNA的装置(12)。提取无细胞DNA的装置(12)可以与该测序装置(10)位于同一个地点中,并且其中获取该母体测试样品的装置(11)位于一个远程地点中。
在某些实施方案中,装置(2)比对至少约1百万个读数。
试剂盒
在不同的实施方案中,提供试剂盒用于实施本文所述的方法。在某些实施方案中,这些试剂盒包括一种或多种针对完全的非整倍性和/或部分的非整倍性的阳性内部对照。典型地,但未必,这些对照包括内部阳性对照,这些阳性对照包括欲筛选的类型的核酸序列。例如,用于确定母体样品中存在或不存在 胎儿三体性(例如21三体性)的测试的对照可以包括以21三体性为特征的DNA(例如,获自具有21三体性的个人的DNA)。在一些实施方案中,该对照包括获自两个或更多个具有不同的非整倍性的个人的DNA的混合物。例如,对于确定存在或不存在13三体性、18三体性、21三体性以及X单体性的测试,该对照可包括获自各怀有一个具有所测试的三体性之一的胎儿的孕妇的DNA样品的组合。除完整的染色体非整倍性之外,还可以产生IPC以针对测试提供阳性对照,以便确定存在或不存在部分的非整倍性。
在某些实施方案中,该(这些)阳性对照包括一种或多种包括21三体性(T21)和/或18三体性(T18)和/或13三体性(T13)的核酸。在某些实施方案中,包括所存在的各三体性都是T21的核酸提供于分开的容器中。在某些实施方案中,包括两种或更多种三体性的核酸提供于单一容器中。因此,例如,在某些实施方案中,容器可包含T21和T18、T21和T13、T18和T13。在某些实施方案中,容器可含有T18、T21以及T13。在这些不同的实施方案中,三体性可以相等数量/浓度提供。在其他实施方案中,三体性可以特定的预定比率提供。在不同的实施方案中,对照可作为已知浓度的“储备”溶液来提供。
在某些实施方案中,用于检测非整倍性的对照包含获自两个受试者的细胞基因组DNA的混合物,一人是该非整倍体基因组的贡献者。例如,如上文所说明,所产生的作为对照用于确定胎儿三体性(例如21三体性)的测试的内部阳性对照(IPC)可包括来自携带该三体性染色体的男性或女性受试者的基因组DNA与来自已知不携带该三体性染色体的女性受试者的基因组DNA的组合。在某些实施方案中,剪切该基因组DNA以提供约100-400bp之间、约150-350bp之间或约200-300bp之间的片段来模拟母体样品中的循环cfDNA片段。
在某些实施方案中,该对照中来自携带非整倍性(例如21三体性)的受试者的片段化的DNA的比例经过选择以模拟母体样品中所发现的循环胎儿cfDNA的比例,以便提供包括片段化DNA的混合物的IPC,该混合物包括约5%、约10%、约15%、约20%、约25%、约30%来自携带该非整倍性的受试 者的DNA。在某些实施方案中,该对照包括来自各携带不同的非整倍性的不同受试者的DNA。例如,IPC可包括约80%未受影响的女性DNA,并且其余20%可以是来自各携带三体性染色体21、三体性染色体13以及三体性染色体18的三个不同的受试者的DNA。
在某些实施方案中,该(这些)对照包括获自已知怀有具有已知的染色体非整倍性的胎儿的母体的cfDNA。例如,这些对照可包括获自怀有具有21三体性和/或18三体性和/或13三体性的胎儿的孕妇的cfDNA。该cfDNA可以从母体样品中提取,并且克隆到细菌载体中并且在细菌中生长以提供持续不断的IPC来源。作为替代方案,可以通过例如PCR来扩增经克隆的cfDNA。
虽然试剂盒中所存在的对照是在上文相对于三体性而述,但其无需受此限制。应了解,可以产生试剂盒中所存在的阳性对照来体现其他部分的非整倍性,包括例如不同的区段扩增和/或缺失。因此,例如,在已知不同的癌症与实质上完整的染色体臂的特定扩增或缺失相关的情况下,该(这些)阳性对照可包括染色体1-22、X以及Y中任何一个或多个的短臂或长臂。在某些实施方案中,该对照包括选自下组的一或多个臂的扩增,该组由以下各项组成:1q、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、12p、12q、13q、14q、16p、17p、17q、18p、18q、19p、19q、20p、20q、21q和/或22q(参见例如表2)。
在某些实施方案中,这些对照包括针对已知与特定扩增或缺失相关的任何区域的非整倍性(例如与20Q13处的扩增相关的乳癌)。说明性区域包括但不限于17q23(与乳癌相关)、19q12(与卵巢癌相关)、1q21-1q23(与肉瘤和不同的实体瘤相关)、8p11-p12(与乳癌相关)、ErbB2扩增子等等。在某些实施方案中,这些对照包括如表3-6中的任一者中所示的染色体区域的扩增或缺失。在某些实施方案中,这些对照包括包含如表3-6中的任一者中所示的基因的染色体区域的扩增或缺失。在某些实施方案中,这些对照包括包含多个核酸序列,这些核酸序列包括包含一或多个癌基因的核酸的扩增。在某些实施方案中,这些对照包括多个核酸序列,这些核酸序列包括包含一或多个选自下组的 基因的核酸的扩增,该组的组成为:MYC、ERBB2(EFGR)、CCND1(周期蛋白D1)、FGFR1、FGFR2、HRAS、KRAS、MYB、MDM2、CCNE、KRAS、MET、ERBB1、CDK4、MYCB、ERBB2、AKT2、MDM2以及CDK4。
上述对照意在是说明性的而不是限制性的。使用本文所提供的传授的内容,本领域的普通技术人员能够识别适合结合到试剂盒中的许多其他对照。
在不同的实施方案中,除这些对照以外或作为这些对照的替代,这些试剂盒包括一种或多种提供适合追踪并且确定样品完整性的标记物序列的核酸和/或核酸模拟物。在某些实施方案中,这些标记物包括反基因链序列。在某些实施方案中,这些标记物序列的长度在约30bp到多达约600bp长度或约100bp到约400bp长度范围内。在某些实施方案中,该(这些)标记物序列的长度是至少30bp(或nt)。在某些实施方案中,该标记物连接到适配子,并且该适配子连接的标记物分子的长度在约200bp(或nt)与约600bp(或nt)之间、在约250bp(或nt)与550bp(或nt)之间、在约300bp(或nt)与500bp(或nt)之间或在约350与450之间。在某些实施方案中,该适配子连接的标记物分子的长度为约200bp(或nt)。在某些实施方案中,标记物分子的长度可以为约150bp(或nt)、约160bp(或nt)、170bp(或nt)、约180bp(或nt)、约190bp(或nt)或约200bp(或nt)。在某些实施方案中,标记物的长度在约600bp(或nt)范围内。
在某些实施方案中,该试剂盒提供至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少25个、或至少30个、或至少35个、或至少40个、或至少50个不同的序列。提供该(这些)标记物序列的不同的核酸和/或核酸模拟物可以存储在分开的容器/瓶子中。可替代地,不同的标记物分子可以保存在相同的容器/瓶子中。
在不同的实施方案中,这些标记物包括一种或多种DNA,或这些标记物 包括一种或多种DNA模拟物。适合模拟物包括但不限于吗啉基衍生物、肽核酸(PNA)以及磷硫酰DNA。在不同的实施方案中,将这些标记物结合到这些对照中。在某些实施方案中,将这些标记物结合到适配子中和/或提供连接到适配子。
在某些实施方案中,该试剂盒进一步包括一或多种测序适配子。这些适配子包括但不限于编索引的测序适配子。在某些实施方案中,这些适配子包括单股臂,该单股臂包括一个索引序列以及一个或多个PCR引发位点。
在某些实施方案中,该试剂盒进一步包含一个样品收集装置用于收集生物样品。在某些实施方案中,该样品收集装置包括一个用于收集血液的装置和可任选地,一个用于盛放血液的容器。在某些实施方案中,该试剂盒包括一个用于盛放血液的容器,并且该容器包括抗凝血剂和/或细胞固定剂和/或一种或多种反基因链标记物序列。
在某些实施方案中,该试剂盒进一步包括DNA提取试剂(例如分离基质和/或洗提溶液)。该试剂盒还可以包括用于对文库制备进行测序的试剂。这些试剂包括但不限于用于末端修复DNA的溶液和/或用于dA尾DNA的溶液和/或用于适配子连接DNA的溶液。
在某些实施方案中,该试剂盒进一步包括一种包含一个或多个引物集合的组合物,这个或这些引物集合用于对母体样品中的至少一个预先选定的多态核酸进行扩增,其中每一个预先选定的多态核酸包括至少一个多态位点,并且其中每一个引物集合中的正向或反向引物与一个足够接近所述多态位点的DNA序列杂交以包括在通过对经过扩增的预先选定的多态核酸进行所述大规模平行测序所产生的序列读数内。对经过扩增的预先选定的多态序列进行测序可如在本申请的其他地方所述,用于确定母体样品中的胎儿分数。预先选定的多态核酸可以包含SNP或STR。在某些实施方案中,每一个所述引物集合中的至少一个引物被设计成能识别在约25bp、约40bp、约50bp或约100bp的序列读数内存在的一个多态位点。在某些实施方案中,引物集合与所述DNA序列杂交,产生至少约100bp、至少约150bp或至少约200bp的扩增子。引物集合可以与 在相同染色体上存在的DNA序列杂交,或引物集合可以与在不同染色体上存在的DNA序列杂交。在某些实施方案中,引物集合不与在染色体13、18、21、X或Y上存在的DNA序列杂交。
为实施这些方法并且与如在此所述的多种装置组合使用而提供的试剂盒的实施方案图示于图67和68中。在一个实施方案中,试剂盒为确定胎儿分数而提供。如图67中所示,试剂盒包括一个试剂盒主体(1)、安排在试剂盒主体中用于放置瓶子的夹钳槽、包括内部阳性对照的瓶子(2);包括适合于追踪和确定样品完整性的标记物核酸的瓶子(3)以及包括缓冲溶液的瓶子(4)。
试剂盒可以包括多个额外的瓶子,其中所述多个瓶子中的每一个包括不同的内部阳性对照或不同的标记物核酸。
在某些实施方案中,瓶子(2)包括两个或更多个内部阳性对照。该内部阳性对照包括选自下组的三体性,该组由以下各项组成:三体性21、三体性18、三体性21、三体性13、三体性16、三体性13、三体性9、三体性8、三体性22、XXX、XXY以及XYY。在某些实施方案中,内部阳性对照包括选自下组的三体性,该组由以下各项组成:三体性21(T21)、三体性18(T18)以及三体性13(T13)。在其他实施方案中,加载到瓶子(2)中的内部阳性对照包括三体性21(T21)、三体性18(T18)以及三体性13(T13)。可替代地,试剂盒中所包括的阳性对照可以包括染色体1到22、X和Y中的一个或多个的一部分的扩增或缺失。在某些实施方案中,阳性对照包括染色体1到22、X和Y中任意一个或多个的一个短臂或一个长臂的扩增或缺失。在某些实施方案中,瓶子(2)包括选自下组的一个或多个臂的扩增或缺失,该组由以下各项组成:1q、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、12p、12q、13q、14q、16p、17p、17q、18p、18q、19p、19q、20p、20q、21q和22q。在其他实施方案中,瓶子(2)包括选自下组的一个区域的扩增,该组由以下各项组成:20Q13、19q12、1q21-1q23、8p11-p12和ErbB2。可替代地,加载到瓶子(2)中的阳性对照包括在表3、表4、表5以及表6中展示的一个区域或一个基因的扩增。在某些实施方案中,加载到瓶子(2)中的阳性对照包括选自 下组的一个区域或一个基因的扩增,该组由以下各项组成:MYC、ERBB2(EFGR)、CCND1(周期素D1)、FGFR1、FGFR2、HRAS、KRAS、MYB、MDM2、CCNE、KRAS、MET、ERBB1、CDK4、MYCB、ERBB2、AKT2、MDM2和CDK4。
试剂盒的多个实施方案中所包括的标记物核酸(又名标记物分子(MM))是反基因链标记物序列。这些标记物序列的长度可以在从约30bp到约600bp长度范围内。在其他实施方案中,这些标记物序列的长度在从约100bp到约400bp长度范围内。在某些实施方案中,该试剂盒包括至少2个,或至少3个,或至少4个,或至少5个,或至少6个,或至少7个,或至少8个,或至少9个,或至少10个,或至少11个,或至少12个,或至少13个,或至少14个,或至少15个,或至少16个,或至少17个,或至少18个,或至少19个,或至少20个,或至少25个,或至少30个,或至少35个,或至少40个,或至少50个用于不同的标记物序列的瓶子。
在某些实施方案中,试剂盒中所包括的标记物包含一个或多个DNA。在其他实施方案中,标记物包含一个或多个选自下组的模拟物,该组由以下各项组成:吗啉代衍生物、肽核酸(PNA)和磷硫酰DNA。
在某些实施方案中,标记物结合到所述对照中。在其他实施方案中,标记物结合到适配子中。在某些实施方案中,试剂盒的瓶子(3)可以进一步加载一个或多个测序适配子。适配子包括编索引的测序适配子。这些适配子可以进一步包括单股臂,该单股臂包括一个索引序列以及一个或多个PCR引发位点。
图68展示试剂盒的简图,该试剂盒可以进一步包括一个用于收集生物样品的样品收集装置。该样品收集装置包括一个用于收集血液的装置(5)以及一个用于盛放血液的容器(6)。在某些实施方案中,该用于收集血液的装置和所述用于盛放血液的容器包括抗凝血剂和细胞固定剂。
在某些实施方案中,试剂盒可以进一步包括瓶子(7),该瓶子(7)加载有DNA提取试剂。该(这些)DNA提取试剂可以包括一种分离基质和/或一种洗脱溶液。
在某些实施方案中,该试剂盒进一步包括瓶子(8),该瓶子(8)加载有用于制备测序文库的试剂。用于制备测序文库的这些试剂可以包括用于末端修复DNA的溶液、用于对DNA进行dA加尾的溶液以及用于对DNA进行适配子连接的溶液。
在其他实施方案中,该试剂盒进一步包括瓶子(9),该瓶子(9)包括用于对预定目标核酸进行扩增的引物的组合物。
在某些实施方案中,该试剂盒进一步包括传授使用所述试剂来确定生物样品中的胎儿分数的指导材料。这些指导材料传授了使用这些材料来检测三体性或单体性。在某些实施方案中,这些指导材料传授了使用这些材料来检测癌症或癌症的易患性。
另外,这些试剂盒可任选地包括标记和/或指导材料,为使用该试剂盒中所提供的试剂和/或装置提供指导(例如方案)。例如,这些指导材料可传授使用这些试剂来制备样品和/或确定生物样品中的拷贝数变异。在某些实施方案中,这些指导材料传授使用这些材料来检测三体性。在某些实施方案中,这些指导材料传授使用这些材料来检测癌症或癌症的易患性。
虽然不同的试剂盒中的指导材料典型地包括手写的或印刷的材料,但它们不限于此。本文涵盖能够存储这些指令并且将它们与最终使用者联通的任何媒体。这些媒体包括但不限于电子存储媒体(例如磁碟、磁带、拾音头、芯片)、光学媒体(例如CD ROM)等。这些媒体可包括到达提供这些指导材料的因特网站点的地址。
在以下实例中进一步详细地描述不同的方法、装置、系统以及用途,这些实例决不意在限制所要求的本发明范围。附图希望被视作本说明书和本发明说明的组成部分。提供以下实例以说明而不是限制所要求的本发明。
实验
实例1
样品处理和cfDNA提取
从处于妊娠期的第一个三月期或第二个三月期并且被认为存在胎儿非整 倍性风险的孕妇体内收集外周血样品。在抽血前从各参与者处获得同意书。在羊膜穿刺或绒膜绒毛采样前收集血液。使用绒膜绒毛或羊膜穿刺样品进行核型分析以确定胎儿核型。
将从各受试者抽取的外周血收集在ACD管中。将一管血样(约6到9毫升/管)转移到一个15毫升低速离心管中。使用贝克曼Allegra 6R离心机和GA 3.8型转子,在2640rpm、4℃下将血液离心10分钟。
对于无细胞血浆提取,将上部血浆层转移到15毫升高速离心管中,并且使用贝克曼库尔特Avanti J-E离心机和JA-14转子,在16000×g、4℃下离心10分钟。在血液收集后,在72小时内进行两个离心步骤。将包含cfDNA的无细胞血浆存储在-80℃下,并且在血浆cfDNA扩增或cfDNA纯化前只解冻一次。
使用QIAamp血液DNA小型试剂盒(凯杰)(QIAamp Blood DNA Mini kit(Qiagen)),基本上根据制造商说明书从无细胞血浆中提取经过纯化的无细胞DNA(cfDNA)。将一毫升缓冲液AL和100μl蛋白酶溶液添加到1ml血浆中。在56℃下将该混合物孵育15分钟。将一毫升100%乙醇添加到血浆消化液中。将所得混合物转移到与QIAvac 24Plus柱组合件(凯杰)(QIAvac 24Plus column assembly(Qiagen))中所提供的VacValve和VacConnector组合的QIAamp微型柱中。向样品施加真空,并且在真空下用750μl缓冲液AWl对截留在柱过滤器上的cfDNA进行洗涤,继而用750μl缓冲液AW24进行第二次洗涤。在14,000RPM下将该柱离心5分钟以便从过滤器中去除任何残余缓冲液。通过在14,000RPM下离心用缓冲液AE洗提cfDNA,并且使用QubitTM量化平台(QubitTM Quantitation Platform)(英杰(Invitrogen))确定浓度。
实例2
初始和经过富集的测序文库的制备和测序
a.制备测序文库-缩短规约(ABB)
所有测序文库,即初始和经过富集的文库,都由从母体血浆中提取的约2ng经过纯化的cfDNA制备。使用试剂NEBNextTM DNA样品制备DNA试剂集 1(NEBNextTM DNA Sample Prep DNA Reagent Set 1)(物品编号E6000L;纽英伦生物实验室(New England Biolabs),伊普斯威奇,马萨诸塞州)如下的 进行文库制备。因为无细胞血浆DNA实际上是成片段的,因此不再通过喷雾法或声处理使该血浆DNA样品成片段。根据末端修复模块(End Repair Module),通过将cfDNA与NEBNextTM DNA样品制备DNA试剂集1中所提供的5μl 10×磷酸化缓冲液、2μl脱氧核苷酸溶液混合物(10mM每dNTP)、1μl 1∶5DNA多聚酶I稀释液、1μl T4DNA多聚酶以及1μl T4多核苷酸激酶一起在1.5ml微量离心管中在20℃下孵育15分钟,将40μl中所含的约2ng经纯化cfDNA片段的突出端转化成经过磷酸化的钝端。然后通过在75℃将该反应混合物孵育5分钟对该酶进行热灭活。将该混合物冷却到4℃,并且使用10μl包含克列诺片段(3′到5′exo minus)的dA加尾主混合液(NEBNextTM DNA样品制备DNA试剂集1)并且在37℃下孵育15分钟来实现钝端DNA的dA加尾。随后,通过在75℃下将该反应混合物孵育5分钟对克列诺片段进行热灭活。在克列诺片段灭活之后,使用NEBNextTM DNA样品制备DNA试剂集1中所提供的4μl T4DNA连接酶,通过在25℃下将反应混合物孵育15分钟而使用1μl伊鲁米纳基因组适配子寡聚混合物(Illumina Genomic Adaptor Oligo Mix)(物品编号1000521;伊鲁米纳公司,海沃德,加利福尼亚州)的1∶5稀释液将伊鲁米纳适配子(非索引Y适配子(Non-Index Y-Adaptors))到带dA尾的DNA。将该混合物冷却到4℃,并且使用安金科特(Agencourt)AMPure XP PCR纯化系统(物品编号A63881;贝克曼库尔特基因组,丹弗斯,马萨诸塞州)中所提供的磁珠,从未连接的适配子、适配子二聚体以及其他试剂中纯化出经适配子连接的cfDNA。使用 高保真主混合液(25μl;芬姿关(Finnzymes),沃本,马萨诸塞州)和补偿适配子的伊鲁米纳PCR引物(各0.5tM)(物品编号1000537和1000537)进行18次PCR循环以便选择性地富集适配子连接的cfDNA(25μl)。使用伊鲁米纳基因组PCR引物(物品编号100537和1000538)和NEBNextTM DNA样品制备DNA试剂集1中所提供的Phusion HF PCR主混合液,根据制造商说 明书对适配子连接的DNA进行PCR(98℃,30秒;98℃,10秒,18次循环;65℃,30秒;以及72℃,30秒;在72℃下最终延伸5分钟,并且保持在4℃)。使用安金科特AMPure XP PCR纯化系统(Agencourt AMPure XP PCR purification system)(安金科特生物科技公司(Agencourt Bioscience Corporation),比利佛,马萨诸塞州),根据可在WWW.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处获得的制造商说明书来纯化经过扩增的产品。在40μl凯杰EB缓冲液(Qiagen EB BufferQiagen EB Buffer)中洗提经过纯化的扩增产品,并且使用针对2100生物分析器(安捷伦技术公司(Agilent technologies Inc.),圣克拉拉,加利福尼亚州)的安捷伦DNA 1000试剂盒来分析扩增文库的浓度和大小分布。
b.制备测序文库-全长规约
此处描述的全长规约基本上是伊鲁米纳提供的标准规约,并且仅在扩增文库的纯化方面与伊鲁米纳规约不同。伊鲁米纳规约指示,使用凝胶电泳纯化扩增文库,而本文所述的规约使用磁珠来进行相同纯化步骤。使用针对 的NEBNextTM DNA样品制备DNA试剂集1(物品编号E6000L;纽英伦生物实验室,伊普斯威奇,马萨诸塞州),基本上根据制造商说明书,使用约2ng经过纯化的从母体血浆中提取的cfDNA来制备初始测序文库。除了对适配子连接产品进行最终纯化(该步骤是使用安金科特磁珠和试剂而不是纯化柱进行)以外,所有步骤都根据基因组DNA文库样品制备用NEBNextTM试剂所附的规约来进行,该DNA文库使用GAII来测序。NEBNextTM规约基本上沿袭伊鲁米纳所提供的规约,伊鲁米纳规约可在grcfjhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf处获得。
根据末端修复模块,通过将40μl cfDNA与NEBNextTM DNA样品制备DNA试剂集1中所提供的5μl 10×磷酸化缓冲液、2μl脱氧核苷酸溶液混合物(10mM每dNTP)、1μl 1∶5DNA多聚酶I稀释液、1μl T4DNA多聚酶以及1μl T4多核苷酸激酶一起在200μl微量离心管中在循环加热器中在20℃下孵育30分钟,将40μl中所含的约2ng经纯化cfDNA片段的突出端转 化成经过磷酸化的钝端。将样品冷却到4℃,并且使用QIAQuick PCR纯化试剂盒(凯杰公司,巴伦西亚,加利福尼亚州)中所提供的QIAQuick柱如下进行纯化。将50μl反应物转移到1.5ml微量离心管中,并且添加250μl凯杰缓冲液PB。将所得300μl转移到QIAquick柱中,在微量离心机中在13,000RPM下将其离心1分钟。用750μl凯杰缓冲液PE对该柱进行洗涤,并且再离心。通过在13,000RPM下附加离心5分钟来去除残余乙醇。在39μl凯杰缓冲液EB中通过离心来洗提DNA。使用16μl包含克列诺片段(3’到5’exo minus)的dA加尾主混合液(NEBNextTM DNA样品制备DNA试剂集1)并且根据制造商的dA加尾模组,在37℃下孵育30分钟来实现34μl钝端DNA的dA加尾。将样品冷却到4℃,并且使用MinElute PCR纯化试剂盒(凯杰公司,巴伦西亚,加利福尼亚州)中所提供的柱如下进行纯化。将50μl反应物转移到1.5ml微量离心管中,并且添加250μl凯杰缓冲液PB。将300μl转移到MinElute柱中,在微量离心机中在13,000RPM下将其离心1分钟。用750μl凯杰缓冲液PE对该柱进行洗涤,并且再离心。通过在13,000RPM下再离心5分钟来去除残余乙醇。在15μl凯杰缓冲液EB中通过离心洗提DNA。根据 快速连接模组,将十微升DNA洗提液与1μl 1∶5伊鲁米纳基因组适配子寡聚混合物稀释液(物品编号1000521)、15μl 2X快速连接反应缓冲液以及4μl快速T4DNA连接酶一起在25℃下孵育15分钟。将样品冷却到4℃,并且使用MinElute柱如下进行纯化。将一百五十微升凯杰缓冲液PE添加到30μl反应物中,并且将整个体积转移到MinElute柱中,在微量离心机中在13,000RPM下将其离心1分钟。用750μl凯杰缓冲液PE对该柱进行洗涤,并且再离心。通过在13,000RPM下再离心5分钟来去除残余乙醇。在28μl凯杰缓冲液EB中通过离心洗提DNA。使用伊鲁米纳基因组PCR引物(物品编号100537和1000538)和NEBNextTM DNA样品制备DNA试剂集1中所提供的Phusion HF PCR主混合液,根据制造商说明书对二十三微升经适配子连接的DNA洗提液进行18次PCR循环(98℃,30秒;98℃,10秒,18次循环;65℃,30秒;以及72℃,30秒;在72℃下最终延伸5分钟,并且保持在4℃)。使用安金 科特AMPure XP PCR纯化系统(安金科特生物科技公司,比利佛,马萨诸塞州),根据可在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处获得的制造商说明书来纯化扩增产品。安金科特AMPure XP PCR纯化系统将去除未结合的dNTP、引物、引物二聚物、盐以及其他污染物,并且回收大于100bp的扩增子。在40μl凯杰EB缓冲液中从安金科特珠粒上洗提扩增产品,并且使用针对2100生物分析器(安捷伦技术公司,圣克拉拉,加利福尼亚州)的安捷伦DNA 1000试剂盒来分析文库的大小分布。
c.分析根据缩短(a)和全长(b)规约制备的测序文库
由生物分析器产生的电泳图于图21A和21B中示出。图21A示出了使用(a)中所述的全长规约由从血浆样品M24228纯化而来的cfDNA制备的文库DNA的电泳图,而图21B示出了使用(b)中所述的全长规约由从血浆样品M24228纯化而来的cfDNA制备的文库DNA的电泳图。在两幅图中,峰值1和4都对应地代表15bp下位内标和1,500上位内标;峰值上方的数字表明文库片段的迁移次数;并且水平线表明积分的设定阈值。图21A中的电泳图显示具有187bp的片段的一个次峰值和具有263bp的片段的一个主峰值,而图21B中的电泳图仅显示一个265bp处的峰值。对峰值面积进行积分,得到图21A中187bp峰值的DNA计算浓度是0.40ng/μl,图21A中263bp峰值的DNA浓度是7.34ng/μl,并且图21B中265bp峰值的DNA浓度是14.72ng/μl。已知连接到cfDNA的伊鲁米纳适配子是92bp,在将其从265bp中减去时,表明cfDNA的峰值大小是173bp。187bp处的次峰值可能代表端对端连接的两个引物的片段。当使用缩短规约时,从最终文库产品中消除线性双引物片段。缩短规约还会消除小于187bp的其他更小片段。在该实例中,经过纯化的适配子连接cfDNA的浓度是使用全长规约产生的适配子连接cfDNA的浓度的两倍。已指出,这些适配子连接cfDNA片段的浓度始终大于使用全长规约获得者(数据未示出)。
因此,使用缩短规约制备测序文库的一个优势在于,所获得的文库始终 只包括在262-267bp范围内的一个主峰,而使用全长规约制备的文库的品质会变化,如除了代表cfDNA的峰值以外的峰值的数目和迁移率所体现。非cfDNA产品将占据流动池上的空间并且降低成簇扩增和随后测序反应成像的品质,这是非整倍性状态的总体分配的基础。据显示,缩短规约不影响文库的测序。
使用缩短规约制备测序文库的另一优势在于,钝端化、dA加尾以及适配子连接该三个酶的步骤花费小于一小时即可完成,从而支持快速非整倍体诊断服务的验证和实施。
另一优势在于,钝端化、dA加尾以及适配子连接该三个酶的步骤在同一反应管中进行,因而避免了多次样品转移,样品转移可能会造成物料损失,并且更重要的是可能造成样品混合和样品污染。
实例3
由未修复的cfDNA制备测序文库:溶液中的适配子连接
为了确定是否可以进一步将缩短规约缩短以便进一步加快样品分析,由未修复的cfDNA制成测序文库并且使用伊鲁米纳基因组分析仪II如先前所述进行测序。
如本文所述由外周血样品制备cfDNA。不进行由针对伊鲁米纳平台的公开规约所要求的5’磷酸盐的钝端化和磷酸化,以便提供未修复的cfDNA样品。
可以确定,省略DNA修复或DNA修复和磷酸化不影响测序文库的品质或产率(数据未示出)。
针对未编索引的未修复的DNA的溶液中2步法
在第一个实验集中,通过在同一反应混合物中组合克列诺Exo-和T4-DNA连接酶而对未修复的cfDNA同时进行dA加尾和适配子连接,如下:对三十微升浓度在20-150pg/μl之间的cfDNA进行dA加尾(5μl 10X2号NEB缓冲液、2μl 10nM dNTP、1μl 10nM ATP以及1μl 5000U/ml克列诺Exo-),并且使用1μl 400,000U/ml T4-DNA连接酶,在50μl的反应体积中连接到伊鲁米纳Y适 配子(1μl 3μM储备液的1∶15稀释液)。未编索引的Y适配子得自伊鲁米纳。将组合的反应物在25℃下孵育30分钟。在75℃下对酶进行热灭活5分钟,并且将反应产品存储在10℃下。
适配子连接的产品使用SPRI珠粒(安金科特AMPure XP PCR纯化系统,贝克曼库尔特基因组学)进行纯化并且进行18次PCR循环。使用SPRI对经过PCR扩增的文库进行纯化,并且使用伊鲁米纳基因组分析仪IIx或HiSeq根据制造商说明书进行测序,以便获得36bp的单端读数。获得许多36bp读数,覆盖约10%的基因组。在完成样品测序后,伊鲁米纳“测序器控制软件/实时分析”将碱基判定文件以二进制格式转移到连接存储装置的网络上以便进行数据分析。利用设计用于在Linux服务器上运行的软件来分析序列数据,该软件使用伊鲁米纳“BCLConverter”将二进制格式碱基判定转化成人类可读取的文本文件,然后调用开源“Bowtie”程序以便将序列与参照人类基因组进行比对,该参照人类基因组源自于国家生物技术信息中心(National Center for Biotechnology Information)所提供的hg18基因组(NCBI36/hg18,可在万维网上以http://genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105获得)。
该软件读取以上程序所产生的经过与来自Bowtie输出(bowtieout.txt文件)的基因组独特地比对的序列数据。允许具有至多2个碱基错配的序列比对,并且仅在其与基因组独特地比对时包括在比对计数中。排除具有相同的开始和结束坐标的序列比对(副本)。将具有2个或少于2个错配的约500到2500万个36bD标签独特地映射到人类基因组。对所有映射标签进行计数并且包括在测试和合格样品中的染色体剂量计算中。从碱基0延伸到碱基2×106、碱基10×106到碱基13×106以及碱基23×106到染色体Y末端的区域确切地从分析中排除,因为源自于男性或女性胎儿的标签映射到Y染色体的这些区域。
图22A示出了当根据缩短规约(ABB;◇)制备测序文库时以及当根据无修复2步法(INSOL;□)制备测序文库时映射到各人类染色体的序列标签的 总数的百分比(%染色体N)的平均值(n=16)。这些数据显示,当与使用缩短法时映射到相应染色体的标签百分比相比时,使用无修复2步法制备测序文库产生更大百分比的映射到具有更低GC含量的染色体的标签和更小百分比的映射到具有更高GC含量的染色体的标签。图22b关于序列标签百分比随着染色体大小变化,并且示出了无修复方法减少序列偏移。获自根据缩短规约(ABB;Δ)以及溶液中无修复规约(2步;□)制备的测序文库的映射标签的回归系数对应地为R2=0.9332和R2=0.9806。
表8.百分比GC含量/染色体 
  大小(Mbp) GC(%)   大小(Mbp) GC(%)
Chr1 247 41.37 Chr13 114 38.24
Chr2 243 39.44 Chr14 106 40.85
Chr3 199 38.74 Chr15 100 41.80
Chr4 191 38.60 Chr16 89 44.64
Chr5 181 39.35 Chr17 79 45.01
Chr6 171 39.94 Chr18 76 39.66
Chr7 159 39.78 Chr19 63 48.21
Chr8 146 40.30 Chr20 62 42.05
Chr9 140 40.17 Chr21 47 40.68
Chr10 135 40.43 Chr22 50 47.64
Chr11 134 41.37 ChrX 155 39.26
Chr12 132 40.59 ChrY 58 37.74
缩短法与无修复2步法的比较也被看作当使用无修复方法时映射到单独染色体的标签百分比与当使用缩短法时映射到单独染色体的标签百分比的比率随着各染色体的GC含量百分比而变化。相对于染色体大小的GC含量百分比是基于染色体序列和GC含量分区的公开信息来计算(康斯坦丁尼(Constantini)等人,基因组研究(Genome Res)16:536-541[2006])并且提供在表8中。结果提供在图22C中,该图示出了针对具有高GC含量的染色体的比率显著降低,而针对具有低GC含量的染色体的比率增加。这些数据清楚显示,无修复方法所具有的用于克服GC偏移的归一化效应。
这些数据显示,无修复方法在一定程度上修正了GC偏移,已知该GC偏移与扩增DNA的测序相关。
为了确定无修复方法是否影响胎儿对比所测序的母体cfDNA的比例,确定了映射到染色体x和Y的标签的数目百分比。图23A和23B示出了条形图,这些图提供映射到染色体X(图23A;%染色体X)和Y(图23B;%染色体Y)的标签的百分比的均值和标准差,该百分比由对从10名孕妇的血浆中纯化而来的10个cfDNA样品进行测序而获得。图23A显示相对于使用缩短法所获得的数目,当使用无修复方法时映射到X染色体的标签的数目更大。图23B显示当使用无修复方法时映射到Y染色体的标签百分比并非与使用缩短法时的不同。
这些数据显示,无修复方法不会引入针对或对抗对胎儿对比母体DNA进行测序的任何偏移,即当使用无修复法时,所测序的胎儿序列的比例不变。
总而言之,这些数据显示,无修复方法不会不利地影响测序文库的品质,也不会影响由对文库进行测序所获得的信息。排除公开规约所需的DNA修复步骤将降低试剂成本并且加快测序文库的制备。
针对编索引的未修复的DNA的溶液中2步法
在第二个实验集中,对未修复的cfDNA进行dA加尾,继而进行克列诺Exo-的热灭活和适配子连接。当使用未编索引的伊鲁米纳适配子(其携带具有21个碱基的单股臂)进行连接时,排除克列诺Exo-的热灭活不影响测序文库的产率或品质。
为了确定无修复方法是否可应用于多重测序,使用包含具有6个碱基的索引序列的自制编索引的Y适配子以便通过包括或排除克列诺热灭活来产生文库。不同于未编索引的适配子,编索引的适配子包含具有43个碱基的单股臂,其包括索引序列和PCR引发位点。
以获自集成DNA技术(Integrated DNA Technologies)(科拉尔维尔,爱荷华州)的寡核苷酸为起始物,制造十二种不同的与伊鲁米纳TruSeq适配子 一致的编索引的适配子。寡核苷酸序列获自公开的伊鲁米纳TruSeq编索引的适配子序列。将寡核苷酸溶解,获得300μM最终浓度的退火缓冲液(10mM Tris、1mM EDTA、50mM NaCl,pH 7.5)。将包含任何指定编索引的适配子的两个悬臂的等摩尔寡核苷酸混合物,通常10μl(各300μM)混合,并且允许退火(95℃,6分钟;继而从95℃减缓控制冷却到10℃)。将最终150μM适配子在10mM Tris、1mM EDTA(pH 8)中稀释到7.5tM并且存储在-20℃下直到使用。
数据显示,当使用编索引的适配子时,如果活性克列诺Exo-与连接酶和编索引的适配子一起存在于同一反应中,那么通过2步法进行文库制备不可行。然而,如果首先在75℃下对克列诺Exo-进行热灭活5分钟,然后添加连接酶加编索引的适配子,那么2步法非常可行。可能当编索引的适配子和活性克列诺Exo-一起存在时,克列诺Exo-的股位移活性导致编索引的适配子的较长单股DNA臂被消化,从而消除PCR引物位点。在不进行或进行热灭活步骤的情况下,在克列诺Exo-反应显示2步法中在添加连接酶和编索引的适配子之前包括克列诺Exo-热灭活可制得具有预期特征曲线(其中主峰在290bp处)的文库(数据未示出)之后,使用相同cfDNA和酶来获得测序文库的电泳图。因此,由于无修复法适用于多重测序,因此对使用编索引的Y适配子的所有实验进行修正以包括克列诺Exo-的热灭活。
实例4
由未修复的cfDNA制备测序文库:在固体表面(SS)上进行适配子连接用于未编索引的DNA的1步固体表面法
为了确定无修复文库工艺是否可进一步简化,对实例3中所述的无修复测序文库制备法进行配置以便在固体表面上进行。如实例3中所述对所制备的文库进行测序。
如实例1中所述,由外周血样品制备cfDNA。用抗生蛋白链菌素涂布聚丙烯管,洗涤,并且使经过生物素酰化的编索引的适配子的第一个集结合到经 过抗生蛋白链菌素涂布的管上,如下。通过在4℃下将SA孵育过夜,将8孔PCR管排(美国科技(USA Scientific),奥卡拉,弗罗里达)的管上涂布含0.5纳摩尔抗生蛋白链菌素(赛默科技(Thermo Scientific),罗克福德,伊利诺伊州)的50μl PBS。用1XTE将管洗涤四次,每次200μl。将7.5皮摩尔、3.75皮摩尔、1.8皮摩尔以及0.9皮摩尔各自处于50μl TE中的经过生物素酰化的索引1适配子一式两份添加到经过SA涂布的管中,并且在室温下孵育25分钟。去除未结合的适配子并且用200μl TE将管洗涤四次。如实例3中所述,使用购自IDT的经过生物素酰化的通用适配子寡核苷酸来制造经过生物素标记的索引1适配子。
使用来自未怀孕受试者的cfDNA的1步SS法
在第二排PCR管中,在含20纳摩尔dNTP和10纳摩尔ATP的2号NEB缓冲液中,在50μl反应体积中将对照样品(NTC:无模板对照)或30μl约120pg/μl,即约32飞摩尔,经过纯化的获自未怀孕女性的cfDNA与5单位克列诺Exo-一起在37℃下孵育15分钟。随后,通过在75℃下将反应混合物孵育5分钟将克列诺酶灭活。将克列诺-DNA混合物转移到包含SA结合的经过生物素酰化的适配子的相应管中,并且通过在25℃下在10μl 1XT4-DNA连接酶缓冲液中将混合物与400单位T4-DNA连接酶一起孵育15分钟,使cfDNA连接到经过固定的适配子。随后,通过在25℃下在10μl缓冲液中将7.5皮摩尔未经生物素酰化的索引1适配子与200单位T4-DNA连接酶一起孵育15分钟而使其连接到与固相结合的cfDNA。去除反应混合物,并且用200μl TE缓冲液将管洗涤5次。通过PCR使用包含P5和P7引物(IDT;各1tM)的50μl Phusion PCR混合物[纽英伦生物实验室]对适配子连接的cfDNA进行扩增并且如下进行循环:[30秒,98℃;(10秒,98℃;10秒,50℃;10秒,60℃;10秒,72℃)X 18次循环;5分钟,72℃;10℃孵育]。对所得文库产品进行SPRI清洁[贝克曼库尔特基因组学],并且根据使用高灵敏度生物分析器芯片[安捷伦技术,圣克拉拉,加利福尼亚州]进行分析所获得的特征曲线评定文库的 品质。这些特征曲线显示,未修复的cfDNA的固相测序文库制备提供高产率和高品质测序文库(数据未示出)。
使用来自怀孕受试者的cfDNA的1步SS法
使用获自孕妇的cfDNA样品来测试固体表面(SS)法。
如实例1中所述,由获自孕妇的8个外周血样品制备cfDNA,并且如上文所述由经过纯化的cfDNA制备测序文库。对文库进行测序,并且分析序列信息。
图24显示5个样品各自的参照序列基因组(hg18)上未排除位点(NE位点)的数目和映射到这些未排除位点的标签的总数的比率,cfDNA是由这些样品制备并且用于根据实例2中所述的缩短规约(ABB)(填充条)、实例18中所述的溶液中无修复规约(2步;空心条)以及本实例中所述的固体表面无修复规约(1步;灰色条)来构造测序文库。
图24中所示出的数据显示,根据三种规约制备的PCR扩增序列的表达相当,表明固体表面法不会使文库中所表达的序列变化形式偏移。
图25A显示当对根据无修复固体表面法制备的文库进行测序时获得的独特地映射到各染色体的序列标签数目与当使用上述溶液中无修复2步法时获得的数目相当。数据显示,两种无修复方法都减少测序数据的GC偏移。
图25B显示映射的标签数目与标签所映射的染色体的大小之间的关系。获自根据缩短规约(ABB)、溶液中无修复规约(2步)以及固体表面无修复规约(1步)制备的测序文库的映射标签的回归系数对应地为R2=0.9332、R2=0.9802以及R2=0.9807。
图25C显示获自根据无修复2步规约制备的测序文库的百分比映射的序列标签/染色体与获自根据缩短规约(ABB)制备的测序文库的标签/染色体的比率为各染色体的百分比GC含量的函数(◇),并且获自根据无修复1步规约制备的测序文库的百分比映射的序列标签/染色体与获自根据缩短规约(ABB)制备的测序文库的标签/染色体的比率为各染色体的百分比GC含量的函数(□)。 总而言之,图25B和25C中的数据显示,1步和2步法两者显示类似的GC均一化效应,因为两者都省略文库工艺的DNA修复步骤。
为了确定无修复方法是否影响胎儿对比所测序的母体cfDNA的比例,确定映射到染色体x和Y的标签的数目百分比。图26A和26B显示映射到染色体X(图26A)和Y(图26B)的标签百分比的均数和标准差的比较,这些数据获自对由ABB、2步以及1步法的5名孕妇的血浆纯化而来的5个cfDNA样品进行测序。图26A显示相对于使用缩短法获得的数目(填充条),当使用无修复方法(2步和1步)时映射到X染色体的标签数目更大。图26B显示当使用无修复2步和1步法时映射到Y染色体的标签百分比与当使用缩短法时的不同。
这些数据显示,无修复固体表面1步法不会引入针对或对抗对胎儿对比母体DNA进行测序的任何偏移,即当使用无修复固体表面法时,所测序的胎儿序列的比例不变。
总而言之,数据显示在固体表面上产生测序文库对于对样品制剂进行测序而言是一个容易且可行的选择。
实例5
无修复固体表面1步文库制备法的高输送量相容性
为了确定通过NGS技术进行测序的无修复1步文库制备法是否可应用于高输送量样品处理,在经过SA结合的编索引的适配子涂布的96孔PCR板中由96个外周血样品制备96种cfDNA文库。如实例5中所述对所制备的文库进行测序。
如实例4中所述进行用SA涂布第一个PCR板,以及连接经过生物素酰化的编索引的适配子。将96孔板的各列孔涂布包含独特索引的、经过生物素酰化的适配子。使用第二个96孔PCR板,在每个都存在10μl克列诺主混合液的情况下,在37℃下对30μl中的37个不同cfDNA进行dA加尾15分钟,继而在75℃下进行克列诺酶灭活5分钟。在多个孔中使用若干个cfDNA,总 计94个孔含cfDNA;2个孔用作无模板对照。将经过dA加尾的cfDNA混合物转移到第一PCR板中并且在存在10μl快速连接酶主混合液1的情况下在25℃下使用PCT-225四联梯度循环加热器(伯乐(BioRad),赫拉克勒斯,加利福尼亚州)连接到已结合的、经过生物素酰化的适配子。添加针对各编索引的适配子定制的10μl连接主混合液2并且在5℃下连接15分钟。去除未结合的DNA,并且用TE缓冲液将已结合的DNA-经过生物素酰化的适配子络合物洗涤五次。向各孔中添加50μl PCR主混合液,并且对适配子连接的DNA进行扩增并且如实例4中所述进行SPRI清洁。将文库稀释并且使用HiSens BA芯片进行分析。
针对使用ABB法制备的61个临床样品(图27A)和使用无修复SS 1步法制备的35个研究样品(图27B),获得用于制备测序文库的经过纯化的cfDNA的量与文库产品的所得量之间的相关性。这些数据显示,当与使用实例2中所述的缩短法制备的文库所获得的相关性(R2=0.1534;图27B)相比时,对于使用无修复SS 1步法制备的文库而言,相关性显著更大(R2=0.5826;图27A)。注意:该项比较中的cfDNA样品并不相同,因为临床样品对于研发不可用。然而,这些结果表明,无修复SS 1步法与ABB法相比一贯具有更大的cfDNA输入与文库输出的相关性。随后,针对所有三种方法,使用连续稀释量的相同经纯化的cfDNA来比较3种方法,即ABB、无修复2步以及无修复SS 1步法的相关性。如图28中所示,当根据SS 1步法制备文库时获得最佳相关性(R2=0.9457;Δ),继而为2步法(R2=0.7666;□)和具有显著更低相关性的ABB法(R2=0.0386;◇)。这些数据显示,与末端修饰[DNA修复和磷酸化]cfDNA的方法相比,无修复方法,无论是在溶液中还是在固体表面上,都提供一致并且可预测的产率,不论是包括还是不包括修复的DNA和dA加尾产品的纯化。
根据该实例中所述的固体表面法制备文库所花的时间比当根据缩短法制备测序文库时所花的时间少数倍。例如,在约4小时内使用ABB法可人工制备10到14个样品,而当使用SS 1步法时,在4和5小时内对应地可人工制备96或192个文库。还有,可容易地使SS 1步法自动化,以便使用NGS技 术在多次96多重测序时制备文库。因此,SS法将适合于商业自动化高输送量样品分析。
对DNA文库的分析显示未修复的cfDNA的固相测序文库制备提供了高产率和高品质测序文库,这些测序文库可经过配置而用于自动化工艺以便进一步加快需要使用NGS技术进行大规模平行测序的样品分析。固体表面法适用于修复的DNA。
实例6
对根据1步SS法制备的文库进行多重测序
以多重方式,每个伊鲁米纳HySeq测序器流动池泳道用六种不同编索引的样品对通过SS 1步法在96孔板上制备的文库样品(实例20)进行测序。如实例2中所述对所制备的文库进行测序。图29中所示出的数据比较了索引效率,如通过2步(填充条)与SS 1步(空心条)之间的多重测序所评估。这些数据显示,在固体表面上制备文库不损害索引效率。图30A和30B显示当根据1步固体表面法制备测序文库时映射到各人类染色体的序列标签的总数百分比(%染色体N;图30A);并且图30B(R2=0.9807)显示序列标签百分比为染色体大小的函数。图30A和30B显示,SS 1步法的GC偏移与2步法相同,因为两种工艺都使用无DNA修复样品制备酶学。
图31显示映射到Y染色体的序列标签相对于映射到X染色体的标签的百分比,获自对使用SS 1步法以编索引的适配子制备并且以多重方式使用伊鲁米纳测序通过用可逆终止子技术合成来进行测序的42个文库进行测序。数据明显区分了获自怀有男性胎儿的孕妇与获自怀有女性胎儿的孕妇的样品。
实例7
样品处理和DNA提取
从处于妊娠期的第一个三月期或第二个三月期并且被认为存在胎儿非整倍性风险的孕妇体内收集外周血样品。在抽血前从各参与者处获得同意书。在 羊膜穿刺或绒膜绒毛采样前收集血液。使用绒膜绒毛或羊膜穿刺样品进行核型分析以确定胎儿核型。
将从各受试者抽取的外周血收集在ACD管中。将一管血样(约6到9毫升/管)转移到一个15毫升低速离心机管中。使用贝克曼Allegra 6R离心机和GA 3.8型转子在2640rpm、4℃下将血液离心10分钟。
对于无细胞血浆提取,将上部血浆层转移到15毫升高速离心管中,并且使用贝克曼库尔特AvantiJ-E离心机和JA-14转子,在16000xg、4℃下离心10分钟。在血液收集后,在72小时内进行两个离心步骤。将无细胞血浆存储在-80℃下,并且在DNA提取前只解冻一次。
通过使用QIAamp DNA血液小型试剂盒(凯杰),根据制造商说明书从无细胞血浆中提取无细胞DNA。将五毫升缓冲液AL和500μl凯杰蛋白酶添加到4.5ml到5ml的无细胞血浆中。用磷酸盐缓冲生理盐水(PBS)将体积调节到10ml,并且在56℃下将混合物孵育12分钟。使用多个柱通过在贝克曼微量离心机中在8,000RPM下离心从溶液中分离沈淀的cfDNA。用AW1和AW2缓冲液对柱进行洗涤,并且用55μl无核酸酶水洗提cfDNA。从血浆样品中提取约3.5到7ng cfDNA。
所有测序文库都由从母体血浆中提取的约2ng经过纯化的cfDNA制备。使用试剂NEBNextTMDNA样品制备DNA试剂集1(物品编号E6000L;纽英伦生物实验室,伊普斯威奇,马萨诸塞州)如下进行文库制备。因为无细胞血浆DNA本质上成片段的,因此不再通过喷雾法或声处理使该血浆DNA样品成片段。将在40μl中包含的大约2ng纯化的cfDNA片段的突出端根据NEBEnd Repair Module而转化成磷酸化的钝端,这是通过在1.5ml微量离心管中将cfDNA用在NEBNextTMDNA Sample Prep DNA Reagent Set 1中提供的5μl 10X的磷酸化作用的缓冲剂、2μl脱氧核苷酸溶液混合物(每份dNTP有10mM)、1μl的1∶5的DNA聚合酶I的稀释液、1μl T4 DNA聚合酶以及1μl T4多核苷酸激酶在20℃下孵育15分钟来进行的。然后通过将该反应混合物在75℃下孵育5分钟而将这些酶热灭活。将该混合物冷却至4℃,并且使 用10μl的含有克列诺片段(3’至5’exo-)(NEBNextTMDNA Sample Prep DNA Reagent Set 1)的dA加尾主混合液完成钝端的DNA的dA加尾,并且在37℃下孵育15分钟。随后,通过将该反应混合物在75℃下孵育5分钟而将这些克列诺片段热灭活。在将克列诺片段灭活后,使用在NEBNextTMDNA Sample Prep DNA Reagent Set 1中提供的4μl的T4DNA连接酶,通过将该混合物在25℃下孵育15分钟,用1μl的Illumina Genomic Adaptor Oligo Mix的1∶5的稀释液(物品编号:1000521;Illumina Inc.,Hayward,CA)将这些Illumina适配子(Non-Index Y-Adaptors)连接到带dA尾的DNA上。将该混合物冷却到4℃,并且使用Agencourt AMPure XP PCR纯化系统(物品编号:A63881;Beckman Coulter Genomics,Danvers,MA)中提供的磁珠将适配子连接的cfDNA从未连接的适配子、适配子二聚体、以及其他试剂中纯化出来。进行十八次PCR的循环以选择性地富集适配子连接的cfDNA,使用的是High-Fidelity Master Mix(Finnzymes,Woburn,MA)以及与适配子互补的Illumina的PCR引物(Part No.1000537 and 1000537)。使用Illumina基因组PCR引物(物品编号100537以及1000538)以及在NEBNextTMDNA Sample Prep DNA Reagent Set 1中提供的Phusion HF PCR Master Mix(根据制造商的说明),使适配子连接的DNA经受PCR(98℃下30秒;98℃下18次循环持续10秒,65℃下30秒,并且72℃下30秒;最终延伸在72℃下5分钟,并且保持在4℃下)。使用Agencourt AMPure XP PCR纯化系统(Agencourt Bioscience Corporation,Beverly,MA)根据制造商的说明(在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处可得)对扩增的产物进行纯化。将纯化后的扩增产品在40μl的Qiagen EB缓冲液中洗脱,并且使用2100Bioanalyzer(Agilent technologies Inc.,Santa Clara,CA)的Agilent DNA 1000Kit对扩增的文库分析浓度和尺寸分布。
将扩增后的DNA使用Illumina的基因组分析仪II来测序,以获得36bp的单端读数。为了识别出一个序列属于一个特定的人染色体,仅仅需要约30bp的随机序列信息。更长的序列可以独特地识别出更具体的标靶。在当前的情况 下,获得了众多36bp读数,覆盖了基因组的大约10%。一旦完成了样品的测序,Illumina“序列控制软件(Sequencer Control Software)”将影像和碱基判定文件转移到一个运行Illumina“基因组分析仪流水线(Genome Analyzer Pipeline)”软件版本1.51的Unix服务器中。运行Illumina“Gerald”程序,以将序列与参照人类基因组比对,该参照人类基因组是源自国家生物技术信息中心(National Center for Biotechnology Information)提供的hg18基因组(NCBI36/hg18,在世界网站https://genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105处可得)。与该基因组独特比对的、从以上程序产生的序列数据通过在一台运行Linnux操作系统的计算机上运行一个程序(c2c.pl)从Gerald输出结果(export.txt文件)读出。允许具有碱基错配的序列比对并且只有在它们仅独特地与该基因组对齐时才包括在比对计数中。具有相同的起始和终止坐标的序列比对(复制体)排除在外。
将具有2或更少的错配的约500万至1500万之间的36bp标签独特地映射到人类基因组。将所有映射的标签进行计数并且包括在测试以及合格样品两者的染色体剂量的计算之内。从染色体Y的碱基0至碱基2x106、碱基10x106至碱基13x106以及碱基23x106至末尾的区域确切地排除在分析之外,因为从男性和女性胎儿得到的标签都映射到Y染色体的这些区域。
应指出,序列标签的总数目上的某些变化映射到遍及在同一轮次中进行测序的样品的单个染色体(染色体间变异性),但注意到在不同轮次的测序(序列测序处理之间的变异性)中发生了实质性更大的变化。
实例8
针对染色体13、18、21、X、和Y的剂量及变化
为了检查在对于所有染色体而言映射的序列标签的数目上染色体间变异性和序列测定间变异性的程度,提取了从48名志愿者怀孕的受试者的外周血获得的血浆cfDNA并且如实例7中所说明而进行测序,并且进行如下分析。
确定了映射到每个染色体的序列标签的总数目(序列标签密度)。可替代地,可以将映射的序列标签的数目归一化至该染色体的长度,以产生一个序列标签密度比。归一化至染色体的长度不是必需的步骤,但是可以单独进行来减小一个数目中的数字的位数从而将其简化以供人工解读。可以用来将这些序列标签计数归一化的染色体长度可以是在世界网站genome.ucsc.edu/goldenPath/stats.html#hg18处提供的长度。
使对于每个染色体得到的序列标签密度与每一个剩余的染色体的序列标签密度进行关联,以得到一个合格的染色体剂量,该剂量被计算为对于感兴趣的染色体(例如染色体21)的序列标签密度与对于剩余的染色体(即染色体1-20、22以及X)的序列标签密度的比率。表9提供了对于感兴趣的染色体13、18、21、X、和Y计算出的合格的染色体剂量的一个实例,该剂量是在其中一个合格样品中测定的。对于所有样品中的所有染色体测定了染色体剂量,并且对于合格样品中的感兴趣的染色体13、18、21、X、和Y的平均剂量在表10和表11中提供,并且在图32-36中进行了说明。图32至36还说明了测试样品的染色体剂量合格样品中每个感兴趣的染色体的染色体剂量提供了对于每个感兴趣的染色体而言(相对于每个剩余的染色体)映射的序列标签的总数目上变化的一种量度。因此,合格的染色体剂量可以识别以下染色体或一组染色体,即,在样品间的变异性与感兴趣的染色体的变异性最好地接近的归一化染色体,并且该归一化染色体将作为对进一步的统计评估的值进行归一化的理想序列。图37和38描绘了对于染色体13、18、以及21,以及染色体X和Y在一个合格的样品群中测定的、计算出的平均染色体剂量。
在一些情况下,这种最好的归一化染色体也许不具有最小的变异性,但是可能具有合格剂量的一种分布,这种分布最好地将一个或多个测试样品与这些合格样品相区分,即:最好的归一化染色体也许并不具有最低的变异性,但是可能具有最大的可分辨性。因此,可分辨性将染色体剂量的变化以及在合格样品中的剂量的分布考虑在内。
表10和11提供了变异系数作为变异性量度,并且提供了t检验值作为染 色体18、21、X和Y的可分辨性的量度,其中t检验值越小,可分辨性越大。染色体13的可分辨性作为合格样品中平均染色体剂量与仅在T13测试样品中的染色体13的剂量之差与合格剂量的平均值标准偏差的比率进行了测定。
当如以下所说明在测试样品中识别非整倍性时,合格的染色体剂量还作为测定阈值的基础。
表9.针对染色体13、18、21、X以及Y的合格染色体剂量(n=1;样品编号11342,46XY)
表10.针对染色体21、18和13的合格的染色体剂量、变化和可分辨性
表11.针对染色体13、X和Y的合格的染色体剂量、变化和可分辨性
使用对于感兴趣的染色体而言的归一化染色体、染色体剂量以及可分辨性获得的T21、T13、T18以及一个特纳综合征病例的诊断实例说明于实例9中。
实例9
使用归一化染色体诊断胎儿非整倍性
为了使染色体剂量的用途适用于评估生物测试样品中的非整倍性,从怀孕的志愿者获得了母体血液测试样品并且制备了cfDNA,并且如实例1和2所说明进行测序和分析。
三体性21
表12提供了在一个示例性的测试样品(#11403)中对于染色体21计算出的剂量。对于T21的阳性诊断计算出的阈值被设定在距这些合格(正常)样品的平均值>2的标准偏差处。T21的诊断是基于测试样品中的染色体剂量比 设定的阈值大而给出的。使用了染色体14和15以单独的计算结果作为归一化染色体,以表明具有最低的变异性(例如染色体14)或具有最大的可分辨性(例如染色体15)的染色体都可以用来识别非整倍性。使用计算出的染色体剂量识别出了十三个T21样品,并且通过核型证实这些非整倍性样品是T21。
表12.针对T21非整倍性的染色体剂量(样品#11403,47XY+21)
三体性18
表13提供了在一个测试样品(#11390)中对于染色体18计算出的剂量。对于T18的阳性诊断计算出的阈值设定为离开合格的(正常的)样品的平均值>2的标准偏差。T18的诊断是基于测试样品中的染色体剂量比设定的阈值大而给出的。使用染色体8作为归一化染色体。在这一实例中,染色体8具有最低的变异性和最大的可分辨性。使用染色体剂量识别出了十八个T18样品,并且通过核型证实为是T18。
这些数据表明,一个归一化染色体可以具有最低的变异性和最大的可分辨性。
表13.针对T18非整倍性的染色体剂量(样品#11390,47XY+18)
三体性13
表14提供了在一个测试样品(#51236)中对于染色体13计算出的剂量。对于T13的阳性诊断计算出的阈值设定为离开合格的样品的平均值>2的标准偏差。T13的诊断是基于测试样品中的染色体剂量比设定的阈值大而给出的。 使用染色体5或3、4、5和6的染色体组作为归一化染色体对于染色体13计算了染色体剂量。识别出了一个T13样品。
表14.针对T13非整倍性的染色体剂量(样品#51236,47XY+13)
染色体3至6的序列标签密度是染色体3至6的平均标签计数。
该数据表明,染色体3、4、5和6的组合提供了低于染色体5的一个变异性,以及大于其他染色体中任何一个的最大的可分辨性。
因此,可以使用一组染色体作为归一化染色体来确定染色体剂量并且识别非整倍性。
特纳综合征(单体性X)
表15提供了在一个测试样品(#51238)中对于染色体X和Y计算出的剂量。对于特纳综合征(单体性X)的阳性诊断计算出的阈值被设定为针对X染色体是在距离合格的(正常的)样品的平均值<-2个标准偏差处,并且针于不存在Y染色体是在距离合格的(正常的)样品平均值<-2个标准离均差处。
表15.针对特纳(XO)非整倍性(样品#51238,45X)的染色体剂量
具有的X染色体剂量小于设定阈值的样品被识别为具有少于一个X染色 体。同一个样品被确定为具有小于设定阈值的一个Y染色体剂量,这表明该样品不具有Y染色体。因此,使用X和Y的剂量的组合来识别特纳综合征(单体性X)样品。
因此,所提供的方法使得能够确定染色体的CNV。具体而言,该方法通过对母体血浆cfDNA进行大规模平行测序以及对归一化染色体进行识别用于对测序数据进行统计分析使得能够确定过度代表和代表不足的染色体非整倍性。该方法的灵敏度和可靠性允许精确测定第一和第二个三月期的非整倍性。
实例10
部分非整倍性的确定
序列剂量的用途被应用于评估由从血浆制备的cfDNA生物学测试样品的部分非整倍性,并且如实例7中所说明进行测序。通过核型分析证实该样品是从具有染色体11部分缺失的一位受试者得到的。
对于部分非整倍性(染色体11,即q21-q23的部分缺失)的测序数据的分析如对于之前的实例中的染色体性非整倍性所说明而进行。在一个测试样品中序列标签到染色体11的映射显示了相对于针对合格样品中的染色体11的相应序列获得的标签计数而言在染色体的长臂中碱基对81000082-103000103之间的标签计数的一个显著损失(数据未示出)。使用了在每个合格样品中映射到染色体11的感兴趣的序列的序列标签(810000082-103000103bp)、以及在合格样品的整个基因组中映射到所有20兆碱基片段的序列标签(即合格的序列标签密度)来确定合格的序列剂量作为在所有合格样品中的标签密度的比率。对于整个基因组中的所有20个兆碱基片段计算了平均序列剂量、标准偏差、以及变异系数,并且具有最小变异性的20-兆碱基序列被识别为在染色体5上的归一化序列(13000014-33000033bp)(参见表16),该归一化序列被用来计算针对测试样品中感兴趣的序列的剂量(参见表17)。表16提供了在测试样品中染色体11上的感兴趣的序列(810000082-103000103bp)的序列剂量,该序列剂量被计算为映射到感兴趣的序列的序列标签与映射到识别出的归一 化序列的序列标签的比率。图40示出了7个合格样品(O)中对于感兴趣的序列的序列剂量以及测试样品(◇)中对于相应的序列的序列剂量。由实线示出平均值,并且由虚线示出对于部分非整倍性的阳性诊断计算出的阈值,它被设定在距平均值5个标准偏差处。部分非整倍性的诊断是基于测试样品中的序列剂量比设定的阈值小而给出的。通过核型分析证实该测试样品在染色体11上具有缺失q21-q23。
因此,除了识别染色体性非整倍性之外,本发明的方法还可以被用来识别部分非整倍性。
表16.针对序列Chr11:81000082-103000103的合格的归一化序列、剂量以及变化(合格样品n=7)
表17.针对在染色体11上感兴趣的序列(81000082-103000103)的序列剂量(测试样品11206)
实例11
非整倍性检测的展示
对于在实例2和3中说明并且在图32至36中示出的样品所获得的序列数据进行进一步的分析,以展示该方法在成功识别母体样品中的非整倍性方面的灵敏度。针对染色体21、18、13、X和Y的归一化的染色体剂量作为相对 于标准离均差的一个分布(Y轴)进行分析,并且在图41A-41E中示出。所使用的归一化染色体作为分母示出(X轴)。
图41(A)示出了当对于染色体21使用染色体14作为归一化染色体时,对于未受影响的样品(o)和三体性21样品(T21;Δ)中的染色体21剂量而言染色体剂量相对于标准离均差的一个分布。图41(B)示出了当对于染色体18使用染色体8作为归一化染色体时,对于未受影响的样品(o)和三体性18样品(T18;Δ)中的染色体18剂量而言染色体剂量相对于标准离均差的一个分布。图41(C)示出了对于未受影响的样品(o)和三体性18样品(T13;Δ)中的染色体13剂量而言染色体剂量相对于标准离均差的一个分布,使用的是3、4、5和6的一个染色体组的平均序列标签密度作为归一化染色体以确定染色体13的染色体剂量。图41(D)示出了当对于染色体X使用染色体4作为归一化染色体时,对于未受影响的女性样品(o)、未受影响的男性样品(Δ)、以及单体性X样品(XO;+)中的染色体X剂量而言染色体剂量相对于标准离均差的一个分布。图41(E)示出了当使用1至22以及X的一个染色体组的平均序列标签密度作为归一化染色体以确定染色体Y的染色体剂量时,对于未受影响的男性样品(o)、未受影响的女性样品(Δ)、以及单体性X样品(+)中的染色体Y剂量相对于标准离均差的一个分布。
该数据表明,三体性21、三体性18、三体性13与未受影响的(正常的)样品是可清楚区分开的。当具有的染色体X剂量明显低于未受影响的女性样品(图41(D))的剂量时,并且具有的染色体Y剂量明显低于未受影响的男性样品(图41(E))的剂量时,单体性X样品可容易识别出。
因此,所提供的方法是灵敏的并且对于确定一个母体血液样品中存在或不存在染色体性非整倍性是特异性的。
实例12
对来自母体血液的无细胞胎儿DNA使用大规模平行DNA测序来确定胎儿染色体非整倍性:独立于训练组1的测试组1
本研究由合格的定点临床研究人员在13个美国临床地区在2009年4月和2010年10月之间根据由每个机构的伦理审查委员会(IRB)获准的一项人类受试者科学试验计划来进行。在参与研究之前从每位受试者获得了书面同意书。该科学试验计划被设计为提供血液样品以及临床数据来支持无创性产前遗传学诊断方法的发展。18岁或年龄更大的妊娠妇女有资格参与。对于经历临床指征的绒膜绒毛取样(CVS)或羊膜刺穿的患者在进行该程序之前收集血液,并且同样收集胎儿核型的结果。从所有受试者抽取外周血样品(两管或总共约20mL)置于酸性枸橼酸盐葡萄糖(ACD)管中(Becton Dickinson)。将所有样品都去除身份并且指定一个匿名的患者ID号。将血液样品在对于研究所提供的温控型运送容器中过夜运送至实验室。抽血和样品接受之间所花费的时间记录为样品即位的一部分。
定点研究协调人员使用匿名的患者ID号将与患者当前的妊娠情况以及历史相关的临床数据录入研究病例报告表(CRF)中。在每个实验室对来自无创性产前程序的样品进行胎儿核型的细胞遗传学分析并且将结果同样记录在研究CRF中。在CRF上获得的所有数据都录入实验室的临床数据库中。在24至48小时的静脉穿刺取样后利用两步离心法从单独的血液管获得无细胞的血浆。来自单一血液管的血浆足够进行测序分析。通过使用QIAamp DNABlood Mini kit(Qiagen)根据制造商的说明将无细胞DNA从无细胞血浆中提取出来。由于已知这些无细胞的DNA片段在长度上约为170个碱基对(bp)(Fan et al.,Clin Chem 56:1279-1286[2010]),在测序之前不要求将DNA碎裂。
对于这个训练组的样品,将cfDNA送至Prognosys Biosciences,Inc.(La Jolla,CA)用于测序文库制备(钝端化并且连接到普通适配子上的cfDNA)并且使用标准制造商科学试验计划用Illumina Genome Analyzer IIx仪器(https://www.illumina.com/)进行测序。获得了36个碱基对的单端读数。在完成测序之后,收集所有碱基判定文件并且进行分析。对于测试组样品,制备测序文库并且在Illumina Genome Analyzer IIx仪器上进行测序。测序文库的制备如下进行。所说明的全长科学试验计划主要是Illumina提供的标准规约,并且 仅在扩增的文库的纯化上与Illumina科学试验计划不同。Illumina科学试验计划指示:扩增的文库使用凝胶电泳法进行纯化,而在此说明的科学试验计划使用磁珠进行相同的纯化步骤。使用从母体血浆提取的约2ng纯化的cfDNA来制备一个初级测序文库,这主要使用的NEBNextTMDNA Sample Prep DNA Reagent Set 1(Part No.E6000L;New England Biolabs,Ipswich,MA)根据制造商的说明来进行。除了使用Agencourt磁珠和试剂来代替纯化柱对适配子连接的产物进行最终纯化之外,所有步骤都根据科学试验计划伴随用于基因组DNA文库的样品制备的NEBNextTM试剂(已使用GAII测序)来进行。NEBNextTMNEBNextTM主要根据Illumina所提供的来进行,这在grcf.jhml.edu/hts/protocols/11257047_ChIP_Sample_Prep.pdf处可得。
将在40μl中包含的大约2ng纯化的cfDNA片段的突出端通过在1.5ml微量离心管中将cfDNA用在NEBNextTMDNA Sample Prep DNA Reagent Set 1中提供的5μl 10X的磷酸化作用的缓冲剂、2μl脱氧核苷酸溶液混合物(每份dNTP有10mM)、1μl的1∶5的DNA聚合酶I的稀释液、1μl T4DNA聚合酶以及1μl T4多核苷酸激酶在20℃下孵育15分钟,根据NEBEnd Repair Module而转化成磷酸化的钝端。将该样品冷却到4℃,并且使用一个在QIAQuick PCR Purification Kit(QIAGEN Inc.,Valencia,CA)中提供的QIA快速柱进行纯化。将50μl反应液转移到1.5ml离心管中,并且加入250μl的Qiagen Buffer PB。将得到的300μl到一个QIA快速柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在39μl的Qiagen Buffer EB中通过离心来洗脱。使用16μl的含有克列诺片段(3’至5’exo-)(NEBNextTMDNA Sample Prep DNA Reagent Set 1)的dA加尾主混合液完成34μl钝端的DNA的dA加尾,并且根据制造商的NEBdA-加尾模块(NEBdA-Tailing Module)在37℃下孵育30分钟。将该样品冷却到4℃,并且使用一个在MinElute PCR Purification Kit(QIAGEN Inc.,Valencia,CA)中提供的柱进行纯化。将50μl反应液转移到1.5ml微量离心管 中,并且加入250μl的Qiagen缓冲液PB(Qiagen Buffer PB)。将300μl转移到一个MinElute柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen缓冲液(PE Qiagen Buffer PE)洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在15μl的Qiagen Buffer EB中通过离心来洗脱。根据NEB快速连接模块(NEBQuick Ligation Module),将十微升的DNA洗脱液用1μl的1∶5的Illumina Genomic Adapter Oligo Mix(物品编号1000521)稀释液、15μl的2X Quick Ligation Reaction Buffer、以及4μl快速T4DNA连接酶在25℃下孵育15分钟。将样品冷却到4℃,并且使用一个如下的MinElute柱。将一百五十微升Qiagen Buffer PE加入30μl反应液中,并且将全部体积转移到一个MinElute柱中,将其在一个微量离心机中在13,000RPM下离心1分钟。将该柱用750μl的Qiagen Buffer PE洗涤,并且再离心。残余的乙醇通过在13,000RPM下再离心5分钟来去除。将DNA在28μl的Qiagen Buffer EB中通过离心来洗脱。使用Illumina基因组PCR引物(物品编号100537以及1000538)以及在NEBNextTMDNA Sample Prep DNA Reagent Set 1中提供的Phusion HF PCR Master Mix(根据制造商的说明),使二十三微升的适配子连接的DNA洗脱液经受18次PCR循环(98℃下30秒;98℃下18次循环持续10秒,65℃下30秒,并且72℃下30秒;最终伸展在72℃下5分钟,并且保持在4℃下)。使用Agencourt AMPure XP PCR纯化系统(Agencourt Bioscience Corporation,Beverly,MA)根据制造商的说明(在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处可得)将扩增的产物进行纯化。Agencourt AMPure XP PCR纯化系统去除了未接合的dNTP、引物、引物二聚体、盐类以及其他污染物,并且回收了大于100bp的扩增子。将纯化后的扩增的产品在40μl的Qiagen EB缓冲液从Agencourt珠粒中洗脱,并且使用2100Bioanalyzer(Agilent technologies Inc.,Santa Clara,CA)的Agilent DNA 1000Kit对文库分析尺寸分布。对于训练以及测试样品集,对36个碱基对的单边读数进行测序。
数据分析和样品分类
将长度为36个碱基的序列读数与从UCSC数据库获得的人类基因组组件hg18进行比对(https://hgdownload.cse.ucsc.edu/goldenPath/hg18/bigZips/)。使用在比对过程中允许最多两个碱基错配的Bowtie短序列段比对器(版本0.12.5)(Langmead et al.,Genome Biol 10:R25[2009])来进行比对。只有清楚映射到一个单一基因组位置上的读数才被包括在内。对读数所映射的基因组位点进行了计数并且包括在染色体剂量的计算中(参见以下内容)。来自男性和女性胎儿的序列标签无任何区分地映射之处的Y染色体上的区域被排除在分析以外(确切地说,从碱基0至碱基2x106、碱基10x106至碱基13x106;以及碱基23x106至Y染色体的末尾。)
在序列读数的染色体分布中同轮次和轮次间的测序变化可以使胎儿非整倍性对所映射的序列位点的分布不明显。为了校正这种变化,计算出了一个染色体剂量,因为对于给出的感兴趣的染色体的映射位点的计数被归一化为对于预设定的归一化染色体序列所观察到的计数。如之前说明的,一个归一化的染色体序列可以由一个单染色体或由一组染色体组成。在未受影响的(即合格的)样品的训练组内的一个样品子集中,归一化的染色体序列首先被识别为具有感兴趣的染色体21、18、13和X的二倍体核型,考虑将每个常染色体在具有我们感兴趣的染色体的计数的比率中作为潜在的分母。分母染色体(即归一化的染色体序列)被选择为使得测序批次之间的染色体剂量的变化最小。每个感兴趣的染色体被确定为具有一个显著的归一化染色体序列(分母)(表10)。没有单个染色体可以被识别为针对染色体13的一个归一化染色体序列,因为没有一个染色体被确定为减少了样品中染色体13的剂量的变化,即,染色体13的NCV值的延展没有被减小至足以允许对T13非整倍性进行正确识别。染色体2至6被随机选择并且作为一个组测试了它们模仿染色体13的行为的能力。染色体2至6的组被发现实质性地减小了训练组样品中针对染色体13的剂量上的变化,并且因此被选择作为染色体13的归一化染色体序列。如上所述, 针对染色体Y的染色体剂量的变化是大于30,与其独立地,单染色体在确定染色体Y的剂量时被用作归一化染色体序列。染色体2至6的组被发现实质性地减小了训练组样品中针对染色体Y的剂量上的变化,并且因此被选择作为染色体Y的归一化染色体序列。
在合格样品中针对每个感兴趣的染色体的染色体剂量提供了对于每个感兴趣的染色体而言映射的序列标签的总数目相对于每个剩余染色体的映射的序列标签的总数目的变化的一个量度。因此,合格的染色体剂量可以识别该染色体或一组染色体,即在样品中具有最好地接近于感兴趣的染色体的变异性的一个变异性、并且将作为勇于进一步统计评估的归一化值的理想序列的归一化染色体序列。
在训练组(即合格并且受影响的)中所有样品的染色体剂量还作为在识别如以下说明的测试样品中的非整倍性时用于确定阈值的基础。
表18.用于确定染色体剂量的归一化染色体序列
对于在测试组的每个样品中每个感兴趣的染色体,确定了一个归一化的值并且被用来确定存在或不存在非整倍性。该归一化值作为可以被进一步计算以提供一个归一化的染色体值(NCV)的染色体剂量而进行计算。
染色体剂量
对于测试组,对于每个样品的每个感兴趣的染色体21、18、13、X和Y计算了一个染色体剂量。如在以上表18中提供的,染色体21的染色体剂量作为映射到测试样品中的染色体21的测试样品中的标签数目与映射到测试样品 中的染色体9的测试样品中的标签数目的比率来计算;染色体18的染色体剂量作为映射到测试样品中的染色体18的测试样品中的标签数目与映射到测试样品中的染色体8的测试样品中的标签数目的比率来计算;染色体13的染色体剂量作为映射到测试样品中的染色体13的测试样品中的标签数目与映射到测试样品中的染色体2至6的测试样品中的标签数目的比率来计算;染色体X的染色体剂量作为映射到测试样品中的染色体X的测试样品中的标签数目与映射到测试样品中的染色体6的测试样品中的标签数目的比率来计算;染色体Y的染色体剂量作为映射到测试样品中的染色体Y的测试样品中的标签数目与映射到测试样品中的染色体2至6的测试样品中的标签数目的比率来计算。
归一化的染色体值
使用每个测试样品中针对每个感兴趣的染色体的染色体剂量以及在训练组的合格样品中确定的相应的染色体剂量,使用以下方程计算归一化的染色体值(NCV):
NCV ij = x ij - &mu; ^ j &sigma; ^ j
其中对应地是对于第j个染色体剂量的估算训练组平均值以及标准偏差,并且是对于测试样品i所观察到的第j个染色体剂量。当将染色体剂量进行归一化分布时,NCV对于这些剂量而言相当于一个统计z分数。在来自未受影响的样品的NCV的分位数-分位数绘图中没有观察到与线性度的显著偏离。此外,对于NCV的归一程度的标准测试未能否决正态性的零假设。
对于测试组,对于每个样品的每个感兴趣的染色体21、18、13、X和Y计算了一个NCV。为了确保一个安全且有效的分类方案,对于非整倍性分类选择了保守的边界。为了对常染色体的非整倍性状态进行分类,要求NCV来将染色体归类为受影响的(即,对于该染色体为为非整倍性);以及NCV<2.5来将染色体归类为未受影响的。常染色体具有2.5和4.0之间的NCV的样品被归类为“无判定”。
在测试中,性染色体的分类是通过对于X和Y都按如下内容相继应用NCV来进行的:
如果NCV Y>-2.0男性样品标准离均差,则该样品被归类为男性(XY)。
如果NCV Y<-2.0男性样品标准离均差,并且NCV Y>-2.0女性样品标准离均差,则该样品被归类为女性(XX)。
如果NCV Y<-2.0男性样品标准离均差,并且NCV Y<-3.0女性样品标准离均差,则该样品被归类为单体性X,即特纳综合征。
如果NCV不符合任何以上标准,则该样品杯归类为对于性别为“无判定”。
结果
研究人口统计学
在2009年4月和2010年7月之间共登记了1,014名患者。患者的人口统计、侵入性程序类型以及核型结果总结在表19中研究人群的平均年龄为35.6岁(范围在17至47岁)并且孕龄范围是6周1天至38周1天(平均为15周4天)。异常胎儿染色体核型的总体发病率是6.8%,其中T21发病率为2.5%。在具有单胎妊娠以及核型的946名受试者中,906名(96%)呈现出对于产前过程的胎儿非整倍性而言至少一种临床公认的风险因素。即使除去那些仅具有高的怀孕年龄作为其唯一指征的受试者,数据仍展示了对于当前的筛查模态一个非常高的假阳性率。用超声进行的超声检查结果为:增加的颈半透明度、水囊状淋巴管瘤、或其他结构上的先天性异常,这些是这一年龄组中预见性最强的异常核型。
表19.患者人口统计
*包括多胎妊娠的胎儿的结果,**由临床医师评估和报告
缩写:AMA=高孕龄,NT=颈半透明度
在本研究人群中展示的多样的种族背景的分布也在表19中示出。总体上,在本研究中63%的患者是高加索人,17%是西班牙人,6%是亚洲人,5%是多民族,并且4%是非洲美国人。注意到了,种族的差异在不同的地点变化显著。例如,一个地点登记了60%的西班牙和26%的高加索受试者,而位于相同州的三个临床点没有登记西班牙受试者。如所预期的,在我们的不同种族的结果中没有观察到可辨别的不同之处。
训练数据集1
该训练组研究从2009年4月至2009年12月之间收集的、初期相继积累的435个样品中挑选了71个样品。在该第一系列的受试者中具有受影响的胎儿(异常核型)的所有受试者都包括在内用于测序,以及具有适当的样品和数据的一个随机挑选和随机数目的未受影响的受试者。训练组患者的临床特征与表19中示出的整体研究的人口统计一致。训练组内的样品的孕龄范围是从10周0天至23周1天的范围。三十八人经历了CVS,32人经历了羊膜穿刺并且1位患者不具有指定的侵入性程序的类型(未受影响的核型46,XY)。70%的患者是高加索人,8.5%是西班牙人,8.5%是亚洲人,并且8.5%是多民族的。为了训练的目的,从这个集内去除了六个已测序的样品。4个样品来自双胎妊娠的受试者(以下详细讨论),1个样品具有T18,在制备过程中被污染,并且1个样品具有胎儿核型69,XXX,剩下65个样品为该训练组。
单一序列位点的数目(即,在基因组中用独特的位点识别的标签)从该训练组研究的早期阶段的2.2M到后期阶段的13.7M(由于随时间在测序技术上的改进)而变化。为了监测在独特的位点中染色体剂量超过这个6倍的范围的任何潜在的改变,在研究的开始和结束时运行了不同的、未受影响的样品。 对于前15个未受影响的样品的轮次,独特位点的平均数目是3.8M并且对于染色体21和染色体18的平均染色体剂量分别是0.314和0.528。对于后15个未受影响的样品的轮次,独特位点的平均数目是10.7M并且对于染色体21和染色体18的平均染色体剂量分别是0.316和0.529。在染色体21和染色体18的染色体剂量之间随着训练组研究的时间推移,没有统计性差异。
在图42上示出对于染色体21、18和13的训练组NCV。在图42中示出的结果与一种正态性的假设一致,该假设是:大约99%的二倍体NCV将落入平均值的±2.5标准偏差。在这一集内的65个样品中,8个具有指示出T21的临床核型的样品具有的NCV范围为从6至20。四个具有的临床核型指示出胎儿T18的样品具有的NCV范围从3.3至12,并且两个具有的临床核型指示出胎儿三体性13(T13)的样品具有的NCV为2.6和4。在受影响的样品中NCV的散布是由于它们对单个样品中的胎儿cfDNA的百分比的依赖性。
与常染色体类似,在训练组内确定了性染色体的平均值和标准偏差。性染色体的阈值允许100%地鉴别训练组内的男性和女性胎儿。
测试数据组1
在确立了染色体剂量平均值以及与训练组的标准离均差之后,从在2010年1月至2010年6月之间从总共575个样品中收集的样品中选择了48个样品的一个测试组。其中一个来自双胎妊娠的样品从最终分析中去除,这样在测试组内剩下47个样品。使制备用于测序的样品以及操作设备的人员对临床核型信息为盲。孕龄范围与在训练组中看到的相似(表19)。侵入性程序的58%是CVS,比总体的程序性人口统计的更高,但也与训练组类似。50%的受试者是高加索人,27%是西班牙人,10.4%是亚洲人并且6.3%是非洲美国人。
在测试组内,独特的序列标签的数目从大约13M至26M而不同。对于未受影响的样品,对于染色体21和染色体18,染色体剂量分别为0.313和0.527。对于染色体21、染色体18和染色体13,测试组NCV在图43中示出并且分类在表20中给出。
表20.测试组分类数据测试组分类数据
*MX是X染色体的单体性,而Y染色体没有迹象
在测试组内,具有指示为胎儿T21的核型的13/13名受试者被正确地识别为具有范围从5至14的NCV。具有指示为胎儿T18的核型的八/八名受试者被 正确地识别为具有范围从8.5至22的NCV。在本测试组内,具有归类为T13的C的单一样品被归类为其中NCV大约为3的无判定。
对于测试数据组,将所有男性样品正确地识别,包括具有复杂核型46,XY+标记染色体(通过细胞遗传学不能识别)的样品(表11).二十名女性样品中有十九名被正确识别,并且一个女性样品被归类为无判定。对于测试组内核型为45,X的三个样品,三个中有两个被正确识别为单体性X,并且1个被归类为无判定(表20)。
双胞胎
对于训练组最初选择的样品中有四个并且测试组内有一个是来自双胎妊娠。在此使用的阈值可能受到在双胎妊娠的环境中预期的cfDNA的不同量值的困扰。在训练组内,来自其中一个双胎样品的核型是单绒膜47,XY+21。一个第二双胎样品是异卵的并且羊膜穿刺是对每个胎儿单独进行的。在这个双胎妊娠中,一个胎儿具有47,XY+21的核型而另一个具有一个正常的核型46,XX。在这两个病例中,基于以上讨论的方法的无细胞的归类将样品归类为T21。在训练组内的其他两个双胎妊娠被正确归类为对于T21未受影响的(所有双胎都显示对于染色体21的二倍体核型)。对于测试组内的双胎妊娠,仅对双胎B确立了核型(46,XX),并且该算法被正确归类为对于T21是未受影响的。
结论
该数据表明大规模平行测序法可以被用来从孕妇的血液中测定多个异常的胎儿核型。这些数据表明,对具有三体性21和三体性18的样品的100%正确的归类可以使用独立的测试组数据进行识别。即使是在具有异常性染色体核型的胎儿的情况下,没有一个样品利用该方法的算法被错误地归类。重要的是,该算法同样在确定在两个双胎妊娠的组内存在或不存在T21方面同样表现良好。此外,本研究检查了来自多个中心的许多连续的样品,不仅代表了人们在商业临床环境中可能见到的异常核型的范围,还展示了将未受普通三体性影响 的妊娠准确归类的重要性,以强调在当今的产前筛查中存在的高到不可接受的假阳性率。该数据对于在未来利用该方法的巨大潜力提供了有价值的见解。独特的基因位点的子集的分析表明了在方差一致的泊松计数统计值上的增加。
该数据在Fan和Quake的发现的基础上建立,Fan和Quake证实了:使用大规模平行测序从母体血浆无创确定胎儿非整倍性的灵敏度仅受计数统计的限制(Fan和Quake,PLos One 5,e10439[2010])。因为测序信息是遍及整个基因组采集的,所以这种方法能够确定任何非整倍性或其他拷贝数变异,包括插入和缺失。来自其中一个样品的核型在染色体11中在q21和q23之间具有一个小的缺失,当将测序数据在500k碱基数据箱内进行分析时,观察到在q21处起始的一个25Mb的区域内标签相对数目约10%的减少。此外,在训练组内,样品中有三个由于细胞遗传分析中的镶嵌现象而具有分钟的性核型。这些核型是:i)47,XXX[9]/45,X[6],ii)45,X[3]/46,XY[17],以及iii)47,XXX[13]/45,X[7]。展现出一些含有XY的细胞的样品ii被正确归类为XY。通过细胞遗传分析(与嵌合体特纳综合征一致)均展示出XXX和X细胞的混合物的样品i(来自CVS过程)和iii(来自羊膜穿刺)分别被归类为无判定和单体性X。
在测试该算法时,对于来自测试组的一个样品(图43)的染色体21,另一个有趣的数据点被观察到具有-5和-6之间的一个NCV。尽管该样品通过细胞遗传学在染色体21上为二倍体,该核型对于染色体9展示了与部分三倍性的嵌合现象:47,XX+9[9]/46,XX[6]。由于染色体9用在分母中来确定染色体21的染色体剂量(表18),这降低了总的NCV值。在以下实例13中提供的结果证实了使用归一化染色体在本样品中确定胎儿三体性9的能力。
Fan等有关这些方法的灵敏度的结论仅在所使用的算法能够考虑测序方法所带来的任何随机或系统性偏差时才是正确的。如果该测序数据未被适当地归一化,则所得的分析结果将劣于计数统计。Chiu等人在他们近期的论文中注意到,他们使用大规模平行测序方法得到的染色体18和13的测量结果是不精确的,并且结论是需要进行更多的研究来将该方法应用至T18和T13的测定(Chiu等人,BMJ 342:c7401[2011])。在Chiu等人的论文中使用的方法在他们 的病例染色体21中简单使用了感兴趣的染色体的序列标签的数目,该数目通过在该测序轮次中的标签的总数目进行了归一化。这种途径的挑战之处在于:标签在每个染色体上的分布可以从测序轮次到测序轮次而不同,并且因此增加了非整倍性测定量度的总体变化。为了将Chiu算法的结果与在本实例中使用的染色体的剂量进行对比,将染色体21和18的测试数据使用Chiu等人推荐的方法进行再分析,如图44中所示。总体上,对于染色体21和18的每一个都观察到了在NCV的范围内的压缩,并且观察到了确定率的减小,其中利用了用于非整倍性分类的NCV阈值4.0从我们的测试组中正确识别出10/13的T21和5/8的T18样品。
Ehrich等人还只聚焦于T21并且使用与Chiu等人相同的算法(Ehrich et al.,Am J Obstet Gynecol 204:205e1-e11[2011])。此外,在观察到他们的测试组z分数量度与外部参照数据(即训练组)的一个偏移之后,他们对测试组进行了再训练以确立分类边界。尽管这种方法在原则上是可行的,实际中将具有挑战性的是决定要求多少样品进行训练以及需要多久一次进行再训练来确保这些分类数据的正确。减轻这一问题的一种方法是在每个测序轮次中都包括对照,这些对照度量基线并且对于定量行为进行校准。
使用本方法获得的数据表明,当用于将染色体计数数据进行归一化的算法被优化时,大规模平行测序能够从孕妇的血浆确定多种胎儿染色体异常。用于定量的本方法不仅将测序轮次之间的随机和系统变异减至最小,还允许遍及整个基因组对非整倍性进行分类,最显著的是T21和T18.要求较大的样品收集来测试用于T13测定的算法。为此目的,正在进行一个前瞻性的、盲的、多地点的临床研究以进一步证明本方法的诊断准确性。
实例13
在单个测试样品的所有染色体中确定存在或不存在至少5种不同的染色体性非整倍性
为了证明本方法用于确定每一组母体测试样品(测试组1;实例12)中 存在或不存在任何染色体性非整倍性的能力,在未受影响的测试组样品(训练组1;实例12)中识别了系统地确定的归一化染色体序列,并且这些归一化染色体序列被用来计算针对每个测试样品的所有染色体的染色体剂量。确定每个测试和训练组样品中存在或不存在任何一种或多种不同的完整的胎儿染色体性非整倍性是由从对每个单个样品进行的单次测序轮次获得的测序信息实现的。
使用染色体密度,即对于在实例12中说明的每个测试组的样品中的每个染色体识别的序列标签的数目,通过对于染色体1-22、X和Y中的每一个计算一个单染色体剂量而确定了由一个单染色体或一组染色体组成的、一个系统地确定的归一化染色体序列。通过使用每个可能的染色体组合作为分母而系统地计算针对每个染色体的染色体剂量而确定了对于染色体1-22、X和Y中的每一个的、系统地确定的归一化染色体序列。例如,对于染色体21作为感兴趣的染色体,作为(i)对于染色体21(感兴趣的染色体)获得的序列标签的数目和(ii)对于每个剩余染色体获得的序列标签的数目与对于剩余染色体(不包括染色体21)的所有可能的组合获得的标签数目之和的比率,计算了染色体剂量,即:1、2、3、4、5等等直到20、21、22、X和Y;1+2、1+3、1+4、1+5等等直到1+20、1+22、1+X、以及1+Y;1+2+3、1+2+4、1+2+5等等直到1+2+20、1+2+22、1+2+X、以及1+2+Y;1+3+4、1+3+5、1+3+6等等直到1+3+20、1+3+22、1+3+X、以及1+3+Y;1+2+3+4、1+2+3+5、1+2+3+6等等直到1+2+3+20、1+2+3+22、1+2+3+X、以及1+2+3+Y;并且如此等等,这样使得所有染色体1-20、22、X和Y的所有可能的组合都被用作归一化染色体序列(分子)来针对训练组内的这些合格(非整倍性)样品中的每一个的每个感兴趣的染色体来确定所有可能的染色体剂量。对于在所有训练组样品中的染色体21以同样的方式确定了染色体剂量,并且这些针对染色体21系统地确定的归一化染色体序列被确定作为导致在一个剂量中针对21具有遍及所有训练样品具有最小的变异性的单一的或一组染色体。重复进行了相同的分析以确定将作为针对每个剩余染色体(包括染色体13、18、X以及Y)的进行了系统地确定的归一化染 色体序列的单染色体或染色体组合,即,使用了所有可能的染色体组合来确定在所有训练样品中针对所有其他感兴趣的染色体1-12、14-17、19-20、22、X以及Y的归一化序列(单个染色体或一组染色体)。因此,将所有染色体都视作感兴趣的染色体,并且对于训练组内的每个未受影响的样品中所有染色体中的每一个都确定了一个系统地确定的归一化序列。表21提供了作为对于每个感兴趣的染色体1-22、X以及Y的系统地确定的归一化序列识别出的单个染色体或染色体组。如通过表21突出显示,对于一些感兴趣的染色体,系统地确定的归一化染色体序列被确定为单一染色体(例如当染色体4是感兴趣的染色体时),而对于其他感兴趣的染色体,系统地确定的归一化染色体序列被确定为一组染色体(例如当染色体21是感兴趣的染色体时)。
表21.针对所有染色体的、系统地确定的归一化染色体序列
在表22中给出对于所有染色体中的每一个所确定的系统地确定的归一化染色体序列的平均值、标准偏差(SD)以及变异系数(CV)。
表22.对于系统地确定的归一化染色体序列的平均值、标准偏差(SD)以及变异系数(CV)
感兴趣的染色体 平均值 SD CV
1 0.36637 0.00266 0.72%
2 0.31580 0.00068 0.22%
3 0.21983 0.00055 0.18%
4 0.98191 0.02509 2.56%
5 0.30109 0.00076 0.25%
6 0.21621 0.00059 0.27%
7 0.21214 0.00044 0.21%
8 0.25562 0.00068 0.27%
9 0.12726 0.00034 0.27%
10 0.24471 0.00098 0.40%
11 0.26907 0.00098 0.36%
12 0.12358 0.00029 0.23%
13a 0.26023 0.00122 0.47%
14 0.09286 0.00028 0.30%
15 0.21568 0.00147 0.68%
16 0.25181 0.00134 0.53%
17 0.46000 0.00248 0.54%
18a 0.10100 0.00038 0.38%
19 1.43709 0.02899 2.02%
20 0.19967 0.00123 0.62%
21a 0.07851 0.00053 0.67%
22 0.69613 0.01391 2.00%
Xb 0.46865 0.00279 0.68%
Yb 0.00028 0.00004 14.97%
a不包括三体性
b女性胎儿
遍及所有训练样品的染色体剂量的变化(如由CV的值所反映的)证实了系统地确定的归一化染色体序列用于提供一个大的信噪比和动态范围的用途,从而允许以高的敏感性和高的特异性对非整倍性进行确定,如以下内容所示。
为了证明该方法的敏感性和特异性确定了,针对所有感兴趣的染色体1-22、X和Y在训练组内的每个样品中对于所有感兴趣的染色体1-22、X和Y的染色体剂量,并且在实例11中说明的测试组内的所有样品的每一个都使用了在以上表21中提供的相应的、系统地确定的归一化染色体序列。
使用对于每个感兴趣的染色体的系统地确定的归一化染色体序列,在每个训练组的样品中以及每个测试样品中确定了任何胎儿非整倍性的存在或不 存在,即,确定了每个样品是否染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X以及Y都含有一个完整的胎儿染色体性非整倍性。对于在每个训练组的样品中以及每个测试样品中的所有染色体都获得了序列信息,即序列标签的数目,并且对于在每个训练和测试样品中的每个染色体都使用与在测试组内确定的那些相对应的、系统地确定的归一化染色体序列(表21)获得的序列标签的数目如以上所述计算了一个单染色体剂量。在每个训练样品中对于系统地确定的归一化染色体序列获得的序列标签的数目被用来确定每个训练样品中每个染色体的染色体剂量,并且在每个测试样品中对于系统地确定的归一化染色体序列获得的序列标签的数目被用来确定每个测试样品中每个染色体的染色体剂量。为了确保对非整倍性进行安全和有效的分类,如实例12中所说明,选择了同样保守的边界。
训练组结果
在图45中给出使用系统地确定的归一化染色体序列在训练组的样品中针对染色体21、18和13的染色体剂量的绘图。当使用系统地确定的归一化染色体序列,即染色体4+14+16+20+22的组时,其中临床核型指示T21的8个样品具有5.4与21.5之间的NCV。当使用系统地确定的归一化染色体序列(即染色体4+14+16+20+22的组)时,其中临床核型指示T21的8个样品具有5.4与21.5之间的NCV。当使用系统地确定的归一化染色体序列(即染色体2+3+5+7的组)时,其中临床核型指示T18的4个样品具有3.3与15.3之间的NCV。训练组的T21样品作为染色体21数据的最后8个样品示出(O);训练组的T18样品作为染色体18数据的最后4个样品示出(Δ);并且训练组的T13样品作为染色体13数据的最后2个样品示出(□)。
这些数据表明,能以高的置信度使用归一化染色体序列来确定不同的、完整的胎儿染色体性非整倍性并且将其正确分类。由于所有具有受影响的核型的样品都具有大于3的NCV,存在约0.1%的可能性,即:这些样品为未受影响的分布中的一部分。
与常染色体类似,当系统地确定的归一化染色体序列(即染色体4+8的组)被用于染色体X时,并且当系统地确定的归一化染色体序列(即染色体4+6的组)被用于染色体Y时,训练组内的所有女性和男性胎儿都被正确地识别出来。此外,将所有5个单体性X样品都识别出来。图46A示出了对于训练组内的每个样品对于X染色体确定的NCV(X轴)以及对于Y染色体确定的NCV(Y轴)的曲线图。通过核型为单体性X的所有样品具有小于-4.83的NCV值。具有与45,X核型(完全的或嵌合的)一致的核型的那些单体性X样品具有如所期望的一个接近零的YNCV值。对于X和Y而言女性样品都聚集在NCV=0附近。
测试组结果
在图47中给出使用相关的系统地确定的归一化染色体序列在测试样品中针对染色体21、18和13的染色体剂量的绘图。当使用系统地确定的归一化染色体序列(即染色体4+14+16+20+22的组)时,其中临床核型指示T21的13个样品中有13个被正确识别出具有7.2与16.3之间的NCV。当使用系统地确定的归一化染色体序列(即染色体2+3+5+7的组时),其中临床核型指示T18的所有8个样品都被识别出具有12.7与30.7之间的NCV。当使用系统地确定的归一化染色体序列(即染色体2+3+5+7的组)时,其中临床核型指示T18的所有8个样品都被识别出具有12.7与30.7之间的NCV。测试组的T21样品作为染色体21数据的最后13个样品示出(O);测试组的T18样品作为染色体18数据的最后8个样品示出(Δ);并且测试组的T13样品作为染色体13数据的最后的样品示出(□)。
这些数据表明,能以高的置信度使用系统地确定的、归一化染色体序列来确定不同的完整的胎儿染色体性非整倍性并且将其正确分类。与训练组类似,具有受影响的核型的所有样品都具有大于7的NCV,这表明有一个极小的可能性,即:这些样品是未受影响的分布的一部分。(图47)。
与常染色体类似,当系统地确定的归一化染色体序列(即染色体4+8的 组)被用于染色体X时,并且当系统地确定的归一化染色体序列(即染色体4+6的组)被用于染色体Y时,测试组内的所有女性和男性胎儿都被正确地识别出来。此外,将所有3个单体性X样品都识别出来。图46B示出了对于测试组内的每个样品对于X染色体确定的NCV(X轴)以及对于Y染色体确定的NCV(Y轴)的绘图。
如以上说明的,本方法允许在每个样品中确定存在或不存在每个染色体1-22、X和Y的一种完整的、或部分的染色体性非整倍性。除了测定完整的染色体性非整倍性T13、T18、T21单体性X外,该方法还测定了在其中一个测试样品中三体性9的存在。当使用系统测定的归一化染色体序列(即染色体3+4+8+10+17+19+20+22的组)时,对于感兴趣的染色体9,识别了一个具有14.4的NCV的样品(图48)。这一样品对应于实例12中的测试样品,该测试样品根据对于染色体21的畸形的低剂量被怀疑对于染色体9是非整倍性(其中在实例12中使用了染色体9作为归一化染色体序列)。
该数据表明,100%的样品具有指示T21、T13、T18、T9以及单体性X的临床核型的样品被正确地识别出来。图49示出了在47个测试样品的每一个中对于染色体1-22的每一个的NCV的曲线图。将NCV的中位数归一化至零。
该数据表明,本发明的方法(包括使用系统地确定的归一化染色体序列)以100%的灵敏度和100%的特异性确定了这一测试组中存在的所有5种类型的染色体性非整倍性的存在,并且清楚地指出,该方法可以识别在任何样品中对于染色体1-22、X和Y任一者的任何染色体性非整倍性。
实例14
确定存在或不存在部分胎儿染色体性非整倍性:确定猫眼综合征
迪格奥尔格综合征(22q11.2缺失综合征),由在染色体22中的缺陷引起的病症,导致数个身体系统的不良发展。通常与迪格奥尔格综合征相关联的医疗问题包括心脏缺陷、不良免疫系统功能、腭裂、甲状旁腺以及行为失常。与迪格奥尔格综合征相关联的问题的数目和严重程度有非常大的变化。几乎每一 个具有迪格奥尔格综合征的人都需要来自多个领域的专家的治疗。
为了确定存在或不存在胎儿染色体22的部分缺失,通过对母亲实施静脉穿刺而获得了一个血液样品,并且cfDNA是如以上实例中所描述而制备的。纯化后的cfDNA被连接到适配子上并且使用Illumina cBot聚簇站(cluster station)使其经受成簇扩增。使用可逆染料终止子进行大规模平行测序,以产生数百万的36bp读数。将这些序列读数与人类hg19参照基因组进行比对,并且将独特地映射到参照基因组上的读数作为标签来计数。
将全部都已知为染色体22的二倍体(即染色体22或其任何部分已知仅以二倍体状态存在)的一个合格样品的组首先进行测序并且进行分析以对于3兆碱基(Mb)的1000个区段的每一个(不包括区域22q11.2)都获得多个序列标签。如果人类基因组包括大约30亿个碱基(3Gb),3Mb的1000个区段各自大约组成了基因组的剩余部分。这1000个区段中每个都可以单独或作为一个区段序列的组服务,这些区段序列被用来确定感兴趣的区段的归一化区段序列,即22q11.2的3Mb区域。映射到每个单一的1000bp区段上的序列标签的数目被单独地用来计算22q11.2的3Mb区域的区段剂量。此外,两个或更多个区段的所有可能的组合被用来确定对于所有合格的样品中感兴趣的区段的区段剂量。导致具有遍及样品最低的变异性的区段剂量的该单一的3Mb区段或两个或更多个3Mb区段的组合被选作归一化区段序列。
在每个合格样品中映射到感兴趣的区段上的序列标签的数目被用来确定每个合格样品中的区段剂量。在所有合格样品中的区段剂量的平均值和标准方差被计算和用来确定阈值,可以将在测试样品中确定的区段剂量与这些阈值进行对比。优选地,对于所有合格样品中的所有感兴趣的区段计算归一化的区段值(NSV),并且使用这些值来设定阈值。
随后,在相应的测试样品中映射到归一化区段序列的标签的数目被用来确定测试样品中感兴趣的区段的剂量。如之前所描述对于测试样品中的区段计算出一个归一化区段值(NSV)并且将测试样品中感兴趣的区段的NCV与使用合格样品确定的阈值进行比较以确定在测试样品中存在或不存在22q11.2的 缺失。
测试NCV<-3表明在感兴趣的区段中的一种丢失,即在测试样品中存在染色体22(22q11.2)的部分缺失。
实例15
为得到II阶段结肠癌患者的预测结果进行的粪便DNA测试
所有II阶段结肠癌患者中大约30%将会复发并死于其所患的疾病。已出现疾病复发的II阶段结肠癌患者在染色体4、5、15q、17q和18q上显示出显著更多的丢失。具体地讲,II阶段结肠癌患者在4q22.1-4q35.2上的丢失已表明与更差的结果是相关联的。确定存在或不存在这些基因组改变可以辅助选择进行佐剂疗法的患者(Brosens等人,分析细胞病理学/细胞肿瘤学(Analytical Cellular Pathology/Cellular Oncology)33:95-104[2010])。)
为了确定在患有II阶段结肠癌患者中存在或不存在4q22.1至4q35.2区域中一种或多种染色体缺失,从这个或这些患者获得了粪便和/或血浆样品。粪便DNA是根据Chen等人,J Natl Cancer Inst 97:1124-1132[2005]描述的方法制备的;并且血浆DNA是根据以上实例中描述的方法制备的。根据在此描述的NGS法对DNA进行测序,并且这个或这些患者样品的序列信息被用来计算针对跨越4q22.1至4q35.2区域的一个或多个区段的区段剂量。区段剂量是使用分别在一个合格的粪便和/或血浆样品组内在先确定的归一化区段剂量来确定的。计算了测试样品(患者样品)中的区段剂量,并且在4q22.1至4q35.2区域中存在或不存在一种或多种部分染色体缺失是通过将每个感兴趣的区段与由合格样品组内的NSV设定的阈值进行比较来确定的。
实例16
通过对母体血浆DNA进行测序来进行全部基因组胎儿非整倍性检测:在前瞻性的、盲的多中心研究中的诊断的准确性
用于确定母体测试样品中存在或不存在非整倍性的方法用于前瞻性研究, 并且其诊断的准确性如下文所述而示出。前瞻性研究进一步证明本发明方法用于针对跨越基因组的复染色体检测胎儿非整倍性的功效。盲的研究模拟实际孕妇群体,其中胎儿核型是未知的,并且选择具有任何异常核型的所有样品进行测序。将根据本发明方法做出的分类的确定结果与得自侵入性程序的胎儿核型相比较以确定该方法对多种染色体非整倍性的诊断能力。
本实例的概述
在前瞻性盲的研究中,在60个美国站点从2,882名进行产前诊断程序的女性收集血样(clinicaltrials.gov NCT01122524)。
独立的生物统计学家选择具有任何异常核型的所有单胎妊娠和相等数目的随机选择的具有整倍体核型的妊娠。根据本发明的方法对各样品进行染色体分类并且与胎儿核型相比较。
在532个样品的分析同龄组内,89/89个三体性21的病例(灵敏度100%(95%CI 95.9-100))、35/36个三体性18的病例(灵敏度97.2%,(95%CI 85.5-99.9))、11/14个三体性13的病例(灵敏度78.6%,(95%CI 49.2-99.9))、232/233的女性(灵敏度99.6%,(95%CI 97.6->99.9))、184/184的男性(灵敏度100%,(95%CI 98.0-100))以及15/16个单体性X的病例(灵敏度93.8%,(95%CI 69.8-99.8))被分类。在未受影响的受试者中,不存在常染色体非整倍性假阳性(100%特异性,(95%CI>98.5-100))。另外,具有三体性21(3/3)、三体性18(1/1)以及单体性X(2/7)嵌合现象的胎儿、三例易位三体性、两例其他常染色体三体性(20和16)以及其他性染色体非整倍性(XXX、XXY以及XYY)被正确地分类。
这些结果进一步证明本方法使用母体血浆DNA来检测跨越基因组的复染色体的胎儿非整倍性的功效。用于三体性21、18、13和单体性X检测的高灵敏度和特异性表明本方法可以结合在现存非整倍性筛查算法中以减少不必要的侵入性程序。
物质和方法
进行MELISSA(母体血液是准确地诊断胎儿非整倍性的源头)研究作为前瞻性多中心观察研究,以盲的巢式病例:对照分析。征募经历侵入性产前程序以确定胎儿核型的18岁和18岁以上的孕妇(Clinicaltrials.gov NCT01122524)。合格准则包括妊娠在8周0天与22周0天之间的孕妇,其满足以下附加准则中的至少一项:年龄≥38岁;阳性筛查测试结果(血清分析值和/或颈半透明度(NT)测量值);存在与胎儿非整倍性风险增高相关的超声波标记物;或先前怀有非整倍体胎儿。从同意参与的所有女性获得书面同意书。
在25个州的60个地理上分散的医疗中心处根据各机构的伦理审查委员会(IRB)批准的方案进行登记。聘请两个临床研究组织(CRO)(昆秦(Quintiles),德罕,北卡罗来纳州;和安普森(Emphusion),旧金山,加利福尼亚州)来保持研究是盲的并且提供临床资料管理、数据监测、生物统计以及数据分析服务。
在任何侵入性程序之前,将周边静脉血样(17mL)收集在两个酸性枸橼酸盐葡萄糖(ACD)管(必帝)中,去除标识并且用独特研究编号进行标记。位置研究人员将研究编号、数据以及抽血时间输入到安全的电子病例报告表(eCRF)中。全血样品在温度受控制的容器中从多个站点连夜运输到实验室(维瑞那秦健康公司(Verinata Health,Inc.),加利福尼亚州)。在接收并且进行样品检验后,根据先前所述的方法(参见实例13)制备无细胞血浆并且在2到4个等分试样中冷冻存储在-80℃下直到测序时为止。记录实验室进行样品接收的日期和时间如果样品是连夜接收、摸起来是凉的并且包含至少7mL血液,那么确定其适合分析。每周将接收时合格的样品报告给CRO并且用于随机采样列表的选择(参见下文和图50)。由站点研究人员将得自女性当前妊娠和胎儿核型的临床资料输入到eCRF中并且由CRO进行验证。
样品大小的确定基于指数测试的性能特征(灵敏度和特异性)的目标范围的估计值的精确度。确切地说,确定受影响(T21、T18、T13、男性、女性或单体性X)的病例和未受影响(非T21、非T18、非T13、非男性、非女性或非单体性X)的对照的数目,以便基于正态逼近对应地评估灵敏度和特异性 在预先规定的较小误差幅度内(N=(1.96√p(1-p)/误差幅度)2,其中p=灵敏度或特异性的估计值)。假设真正的灵敏度是95%或更大,73到114例之间的样品大小确保灵敏度估计值的精确度将使得95%置信分区(CI)的下界将是90%或更大(误差幅度≤5%)。对于更小的样品大小,计划灵敏度的95%CI的估计误差幅度更大(从6%到13.5%)。为了以更大精确度估计特异性,在采样阶段计划更大的未受影响的对照数(针对病例约4∶1比率)。由此确保特异性的估计值的精确度达到至少3%。因此,随着灵敏度和/或特异性增加,置信分区的精确度亦将增加。
基于样品大小确定,CRO设计随机抽样方案以产生所选择的样品的列表以便测序(最少110个受T21、T18或T13影响的病例和400个就三体性而言未受影响的,从而允许这些病例中多达一半具有除46,XX或46,XY以外的核型)。适合选择具有单胎妊娠和合格血样的受试者。排除具有不合格样品、无核型记录或多胎妊娠的受试者(图50)。在整个研究中定期产生列表并且送到维瑞那秦健康实验室。
针对六种独立类别对各合格血样进行分析。这些类别是针对染色体21、18以及13的非整倍性状态,以及男性、女性以及单体性X的性别状态。虽然仍旧为盲,但针对各血浆DNA样品的六种独立的类别中的每一者前瞻性地产生三种分类(受影响的、未受影响的或未被分类的)之一。使用该方案时,同一样品可能在一个分析中被分类为受影响的(例如针对染色体21的非整倍性)而在另一个分析中被分类为未受影响的(例如针对染色体18的整倍体)。
通过绒膜绒毛采样(CVS)或羊膜穿刺获得的细胞的常规中期细胞遗传学分析在该研究中用作参照标准。在参与站点通常使用的诊断实验室中进行胎儿核型确定。如果在登记后患者经历了CVS和羊膜穿刺,那么将羊膜穿刺产生的核型用于研究分析。如果无法获得中期核型,那么允许靶向染色体21、18、13、X以及Y的荧光原位杂交(FISH)结果(表24)。所有异常核型报告(即除46,XX和46,XY以外)都由经过委员会认证的细胞遗传学家审查,并且相对于染色体21、18以及13和性别状态XX、XY以及单体性X分类为受影响 的或未受影响的。
预先规定的规约约定规定以下异常核型将由细胞遗传学家指定为核型的‘被检查过的’状态:三倍性、四倍性、除三体性以外所涉及的染色体21、18或13的复杂核型(例如嵌合性)、具有混合的性染色体的嵌合性、性染色体非整倍性或不能完全由源文档翻译的核型(例如未知来源的标记物染色体)。因为细胞遗传诊断不为测序实验室所知,所以所有经过细胞遗传学检查的样品都被独立地分析并且指定为根据本发明方法使用测序信息确定的分类(测序分类),但不包括在统计分析中。检查过的状态只属于六种分析中的相关一种或多种(例如将从染色体18分析中检查嵌合性T18,但被其他分析,如染色体21、13、X以及Y,认为‘未受影响的’)(表25)。没有从分析中检查出在规约设计时无法完全预见的其他异常并且稀有的复杂核型(表26)。
eCRF和临床资料库中所含的数据仅限于特许用户(研究站点、CRO以及签约临床人员)。维瑞那秦健康的任何雇员都不可存取直到揭晓时为止。
在从CRO处接收随机样品列表后,如实例13中所述从经过解冻的所选择的血浆样品中提取总无细胞DNA(母体和胎儿的混合物)。利用伊鲁米纳TruSeq试剂盒v2.5制备测序文库。进行测序,在维瑞那秦健康实验室在伊鲁米纳HiSeq 2000仪器上进行(6丛,即6个样品/泳道)。获得36个碱基对的单端读数。在整个基因组上映射读数,并且对各感兴趣的染色体上的序列标签进行计数并且用于如上文所述针对独立的类别对样品进行分类。
临床规约需要胎儿DNA存在的证据以报告分类结果。男性或非整倍体的分类被视为胎儿DNA的充分证据。另外,还针对胎儿DNA之存在,使用两种等位基因特异性方法对各样品进行测试。在第一种方法中,使用AmpflSTR Minifiler试剂盒(生命技术(Life Technologies),圣地亚哥,加利福尼亚州)来审查无细胞DNA中的胎儿组分的存在。在ABI 3130基因分析仪上按照制造商的规约来进行短串联重复序列(STR)扩增子的电泳。通过比较呈占所有峰值的强度总和的百分比形式的所报告的各峰值的强度,对该试剂盒中的所有九个STR基因座进行分析,并且次峰值的存在用于提供胎儿DNA的证据。在不 存在可以识别的微量STR的情况下,用具有15种单核苷酸多态性(SNP)的SNP小组检查样品的等分试样,其中从基德(Kidd)等人的小组中选择,平均杂合性≥0.4(基德等人,国际法医学(Forensic Sci Int)164(1):20-32[2006])。可用于检测和/或量化母体样品中的胎儿DNA的等位基因特异性方法描述于美国专利公布20120010085、20110224087以及20110201507中,这些公布通过引用结合到本文中。
归一化的染色体值(NCV)是通过如实例13中所述计算所有常染色体和性染色体的所有可能的分母排列来确定,然而,因为该研究中的测序是在与我们先前用多样品/泳道工作不同的仪器上进行,所以不得不确定新的归一化染色体分母。当前研究中的归一化染色体分母是基于在分析研究样品之前对具有110个独立的(即并非来自MELISSA合格样品)未受影响的样品(即合格的样品)的训练组进行测序而确定。新的归一化染色体分母是通过计算所有常染色体和性染色体的所有可能的分母排列来确定,从而针对整个基因组的所有染色体将未受影响的训练组的变异最小化(表23)。
被应用于提供各测试样品的常染色体分类的NCV规则是实例12中所述的,即对于常染色体的非整倍性的分类,NCV>4.0要求将染色体分类为受影响的(即该染色体的非整倍体)并且NCV<2.5则将染色体分类为未受影响的。具有NCV在2.5与4.0之间的常染色体的样品称为“未被分类的”。
本测试中的性染色体分类通过按顺序应用针对X和Y的NCV来进行,如下:
1.如果NCV X<-4.0并且NCV Y<2.5,那么将样品分类为单体性X。
2.如果NCV X>-2.5并且NCV X<2.5并且NCV Y<2.5,那么将样品分类为女性(XX)。
3.如果NCV X>4.0并且NCV Y<2.5,那么将样品分类为XXX。
4.如果NCV X>-2.5并且NCV X<2.5并且NCV Y>33,那么将样品分类为XXY。
5.如果NCV X<-4.0并且NCV Y>4.0,那么将样品分类为男性(XY)。
6.如果满足条件5,但NCV Y是NCV X预期测量值的约2倍,那么将样品分类为XYY。
7.如果染色体X和Y的NCV不符合任何以上准则,那么将样品分类为就性别而言未被分类的。
因为实验室对临床信息为盲,所以没有针对任何以下人口统计变量来调节测序结果:母体体重指数、抽烟状态、存在糖尿病、妊娠类型(自发的或辅助的)、先前的妊娠、先前的非整倍性或妊娠年龄。利用既不是母体又不是父体的样品来分类,并且根据本方法的分类不取决于特定基因座或等位基因的测量值。
在揭晓和分析之前将测序结果送还独立的签约生物统计学家。研究站点的人员、CRO(包括产生随机采样列表的生物统计学家)以及签约细胞遗传学家对测序结果为盲。
表23.所有染色体的系统地确定的归一化染色体序列
统计方法记录在该研究的详细统计分析计划中。针对六种分析类别中的每一种,使用克洛珀-皮尔逊法(Clopper-Pearson method)计算灵敏度和特异性 的点估计值以及准确的95%置信分区。对于所进行的所有统计估计程序,去除未检测到胎儿DNA、‘被检查过的’复杂核型(根据规约定义的约定)或通过测序测试‘未被分类的’样品。
结果
在2010年6月与2011年8月之间,该研究中登记了2,882名孕妇。合格受试者和所选择的同龄组的特征提供于表24中。登记并且提供血液但随后发现在数据监测期间逾越包含准则并且登记时的实际妊娠年龄超过22周0天的受试者允许保留在研究中(n=22)。这些样品中的三个在所选择的组中。图50示出了样品在登记与分析之间的流程。存在2,625个适合选择的样品。
表24.患者人口统计学
*在侵入性程序时的GA。
**在具有异常核型的胎儿中超声波异常的穿透率更高
缩写:BMI-体重指数;IUGR-胎儿宫内生长迟缓
根据随机抽样方案,选择具有异常核型的所有合格受试者以及怀有整倍体胎儿的受试者组用于分析(图50B),以便总测序研究群体针对三体性21产生近似地为4∶1的未受影响的:受影响的受试者的比率。由该工艺,选择534名受试者。随后由于样品追踪问题从分析中去除两个样品,其中样品管与数据获取之间整个保管链未通过品质监察(图50)。由此产生由60个研究站点中的53个贡献的532名受试者以供分析。所选择的同龄组的人口统计与总同龄组相似。
测试性能
图51A-51C示出了染色体21、18以及13的非整倍性分析的流程图,并且图51D-51F示出了性别分析流程。表27示出了六个分析中每一者的灵敏度、特异性以及置信分区,并且图52、53以及54示出了根据测序后的NCV的图解样品分布。在所有6个分析类别中,由于未检测到胎儿DNA而去除16个样品(3.0%)。在揭晓后,这些样品不存在可辨别的临床特征。各类别的检查过的核型的数目取决于正在分析的状况(充分详述于图52中)。
用于检测分析群体(n=493)中的T21的方法的灵敏度和特异性对应地为100%(95%CI=95.9,100.0)和100%(95%CI=99.1,100.0)(表27和图51A)。该实例包括对以下的正确分类:一种复杂T21核型47,XX,inv(7)(p22q32),+21;和两种起因于罗伯逊易位(Robertsonian translocations)的易位T21,其中一种就单体性X而言还是嵌合性(45,X,+21,der(14;21)q10;q10)[4]/46,XY,+21,der(14;21)q10;q10)[17]和46,XY,+21,der(21;21)q10;q10)。
检测分析群体(n=496)中的T18的灵敏度和特异性为97.2%(85.5,99.9)和100%(99.2,100.0)(表27和图51B)。虽然被从初步分析中检查过(根据规约),但是就T21和T18而言具有嵌合性核型的四个样品都被本发明的方法正确地分类为就非整倍性而言‘受影响的’(表25)。因为它们被正确地检测出来,所以它们在图51A和51B的左侧被指出。所有其余检查过的样品都被正确地分类为就染色体21、18以及三体性13而言未受影响的(表25)。检测分析群体中的T13的灵敏度和特异性为78.6%(49.2,99.9)和100%(99.2,100.0)(图51C)。所检测到的一个T13病例由罗伯逊易位所致(46,XY,+13,der(13;13)q10;q10)。在染色体21分析中有七个未被分类的样品(1.4%),在染色体18分析中有五个(1.0%),并且在染色体13分析中有两个(0.4%)(图51A-51C)。在所有类别中,有三个样品重叠,这些样品兼有被检查过的核型(69,XXX)和未检测到胎儿DNA。将染色体21分析中的一个未被分类的样品正确地识别为染色体13分析中的T13,并且将染色体18分析中的一个未被分类的样品正确地识别为染色体21分析中的T21。
表25.被检查过的核型
*由于一个细胞系中的标记物染色体而从所有分析类别中排除的受试者。
**核型48,XXY,+18在染色体18分析中未被分类并且未检测到性染色体非整倍性的受试者。
表26.未被检查过的异常并且复杂的核型
*在揭晓后,从染色体6中的测序标签中注意到增加的归一化的染色体值(NCV)是3.6。
用于确定该方法性能的性染色体分析群体(女性、男性或单体性X)是433。我们用于对性别状态进行分类的精化算法允许对性染色体非整倍性进行准确的确定,从而获得更高的未被分类的结果数。用于检测二倍体女性状态(XX)的灵敏度和特异性对应地是99.6%(95%CI=97.6,>99.9)和99.5%(95%CI=97.2,>99.9);用于检测男性(XY)的灵敏度和特异性都是100%(95%CI=98.0,100.0);并且用于检测单体性X(45,X)的灵敏度和特异性是93.8%(95%CI=69.8,99.8)和99.8%(95%CI=98.7,>99.9)(图33D-f)。虽然由分析检查过(根据规约),但是嵌合性单体性X核型的测序分类如下(表25):2/7被分类为单体性X,3/7被分类为具有被分类为XY的Y染色体组分,并且具有XX染色体组分的2/7被分类为女性。根据本发明的方法分类为单体性X的两个样品具有核型47,XXX和46,XX。对于核型47,XXX、47,XXY以及47,XYY, 十分之八的性染色体非整倍性被正确地分类(表25)。如果性染色体分类局限于单体性X、XY以及XX,那么将能够把大部分未被分类的样品正确地分类为男性,但将不能够识别XXY和XYY性非整倍性。
除了对染色体21、18、三体性13以及性别进行准确地分类之外,测序结果还能将两个样品(47,XX,+16和47,XX,+20)中针对染色体16和20的非整倍性正确地分类(表26)。令人感兴趣的是,具有染色体6的长臂(6q)和两个复制(其中之一在大小上是37.5兆碱基)的临床上复杂的变化的一个样品显示染色体6中的测序标签导致NCV增加(NCV=3.6)。在另一个样品中,根据本发明的方法检测到染色体2的非整倍性,但在羊膜穿刺时的胎儿核型中并未观测到(46,XX)。表25和26中所示出的其他复杂核型变异体包括来自具有染色体倒位、缺失、易位、三倍性以及此处未检测的其他异常的胎儿的样品,但可能使用本发明的方法在更高的测序密度下和/或在进一步算法优化下进行分类。在这些情况下,本发明的方法可将样品正确地分类为就三体性21、18或13而言未受影响的以及男性或女性。
在本研究中,38/532经过分析的样品来自经历过辅助生殖的女性。其中,17/38的样品具有染色体异常;在该亚群中未检测到假阳性或假阴性。
表27.该方法的灵敏度和特异性
讨论
该由母体血浆确定整染色体胎儿非整倍性的前瞻性研究是设计用来模拟现实世界中样品收集、处理以及分析的情形。在登记站点获得全血样品,不需要立即处理,并且连夜运输到测序实验室。与先前仅涉及染色体21的前瞻性研究(帕洛迈基(Palomaki)等人,遗传医学(Genetics in Medicine)2011:1)相反,在本研究中,对具有任何异常核型的所有合格样品进行测序和分析。测序实验室事先不知道哪些胎儿染色体可能受影响,也不知道非整倍体与整倍体样品的比率。该研究设计征募高风险研究孕妇群来确保统计上显著的非整倍性流行率,并且表25和26指出了所分析的核型的复杂性。结果证明:i)可在高灵敏度和特异性下检测胎儿非整倍性(包括由易位三体性、嵌合性以及复杂变异所造成的);以及ii)一个染色体中的非整倍性不影响本发明方法用于正确地识别其他染色体的整倍体状态的能力。先前研究中所利用的算法似乎不能有效地确定将不可避免地存在于一般临床群体中的其他非整倍性(埃里希(Erich)等人,美国妇产科杂志(Am J Obstet Gynecol)2011年3月;204(3):205 e1-11;赵等人,英国医学期刊(BMJ)2011;342:c7401)。
关于嵌合性,本研究中对测序信息的分析能够正确地对4/4的受影响的样品中针对染色体21和18具有嵌合性核型的样品进行分类。这些结果证明用于检测复杂混合物中无细胞DNA的特定特征的分析的灵敏度。在一个病例中,针对染色体2的测序数据指示完整的或部分的染色体非整倍性,而针对染色体2的羊膜穿刺核型结果是二倍体。在两个其他实例中,一个样品具有47,XXX核型而另一个样品具有46,XX核型,本发明的方法将这些样品分类为单体性X。有可能这些是嵌合性病例,或者孕妇自身是嵌合性的。(重要的是应记住,测序是对总DNA进行的,该总DNA是母体和胎儿DNA的组合。)虽然由侵入性程序对羊膜细胞或绒毛进行细胞遗传学分析当前是非整倍性分类的参照标准,但对有限数目的细胞进行的核型不能排除低水平嵌合性。当前的临床研究设计不包括长期婴儿随访或在分娩时接触胎盘组织,因此我们不能确定这些是真还是假阳性结果。我们推测,与标准核型确定相比,测序工艺的特异性与根 据用于检测整个基因组的本发明方法加以优化的算法组合最终可提供对胎儿DNA异常的更灵敏的识别,特别是在嵌合性的情况下。
国际产前诊断学会已发表了对大规模平行测序(MPS)用于唐氏综合征(Down syndrome)产前检测的可供商业使用性进行评论的快速反应声明(本(Benn)等人,产前诊断(Prenat Diagn)2012 doi:10.1002/pd.2919)。他们声明,在引入针对胎儿唐氏综合征的基于常规大规模平行测序的群体筛查之前,需要在一些亚群中进行测试的证据,如在通过体外受精怀孕的女性中。此处报告的结果表明,本方法在该孕妇群组中是准确的,其中多人存在较高非整倍性风险。
虽然这些结果证明了利用经过优化的算法的本方法用于对来自非整倍性风险较高的女性的单胎妊娠中的整个基因组进行非整倍性检测时的优良性能,但是当流行率较低并且是多胎妊娠时,特别是在低风险群体中,需要更多经验来建立对该方法的诊断能力的可信程度。在临床实施的早期阶段,应在阳性妊娠第一或第二个三月期筛查结果之后根据本方法使用测序信息对染色体21、18以及13进行分类。由此将减少由假阳性筛查结果所致的不必要的侵入性程序,同时伴随着与不良事件相关的程序的减少。侵入性程序可能局限于证实由测序得到的阳性结果。然而,存在孕妇想要避免侵入性程序的临床情形(例如母体高龄和不育症);他们可能要求该测试作为初步筛查和/或侵入性程序的替代方案。所有的患者都应该接受充分的测试前咨询以确保他们了解测试的限制和结果的含义。随着利用更多样品进行经验积累,该测试有可能将替代当前的筛查实验计划并且变成初步筛查,并且最终变成胎儿非整倍性的非侵入性诊断性试验。
实例17
由NCV确定胎儿分数以辨别分析样品中存在完整的或部分的胎儿染色体非整倍性
假设母体样品中相关胎儿染色体的染色体剂量与增加的胎儿分数成比例地增加,人们预期对于完整的感兴趣的染色体,基于NCV值的ff值将决定存 在或不存在完整的胎儿染色体非整倍性。为了证明由NCV确定的ff可用于辨别完整的染色体非整倍性与部分的染色体非整倍性的存在或嵌合性样本的贡献,使用来自母亲和她们子女的基因组DNA来建立模拟在孕妇循环中发现的胎儿与母体cfDNA的混合物的人工样品。胎儿分数的基于NCV的值是上述假设胎儿分数的一种形式。
母亲和子女的DNA购自科里尔医学研究学会(Coriell Institute fbr Medical Research)(卡姆登,新泽西州)。DNA识别和样品核型提供在表27中。
表27.实例17
如下对包含完整的染色体或部分的染色体非整倍性的样品进行分析。
在所有情况下,通过声处理剪切来自母亲的基因组DNA和来自子女的基因组DNA,其中峰值为200bp。对包含母亲DNA外加0%、5%或10%w/w子女DNA的人工样品进行处理以制备测序文库,如实例12中所述以大规模平行方式使用合成法测序对其进行测序。各人工DNA样品在测序器上使用独立的流动池测序四次,以提供包含0%、5%以及10%子女DNA的各样品的4个序列信息集。将36bp读数与人类参照序列基因组hg19进行比对,并且对独特地映射的标签进行计数。对于每个样品使用的4个流动池泳道中的每一者,获得约125X106个序列标签。
在包含20个男性和20个女性gDNA文库的合格样品组中识别归一化染色体(单一或染色体群组),如本文其他部分所述。针对染色体21的归一化染色体被识别为染色体4+染色体16+染色体22;针对染色体7的归一化染色体被识别为染色体4+染色体6+染色体8+染色体12+染色体19+染色体20;针对染色体15的归一化染色体被识别为染色体9+染色体12+染色体14+染色体19+染色体20;针对染色体22的归一化染色体被识别为染色体19;并且针对染色体X的归一化染色体被识别为染色体4+染色体6+染色体7+染色体8。对由对人工样品进行测序而获得的感兴趣的染色体和相应的归一化染色体(单一染色体或染色体群组)的序列标签进行计数,并且用于计算染色体剂量并且计算NCV。
在本实例中,使用针对样品混合物(1)中的染色体21的NCV确定ff,其中NCV21A是针对测试样品(1)中的染色体21所确定的NCV值,该测试样品包含三倍体染色体21,而CV21U是在合格样品(包含二倍体染色体21)中所确定的染色体21的剂量的变异系数;并且其中NCVXA是针对测试样品(1)中的染色体X所确定的NCV值,该测试样品包含三倍体染色体21,而CVXU是在合格样品(包含不受影响的女性胎儿染色体)中所确定的染色体X的剂量的变异系数。
图56示出了在合成的母体样品(1)中使用染色体21的剂量(ff21)确定的百分比“ff”随着使用染色体X的剂量(ffX)确定的百分比“ff”变化的图,该样品包含来自具有三体性21的子女的DNA。
数据显示,染色体剂量和源自于其的NCV随着ff增加而成比例地增加,并且在使用三倍体染色体(即染色体21)的剂量确定的百分比ff与使用已知作为单一染色体存在的染色体(即染色体X)的剂量确定的百分比ff之间存在1∶1关系。
图57示出了在合成的母体样品(2)中使用染色体7的剂量(ff7)确定的百分比“ff”随着使用染色体X的剂量(ffX)确定的百分比“ff”变化的图,该样品包含来自一名整倍体母亲和她的子女的DNA,其该子女在染色体7中携带部分缺失。
如针对样品(1)和(2)所显示,数据显示染色体剂量和源自于其的NCV随着ff增加而成比例地增加。然而,在非整倍性是部分的染色体非整倍性的情况下,使用部分非整倍体染色体的染色体剂量(ff7)确定的百分比ff不与使用染色体X的剂量(ffX)确定的百分比ff相对应。因此,偏离完整的三体性样品所示出的1∶1关系表明存在部分非整倍性。
图58示出了在合成的母体样品(3)中使用染色体15的剂量(ff15)确定的百分比“ff”随着使用染色体X的剂量(ffX)确定的百分比“ff”变化的图,该样品包含来自一名整倍体母亲和她的子女的DNA,该子女是具有染色体15的 部分复制的25%嵌合型。
如针对样品(1)和(2)所显示,使用剂量确定的ff和源自于其的NCV随着ff增加而成比例地增加。如样品(2)中所显示,样品(3)包含部分的染色体非整倍性,并且使用部分非整倍体染色体的染色体剂量(ff15)确定的百分比ff不与使用针对染色体X的剂量(ffX)确定的百分比ff相对应。两个ff之间缺乏对应性表明存在部分的非整倍性而不是完整的染色体非整倍性。
图59示出了人工样品(4)中使用染色体22的剂量(ff22)确定的百分比“ff”和源自于其的NCV的图,该样品包含0%子女DNA(i);和10%来自未受影响的双胞胎儿子的DNA(ii),已知该儿子不具有染色体22的部分的染色体非整倍性;以及10%来自受影响的双胞胎儿子的DNA(iii),已知该儿子具有染色体22的部分的染色体非整倍性。数据显示,针对包含来自未受影响的双胞胎的DNA的样品并且由根据染色体22的剂量计算的四个NCV确定的“ff”接近于零,这表明在未受影响的子女中不存在染色体22的非整倍性;并且当根据染色体X的剂量计算时,未受影响的双胞胎的“ff”证实未受影响的双胞胎样品的“ff”为约10%。数据还显示,针对包含来自受影响的双胞胎的DNA的样品并且由根据染色体22的剂量(ff22)计算的四个NCV确定的“ff”为约3%,这表明在染色体22中存在非整倍性;而当根据染色体X的剂量(ffX)计算时,“ff”证实未受影响的双胞胎样品的“ff”为约10%。ff22与ffX之间缺乏对应性表明在受影响的双胞胎中染色体22的非整倍性是部分的染色体非整倍性。
因此,数据显示,在包含男性胎儿的cfDNA的母体样品中,染色体剂量和源自于其的NCV值可用于区分存在完整三体性与嵌合性样本中所存在的部分的非整倍性和/或完整的或部分的非整倍性。部分的非整倍性可以是染色体一部分的增加或减少。任选地,可以如实例12中所述通过使用染色体剂量和估计的胎儿分数来获得部分的非整倍性和/或嵌合性的拆分。
上述胎儿分数法还可以用于确定多胎妊娠中一个或多个胎儿具有非整倍性的可能性。例如,在一个异卵双胞胎的病例中,发现根据NCVX值确定的胎儿分数是8.3%,而由NCV21值测得的分数是5.0%。由此表明该一对男性胎儿 中只有一个具有T21非整倍性,并且通过核型结果证实了该结果。在另一个具有母体双胞胎的实例中,根据X染色体确定的胎儿分数是7.3%,而由染色体18确定的胎儿分数是8.9%。在该实例中,根据核型确定两个双胞胎都是T18男性。
实例18
由NCV确定胎儿分数以识别临床样品中完整的胎儿染色体非整倍性的存在
为了证明根据NCV确定的ff(CNff)可用于区分临床样品中完整的染色体非整倍性与部分的染色体非整倍性的存在,使用获自孕妇血液的cfDNA对临床样品中的感兴趣的染色体21、13以及18进行量化。通过核型验证三体性的存在。
从以下样品中获得cfDNA:各怀有一个具有三体性21(T21)的男性胎儿的孕妇46个母体样品;各怀有一个具有三体性18(T18)的胎儿的孕妇的13个母体样品;以及怀有一个具有三体性13(T13)的男性胎儿的孕妇的3个母体样品。这些临床样品为来自实例16中所述的临床研究的样品。分离cfDNA,并且如实例16中所述,但使用新的伊鲁米纳v3化学物质来制备测序文库。
也使用新的伊鲁米纳v3化学物质对由得自已知针对染色体21、18以及13未受影响的合格样品的cfDNA制得的测序文库进行测序。将针对合格样品获得的序列读数映射到人类参照序列基因组hg19,并且对独特地映射对应于人类参照序列基因组hg19的所有染色体序列(未屏蔽重复序列)的序列读数进行计数,并且用于系统地确定在测试样品中哪个染色体或哪组染色体将充当各个感兴趣的染色体21、18以及13的归一化染色体。
以下表28示出了所识别的用于确定各测试样品中针对染色体1-22、X以及Y的染色体剂量(比率)的归一化染色体(分母染色体)。
表28.实例18-系统地识别的供用于T21、T18以及T13测试样品的归一化染色体
已识别了合格样品中的归一化染色体时,对测试样品进行测序,并且对映射到测试样品中的各染色体21、18、13以及相应的归一化染色体的序列标签进行计数,并且用于计算染色体剂量(比率)。然后,如先前所述根据以下等式计算NCV值:
NCV jA = R jA - R jU &OverBar; &sigma; jU 等式21。
对于各测试样品,根据本说明书中其他部分所述的以下等式确定针对染色体x和感兴趣的染色体的胎儿分数:
ff=2×|NCViACViU|等式28。
图60示出了在包含胎儿T三体性21的样品中所确定的CNffx对比CNff21的图。如针对完整的染色体非整倍性所预料,CNffx与使用染色体21的NCV所确定的(CNff21)相匹配。
类似地,在T18测试样品中,CNffx与使用染色体18的NCV所确定的(CNff18)相匹配(图61),并且在T13测试样品中,CNffx与使用染色体13的NCV所确定的(CNff13)相匹配(图62)。
图60还示出了针对女性胎儿受T21影响的样品所获得的胎儿分数。正如所预期的,这些“女性”样品中的CNff21无法通过与染色体X相比较来验证。为了验证女性样品的CNff21,可确定已知不能成为胎儿非整倍体的染色体(例如染色体1)的CNff。作为替代方案,“女性”样品的CNff21可通过将其与NCNff进行比较来确定,例如通过如本文其他部分所述对多态序列的标签进行计数而确定的。
因此,序列标签数目和识别完整的染色体的拷贝数变异的所得NCV值可用于确定非整倍体/受影响的样品中的相应胎儿分数。感兴趣的染色体的CNff 与已知不是非整倍体的染色体的CNff的对应性可用于证实完整的染色体三体性的存在。
实例19
由NCV确定胎儿分数以识别临床样品中存在部分的胎儿染色体非整倍性
为了证明根据NCV确定的ff(CNff)可用于识别并且定位临床样品中部分的染色体非整倍性与部分的染色体非整倍性的存在,如实例18中所述对来自已识别为具有染色体17非整倍性的临床样品的cfDNA进行测序和分析。
使用映射到测试样品中的染色体17和合格样品组中所识别的归一化染色体(染色体16+染色体20+染色体22)的序列标签(以上表28),计算测试样品中针对各染色体的NCV值。
图63示出了针对测试样品中染色体1-22和X的NCV值的图。如图中所显示,针对染色体17的NCV值被确定为具有NCV>4,其为选出用于识别非整倍体染色体的阈值。该图还示出了针对染色体X的NCV值,正如所料,染色体X具有负NCV。
根据以下等式计算染色体17和染色体X的CNff:
ff(i)=2*NCVjACVjU  等式25,
并且确定CNff17=3.9%并且CNffX=13.5%。
CNff之间的差异表明存在部分的非整倍性或可能是嵌合性。
为了区分部分的非整倍性与可能的嵌合性,针对染色体17上的各100Kbp连续基块/分区来对标签数进行计数,并且针对各分区计算归一化的二进制值(NBV)。单独分区中标签数的归一化是通过确定标签/数据箱与具有相同大小并且具有与所分析数据箱最接近的GC含量的20个数据箱中的标签数总和的比率来进行。因此,在该情况下,归一化与GC含量有关。任选地,数据箱归一化还可能与数据箱剂量的变异性有关,如在针对染色体剂量/比率所述的合格样品中所确定。在该实例中,GCC Z得分等于如以下所确定的NBV值:
NBV ij = x ij - Mj MAD 等式29,
其中Mj和MADj对应地为针对合格样品组中的第j个染色体剂量的估计中位数和经过中位数调整的偏差,而xij是针对测试样品i观察到的第j个染色体剂量。
针对沿染色体17的长度的各100Kbp分区的归一化的二进制值(NBV)作为指示GC归一化的GCC Z得分形式示出在图64的Y轴上。图64中所示出的图明显示出对应于染色体17中近似最后200,000bp的分区的拷贝数增加。该发现与针对说明染色体17的q ter处的一个复制的样品所提供的核型相符。
因此,CNff可用于识别和定位染色体中的部分的非整倍性。
______________________
实例20
在母体cfDNA的多重生物检验中验证样品完整性
将具有已知不包含在任何已知的基因组中的序列的标记物分子合成并且用以验证全血和血浆母体来源样品的完整性,这些样品经过处理以提取出母体样品中的胎儿和母体cfDNA的混合物并且对其进行测序。
当时和以前的实验数据已经显示cfDNA的平均长度是大约170bp。使用BLAST搜索,针对所有基因组登录,识别出在任一个已知的基因组中不存在的170bp的反基因链序列。六个标记物分子(MM1-MM6)基于所识别的反基因链序列的序列(SEQ ID NO:1-6;表29)合成,并且如下用以验证样品的完整性。
表29
标记物分子
从一个孕妇体内收集外周血到4个血液收集管(内布拉斯加州奥马哈市施特雷克公司(Streck,Inc.Omaha NE)的Cell-Free DNATM BCT)中并且连夜运送至实验室进行分析。两个全血来源样品如下外加标记物分子。一个血液来源样品外加720pg标记物分子1(MM1),并且第二血液来源样品外加720pg 标记物分子2。所有4个管都在4℃下在1600g下离心10分钟。从四个管中的每一个中移出血浆上清液,并且将其放入5mL高速离心管中并且在4℃下在16000g下离心10分钟。已经外加标记物分子的全血的血浆部分等分到分开的管中并且在-80℃下存储。来自将两个剩余血液管(未进行外加)的血浆部分接着分成1.1mL等分试样。血浆来源样品如下制备。将一百皮克MM1加入一个血浆等分试样中,100pg MM2加入血浆等分试样2中,等等,以获得6个经过标记的血浆来源样品,每一个血浆来源样品包含在-80℃下存储不同的标记物分子(MM1-MM6)。
将每一个经过标记的血浆来源样品的一个管和每一个经过标记的源血液样品的1个管解冻,并且根据实例1中所述的方法,使用凯杰血液小型试剂盒(Qiagen Blood Mini Kit)提取出DNA。使用包括索引1-6的TruSeqTM DNA样品制备试剂盒(加利福尼亚州圣地亚哥市的),使用三十微升的每种样品DNA来制备文库。对测序文库进行制备,从而使得包括MM1的样品使用索引分子1编索引,包括MM2的样品使用索引2编索引等等。测序文库使用安捷伦生物分析器DNA1000试剂盒(安捷伦技术公司,圣克拉拉,加利福尼亚州)来量化并且用凯杰缓冲液EB稀释到4nM。将编索引并且经过标记的样品汇集并且进一步稀释到2nM,接着使用伊鲁米纳TruSeq SBS试剂盒v3,根据表30,在伊鲁米纳HiSeq流动池的四个泳道中进行测序。
表30
多重测序流动池的布局
将序列读数与人类参考基因组hg19进行比对并且与包含反基因链标记物分子序列的合成的参考基因组进行比对。对独特(即仅仅一次)映射到hg19参考基因组或具有标记物分子序列的合成的参考基因组的序列读数进行计数(表31)。
表31
MM序列与来源样品cfDNA序列的对应
*I=索引
**L=泳道
数据表明,对于每个样品来说,确定已经加入来源样品中的MM的序列只与已经加入MM的来源样品的cfDNA的序列相对应。举例来说,样品1的数据表明,确定映射到MM1的读数的序列只与已经从已经加入MM1的来源样品(血浆样品1)获得的cfDNA的序列相对应。另外,从来源样品1的测序cfDNA获得的读数中不存在不同的序列(例如MM2)表明来源样品1没有被另一个样品(例如来源样品2)交叉污染。
实例21
内部阳性对照
发展一种用于对母体cfDNA进行大规模平行测序的过程中阳性对照,为三体性13、三体性18以及三体性21提供定性阳性染色体剂量和NCV值。
将来自对应地具有Chr13、Chr18和Chr21的已知三体性的三个男性患者的成片段的基因组DNA外加到女性成片段的DNA背景中。通过PAGE对成片段的基因组DNA进行尺寸选择,以包含长度在从约150bp到约250bp范围内的片段,从而模拟胎儿cfDNA的尺寸。对T13、T18和T21对照的经过尺寸选择的DNA进行纯化并且进行末端修复,并且使用Nanodrop(特拉华州威尔明顿市(Wilmington,DE))测量浓度。所制备的DNA在生物分析器高灵敏度DNA芯片(安捷伦,圣克拉拉,加利福尼亚州)上进行确认。三体性13、三体性18以及三体性21的这些DNA从科瑞尔医学研究所(Coriell Institute for Medical Research)(新泽西州卡姆登市(Camden,NJ))获得。女性基因组DNA从博诚公司(The Biochain Institute)(加利福尼亚州海沃德市(Hayward,CA))获得。将少量的三体DNA外加到主要女性DNA背景中,以模拟在女性“母体”DNA背景中的“男性胎儿”DNA分数。对此DNA混合物的组成进行最佳化,使得当用于测序检验中来确定拷贝数变异时,混合物总是定性地对三体性13、三体性18以及三体性21报导阳性,其中13、18以及21的NCV值大于4。
母体cfDNA从血浆样品中提取出,这些血浆样品从孕妇获得;并且制备母体样品cfDNA和T13、T18以及T21的对照DNA的测序文库用于多重测序,使用伊鲁米纳平台来进行该多重测序。在测序仪的每一个流动池中对四个阳性对照和56个样品进行测序。如在本申请的其他地方所述,获得36bp读数,识别出多个染色体的标签,并且计算NCV值。
图69A、B以及C展示母体测试样品(◇)和内部阳性对照(□)的NCV值。NCV值超过4被确定为针对感兴趣的染色体13(A)、18(B)和21(C)对应地具有拷贝数变异。该图展示了阳性对照的NCV与母体测试样品的NCV进行关联,识别出其具有拷贝数变异,即染色体13、18和21的额外拷贝。
内部阳性对照可以设计成能模拟完整染色体变异和部分染色体变异,这些内部阳性对照可以用于产前诊断检验和例如如遍及本说明书所述通过大规模平行测序来确定胎儿分数等相关的检验。
实例22
使用大规模平行测序确定胎儿分数:样品处理和cfDNA提取
从处于妊娠期的第一个三月期或第二个三月期并且被认为存在胎儿非整倍性风险的孕妇体内收集外周血样品。在抽血前从各参与者处获得同意书。在羊膜穿刺或绒膜绒毛采样前收集血液。使用绒膜绒毛或羊膜穿刺样品进行核型分析以确定胎儿核型。
将从各受试者抽取的外周血收集在ACD管中。将一管血样(约6到9毫升/管)转移到一个15毫升低速离心管中。使用贝克曼Allegra 6R离心机和GA 3.8型转子,在2640rpm、4℃下将血液离心10分钟。
对于无细胞血浆提取,将上部血浆层转移到15毫升高速离心管中,并且使用贝克曼库尔特Avanti J-E离心机和JA-14转子,在16000×g、4℃下离心10分钟。在血液收集后,在72小时内进行两个离心步骤。将包含cfDNA的无细胞血浆存储在-80℃下,并且在血浆cfDNA扩增或cfDNA纯化前只解冻一次。
使用QIAamp血液DNA小型试剂盒(凯杰),基本上根据制造商说明书从无细胞血浆中提取经过纯化的无细胞DNA(cfDNA)。将一毫升缓冲液AL和100μl蛋白酶溶液加入1ml血浆中。在56℃下将该混合物孵育15分钟。将一毫升100%乙醇加入血浆消化液中。将所得混合物转移到与QIAvac 24 Plus柱组合件(凯杰)中所提供的VacValve和VacConnector组合的QIAamp微型柱中。向样品施加真空,并且在真空下用750μl缓冲液AW1对截留在柱过滤器上的cfDNA进行洗涤,继而用750μl缓冲液AW24进行第二次洗涤。在14,000RPM下将该柱离心5分钟以便从过滤器中去除任何残余缓冲液。通过在14,000RPM下离心用缓冲液AE洗提cfDNA,并且使用QubitTM量化平台(Invitrogen(英杰))确定浓度。
实例23
使用大规模平行测序确定胎儿分数:制备测序文库、测序以及分析测序数据
a.制备测序文库
所有测序文库,即目标、初级以及经过富集的文库,都由从母体血浆中提取的约2ng经过纯化的cfDNA制备。使用的NEBNextTM DNA样品制备DNA试剂集1(物品编号E6000L;纽英伦生物实验室,伊普斯威奇,马萨诸塞州)的试剂如下进行文库制备。因为无细胞血浆DNA本质上是成片段的,因此不再通过喷雾法或声处理使该血浆DNA样品成片段。根据 末端修复模块,通过将cfDNA与NEBNextTM DNA样品制备DNA试剂集1中所提供的5μl 10X磷酸化缓冲液、2μl脱氧核苷酸溶液混合物(10mM每一种dNTP)、1μl 1∶5 DNA多聚酶I稀释液、1μl T4 DNA多聚酶以及1μl T4多核苷酸激酶一起在1.5ml微量离心管中在20℃下孵育15分钟,将包括在40μl中的约2ng经过纯化的cfDNA片段的突出端转化成磷酸化钝端。接着通过在75℃将该反应混合物孵育5分钟对该酶进行热灭活。将该混合物冷却到4℃,并且使用10μl包含克列诺片段(3’到5’exo-)的dA加尾主混合液(NEBNextTM DNA样品制备DNA试剂集1)并且在37℃下孵育15分钟来实现钝端DNA的dA加尾。随后,通过在75℃下将该反应混合物孵育5分钟对克列诺片段进行热灭活。在克列诺片段灭活之后,使用NEBNextTM DNA样品制备DNA试剂集1中所提供的4μl T4 DNA连接酶,通过在25℃下将反应混合物孵育15分钟,用1μl伊鲁米纳基因组适配子寡聚混合物(物品编号1000521;加利福尼亚州海沃德市伊鲁米纳公司)的1∶5稀释液将伊鲁米纳适配子(非索引Y适配子)连接到带dA尾的DNA。将该混合物冷却到4℃,并且使用安金科特AMPure XP PCR纯化系统(物品编号A63881;贝克曼库尔特基因组,丹弗斯,马萨诸塞州)中所提供的磁珠,从未连接的适配子、适配子二聚体以及其他试剂中纯化出适配子连接的cfDNA。使用高保真主混合液(芬姿美,沃本,马萨诸塞州)和补偿适配子的伊鲁米纳PCR引物(物品编号1000537和1000537)进行18次PCR循环以便选择性地富集适配子连 接的cfDNA。使用伊鲁米纳基因组PCR引物(物品编号100537和1000538)和NEBNextTM DNA样品制备DNA试剂集1中所提供的Phusion HF PCR主混合液,根据制造商说明书对适配子连接的DNA进行PCR(98℃,30秒;98℃,10秒,18次循环;65℃,30秒;以及72℃,30秒;在72℃下最终延伸5分钟,并且保持在4℃)。使用安金科特AMPure XP PCR纯化系统(安金科特生物科技公司,比利佛,马萨诸塞州),根据可在www.beckmangenomics.com/products/AMPureXPProtocol_000387v001.pdf处获得的制造商说明书来纯化经过扩增的产物。在40μl凯杰EB缓冲液中洗提经过纯化的扩增产物,并且使用针对2100生物分析器(安捷伦技术公司,圣克拉拉,加利福尼亚州)的安捷伦DNA 1000试剂盒来分析经过扩增的文库的浓度和大小分布。
b.测序
使用基因组分析仪II(伊鲁米纳公司,圣地亚哥,美国加利福尼亚州),根据标准制造商规约,对文库DNA进行测序。使用伊鲁米纳/索乐科萨技术进行全基因组测序的规约的拷贝可以在2006年12月公开的BioTechniques.RTM.规约指导2007第29页找到,以及在万维网biotechniques.com/default.asp?page=protocol&subsection=article_display&id=112378上找到。
将DNA文库稀释到lnM并且变性。根据可以在万维网illumina.com/systems/genome analyzer/cluster_station.ilmn上获得的伊鲁米纳成簇站用户指南(Illumina’s Cluster Station User Guide)和成簇站操作指南(Cluster Station Operations Guide)中所述的程序,使文库DNA(5pM)进行成簇扩增。使用伊鲁米纳基因组分析仪II对经过扩增的DNA进行测序,以便获得36bp的单端读数。识别出一个序列属于一个特定的人染色体,仅仅需要约30bp的随机序列信息。更长的序列可以独特地识别出更具体的目标。在当前的情况下,获得了众多36bp读数,覆盖了基因组的大约10%。
c.分析测序数据以确定胎儿分数
一旦完成了样品的测序,伊鲁米纳“序列控制软件”将影像和碱基判定文件转移到一个运行伊鲁米纳“基因组分析仪流水线(Genome Analyzer Pipeline)”软件版本1.51的Unix服务器中。使用BOWTIE程序,将36bp读数与人工参考基因组(例如SNP基因组)进行比对。该人工参考基因组识别为涵盖了多态目标序列中所包含的等位基因的多态DNA序列的分组。举例来说,人工参考基因组是包含SEQ ID NO:7-62的SNP基因组。仅仅独特映射到该人工基因组的读数用于分析胎儿分数。完全匹配SNP基因组的读数算作标签并且将其进行过滤。在剩余读数中,仅仅具有一个或两个错配的读数算作标签并且包括在分析中。对映射到多态等位基因中的每一个的标签进行计数,并且胎儿分数确定为映射到主等位基因(即母体等位基因)的标签的数目与映射到次等位基因(即胎儿等位基因)的标签的数目的比率。
实例24
选择常染色体SNP以确定胎儿分数
一组28个常染色体SNP是选自92个SNP的清单(帕克斯等人,人类遗传学127:315-324[2010])以及选自万维网地址是appliedbiosystems.com的Life TechnologiesTM(加利福尼亚州卡尔斯巴德市)的应用生物系统。引物被设计成与一个接近cfDNA上的SNP位点的序列杂交以确保该SNP位点包括在通过在伊鲁米纳分析仪GII上进行大规模平行测序所产生的36bp读数内,并且产生长度足以在成簇形成期间进行桥式扩增的扩增子。因此,引物被设计成能产生至少110bp的扩增子,这些扩增子在与用于成簇扩增的通用适配子(加利福尼亚州圣地亚哥市伊鲁米纳公司)组合时产生至少200bp的DNA分子。识别出引物序列,并且通过集成DNA技术(圣地亚哥,加利福尼亚州)合成引物集合(即正向和反向引物)并且以1μM溶液形式存储,待用于如实例25到27中所述,扩增多态目标序列。表33提供了RefSNP(rs)寄存身份编号、用于扩增目标cfDNA序列的引物以及包含将使用这些引物产生的可能的SNP等 位基因的扩增子的序列。在表33中给出的SNP用于在一个多重检验中同时扩增13个目标序列。在表33中提供的小组是一个例示性SNP小组。可以采用更少或更多的SNP来针对多态目标核酸富集胎儿和母体DNA。可以使用的额外的SNP包括在表34中给出的SNP。SNP等位基因用粗体展示并且加下划线。可用于根据本发明的方法确定胎儿分数的其他额外的SNP包括rs315791、rs3780962、rs1410059、rs279844、rs38882、rs9951171、rs214955、rs6444724、rs2503107、rs1019029、rs1413212、rs1031825、rs891700、rs1005533、rs2831700、rs354439、rs1979255、rs1454361、rs8037429和rs1490413,已经通过TaqMan PCR针对确定胎儿分数分析了这些SNP,并且披露在美国临时申请表61/296,358和61/360,837中。
表33
用于确定胎儿分数的SNP小组
表34
用于确定胎儿分数的额外的SNP
实例25
通过对目标文库进行大规模平行测序来确定胎儿分数
为了确定母体样品中胎儿的cfDNA分数,对每一个都包含SNP的目标多态核酸序列进行扩增并且用于制备以大规模平行模式进行测序的目标文库。
如上所述提取cfDNA。目标测序文库如下制备。将5μl经过纯化的cfDNA中所包含的cfDNA在包含7.5μl 1μM引物混合物(表1)、10μl NEB 5X主混合液以及27μl水的50μl反应体积中扩增。使用以下循环条件,用Gene Amp9700(应用生物系统)进行热循环:在95℃下孵育1分钟,继而在95℃下20秒,在68℃下1分钟,以及在68℃下30秒,循环20到30次,接着在68℃下最终孵育5分钟。最终保持在4℃下,直到为与经过纯化的cfDNA样品的未扩增部分组合而移出样品。使用安金科特AMPure XP PCR纯化系统(物品编号A63881;贝克曼库尔特基因组,丹弗斯,马萨诸塞州)对经过扩增的产物进行纯化。最终保持在4℃下,直到为制备目标文库而移出。用2100生物分析器分析(安捷伦技术公司,加利福尼亚州森尼韦尔市(Sunnyvale,CA))经过扩增的产物并且确定经过扩增的产物的浓度。经过扩增的目标核酸的测序文库如实例23中所述来制备,并且使用借助可逆染料终止子的合成法测序以及根据伊鲁米纳规约(2006年12月公开的BioTechniques.RTM.规约指南2007第29页,以及在万维网biotechniques.com/default.asp?page=protocol&subsection=article_display&id=112378)以大规模平行模式进行测序。如所述,对映射到由包含SNP的26个序列(13对,每一对表示两个等位基因)(即SEQ ID NO:7-32)组成的参考基因组的标签进行分析和计数。
表35提供了从对目标文库进行测序所获得的标签计数,和从测序数据获得的所计算的胎儿分数。
表35
通过对多态核酸文库进行大规模平行测序来确定胎儿分数
结果表明,每一个包含至少一个SNP的多态核酸序列可以从来源于母体血浆样品的cfDNA扩增而来,以构造一个文库,该文库可以通过大规模平行模式进行测序以确定母体样品中胎儿核酸的分数。
实例26
在cfDNA测序文库样品中胎儿和母体核酸富集后确定胎儿分数。
为了富集使用经过纯化的胎儿和母体cfDNA所构造的初级测序文库中所包含的胎儿和母体cfDNA,使用经过纯化的cfDNA样品的一部分来扩增多态目标核酸序列,并且制备所扩增的多态目标核酸的测序文库,该测序文库用以富集该初级文库中所包含的胎儿和母体核酸序列。
该方法对应于图10中所图示的工作流程。如实例23中所述,从经过纯化的cfDNA的一部分制备目标测序文库。如实例23中所述,使用经过纯化的 cfDNA的剩余部分制备初级测序文库。通过将初级和目标测序文库稀释到10nM,并且将目标文库与初级文库以1∶9的比率组合以提供富集的测序文库,来实现针对目标文库中所包含的经过扩增的多态核酸对初级文库的富集。如实例23中所述,对富集的文库进行测序并且对测序数据进行分析。
表36提供了映射到信息性SNP的SNP基因组的序列标签的数目,这些信息性SNP通过对来源于每一个对应地怀有T21、T13、T18和单体性X胎儿的孕妇的血浆样品的富集文库进行测序而识别出。胎儿分数如下计算:
等位基因x胎儿分数%=((∑等位基因x的胎儿序列标签)/(∑等位基因x的母体序列标签))×100
表36还提供了映射到人类参考基因组的序列标签的数目。使用与用于确定相应的胎儿分数相同的血浆样品,使用映射到人类参考基因组的标签来确定存在或不存在非整倍性。使用序列标签计数来确定非整倍性的方法描述于美国临时申请61/407,017和61/455,849778中,这些申请通过引用以其全文结合于此。
表36 通过对多态核酸的富集文库进行大规模平行测序来确定胎儿分数
实例27
通过大规模平行测序来确定胎儿分数:
在经过纯化的cfDNA样品中针对多态核酸的胎儿和母体核酸的富集。
为了富集从母体血浆样品提取出的cfDNA的纯化样品中所包含的胎儿和母体cfDNA,使用经过纯化的cfDNA的一部分来扩增多态目标核酸序列,每一个多态目标核酸序列包含一个选自在表33中给出的SNP小组的SNP。
该方法对应于图9中所图示的工作流程。如实例22中所述,从母体血液样品获得无细胞血浆,并且从血浆样品纯化cfDNA。测定出最终浓度是92.8pg/μl.。将5μl经过纯化的cfDNA中所包含的cfDNA在包含7.5μl 1μM引物混合物(表1)、10μl NEB 5X主混合液以及27μl水的50μl反应体积中扩增。用Gene Amp9700(应用生物系统)进行热循环。使用以下循环条件:在95℃下孵育1分钟,继而在95℃下20秒,在68℃下1分钟,以及在68℃下30秒,循环30次,接着在68℃下最终孵育5分钟。最终保持在4℃下,直到为与经过纯化的cfDNA样品的未扩增部分组合而移出样品。使用安金科特AMPure XP PCR纯化系统(物品编号A63881;贝克曼库尔特基因组,丹弗斯,马萨诸塞州)对经过扩增的产物进行纯化,并且使用Nanodrop 2000(赛默科技(Thermo Scientific),威尔明顿,特拉华州)量化浓度。将经过纯化的扩增产物在水中1∶10稀释并且0.9μl(371pg)加入40μl经过纯化的cfDNA样品中以获得10%外加。经过纯化的cfDNA样品中所存在的富集的胎儿和母体cfDNA用于制备测序文库,并且如实例22中所述来测序。
表37提供针对染色体21、18、13、X和Y中的每一个所获得的标签计数,即序列标签密度,以及针对SNP参考基因组中所包含的信息性多态序列所获 得的标签计数,即SNP标签密度。数据表明测序信息可以通过对由经过纯化的母体cfDNA样品构造的单文库进行测序而获得,该母体cfDNA样品已经富集包含SNP的序列,以同时确定存在或不存在非整倍性和胎儿分数。如美国临时申请61/407,017和61/455,849中所述,使用映射到染色体的标签的数目确定存在或不存在非整倍性。在所给出的实例中,数据表明血浆样品AFR105中胎儿DNA的分数可以从五个信息性SNP测序结果量化并且确定为3.84%。针对染色体21、13、18、X和Y,提供序列标签密度。
该实例表明,富集规约为通过单测序过程确定非整倍性和胎儿分数提供必需的标签计数。
表37
通过大规模平行测序来确定胎儿分数:
在经过纯化的cfDNA样品中针对多态核酸富集胎儿和母体核酸
实例28
通过包含STR的多态序列的毛细管电泳确定胎儿分数
为确定包含胎儿和母体cfDNA的母体样品中的胎儿分数,从怀有男性或女性胎儿的志愿者孕妇中收集外周血样品。如实例22中所述,获得和处理外周血样品以提供经过纯化的cfDNA。
使用AmpMiniFilerTM PCR扩增试剂盒(应用生物系统,福斯特城,加利福尼亚州),根据制造商说明书,分析十微升cfDNA样品。简单地说,包含在10μl中的cfDNA在包含5μl荧光标记的引物(AmpMiniFilerTM引物集合)和AmpMiniFilerTM主混合液的25μl反应体积中扩增,该AmpMiniFilerTM主混合液包含AmpliTaqDNA聚合酶和相关缓冲液、盐(1.5 mM MgCl2)以及200μM脱氧三磷酸核苷(dNTP:dATP、dCTP、dGTP以及dTTP)。荧光标记的引物是用6FAMTM、VICTM、NEDTM、和PETTM染料进行标记的正向引物。使用以下循环条件,用Gene Amp9700(应用生物系统)进行热循环:在95℃下孵育10分钟,继而在94℃下20秒,在59℃下2分钟,以及在72℃下1分钟,循环30次,接着在60℃下最终孵育45分钟。最终保持在4℃下,直到为进行分析而移出样品。通过在8.7μl Hi-DiTM甲酰胺(应用生物系统)和0.3μl GeneScanTM-500 LIZ内部尺寸标准(应用生物系统)中稀释1μl经过扩增的产物来制备经过扩增的产物,并且使用数据收集HID_G5_POP4(应用生物系统)以及36cm毛细管阵列,用ABIPRISM3130xl基因分析仪(应用生物系统)来分析。所有基因分型都用GeneMapper_ID v3.2软件(应用生物系统),使用制造商提供的等位基因分型 标准物(allelic ladders)和数据箱以及小组进行。
所有基因分型测量都在应用生物系统3130xl基因分析仪上,使用针对每一个等位基因所获得的尺寸±0.5-nt“窗”执行,以允许检测和校正等位基因的比对。尺寸在±0.5-nt窗之外的任何样品等位基因确定为OL,即“分型标准物外的(Off Ladder)”。OL等位基因是尺寸在AmpMiniFilerTM等位基因分型标准物中未表现的等位基因,或者是不与等位基因分型标准物相对应,但由于测量误差而使得尺寸正好在窗外的等位基因。最小峰值高度阈值>50RFU是基于验证实验设置的,执行这些验证实验以避免在随机效应可能干扰混合物的精确解读时进行分型。胎儿分数的计算是基于将所有信息性标记物求平均值。信息性标记物通过在电泳图上存在着落入针对所分析的STR的预置数据箱的参数内的峰值来识别。
使用根据一式三份的注射所确定的每个STR基因座上主等位基因和次等位基因的平均峰值高度对胎儿分数进行计算。适用于该计算的规则是:
1.针对不包括在计算中的等位基因的分型标准物外的等位基因(OL)数据;以及
2.仅仅由>50RFU(相对荧光单位)获得的峰值高度包括在计算中。
3.若只有一个数据箱存在,则标记物被认为是非信息性的;以及
4.若判定了一个第二数据箱,但第一和第二数据箱的峰值在峰值高度上在其相对荧光单位(RFU)的50%到70%内,则不测量少数的分数并且该标记物不被认为是信息性的。
针对任何给出的信息性标记物的次等位基因的分数通过将次要组分的峰值高度除以主要组分的峰值高度和来计算,并且表示为百分比,首先针对每一个信息性基因座计算为
胎儿分数=(∑次等位基因的峰值高度/∑主等位基因的峰值高度)X100,
包含两个或更多个信息性STR的样品的胎儿分数将计算为针对两个或更多个信息性标记物计算的胎儿分数的平均值。
表38提供从对怀有男性胎儿的受试者的cfDNA进行分析所获得的数据。
表38
通过分析STR在怀孕受试者的cfDNA中确定的胎儿分数
结果表明,cfDNA可用于确定存在或不存在胎儿DNA,如在一个或多个 STR等位基因上次要组分的检测所指示,用于确定胎儿分数百分比,以及用于确定胎儿性别,如存在或不存在Amelogenin等位基因所指示。

Claims (23)

1.一个用于确定胎儿分数的试剂盒,所述试剂盒包括一个盒体(1)、安排在该盒体内用于安置多个瓶的多个卡接槽口、包括一个内部阳性对照的一个瓶(2)、包括适合追踪并且确定样品完整性的一个标记物核酸的一个瓶(3)、以及包括一种缓冲溶液的一个瓶(4),其中所述试剂盒进一步包括多个瓶,其中所述多个瓶中的每一个包括一种不同的内部阳性对照和/或一种不同的标记物核酸。
2.如权利要求1所述的试剂盒,其中瓶(2)包括两种或更多种内部阳性对照。
3.如权利要求1所述的试剂盒,其中所述内部阳性对照包括一个选自下组的三体性,该组由以下各项组成:三体性21、三体性18、三体性21、三体性13、三体性16、三体性13、三体性9、三体性8、三体性22、XXX、XXY、和XYY。
4.如权利要求1所述的试剂盒,其中所述内部阳性对照包括选自下组的一种三体性,该组由以下各项组成:三体性21(T21)、一种三体性18(T18)、以及一种三体性13(T13)。
5.如权利要求4所述的试剂盒,其中加载在该瓶(2)中的阳性对照包括三体性21(T21)、三体性18(T18)、和三体性13(T13)。
6.如权利要求1所述的试剂盒,其中加载在该瓶(2)中的该阳性对照包括染色体1-22、X和Y中任意一个或多个的长臂或短臂的扩增或缺失。
7.如权利要求6所述的试剂盒,其中加载在该瓶(2)中的该阳性对照包括选自下组的一个或多个臂的扩增或缺失,该组由以下各项组成:1q、3q、4p、4q、5p、5q、6p、6q、7p、7q、8p、8q、9p、9q、10p、10q、12p、12q、13q、14q、16p、17p、17q、18p、18q、19p、19q、20p、20q、21q、和22q。
8.如权利要求1所述的试剂盒,其中加载在该瓶(2)中的该阳性对照包括选自下组的一个区域的扩增,该组由以下各项组成:20Q13、19q12、1q21-1q23、8p11-p12和ErbB2。
9.如权利要求1所述的试剂盒,其中加载在该瓶(2)中的阳性对照包括下列表3、表4、表5、和表6中示出的一个区域或一个基因的扩增:
表3:
表4:
表5:
表6:
10.如权利要求1所述的试剂盒,其中加载在该瓶(2)中的该阳性对照包括包含选自下组的一个区域或一个基因的扩增,该组由以下各项组成:MYC、ERBB2、CCND1、FGFR1、FGFR2、HRAS、KRAS、MYB、MDM2、CCNE、KRAS、MET、ERBB1、CDK4、MYCB、ERBB2、AKT2、MDM2和CDK4。
11.根据权利要求1-10中任一项所述的试剂盒,其中所述标记物核酸是反基因链标记物序列。
12.如权利要求11所述的试剂盒,其中所述标记物序列的长度在从约30bp到约600bp长度范围内。
13.如权利要求11所述的试剂盒,其中所述标记物序列的长度在从约100bp到约400bp长度范围内。
14.根据权利要求11所述的试剂盒,对于不同的标记物序列进一步包括至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个、或至少11个、或至少12个、或至少13个、或至少14个、或至少15个、或至少16个、或至少17个、或至少18个、或至少19个、或至少20个、或至少25个、或至少30个、或至少35个、或至少40个、或至少50个瓶。
15.根据权利要求11所述的试剂盒,其中所述标记物被合并到所述对照中。
16.根据权利要求11所述的试剂盒,其中所述标记物被合并到一个适配子中。
17.根据权利要求1-10中任一项所述的试剂盒,其中一个或多个测序适配子被进一步加载到该瓶(3)中。
18.如权利要求17所述的试剂盒,其中所述测序适配子包括多个编索引的测序适配子。
19.如权利要求18所述的试剂盒,其中所述适配子包括一个单股臂,该单股臂包括一个索引序列和一个或多个PCR引发位点。
20.如权利要求1-10中任一项所述的试剂盒,其中所述试剂盒进一步包括用于收集一个生物样品的一个样品收集装置。
21.如权利要求20所述的试剂盒,其中所述样品收集装置包括用于收集血液的一个装置(5)和用于盛放血液的一个容器(6)。
22.根据权利要求1-10中任一项所述的试剂盒,其中所述试剂盒进一步包括一个加载了多种DNA提取试剂的一个瓶(7)。
23.根据权利要求1-10中任一项所述的试剂盒,其中所述试剂盒进一步包括加载了用于制备测序文库的多种试剂的一个瓶(8)。
CN201220583608.8U 2012-04-12 2012-11-07 用于确定胎儿分数的试剂盒 Expired - Lifetime CN204440396U (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US13/445,778 US9447453B2 (en) 2011-04-12 2012-04-12 Resolving genome fractions using polymorphism counts
US13/445,778 2012-04-12
US13/482,964 US20120270739A1 (en) 2010-01-19 2012-05-29 Method for sample analysis of aneuploidies in maternal samples
US13/482,964 2012-05-29
US13/555,037 US9260745B2 (en) 2010-01-19 2012-07-20 Detecting and classifying copy number variation
US13/555,037 2012-07-20

Publications (1)

Publication Number Publication Date
CN204440396U true CN204440396U (zh) 2015-07-01

Family

ID=49460351

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201220583608.8U Expired - Lifetime CN204440396U (zh) 2012-04-12 2012-11-07 用于确定胎儿分数的试剂盒
CN201810154581.2A Active CN108485940B (zh) 2012-04-12 2012-11-07 拷贝数变异的检测和分类
CN201210441134.8A Active CN103374518B (zh) 2012-04-12 2012-11-07 拷贝数变异的检测和分类
CN201710644858.5A Pending CN107435070A (zh) 2012-04-12 2012-11-07 拷贝数变异的检测和分类

Family Applications After (3)

Application Number Title Priority Date Filing Date
CN201810154581.2A Active CN108485940B (zh) 2012-04-12 2012-11-07 拷贝数变异的检测和分类
CN201210441134.8A Active CN103374518B (zh) 2012-04-12 2012-11-07 拷贝数变异的检测和分类
CN201710644858.5A Pending CN107435070A (zh) 2012-04-12 2012-11-07 拷贝数变异的检测和分类

Country Status (1)

Country Link
CN (4) CN204440396U (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113684277A (zh) * 2021-09-06 2021-11-23 南方医科大学南方医院 一种基于基因组拷贝数变异的生物标志物预测卵巢癌同源重组缺陷的方法及应用
CN114507904A (zh) * 2022-04-19 2022-05-17 北京迅识科技有限公司 一种制备二代测序文库的方法

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3117012T3 (da) * 2014-03-14 2019-05-13 Caredx Inc Fremgangsmåder til overvågning af immunosuppressive terapier hos en transplantmodtager
IL249095B2 (en) * 2014-05-30 2023-10-01 Verinata Health Inc Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies
CN104152553B (zh) * 2014-07-21 2016-11-23 上海交通大学 一种辅助诊断待测胎儿是否为21-三体综合征患者的试剂盒
MA40939A (fr) * 2014-12-12 2017-10-18 Verinata Health Inc Utilisation de la taille de fragments d'adn acellulaire pour déterminer les variations du nombre de copies
US10364467B2 (en) * 2015-01-13 2019-07-30 The Chinese University Of Hong Kong Using size and number aberrations in plasma DNA for detecting cancer
US10395759B2 (en) * 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
US20180327820A1 (en) * 2015-06-15 2018-11-15 Murdoch Childrens Research Institute Method of measuring chimerism
WO2017007903A1 (en) * 2015-07-07 2017-01-12 Farsight Genome Systems, Inc. Methods and systems for sequencing-based variant detection
CA2997929A1 (en) 2015-09-08 2017-03-16 Cold Spring Harbor Laboratory Genetic copy number determination using high throughput multiplex sequencing of smashed nucleotides
AU2016321333A1 (en) * 2015-09-09 2018-04-26 Psomagen, Inc. Method and system for microbiome-derived diagnostics and therapeutics for conditions associated with cerebro-craniofacial health
US10457990B2 (en) 2015-09-22 2019-10-29 The Chinese University Of Hong Kong Accurate deduction of fetal DNA fraction with shallow-depth sequencing of maternal plasma
CN108603228B (zh) * 2015-12-17 2023-09-01 夸登特健康公司 通过分析无细胞dna确定肿瘤基因拷贝数的方法
US10095831B2 (en) 2016-02-03 2018-10-09 Verinata Health, Inc. Using cell-free DNA fragment size to determine copy number variations
CN109689891B (zh) * 2016-07-06 2024-06-18 夸登特健康公司 用于无细胞核酸的片段组谱分析的方法
RU2674700C2 (ru) * 2016-12-30 2018-12-12 Общество с ограниченной ответственностью "Научно-производственная фирма ДНК-Технология" (ООО "НПФ ДНК-Технология") Способ определения источника анеуплоидных клеток по крови беременной женщины
SG11201911538YA (en) * 2017-06-20 2020-01-30 Illumina Inc Methods and systems for decomposition and quantification of dna mixtures from multiple contributors of known or unknown genotypes
CA3067418C (en) 2017-06-20 2022-08-16 Illumina, Inc. Methods for accurate computational decomposition of dna mixtures from contributors of unknown genotypes
CN108427864B (zh) * 2018-02-14 2019-01-29 南京世和基因生物技术有限公司 一种拷贝数变异的检测方法、装置以及计算机可读介质
CN110656159B (zh) * 2018-06-28 2024-01-09 深圳华大生命科学研究院 一种拷贝数变异的检测方法
WO2020023509A1 (en) * 2018-07-24 2020-01-30 Affymetrix, Inc. Array based method and kit for determining copy number and genotype in pseudogenes
CN110880356A (zh) * 2018-09-05 2020-03-13 南京格致基因生物科技有限公司 对卵巢癌进行筛查、诊断或风险分级的方法和装置
CN109628579B (zh) * 2019-01-13 2022-11-15 清华大学 一种确定生物体样本中染色体数量是否异常的检测方法
CA3115513A1 (en) * 2019-06-03 2020-12-10 Illumina, Inc. Limit of detection based quality control metric
CN110373477B (zh) * 2019-07-23 2021-05-07 华中农业大学 克隆自cnv片段的与猪耳形性状相关的分子标记
CN110317877A (zh) * 2019-08-02 2019-10-11 苏州宏元生物科技有限公司 一组染色体不稳定变异在制备诊断尿路上皮癌、评估预后的试剂或试剂盒中的应用
CN110452985A (zh) * 2019-08-02 2019-11-15 苏州宏元生物科技有限公司 一组染色体不稳定变异在制备诊断肝癌、评估预后的试剂或试剂盒中的应用
CN112342627B (zh) * 2019-08-09 2024-07-23 深圳市真迈生物科技有限公司 一种核酸文库的制备方法及测序方法
CN111105844B (zh) * 2019-11-22 2023-06-06 广州金域医学检验集团股份有限公司 体细胞变异分类方法、装置、设备及可读存储介质
CN111394474B (zh) * 2020-03-24 2022-08-16 西北农林科技大学 一种检测黄牛gal3st1基因拷贝数变异的方法及其应用
CN111476497B (zh) * 2020-04-15 2023-06-16 浙江天泓波控电子科技有限公司 一种用于小型化平台的分配馈电网络方法
CN111948394B (zh) * 2020-08-10 2023-07-28 山西医科大学 Tsta3与lamp2作为靶标物在食管鳞癌细胞转移检测、药物筛选中的应用
CN112322722B (zh) * 2020-11-13 2021-11-12 上海宝藤生物医药科技股份有限公司 检测16p11.2微缺失的引物探针组合物、试剂盒及其应用
CN112614548B (zh) * 2020-12-25 2021-08-03 北京吉因加医学检验实验室有限公司 一种计算样本建库投入量的方法及其建库方法
CN113462768B (zh) * 2021-07-29 2023-05-30 中国医学科学院整形外科医院 一种利用ddPCR检测小耳畸形患者ECR区域的拷贝数的引物及试剂盒
CN114093417B (zh) * 2021-11-23 2022-10-04 深圳吉因加信息科技有限公司 一种鉴定染色体臂杂合性缺失的方法和装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1290225A4 (en) * 2000-05-20 2004-09-15 Univ Michigan METHOD FOR PRODUCING A DNA BANK BY POSITIONAL REPRODUCTION
CA2413158A1 (en) * 2000-06-30 2002-01-10 Incyte Genomics, Inc. Ecm-related tumor marker
ES2330339T3 (es) * 2003-01-29 2009-12-09 454 Life Sciences Corporation Procedimientos para amplificar y secuenciar acidos nucleicos.
EP2334812B1 (en) * 2008-09-20 2016-12-21 The Board of Trustees of The Leland Stanford Junior University Noninvasive diagnosis of fetal aneuploidy by sequencing
GB2479471B (en) * 2010-01-19 2012-02-08 Verinata Health Inc Method for determining copy number variations
JP5882234B2 (ja) * 2010-02-25 2016-03-09 アドバンスト リキッド ロジック インコーポレイテッドAdvanced Liquid Logic, Inc. 核酸ライブラリーの作製方法
CN102409043B (zh) * 2010-09-21 2013-12-04 深圳华大基因科技服务有限公司 高通量低成本Fosmid文库构建的方法及其所使用标签和标签接头
CN102127818A (zh) * 2010-12-15 2011-07-20 张康 利用孕妇外周血建立胎儿dna文库的方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113684277A (zh) * 2021-09-06 2021-11-23 南方医科大学南方医院 一种基于基因组拷贝数变异的生物标志物预测卵巢癌同源重组缺陷的方法及应用
CN113684277B (zh) * 2021-09-06 2022-05-17 南方医科大学南方医院 一种基于基因组拷贝数变异的生物标志物预测卵巢癌同源重组缺陷的方法及应用
CN114507904A (zh) * 2022-04-19 2022-05-17 北京迅识科技有限公司 一种制备二代测序文库的方法

Also Published As

Publication number Publication date
CN103374518A (zh) 2013-10-30
CN108485940A (zh) 2018-09-04
CN108485940B (zh) 2022-01-28
CN103374518B (zh) 2018-03-27
CN107435070A (zh) 2017-12-05

Similar Documents

Publication Publication Date Title
CN204440396U (zh) 用于确定胎儿分数的试剂盒
US11875899B2 (en) Analyzing copy number variation in the detection of cancer
US11697846B2 (en) Detecting and classifying copy number variation
US20200219588A1 (en) Detecting and classifying copy number variation
KR102184868B1 (ko) 카피수 변이를 판정하기 위한 dna 단편 크기의 사용
US9411937B2 (en) Detecting and classifying copy number variation
EP2877594B1 (en) Detecting and classifying copy number variation in a fetal genome
AU2015360298B2 (en) Using cell-free DNA fragment size to determine copy number variations
US9323888B2 (en) Detecting and classifying copy number variation
CN103003447B (zh) 用于确定样品中存在或不存在不同非整倍性的方法
AU2019200163B2 (en) Detecting and classifying copy number variation
AU2019200162B2 (en) Detecting and classifying copy number variation
US20240203601A1 (en) Analyzing copy number variation in the detection of cancer

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20150701