哺乳动物基因组结构变异的多重生成和单细胞分析
苏达山·平雷^(1,2,3^(**),){ }^{1,2,3^{*},}、Jean-Benoit Lalanne^(1){ }^{1}, Riza M. Daza^(1,3){ }^{1,3}、乔纳斯·科佩尔^(4){ }^{4}, 李小义^(1){ }^{1}, 李大卫^(1,5){ }^{1,5}, Jay Shendure^(1,2,3,6,7,**){ }^{1,2,3,6,7, *}
- 美国华盛顿州西雅图市华盛顿大学基因组科学系
- Brotman Baty Institute for Precision Medicine, 美国华盛顿州西雅图
- 西雅图合成生物学中心,美国华盛顿州西雅图
- Wellcome Sanger Institute, 英国欣克斯顿
- 美国华盛顿州西雅图华盛顿大学蛋白质设计研究所
- Allen 细胞谱系示踪发现中心,美国华盛顿州西雅图
- 美国华盛顿州西雅图霍华德休斯医学研究所 *通信方式:pinglay@uw.edu(S.P)、shendure@uw.edu(J.S.)
抽象
哺乳动物基因组中结构变异 (SV) 的功能后果很难研究。这是由于几个因素,包括:1) 相对于其他形式的常存遗传变异,如单核苷酸变异 (SNV) 和短插入或缺失 (插入缺失),它们在数量上缺乏;2) 单个 SV 可能涉及并可能影响多个基因和/或 ci 调节元件的功能;3) 在体外或体内模型系统中随机或靶向方式生成和映射 SV 的方法相对不成熟。为了应对这些挑战,我们开发了 Genome-Shuffle-seq,这是一种简单的方法,能够在整个哺乳动物基因组中对几种主要形式的 SV(缺失、倒位、易位)进行多重生成和定位。Genome-Shuffle-seq 基于将“随机盒”整合到基因组中,其中每个随机盒都包含促进其与其他集成随机盒(通过 Cre-loxP)的位点特异性重组 (SSR) 的组件,映射到特定基因组位置(通过 T7 介导的体外转录或 IVT),以及在单细胞 RNA-seq (scRNA-seq) 数据中的鉴定(通过 T7 介导的原位转录或 IST)。在这个概念验证中,我们应用 Genome-Shuffle-seq 在单个实验中诱导和定位小鼠胚胎干细胞 (mESC) 中的数千个基因组 SV。随着时间的推移,诱导的 SV 从细胞群中迅速耗尽,可能是由于 Cre 介导的毒性和/或重排本身的负选择。利用已经映射的条形码的 T7 IST,我们进一步证明我们可以有效地对哪些 SV 与 scRNA-seq 数据中的许多单细胞转录组相关联进行基因分型。最后,初步证据表明我们的方法可能是生成染色体外环状 DNA (ecDNA) 的有力手段。展望未来,我们预计 Genome-Shuffle-seq 可能广泛用于系统探索 SVs 对基因表达、染色质景观和 3D 核结构的功能影响。我们进一步预测了 ecDNA 体外建模的潜在用途,以及为最小的哺乳动物基因组铺平道路。
介绍
人类遗传变异的主要类别包括 SNV、插入缺失、简单序列重复变异和基因组 SV(例如超过 50 bp 的缺失、插入、倒位和重复,以及染色体易位) (1, 2)。从历史上看,与 SNV 或 indel 相比,基因组 SV 在我们研究其功能后果的能力方面一直处于明显的劣势。不幸的是,不仅依赖于活人的遗传分析范式存在这种情况,而且完全在体外或体内模型系统中进行的遗传分析也是如此。
对于人类遗传学,每代人的新生 SV 频率比每代人的新生 SNV 低 100 倍以上 (3)。因此,SV 不太可能复发,并且当它们再次复发时,不太可能以允许特定功能单元的明确含义的方式复发(例如 相同基因集或调节元件的反复破坏)。这与单个基因或调节元件中破坏性 SNV 或 indels 的重复形成鲜明对比,后者通常允许在孟德尔研究中分配因果关系。此外,SV 的从头发生率较低,以及有害适应效应的可能性更大(因为 SV 破坏的碱基对 [bp] 比 SNV 或插入缺失多几个数量级),导致人类群体中现有遗传变异的数量更加缺乏 (3-7)。与 SNV 或 indels 相比,达到共同等位基因频率的 SV 要少得多,这将允许通过全基因组关联研究 (GWAS) 对表型效应进行有力的检测。在某种程度上,这些限制可以通过更大的同期群规模来解决,但这有局限性。例如,尽管活人中可能存在与生命相容的所有可能的 SNV (8),但并非所有可能的 SV 都存在这种情况。
对于基于实验室的遗传学,已经开发了大量策略以将 SNV 或 indel 引入模型系统进行功能分析。这些策略包括经典的化学诱变筛选以及其现代等价物,碱基编辑筛选(9)。它们还包括使用大规模平行 DNA 合成或诱变 PCR 来实现感兴趣序列的饱和诱变,随后可以在其本土基因组背景内或外进行研究 (10,11)(10,11) 。尽管通过这些方法生成的许多特定 SNV 或 indel 尚未在活人中观察到,但它们的分析仍然可以以多种方式提供信息,例如用于将特定基因与特定表型联系起来(12),系统性地表征调控或编码变体的效应大小分布 (10,11,13)(10,11,13) ,预计算疾病相关基因中潜在变体的临床后果(11),优化免疫疗法(14)等。然而,再一次,SVs 与 SNVs 或 indels 相比处于明显劣势,这里是由于在模型系统中生成和映射 SV 的方法相对不成熟。
由于这些缺点,关于人类基因组仍然存在许多未解之谜,这些问题与 SV 而不是 SNV 或 indel 规模的特性有关。基因、外显子和顺式调控元件分散在很远的距离上,在特定基因组中以特定方式排序和定向。然而,我们对这些距离、顺序和方向的功能含义的理解可以说仍然非常肤浅。例如,大约四分之一的人类基因组由基因沙漠组成 (15)。尽管保守模式表明此类沙漠中至少一些序列是有效的,但即使是兆碱基大小的基因沙漠的缺失也会产生没有可辨别表型的活小鼠 (16, 17)。其他非基因 SV 显然会导致孟德尔疾病,导致复杂的疾病风险,或者是进化适应的基础 (18),但辨别它们在个别情况下是如何做到这一点的通常仍不清楚。一些哺乳动物基因组的大小与人类基因组相差超过 10 亿 bp (19),即使在类似大小的哺乳动物基因组(如小鼠和人类)之间,在进化过程中,通过结构变异获得和损失也超过 10 亿 bp (20)。除了种系之外,各种体细胞 SV,包括一些癌症特异性形式的结构变异,如染色体裂口和 ecDNA (21, 22),已经公认在几乎所有人类癌症的发生和进展中发挥着关键作用。
已经开发了多种策略来工程化结构变异(SV)。例如,可以将特定位置的特异性重组酶(SSR)识别位点引入到特定位置,从而使其重组产生特定的 SV,甚至是感兴趣的 ecDNA 物种(23-25)。然而,这种方法劳动密集,并且仅能产生一个或少数几个 SV 供研究。另一种选择是使用 CRISPR/Cas9 在多个位置同时驱动双链断裂(DSB),这可能导致 SV 的生成,甚至可能是全基因组范围的(26-28)。但是,基于 CRISPR/Cas9 的 SV 诱导面临着低效率、不精确、DSB 毒性以及缺乏有效手段来映射哪些细胞携带哪些(如果有的话)诱导的 SV 等挑战。为了实现全基因组的 SSR 基础方法,Sauvageau 及其同事的启发性工作通过逆转录病毒引入 SSR 识别位点,生成了一组具有嵌套缺失的 mESC 克隆,覆盖了小鼠基因组的 ∼25%\sim 25 \% (29, 30)。然而,该方法仍然受到缺乏有效手段来映射初始 SSR 识别位点位置以及诱导后 SV 的基因分型的限制。 在酵母中,通过首先构建包含许多 SSR 识别位点的合成染色体,实现了染色体特异性或全基因组的“重组”(31-33),但对于哺乳动物基因组,整个染色体或整个基因组的合成仍然不切实际。最后,在所有情况下(包括酵母)当诱导较大量的 SV 时,SV 的回收、验证和/或定量依赖于低效或昂贵的方法(例如单细胞克隆、全基因组测序、核型分析),这显著限制了所能实现的目标,特别是对于哺乳动物模型。
受到这些技术差距的启发,我们开发了 Genome-Shuffle-seq,这是一种在哺乳动物基因组中多重生成大规模 SV 的简单方法(图 1)。Genome-Shuffle-seq 的一个关键特性是它能够在细胞群体中以碱基对分辨率方便地映射和基因分型诱导 SV 的断点。作为概念验证,我们将 Genome-Shuffle-seq 应用于诱导和映射几种主要形式(缺失、倒位、染色体易位、ecDNA)的数千个基因组 SV,并在不需要全基因组测序的情况下以碱基对分辨率映射它们的坐标。我们进一步证明,我们可以作为单细胞转录组的一部分共同捕获诱导 SV 的身份,为数千到数百万个哺乳动物 SV 的池化细胞筛选奠定基础。
基因组重排测序的设计
基因组洗牌测序(Genome-Shuffle-seq)基于将“洗牌盒”(shuffle cassettes)整合到哺乳动物基因组中(图 1A-C)。洗牌盒的设计旨在促进基因组整合坐标的映射,通过洗牌盒对之间的 SSR 生成结构变异(SV),以及高效恢复基因型信息。洗牌盒长度为 176 bp,具有四个关键特征(图 1B):1)一个能够与其他 loxPsym 位点高效重组的 loxPsym 位点。
由 Cre 重组酶介导。预计在经典 loxP 位点的对称变体的两个拷贝之间的重组将导致大约相等频率的缺失和倒位(31, 34),以及易位;2) 紧邻 loxPsym 位点,一对随机的 20 个核苷酸(nt)条形码,唯一标记每个洗牌盒的整合或其重组衍生物;3) 进一步在其外侧,一对 PCR 引物结合位点(35)(图 S1A);4) 在外部边界,一对趋向相向的噬菌体 T7 RNA 聚合酶启动子,这些启动子在哺乳动物细胞中是惰性的,但在固定后可以激活以进行基因组 DNA 上的体外转录(IVT)或在固定细胞上的原位转录(IST),与 T7 聚合酶(36,37)(图 S1B)。
一旦将随机盒引入基因组(例如,通过高感染复数 (MOI) 的转座或逆转录转座随机或以靶向方式),就可以通过对基因组 DNA 的 T7 IVT 衍生转录物进行测序来有效地定位它们的位置,这些转录本包含盒特异性条形码和每个整合两侧的基因组序列,使用我们最近描述的简单方案 (37)(图 1D;图 S1B)。从亲本细胞群开始,其中每个细胞都包含具有不同的具有映射基因组位置的整合随机盒库,Cre 重组酶有望通过驱动整合在整个细胞基因组中的随机盒之间的重组来诱导 SV。由于这些重组事件会对位于顺式细胞中的 20 nt 条形码进行洗牌,因此可以根据仅在“后洗牌”细胞中观察到的新型条形码组合来检测和定量特定的 SV。关键点是,通过简单地对来自随机盒的 PCR 扩增子进行测序,可以检测到亲本和新组合(图 1E;图 S1A)。为了在捕获单细胞转录组的同时对 SV 进行基因分型,可以在固定之后但在 scRNA-seq 之前进行 T7 IST (36, 37),基本上创建一个 RNA 指纹图谱,该指纹图谱显示与每个单细胞转录组相关的条形码组合(以及因此存在哪些 SV)(图 1E)。总而言之,该策略旨在实现:1) 在哺乳动物细胞群中多路生成 SV;2) 直接映射诱导 SV 的断点和性质,无需全基因组测序或核型分析;3) SV 的高效基因分型和定量,无论是批量(来自总 DNA 或 RNA)还是单细胞分辨率(与 scRNA-seq 结合使用)。
Genome-Shuffle-seq 能够对 BL6xCAST 小鼠 ESC 中数千个 SV 进行多重生成和单倍型分辨映射
作为概念验证,我们将复杂的洗牌盒文库克隆到 PiggyBac 转座子载体中(37)。然后,我们将该文库随机整合到 F1 杂交 C57BL6/6J xx\times CAST/EiJ(BL6xCAST)雄性二倍体 mESC 细胞系的基因组中(图 1C)(38)。选择该细胞系有三个原因。首先,平均每约 150 bp 存在一个杂合变异(SNV 或 indel),这应该有助于将洗牌盒整合以及诱导的 SV 分配到一个单倍体或另一个(39)。其次,我们推测在二倍体细胞中诱导大规模重排相对于单倍体细胞更不容易导致细胞死亡。最后,该 mESC 细胞系有潜力分化为多种细胞类型或类器官,这可能最终有助于研究从一个工程化细胞群体开始的 SV 的细胞类型特异性效应。
将洗牌盒库以高 MOI(40)整合到 BL6xCAST mESC 细胞系中。在瓶颈化到 ∼100\sim 100 个创始克隆并重新扩增细胞群体后,我们估计平均
通过定量 PCR 测定 123 的 MOI(图 S2A-B)。我们通过测序洗牌盒衍生的 PCR 扩增子在瓶颈种群中识别了 9,416 个父本条形码组合(图 S1A;图 S2C)。我们对从该池中提取的基因组 DNA 进行了基于 T7 IVT 的测绘(37),以识别每个洗牌盒的整合位点和方向(图 2A;图 S2D)。在过滤掉那些模糊映射或映射到多个位置的条形码后,我们保留了 5,088 个条形码洗牌盒,这些洗牌盒在所有染色体上分布良好,其位置在碱基对分辨率下被可靠地映射(图 2A)。相较于常染色体,ChrX 和 chrY 的插入较少,可能是由于这些雄性细胞中它们的单拷贝以及在重复的 chrY 上映射的困难(图 2B)。我们使用等位基因特异性 SNV 和 indel 将几乎 80%80 \% 的洗牌盒分配到 BL6 或 CAST 单倍型(图 2C;图 S3)。洗牌盒主要映射到内含子和基因间区域(图 2D)。
接下来,我们寻求诱导 SVs,并通过洗牌盒的扩增子测序对其进行基因分型(图 1)。我们将不同量(200ng, 1mug1 \mu \mathrm{~g} 或 4mug4 \mu \mathrm{~g} )的表达 Cre 重组酶的质粒或作为阴性对照的非靶向 Bxb1 重组酶转染到来源于瓶颈人群的细胞中(每个条件约 200,000 个细胞)。在转染后 72 小时(第 3 天),收获细胞并提取基因组 DNA。然后我们对洗牌盒条形码对进行 PCR 扩增和深度测序,并评估是否存在新的组合(图 3A)。正如我们所希望的,在非靶向 Bxb1 重组酶对照条件下几乎没有检测到非亲本条形码组合,而在涉及 Cre 重组酶的条件下检测到超过 5,000 个新条形码组合(图 3B)。值得注意的是,因为在某些情况下我们检测到重组事件生成的非亲本条形码组合(图 1E,图 S1C-D),这些对应于 4,856 个推断的独特 SV 事件。
我们可能只观察到了这种方法可能生成的 SVs 的一小部分。首先,几乎所有( ∼99.9%\sim 99.9 \% )在涉及 Cre 重组酶的条件下的扩增子都与“母本”条形码组合匹配,这与 SV 在细胞群体中个体和集体稀有的情况一致(图 S4A)。其次,大多数新条形码组合在来自同一 Cre 条件的不同基因组 DNA 分 aliquots 准备的技术重复之间并未共享,也没有在不同的 Cre 条件之间共享。因此,我们很可能通过处理来自同一群体的更多 Cre 暴露细胞(每个细胞都具有 ∼50\sim 50 自信地映射和定向的洗牌盒整合)来检测到更多的 SVs。
基因组重排测序诱导数千个独特的缺失、倒位和易位
对于每个新颖的条形码组合,我们可以根据亲本重排盒的相对基因组坐标和方向推断相应 SV 的类别和大小(图 1E;图 S1C-D)。在给定 Cre 转染条件的两个技术重复中共享的 SV 子集中, 53%53 \% 在至少一个其他转染条件中被观察到(图 S4B)。如果我们关注在条件的两个技术重复中观察到的 SV( n=673n=673 ),缺失和倒位比易位更为常见(图 3C)。然而,如果我们考虑所有检测到的 SV( n=6879\mathrm{n}=6879 ),易位占大多数(图 S4C)。我们将在下面进一步讨论这种差异的潜在解释。
检测到涉及所有染色体的 SV,除了 chrY(图 3E;图 S5-S6)。正如预期的那样,每条染色体检测到的 SV 数量与染色体大小相关,这可能是洗牌盒插入数量的结果(图 S6A-B)。然而有趣的是,当我们按 SV 类别进行细分时,一些染色体似乎在某些类型的重排上表现出富集或缺乏(图 S6C-H)。
对于缺失和倒位,SV 大小与其丰度之间存在指数反比关系,这一点是通过支持相应条形码组合的序列读取数量推断得出的(图 3F;图 S4D)。由两个技术重复支持的缺失/倒位 SV 子集( n=638\mathrm{n}=638 )的读取计数加权中位事件大小为 ∼1Mb\sim 1 \mathrm{Mb} ,而完整集( n=3163\mathrm{n}=3163 )的中位事件大小更大,达到 ∼2.5Mb\sim 2.5 \mathrm{Mb} (图 S4E)。这可能反映了已知的 Cre 重组效率在哺乳动物细胞中随着基因组距离的增加而指数下降的特性(25),和/或选择作用于那些含有大规模基因组缺失或倒位的细胞。
为了正交验证从新条形码组合推断出的 SV,我们在“重排后”基因组 DNA 上进行了 IVT-seq(37),即最初映射父代洗牌盒坐标的相同协议。考虑到 T7 位点的内向排列,我们预计每个 T7 位点的 IVT 转录本不仅会覆盖新的条形码组合,还会覆盖邻近的基因组 DNA,从而促进相应 SV 的直接验证(图 1B)。对于缺失/倒位 SV,技术上复制的( n=638n=638 )或完整的( n=3163n=3163 )缺失集中的大多数通过来自相同条件的至少一个 IVT-seq 读取得到了验证,但完全没有得到来自父代细胞的 IVT-seq 数据的支持(图 3D;图 S4F)。相比之下,尽管易位占所有检测到的 SV 的多数,但得到 IVT-seq 数据支持的易位比例要小得多(图 3D;图 S4F)。与此一致的是,在最初检测每个 SV 的洗牌盒的扩增子测序中,易位得到的读取数量明显少于缺失或倒位(图 3G;图 S4G)。 由于在 Bxb1 处理的对照细胞中几乎完全没有支持任何类型 SV(包括易位)的 reads,因此排除了诸如嵌合 PCR 等人为解释(图 3B)。对于易位的较低丰度和较低验证率的一个潜在解释是,许多检测到的缺失和倒位即使在单一条件/重复中也在反复生成(即在独立细胞中),而检测到的易位则是独特发生的,阻止了在“重排后”基因组 DNA 的独立分 aliquots 中进行验证,并降低了发生易位的 aliquot 中的读取计数。另一种解释是,易位以相似的速率发生,但受到强烈选择的影响,可能是间接的(通过广泛的 Cre 毒性)或直接的(通过易位本身的表型后果)。
综合来看,这些结果表明,我们能够在单个多重实验中使用 Genome-Shuffle-seq 在一组细胞中诱导、检测、量化和表征数千个缺失、倒位和易位,而无需进行单细胞克隆、基因分型或全基因组测序。然而,各种 SV 类别的差异复发率、验证率和支持读取深度的基础仍不清楚。
为了进一步研究这一点,我们在 Cre 转染后的第 5 天和第 7 天对 Cre 转染细胞的群体进行了取样,并对 shuffle cassette 衍生的扩增子进行了测序,以分析在第 3 天诱导生成 SV 的细胞的命运(图 S7;方法)。我们观察到在后期时间点检测到的 SV 数量显著下降,到第 7 天几乎没有检测到 SV(图 S7C-D)。我们首先假设这可能是由于 Cre 重组酶对哺乳动物细胞的已知毒性,这被认为是以基因组中靶位点数量的比例以 p53 依赖的方式对细胞适应性施加成本(41-43)。这种普遍的 Cre 毒性对转染细胞的影响将导致未转染或转染不良的细胞在群体中占据主导地位。作为一种潜在的解决方案,我们假设可以使用他莫昔芬诱导的 Cre 变体(CreERT2 和 ERT2CreERT2)来限制 Cre 活性的时间窗口,从而限制毒性(41, 44)。 为了测试这一点,我们用可诱导的 Cre 变体转染了瓶颈型母细胞,在转染后第 1 天用 0.5 muM0.5 \mu \mathrm{M} 他莫昔芬处理 24 小时,并在第 3、5 和 7 天收集样本,进行了洗牌盒条形码的扩增子测序(图 S7A)。与构成性 Cre 相比,这两种可诱导的 Cre 变体诱导的 SV 数量要少得多,并且在第 7 天也未能促进携带 SV 的细胞存活(图 S7C-D)。作为替代策略,我们试图通过在 Cre 转染后 48 小时用 p53 抑制剂 Pifithrin- alpha(20 muM)\alpha(20 \mu \mathrm{M}) 处理细胞来减少细胞死亡。我们选择不延长 p53 抑制,因为其毒性及对干细胞维持和分化的影响 (45,46)(45,46) 。尽管 Pifithrin- alpha\alpha 处理在第 3 天增加了检测到的 SV 数量,但我们再次观察到到第 5 天 SV 的丰度显著下降(图 S7E-F)。
另一个可能解释 SV 丰度随时间减少的原因是 Cre 诱导的 SV 本身导致适应性缺陷,从而使得具有较少表型后果 SV 的细胞或完全缺乏 SV 的细胞在种群中优于它们。如果是这种情况,将重排的细胞分离到单个孔中以便它们可以孤立生长,预计会解决这个问题。我们共同转染了 Cre 或 Bxb1 重组酶和一个条件性表达红色荧光蛋白(RFP)的 Cre 报告基因到瓶颈亲本种群中。转染的细胞在转染后 48 小时内接受了 Pifithrin- alpha\alpha 或不使用药物的处理。在第 3 天,从 Cre 条件样本中分选出 720 个 RFP 阳性细胞到 96 孔板的单个孔中,这些孔中要么含有 Pifithrin- alpha\alpha ,要么不含药物(图 S8A-C)。Pifithrin- alpha\alpha 处理导致从 Cre 转染种群中单细胞分选后生长的克隆数量显著增加,这与 p53 抑制减少细胞死亡一致(图 S8D)。 然而,在对来自 86 个单细胞克隆的基因组 DNA 进行条形码对测序时,没有检测到支持 SV 的条形码组合。有趣的是,每个 Cre 处理样本中检测到的母本洗牌盒的中位数低于 Bxb1 样本(图 S8E)。这表明,经过 Cre 转染后,具有更多整合洗牌盒的克隆可能会被选择性淘汰。
在单细胞分辨率下对 scRNA-seq 数据中的基因分型诱导的 SVs 进行分析
基因组重排测序(Genome-shuffle-seq)是专门设计用于与单细胞转录组(single cell transcriptomes)高效基因分型(genotyping)相兼容的(图 1E)。为了测试我们方案的这一方面,我们在转染后 72 小时对一组 Cre 转染细胞进行了筛选,选择 Cre 报告基因活性阳性的细胞,然后对这些细胞进行了固定、IST 和 scRNA-seq。对于这个实验,我们结合了
用 Pifithrin-a 处理的细胞与未处理的细胞进行了比较,并且还包括来自母细胞的独立样本作为对照(图 4A)。分选的细胞用甲醇固定,随后进行 T7 IST(36, 37)。在这个阶段,固定的细胞预计会包含内源性 mRNA 和覆盖洗牌盒条形码对的 T7 衍生转录本。为了捕获具有共同细胞条形码(cell BC)的两组转录本,我们在 10X Genomics 平台上对细胞进行了 3' scRNA-seq 和特征条形码处理(图 S9A)。
我们能够从 Cre 处理的样本中恢复高质量的转录组,表明在液滴形成之前的固定和 IVT 并没有影响协议的其余部分。在通过线粒体含量和检测到的转录组 UMI 数量过滤细胞后,我们分别从 Cre 处理样本和母本样本中恢复了 ∼15,000\sim 15,000 和 ∼19,000\sim 19,000 个 scRNA-seq 谱,尽管由于液滴生成过程中出现湿润失败,母本 scRNA-seq 数据的质量较低(图 S9B)。在 Cre 处理的样本中,我们检测到每个细胞 BC 的中位数为 108 个 T7 UMI,这反映出每个细胞的独特洗牌条形码组合的中位数为 46 个(图 S9C-D)。当限制在那些可以自信地映射到唯一基因组位置的条形码组合时,我们恢复了每个细胞中位数为 22 个条形码组合。
为了评估重排,我们比较了在 T7 IST + scRNA-seq 数据中观察到的洗牌盒条形码组合与母条形码对,这突出了 ∼15,000\sim 15,000 个 scRNA-seq 轮廓中 1123 个新条形码组合(图 S10A)。我们通过从 Cre 处理条件中下采样 scRNA-seq 数据并与母条件的 scRNA-seq 数据进行比较,确认这些新条形码组合不是 scRNA-seq 文库构建的伪影。在相似的深度下,在 Cre 处理条件中观察到 280 个新条形码组合,而在母条件中没有观察到(图 4B)。
考虑到我们对细胞进行 T7 IST 的通透化以及 T7 衍生转录本的短长度,我们的协议可能面临环境 RNA 污染的更高风险,这已被确认为 scRNA-seq 的一个已知混杂因素(47, 48)。为此,我们首先通过对单细胞中观察到的条形码组合进行迭代聚类,识别出一组 143 个“克隆型”,利用了 scRNA-seq 数据以及来自单细胞克隆的扩增子测序数据(图 S8)。这些克隆型本质上对应于由瓶颈父代群体定义的克隆(图 3A),每个克隆预计由独特的 PiggyBac 整合组成,因此具有独特的条形码组合。
我们随后试图根据在该细胞中检测到的 T7 IST 衍生条形码集合将每个细胞分配给一个克隆型。如果在该细胞中回忆到的克隆型条形码为 > 10%>10 \% ,并且在该细胞中检测到的总条形码中有 > 75%>75 \% 来自该克隆型,则认为细胞成功分配。我们进一步过滤了第二最佳克隆分配回忆率超过 10%的细胞。该分析旨在去除条形码捕获率低的细胞、双细胞以及那些属于未检测到的克隆型的细胞,最终留下 9412 个可以自信地分配到 143 个克隆型中的细胞(图 S10B)。这一细胞子集在 UMAP 空间中仅基于其 T7 IST 衍生条形码组合的补集整齐聚类(图 4C)。
在 > 1>1 的情况下,回忆损失的成本并不高(图 4D)。有趣的是,尽管根据其转录组质量(图 S9B)与其他细胞没有明显差异,但在 > 1UMI(n=320)>1 \mathrm{UMI}(\mathrm{n}=320) 处具有重排条形码组合的细胞的克隆型分配率略低于缺乏任何 SV 证据的克隆型分配细胞(图 S10B)。
最后,我们询问在细胞中检测到的新条形码组合是否与分配给该细胞的克隆型身份一致。实际上,在克隆分配细胞中检测到的 221 个重排条形码中,有 ∼94%\sim 94 \% 个超过 1 个 UMI 的条形码组合涉及来自同一克隆型的母条形码(图 4E)。为了保持保守,我们继续使用 208 个新条形码组合,这些组合:1)在自信分配给克隆型的细胞中检测到,2)由原始克隆型中存在的单个条形码组成;3)在该细胞中检测到 > 1UMI>1 \mathrm{UMI} (图 S10A-B)。总体而言,这些数据表明,我们可以检测、映射并自信地将诱导的 SV 分配给具有相关转录组的单个细胞。
与我们在图 3 中展示的分析类似,我们能够根据每个新配对中条形码的父代位置推断出 208 个 SV 的性质,这再次包括缺失、倒位和易位(图 4F;补充电影 1)。大多数 SV 仅在一个细胞中被检测到(范围 1-4),而大多数细胞仅包含一个检测到的 SV(范围 1-7)(图 S10C-D)。在这些单个细胞中,各类重排的 UMI 计数没有差异(图 4G)。这与在大规模数据中观察到的易位较低的读数计数形成对比(图 3G),强烈表明这些是由细胞丰度差异驱动的,而这种差异在单细胞分辨率下并未显现。
数百个 ecDNA 通过 Genome-Shuffle-seq 被释放并被轻易检测到
在顺式 loxPsym 位点之间的 Cre 介导缺失导致形成一个单一的基因组伤痕,反映了介导序列的缺失和一个包含介导序列的单一额外染色体 DNA 环(ecDNA)(图 5A)。这两种物种在形成时预计以相等的化学计量存在。我们能够根据亲本重排盒插入的相对方向和检测到的一对重排条形码,将通过 PCR 扩增子测序或 scRNA-seq 数据检测到的每个新颖的、指示缺失的条形码组合分配为源自伤痕染色体或 ecDNA 环(图 1E)。令我们惊讶的是,来自 ecDNA 物种的条形码,而不是基因组缺失伤痕,占据了 PCR 扩增子数据中缺失检测事件的多数,这种不对称在 scRNA-seq 数据中更加明显(图 5B)。此外,对于我们能够在 PCR 扩增子数据中在同一样本中检测到 ecDNA 和缺失伤痕的缺失,ecDNA 的读取计数比缺失伤痕高出 2-3 倍(图 5C)。 在我们的单细胞数据中,仅检测到 3 对共享的 ecDNA-基因组配对,这使得类似的分析无法进行。此外,检测到的 ecDNA 往往比检测到的缺失伤痕更大(图 5D-E;图 S11)。
在重排形成时,这一与预期 1:11: 1 化学计量比的意外偏差有多种潜在解释。首先,由于 ecDNA 的尺寸较小且呈环状拓扑,可能在作为 PCR 模板的批量基因组 DNA 制备中,相较于天然染色体,ecDNA 更容易被分离和纯化。其次,在我们的 scRNA-seq 数据的情况下,
SV 检测依赖于 T7 IST,这可能是由于 ecDNA 的染色质状态更为可及而优先转录。第三,与原生染色体相比,从基因组发射的 ecDNA 可能通过不对称分离或不受抑制的复制进行扩增,这与维持拷贝数的选择压力相结合,可能导致观察到的非对称性。进一步的工作是必要的,以区分这些技术性与生物学的解释。
讨论
在本研究中,我们描述了一种新颖的方法——Genome-Shuffle-seq,用于在细胞池中诱导生成和便捷表征及定量成千上万的哺乳动物 SV,而无需克隆分离和基因分型,也无需全基因组测序。我们还展示了如何在数百个此类重排中捕获 SV 身份与单细胞转录组。最后,我们展示了 Genome-Shuffle-seq 可以用于在哺乳动物细胞中产生合成 ecDNA,并且这些物种在 scRNA-seq 数据中也可被检测到。
如目前所述,Genome-Shuffle-seq 存在几个关键限制。首先,我们无法检测到 ∼50%\sim 50 \% 的重排,这导致在 loxPsym 位点两侧形成具有相同捕获序列的洗牌盒,可能是由于抑制性 PCR(图 S1C-D)(52, 53)。更长且包含更多序列多样性的替代盒设计,或采用无 PCR 方法进行文库生成,可能有助于解决此问题。其次,scRNA-seq 检测中 T7 衍生转录本的捕获率有限;更高的捕获率将有助于更全面和更高置信度地检测诱导的 SV,并理想情况下获得每个分析细胞的完整计算机模拟核型。预计通过更新的协议,构建特异性引物在初始 cDNA 文库扩增过程中添加,将改善捕获率 (54,55)(54,55) 。
第三个限制与 SVs 在诱导后一周内的快速耗竭有关。我们曾试图获得源自具有特定 SVs 的细胞的克隆(即使在多克隆群体中),以促进在 scRNA-seq 数据中对基因表达变化的稳健检测,即克服这种类型分析中固有的掉落率和稀疏性,并以某种统计置信度将重排分配给基因表达的变化(54)。然而,在 scRNA-seq 数据中,含有重排的细胞很少,绝大多数重排仅被检测到一次,这与在大规模检测中发现的 SVs 的耗竭一致。
退一步观察,观察到的 SV 的景观,包括它们相对丰度随时间的变化,可能受到三种力量的影响:1)SV 形成的效率;2)作用于诱导 SV 的选择;3)广义 Cre 介导的毒性。在我们看来,数据中观察到的模式最简约的解释涉及解释(1)和(3)的结合。特别是,我们假设 SV 类别的丰度变化主要是由于复发率的差异。染色体内缺失和倒位在不同条件下都很丰富且复发,其与大小呈反比相关,这归因于 SSR 的已知特性,SSR 倾向于在顺式中靠近的识别位点之间发生事件(25)。另一方面,在所有检测到的独特 SV 中,易位是最常见的,因为可能的易位数量在组合上大于倒位或缺失。易位
由于支持的读取较少且不重复,因为涉及同一对洗牌盒的相同易位极不可能在样本内或样本间再次发生。
Cre 的毒性有充分的文献记录,而不是对较大染色体内事件或易位的选择,似乎是其诱导后在一周内 SV 快速耗竭的最简单解释。另一种解释,即对 SV 事件本身的选择,似乎不太可能,因为细胞系的二倍体特性、我们单细胞克隆实验的结果,以及即使是小型 SV 在 Cre 诱导后一周也无法检测到的事实。我们使用的是 p53 功能正常的干细胞,这可能对 Cre 毒性特别敏感。我们的细胞还携带大量 SSR 识别位点,这可能进一步增加它们的敏感性。 展望未来,我们预期将采取几种方法来减少 Cre 毒性和/或提高成功重组基因组的恢复,包括:1)切换到 p53 缺失细胞系;2)更严格地调控重组酶的表达;3)切换到具有比 Cre(56,57)\mathrm{Cre}(56,57) 更低适应性成本的重组酶;4)包括一个条件选择标记,该标记将在重组盒重组时重新构建(24, 25);5)降低每个细胞的 SSR 识别位点数量;和/或 6)降低 SSR 识别位点之间的距离。
尽管仍然存在这些挑战,我们相信 Genome-Shuffle-seq 为大规模单细胞基因型到表型筛选奠定了基础,以研究成千上万到数百万的哺乳动物 SV 和 ecDNA 物种对基因表达、染色质结构和基因组组织的影响,这类似于 Perturb-seq 或 CROP-seq(58,59)。作为一种相关方法,针对单个哺乳动物基因组位点引入 shuffle 盒子,例如通过自下而上的组装(60),将有助于剖析调控元件相互作用和位点结构在基因调控中的作用。Genome-shuffle-seq 也可以很容易地适应研究 SV 的细胞类型特异性影响,通过将单个工程化群体分化为体外多细胞模型或使用整体生物模型进行体内研究。值得注意的是,在独立进行的相关工作中,Koeppel、Ferreira 及其同事描述了一种互补策略,用于通过高度多重化的 prime editing 介导的 loxPsym 位点插入对哺乳动物基因组进行“随机化”的工程 SV(61)。 除了使 SVs 和 ecDNAs 的更系统研究成为可能,这些方法还可以作为工程化“最小基因组”的切入点,该基因组包含了任何哺乳动物细胞繁殖所需的基本遗传信息,可能作为细胞治疗的通用底盘(62)。
主要图表
图 1. 基因组重排测序(Genome-Shuffle-seq)用于在单细胞分辨率下对重排的哺乳动物基因组进行 pooled 构建和高效表征的示意图。A) 集成的 loxPsym 位点阵列通过 Cre 重组酶重组,产生三类结构变异(SVs)。B) 重排盒的示意图,包含一个被独特的 20 N 条形码夹住的 loxPsym 位点、用于 scRNA-seq 的捕获序列(CS1, CS2),以及在活哺乳动物细胞中惰性但在体外(IVT)或原位(IST)转录时由 T7 聚合酶激活的噬菌体聚合酶启动子。C) 基因组重排测序实验的工作流程。D) 重排盒插入位点可以通过对来自 IVT 或 IST 的 T7 衍生转录本进行测序来映射,并将一对独特的条形码(在示意图中编号为 1-81-8 )与等位基因特异的基因组位置关联。红色星星表示在整合位点附近的 BL6 和 Castaneus 单倍型之间的变异。E) 诱导的 SVs 可以通过仅在暴露于 Cre 重组酶的细胞的扩增子或 scRNA-seq 数据中观察到的新条形码组合推断。 由于已知父代条形码的基因组坐标是通过 IVT 基础的定位映射获得的,因此构成每个新组合的条形码的身份足以推断出每个诱导 SV 所涉及的类别(缺失、倒位、易位)以及精确的基因组坐标。

图 2. 等位基因特异性映射的洗牌盒插入。A) 在 BL6xCAST mESCs 的瓶颈种群中检测到的染色体 1 上的插入位点,按等位基因着色。插图显示了来自 T7 转录本的测序读数的堆叠,示例整合到 CAST(左)或 BL6(右)单倍型。等位基因通过它们之间已知变异的存在来区分。B) 不同长度染色体上具有唯一条形码的插入位点数量( yy -轴)。虚线表示线性回归模型拟合,阴影灰色区域为 95%95 \% 置信区间。我们在这里没有纠正 X 染色体在该男性细胞系中为单拷贝的事实。C) 饼图显示了高置信度映射的洗牌盒的 BL6 或 CAST 等位基因分配的分布。D) 洗牌盒整合位点与基因组特征交集的 UpSet 图。

图 3. 在哺乳动物基因组中大规模重排的多重诱导和高效基因分型。A) 实验示意图。B) 从扩增子测序数据中检测到的每种条件下>1 UMI 的新(即非父本)条形码组合的数量。不同颜色表示在每种条件下在一个技术重复或两个技术重复中发现的那些重排条形码组合。C) 饼图显示在 Cre 转染样本的两个技术重复中检测到的 SV 类型的分布。多个条件下检测到的 SV 独立计数。D) 使用来自同一样本的匹配 IVT-seq 数据验证 SV 调用的方法示意图(顶部)。每种 SV 类型在 IVT-seq 数据中至少有一个读数支持的比例如下所示。E) 每个样本的技术重复之间共享的独特 SV 集合的 Circos 图。多个条件下检测到的 SV 只计数一次。F) 第 3 天检测到的缺失和倒位的重排大小( yy -轴)与平均读数计数( xx -轴)的散点图。计算两个指标的 log 10\log 10 值之间的 Pearson 相关性。 G) 小提琴图描绘了在第 3 天检测到的缺失、倒位和易位的读取计数分布。每个小提琴图内嵌的箱线图显示了分布情况,中位数值以白线表示,箱体的长度表示四分位范围,须状线表示分布的范围。P 值是使用非参数的 Mann-Whitney U 检验计算的。

图 4. 单细胞中重排的检测。A) 实验示意图。在转染后 72 小时,基于 Cre 报告基因的活性对细胞进行分选,甲醇固定,进行 T7 IVT,然后在 10x Genomics 平台上进行 sc-RNA-seq。B) 在 sc-RNA-seq 中检测到的全亲本样本或 Cr 样本的下采样子集中的新条形码组合数量。C) 9412 个细胞成功分配到 143 个克隆型。在这里,我们在 UMAP 空间中可视化了 8522 个这些分配的细胞,这些细胞在 T7 衍生条形码中检测到的 UMI 数量至少为 20,按克隆型分配着色。左侧的图是通过对右侧显示的全局 UMAP 中的细胞子集进行迭代聚类生成的。D) 与细胞分配的相应克隆型的预期条形码列表( yy -轴)相比,检测到的 T7 条形码在细胞中的平均精确度和召回率,在不同的 UMI 阈值下( xx -轴)。E) 饼图描绘了在细胞中检测到的与该细胞的克隆型分配一致的重排条形码(BCs)的比例。F) 饼图描绘了在单细胞数据中检测到的重排类型的分布。 G) 小提琴图描绘了单细胞数据中每种重排类型的 UMI 计数分布。插图是分布的箱线图,中位数值以白线表示,箱子的长度表示四分位距,须表示分布的范围。P 值是使用非参数的 Mann-Whitney U 检验计算的。

图 5. 数百个 ecDNA 由 Genome-shuffle-seq 启动。A) Cre 介导缺失过程中 ecDNA 形成的示意图。预计在形成时,基因组缺失和 ecDNA 物种具有 1:11: 1 的化学计量比。B) 条形图描绘了作为缺失被称为的重排的比例,这些重排由预计在 ecDNA 与基因组缺失伤痕上的条形码集合表示。包括在 Cre 转染后 72 小时的批量扩增子测序中的缺失(所有缺失以及在两个技术重复中存在的缺失)和在 scRNA-seq 中检测到的缺失(所有检测到的缺失以及分配给细胞的缺失)。C) 表示 ecDNA 与基因组拷贝的条形码对的读取计数的 log2 比率的箱线图,针对在同一批量扩增子测序样本中在 72 小时内同时检测到的 ecDNA-基因组缺失对(来自所有缺失和在技术重复之间共享的缺失)。水平实线表示中位数,箱子的长度表示分布的四分位距,须表示除离群值外的其余分布。 D) 和 E) 在大规模扩增子测序(技术重复之间共享)和单细胞 RNA 测序(分配给细胞)数据中检测到的每个 ecDNA 的大小、基因组拷贝和倒位。箱线图元素与面板 C 相同。所示的 p 值是使用非参数 Mann-Whitney U 检验计算得出的。