实验方案的设计与之前相似。在下一节,我们将共同探讨一些通用的方法。

唯一分子标识符在化学信息学中的应用与研究

本课程的内容是对实验数据进行分析计算。总体流程如下所示,前三个步骤(黄色)对于任何高通量测序数据都是通用的,接下来的四个步骤(橙色)是要将传统分析中已有的方法和新开发的方法结合起来解决技术差异问题,最后的部分(蓝色)是使用专门为开发的方法来进行生物分析解读。

scRNA-seq分析的综述文章包括“Computational and Analytical Challenges in Single-Cell Transcriptomics.” Nat Rev Genet 16 (3)。目前还有其他平台可以执行上述流程图中的一步或多步操作:

Bulk RNA-seq和scRNA-seq的主要差别是每个测序文库代表一个单细胞还是一群细胞。比较不同细胞(不同测序文库)的结果需要格外注意。文库之间差异的主要来源是:

取自于单独一个细胞的低转录本总量是这两个文库差异的一个主要原因。提高转录本捕获效率和降低扩增偏好可以降低差异,是目前活跃的研究方向。从后续课程学习中也可以看到,合适的标准化和校正方法也可以抵消一部分文库构建引入的噪音。

开发scRNA-seq的新实验方法和操作手册是目前很火的研究领域,而且最近这些年已经发表了一些改进方法。上图可以看出检测的细胞数目以指数形式增加,以下是一份不完全的列表:

总体流程如下图所示:

这些方法可以用不同的方式分类,但两个最主要的优化是:定量和捕获。

定量有两种类型—-和。全长型力图捕获并均匀测序整条转录本,标签型只捕获转录本的或端。不同定量方式需要自己对应的计算分析方法。全长方案理论上可以对整个转录本进行均匀测序,但实际上总会有测序覆盖偏好性的存在。标签型的主要优点是可以与唯一的分子标识符(UMIs)结合进行更精确定量 (后面详细描述)。其缺点是,测序限制在转录本的或端,可能会降低比对率,并且难以区分不同剪接体的表达。

捕获的策略决定了实验通量、细胞如何被选择和除测序外的哪些额外信息可获得。最常用的三种捕获方式是基于微孔- (microwell-),微流- (microfluidic-),液滴- (droplet-),细分如下图所示。

对于基于微孔的捕获平台,先用移液管或者激光切割的方式分离细胞并放到微流孔中。它的一个优点是可以结合流式细胞荧光分选(FACS, fluorescent activated cell sorting)根据表面Marker分选细胞。因此特别适合分选细胞子集用于测序。另一个优点是可以获得细胞形态全览图,提供多一个维度的信息,可用于鉴定微孔中是否有损伤的细胞或双份细胞,主要缺点是通量低且每个细胞所需的工作量相当大。

微流型平台,比如Fluidigm’s C1,提供了一个更加整合的系统,同时可以捕获细胞和完成文库构建的准备过程。因此它们比微孔型平台通量更高。但是微流型平台大约只能捕获10%的细胞,不适合处理稀有细胞或者细胞量很少的情况。此外,微流控芯片相对昂贵,不过更小的反应体积可以节省试剂的费用。

液滴型方法是将单独的细胞和一个包含建库所学酶的珠粒 (bead)包裹在一个纳米级液滴里面。特殊地,每个珠粒(bead)包含一段独特的条形码序列 (barcode),会加到所有来自于液滴里面这个细胞的序列上,用于区分不同细胞的转录本。因此所有的液滴可以混合在一起测序,然后再根据序列确定其是否归属于同一细胞。液滴型平台通常有最高的通量,因为文库的准备成本很低,约为0.05美元/每个细胞。随之而来的,测序成本往往是其限制因素,通常测序深度比较低,只检测几千个转录本的表达。

Microwell-seq是浙江大学郭国冀老师研究组综合以上技术的优势开发出的新的大规模低成本单细胞捕获测序技术,单个细胞制备成本可以到0.02美元。

采用光刻技术制作微孔矩阵硅片(微孔直径28 um,深度35 um,100,000个微孔),以此为模具制作PDMS微柱模具。这两个模具可以反复使用。最终用于富集的微孔板是通过倾到5%的琼脂糖凝胶到PDMS微柱模具上生成的。细胞悬液加到凝胶微孔模具上,利用重力使细胞落入微孔,通常一个微孔只能容纳一个细胞,一块板子可以同时捕获约10000个单细胞。每一步操作都可视、可控制,doublets可以通过镜检洗除。随后每个空加入包含10^7-10^8特定探针集的与孔径大小匹配的磁珠,标记每个细胞中的mRNA(每个磁珠的寡核苷酸序列中都有一段特异的序列用于标记细胞来源),然后使用Smart-seq2方法进行后续的反转录、扩增。扩增后的cDNA片段使用转座酶片段化(这步倒有些类似ATAC-seq),富集3'末端转录本序列测序。

平台选择取决于手上的生物问题,举个例子,如果一个人对描述组织的细胞类型构成感兴趣,能够捕获大量细胞的液滴型平台很可能是最合适的,而如果感兴趣的是有已知的表面Marker的稀有细胞群体,那最好用流式细胞FACS分选法富集细胞并对少量细胞进行测序。

如果对研究不同剪接体的表达感兴趣,全长转录本定量会更适合。相反,UMIs只适用于,更有利于稳定定量基因水平的表达。

Enard团队和Teichmann团队的最近两项研究对几种不同单细胞分选和建库方案进行了比较,Ziegenhain等用同一种老鼠胚胎干细胞 (mESCs)比较了五种不同方案。通过控制细胞数量和测序深度,作者能直接比较不同方法检测敏感性,噪音水平和费用差异。他们的一个结论如下图,不同方法检测到的基因数量 (检测阈值固定)差别挺大。如图所示,检测到的基因数目最少,和检测到的基因数差了近乎两倍,意味着不同方案的选择对研究影响很大。

Svensson等人则采用了一种不同的方法,即通过使用已知浓度的合成转录本 (spike-ins, 后面详细介绍)来评估不同方案的准确性和敏感性。通过广泛比较同样发现不同的细胞分离建库方式差别较大。Bulk测序的准确性和敏感性相对最好,其它方法准确性高的,敏感性就会差一些。

随着实验操作技术的发展和计算方法的改进,后续研究可以帮助我们进一步了解不同方法的适用优缺点。这些比较研究不仅有助于研究人员决定使用哪种方案,而且可以通过基准测试确定哪个方法组合最有效来研发新的单细胞实验和计算方法。

得到单细胞RNA-seq测序数据后,首先检查测序reads的质量。为了完成这个任务,我们使用的工具是FastQC。FastQC是一款质控工具,能对bulk RNA-seq和单细胞RNA-seq的原始数据进行质量控制 (其他类型的高通量测序结果也适用)。FastQC以原始测序reads为输入(fastq格式),输出序列质量报告。复制粘贴下面的链接到你的浏览器进入FastQC官网:

https://www.bioinformatics.babraham.ac.uk/projects/fastqc/

这个网址包含下载和安装FastQC及示例报告文件的链接。向下滚动页面到并点击,会看到高质量Illumina测序Reads的理想质控结果。如果使用镜像,则FastQC已经安装好。如果是自己的服务器,FastQC下载下来即可使用(依赖于)。生信宝典的推文NGS基础 - FASTQ格式解释和质量评估对FASTQ原始数据和FastQC的使用和结果描述有比较详细的介绍,如果不熟悉,建议阅读。

文库拆分因使用的前期Protocol不同或构建的流程不同需要有对应的处理方式。我们认为最灵活可用的文库拆分工具是zUMIs (https://github.com/sdparekh/zUMIs/wiki/Usage),可以用来拆分和比对大部分基于UMI的建库方式。对于或其他双端全长转录本方案,数据通常已经拆分好了。例如GEO或ArrayExpress之类的公共数据存储库会要求小规模或数据拆分好再上传,并且很多测序服务商提供的数据都是自动拆分好的。如果使用的分析流程依赖于拆分好的数据但测序服务商提供的数据没有拆分时就需要自己拆分。因为不同的建库方案引入的序列的长度和位置不同,通常都需要自己写脚本解决。

对于所有数据类型,”文库拆分”涉及从一端或双端短序列中识别和移除细胞条形码序列 ()。如果提前知道加入的细胞条形码,比如数据来自基于PCR板的方案,只需要找到条形码并与条形码库作比对,归类于与之最相似的那个就可以 (根据条形码的设计,一般允许最多1-2个错配)。这些数据通常在比对之前先做拆分,从而可以并行比对,提高效率。

液滴型scRNA-seq方法中只有一小部分的液滴包含珠状物和一个完整细胞。然而生物实验不会那么理想,有些RNA会从死细胞或破损细胞中漏出来。所以没有完整细胞的液滴有可能捕获周围环境游离出的少了RNA并且走完测序环节出现在最终测序结果中。液滴大小、扩增效率和测序环节中的波动会导致”背景”和真实细胞最终获得的文库大小变化很大,使得区分哪些文库来源于背景哪些来源于真实细胞变得复杂。

大多数方法使用每个对应的总分子数(如果是UMI)或总reads数的分布来寻找一个”break point”区分来自于真实细胞的较大的文库和来自于背景的较小的文库。下面加载一些包含大细胞和细胞的模拟数据实际操作下:

现在我们已经对测序原始数据进行了质控,获得了高质量的,下一步就是把它们比对到参考基因组。如果我们想定量基因表达或鉴定样本之间差异表达的基因,则通常需要某种形式的比对。

用于短序列比对的工具已经开发了很多(转录组分析工具哪家强?),但今天我们主要涉及两个。第一个工具是STAR。对于测序数据中的每条reads,STAR尝试找到能与参考基因组中一个或多个位置匹配的最长可能序列。例如,在下图中,有一个短序列(蓝色),它跨越两个外显子和一个选择性剪接点(紫色)。STAR能够发现短序列的第一部分与第一外显子的序列匹配,而第二部分与第二外显子中的序列匹配。因为能够用这种方式识别剪接事件,所以它被称为的比对工具 (一般转录组分析的比对工具都需要有这个功能)。

通常把短序列比对到参考基因组时允许检测新的剪接事件或染色体重排事件。然而,STAR的一个问题是它需要大量的内存,尤其是参考基因组很大(例如老鼠和人类,大约需要30 G内存)的时候。为了加速今天的分析,我们将使用STAR把比对到只包含个转录本的参考转录组上。请注意,这不是常用或推荐的做法,只是考虑时间问题才这样做。我们通常建议比对到参考基因组 (但过程与此类似)。

是序列比对工具,而是伪比对工具 [@bray_2016]。它们的区别是:比对工具是把reads比对回参考基因组或转录组,而伪比对工具是把比对到参考转录组。

是来源于测序短序列中的长度为的子序列。例如,假设有短序列,想从中获得。为此,我们将提取前七个碱基作为第一个,然后向下移动一个碱基获得第二个,以此类推。下图显示了从序列中可以得到的所有:

有两个主要原因:

Kallisto有一个为单细胞转录组特别设计的伪比对模式。和不同,Kallisto比对到的是参考转录组而不是参考基因组,意味着是将序列比对到剪接异构体而不是基因上,对单细胞来讲,这是有挑战性的:

Kallisto的伪模式采用了略微不同的伪比对方法。它不与剪接异构体比对,而是与等价类 ()比对。所以如果read比对到多个异构体,Kallisto会记录read比对到包含有所有异构体的等价类,因此可以使用等价类计数而非基因或转录本计数用于下游的聚类等分析。具体见下图:

scRNA-seq数据的许多分析以表达矩阵为起点。一般来讲,表达矩阵的每一行代表一个基因,每一列代表一个细胞(但是一些作者会做个转置)。每个条目代表特定基因在给定细胞中的表达水平。而表达值的测量单位取决于建库方案和所用的标准化方法。

见前面章节FastQC部分。

另外,使用Integrative Genomics Browser(IGV)或SeqMonk通常对数据可视化很有帮助,具体见下。

见前面章节STAR部分和Kallisto部分。

注释的很好的模式生物(例如小鼠,人)有着大量全长转录本数据集,伪比对方法(例如Kallisto,Salmon)可能优于常规比对方法。方法获得的数据集有数以千万条reads,伪比对工具的运行时间比传统比对工具会少几个数量级,更有时间优势。从39个转录组分析工具,120种组合评估(转录组分析工具哪家强-导读版)一文中可以看出,伪比对工具的准确性和稳定性也相对比较高。

用STAR比对的操作示例 (前面章节部分更详细)

注意,如果用了(已知浓度的外源RNA分子),在比对前应该将参考基因组和n分子的DNA序列合并作为共同”参考基因组”。具体见之前文件格式部分。

注意,使用时,应从read序列中删除其条形码。常见的是将条形码加到read名称上。

一旦reads完成了到基因组的比对,我们需要检查比对率和确保有足够多的reads比对回了参考基因组。根据我们的经验,小鼠或人类细胞中read的比对率为。但是这个结果可能会因建库方案、read长度和比对工具参数设置而有所不同。常规上,我们希望所有细胞都具有相似的read比对率。如果有样品比对率异常低或比对回去的reads异常低,则需要多加注意甚至从后续分析中移除。较低的read比对率通常表示存在污染。生信宝典建议取出几十条未必对回去的reads做个blast,看下能否比对到其它物种来确定还是还是的问题。

一个用Salmon量化表达操作的例子

注意 Salmon操作会得到一个估计的和。根据我们的经验,对单细胞测序中长基因的表达做了过度校正,因此我们建议使用。

下面直方图