当前位置: 首页 > news >正文

高考志愿网站开发做网站和推广工资多少

高考志愿网站开发,做网站和推广工资多少,平面设计教学视频,广州上宏网站建设Computational Methods for Single-cell Multi-omics Integration and Alignment Bioinformatics-2022-密西根大学 关键词#xff1a;单细胞;多组学;机器学习;无监督学习;集成 摘要 最近发展起来的生成单细胞基因组数据的技术在生物学领域产生了革命性的影响。多组学测定提…Computational Methods for Single-cell Multi-omics Integration and Alignment Bioinformatics-2022-密西根大学 关键词单细胞;多组学;机器学习;无监督学习;集成 摘要 最近发展起来的生成单细胞基因组数据的技术在生物学领域产生了革命性的影响。多组学测定提供了更大的机会来理解细胞状态和生物过程。然而整合具有非常不同维度和统计特性的不同组学数据的问题仍然非常具有挑战性。为此任务正在开发越来越多的计算工具利用了从机器翻译到网络理论的思想代表着生物学和数据科学交叉口上的又一个前沿。我们在这篇综述中的目标是全面、及时地调查用于整合单细胞多组学数据的计算技术同时使每种算法背后的概念易于理解适用于非专业人士。 单模态测序手段对一个单细胞只能测定一种表达包括scRNA-seq单细胞转录组, scATAC-seq染色质可及性, single-cell bisulfite sequencingDNA甲基化。通过假设通过不同技术检测的细胞具有相似的特性可以使用比对方法在不同的组学检测中计算聚集相似的细胞并得出一致的生物学推断---对齐任务     多模态测序手段对一个单细胞同时测定多种表达 CITE-seq(转录组和蛋白质、 scGT-seq(单细胞基因组和转录组测序)、scMT-seq(单细胞甲基组和转录组测序) 、SHARE-seq单细胞染色质和转录组数据、SNARE-seq单核染色质可及性和mRNA表达测序、scTrioseq(单核苷酸多态性SNPs、基因表达和DNA甲基)、scNMT转录组、染色质可及性和DNA甲基化 ---整合分析任务、对齐任务   引言 单细胞测序技术以前所未有的高分辨率探索了生物过程的契机。诸如Drop-seq [1]、InDrops [2]和10x Genomics assays [3]等技术能够同时测量成千上万个单细胞的基因表达[单细胞RNA测序(scRNA-seq)]。其他数据模式的测量也日益可用。例如单细胞转座酶可及染色质测序(scATAC-seq)评估染色质可及性而单细胞亚硫酸盐测序捕获单细胞的DNA甲基化。然而许多这类技术设计用于测量单一模态不适合进行多组学测量。因此合并来自这些测量的信息的方式是从同一样本的不同子集中检测不同组学。通过假设由不同技术检测的细胞具有相似的特性可以使用对齐方法在计算上整合不同组学测量中的相似细胞并得出共识的生物推论。 最近然而已经开发出了一些实验技术能够同时从同一组单个细胞中测定多种模态。细胞转录组和表位的测序CITE-seq[4] 和RNA表达和蛋白质测序REAP-seq[5] 可以测量蛋白质和基因表达。单核染色质可及性和mRNA表达测序SNARE-seq[5,6]具有测序的同时高通量ATAC和RNA表达SHARE-seq[7]以及染色质可及性和mRNA的单细胞组合分析sci-CAR[8] 可以测量基因表达和染色质可及性而基因表达和甲基化的单细胞测序scGEM[9] 可以测量基因表达和DNA甲基化基因组和转录组测序GT-seq[10] 可以测定基因组和转录组。对于三重组学数据生成单细胞核小体、甲基化和转录测序scNMT[11] 可以测量基因表达、染色质可及性和DNA甲基化而单细胞三重组学测序scTrio-seq[9,12] 可以同时捕获单核苷酸多态性SNPs、基因表达和DNA甲基化。10x Genomics 的多组测定平台能够同时测量基因表达和染色质可及性。由于测定中的噪音和稀疏性以及不同模态的不同统计分布等多种原因从相同细胞获取的这些数据的综合分析仍然是一项具有挑战性的计算任务。为了明晰起见我们区分了将来自同一组单个细胞的多组学数据进行综合的方法与专为处理来自同一组织但不同细胞的多模态数据而设计的对齐方法。它们的差异在图1中显示。 图1 多组学数据的整合与对齐  多组学数据有时可以从相同的单个细胞集中测定左侧而有时仅可用来自相同/相似样本但不同单个细胞的测定数据右侧。在前一种情况下我们面临着整合不同数据模态的任务左侧而在后一种情况下我们首先需要在样本之间识别相似的细胞右侧。这是对齐的计算任务。 右侧图从相同组织的相似但不同的细胞中获得的组学数据基于对齐算法得到单个细胞下的两种数据信息 多组学测序数据的数据融合算法应用早于单细胞技术在先前的综述中已经使用了各种计算工具对批量水平的数据进行了整合[13]。在本综述中我们旨在为计算生物学领域的研究人员提供单细胞领域中现有的多组学数据整合和对齐的计算工具的全面、最新总结。对于更一般的调查鼓励读者查阅其他单细胞多组学综述[14–21]。与众不同的是我们综述的目标读者是试图在详细的技术层面了解计算工具的计算生物学家。因此这里的工作深入介绍了底层算法的基本原理并在适用时详细阐述了这些方法的优势和劣势。 处理从相同单细胞生成的多组学数据的集成方法 从同一组单细胞分析的多模态数据的整合方法可以被概念化为“垂直整合”这在早期的综述[17]中提到可以通过方法学大致分为至少三种主要类型基于数学矩阵因式分解的方法人工智能AI;例如基于神经网络的方法和基于网络的方法。这些方法的方案如图2所示。其他不太多样化的方法包括贝叶斯统计方法和度量学习方法。表1和表2总结了当前实施的方法列表。 矩阵分解方法 基于矩阵分解的方法旨在将每个细胞描述为每个组学元素基因、表观遗传位点和蛋白质的向量与捕获其基本特性的缩减和共同特征因子的向量的乘积图2A。 目标 这种方法的目标是描述每个细胞将其表示为每个组学元素如基因、表观遗传位点和蛋白质的向量。每个组学元素都可以在一个矩阵中表示形成一个多组学数据矩阵其中每行代表一个细胞每列代表一个组学元素。 原理 通过矩阵分解这种方法将整个多组学数据矩阵分解为两个矩阵的乘积。其中一个矩阵表示每个细胞与捕获其基本特性的缩减和共同特征因子的向量而另一个矩阵表示每个组学元素的向量。这样每个细胞的整体表示可以被分解成对应于每个组学元素的向量的组合。 从数学上讲如果我们将每个组学表示为矩阵Xii1,2,...那么矩阵分解将其分解为在所有组学数据类型上共享的矩阵H以及组学特定矩阵Wii1,2,...再加上随机噪声eii1,2,...表示为 这类方法简单且易于解释因为细胞和组学因子可以与组学特征关联但可能缺乏捕捉非线性效应的能力。我们将在下面描述这种类型方法的变化。MOFA [22] 是多组学因子分析MOFA[22,23] 的续篇。这两项研究执行因子分析配备了稀疏诱导的贝叶斯元素包括自动相关性确定 [24]。MOFA 在两个视图对应不同模态和组别对应不同实验条件上集成数据。该模型可以轻松扩展到大型数据集。MOFA 被应用于整合使用 scNMT 从小鼠胚胎测定的基因表达、染色质可及性和DNA甲基化数据以及整合不同实验条件下的多个数据集而非不同组学。在对小鼠数据集进行因子分析后最相关的因子与塑造胚胎发育的生物过程相关。MOFA 提供了一个优雅而成功的整合通用框架尽管在特定情况下它可能会被为整合特定组学层设计的更专业化的模型所取代。 单细胞聚合和推断scAI[25] 在矩阵因子分解上有所创新专门设计用于整合表观遗传学染色质可及性和DNA甲基化和转录组数据。它通过在相似的细胞之间聚合平均表观遗传数据来解决表观遗传数据的稀疏性。这需要一个细胞之间相似性的概念该概念作为模型的一部分学习而不是在整合之前假定的。他们的模型解决了以下优化问题 这里X1代表转录组数据X2代表表观基因组数据H是共同的细胞特定的因子矩阵W1和W2是测定特定的因子矩阵Z是细胞之间相似性矩阵R的是伯努利分布的随机变量而超参数a、k和c决定了不同项的相对重要性。对常规矩阵因子分解的创新在于对聚合的表观遗传数据X2Z・R进行因子分解而不是直接对表观遗传数据X2进行因子分解。 学习完成后细胞因子矩阵用于对细胞进行聚类并使用载荷矩阵中数值的大小来排名基因和表观遗传标记的重要性。 在上面提到的背景中学习完成后细胞因子矩阵 H 被用于对细胞进行聚类而载荷矩阵 W 中数值的大小则可以用来评估基因和表观遗传标记的重要性。这是因为 W 的数值表示了原始数据中的每个基因或表观遗传标记对于细胞因子的贡献程度。较大的数值表示该基因或标记在形成细胞因子时的重要性较高从而在细胞之间的差异中起到重要作用。 为了共同可视化不同的因子scAI实现了一种利用Sammon映射的新型VscAI算法[26]。可以使用相关性分析和非负最小二乘回归来探索表观遗传与基因表达之间的关系。该模型在使用MOSim [27]进行模拟和多个真实数据集上进行测试相对于先前的MOFA版本在识别自然簇和将表观遗传数据压缩为有意义因子方面表现更好。 神经网络方法 尽管神经网络通常适用于监督学习任务但一类名为自编码器的神经网络常用于无监督学习例如在单细胞中的多组学整合问题。深度自编码器通过将输入通过较低维度的隐藏层瓶颈压缩然后试图将原始输入重构为神经网络的输出从而执行非线性降维图2B。它们由两部分组成执行降维的编码器网络和根据降维数据进行重构的解码器网络。从原理上讲自编码器通过允许非线性变换来推广主成分分析。存在许多自编码器模型的变体其中变分自编码器已被证明对于分析单细胞数据非常有用。变分自编码器不直接在降维的潜在的空间中对数据进行编码而是从潜在空间的概率分布通常是高斯分布中进行采样并使用编码器网络生成该分布的参数。因此它们将深度学习和贝叶斯推断相结合生成生成模型不仅对原始数据进行降维还产生逼真的合成数据点。在下文中我们将回顾使用自编码器架构的特定变体来整合单细胞多组学数据的方法。 单细胞多模态变分自编码器scMVAE[28] 被设计用于整合转录组和染色质可及性数据采用了变分自编码器的一种版本。在多组学整合中的关键问题是如何将多组学数据编码成单一的潜在空间表示。在 scMVAE 中使用了三种不同的方法来完成这个任务包括一个作用于连接的输入数据的神经网络、在合并之前对转录组和染色质可及性数据分别进行编码的神经网络以及一种用于组合不同表示的专家乘积技术[29]。同时用于规范跨细胞表达的细胞特定比例被学习称为库因子。通过解码器神经网络处理潜在表示输入数据通过计算基因缺失的概率并预测被建模为负二项分布的测量基因的表达来进行重构。 Seurat v4 [42] 的目标是将数据表示为一个加权最近邻WNN图其中根据两种模态的一致性相似的细胞被连接起来。在构建 WNN 图的过程中学习了一组细胞特异性权重指导不同组学数据的相对重要性。这些权重通常携带重要的生物学含义。具体而言Seurat v4 管道包括以下步骤首先对应于不同组学的数据使用主成分分析PCA进行降维到相同的维度数。然后构建了对应于不同组学的 k-最近邻kNN图。在 kNN 图中每个数据点该图的节点与 k 个最近邻节点相连。然后通过考虑最近邻图的跨模态和内模态预测的准确性来学习确定不同组学相对重要性的细胞特异性系数。最后在使用前一步中学到的系数的基础上对来自不同组学的数据进行线性组合。然后与这些线性组合最近的邻居被连接以构建 WNN 图。Seurat v4 应用于基于 CITE-seq 的转录组和蛋白质组数据集以及其他涉及 mRNA、蛋白质和染色质可及性的数据集。作者使用与细胞对应的数据与其最近的潜在空间邻居的平均值之间的相关性Pearson 和 Spearman比较了该方法与 MOFA 和 totalVI并声称它在这些指标上表现优于 MOFA 或 totalVI。 这段话描述了 Seurat v4 方法的主要步骤和应用梳理如下 1. **目标** Seurat v4 的目标是将多组学数据表示为加权最近邻WNN图其中相似的细胞根据两种模态的一致性被连接。 2. **WNN 图构建**    - 使用主成分分析PCA将不同组学的数据降维到相同的维度。    - 构建 k-最近邻kNN图其中每个数据点与 k 个最近邻节点相连。 3. **权重学习**    - 学习细胞特异性权重这些权重指导了不同组学数据的相对重要性。    - 通过考虑最近邻图的跨模态和内模态预测准确性来确定这些权重。 4. **线性组合**    - 使用前一步学到的权重对不同组学的数据进行线性组合。 5. **WNN 图建立**    - 将与这些线性组合最近的邻居连接起来构建 WNN 图。 6. **应用**    - Seurat v4 应用于不同数据集包括基于 CITE-seq 的转录组和蛋白质组数据以及涉及 mRNA、蛋白质和染色质可及性的其他数据集。 7. **性能比较**    - 作者使用相关性Pearson 和 Spearman比较了 Seurat v4 与 MOFA 和 totalVI 方法的性能声称在这些指标上表现优于 MOFA 或 totalVI。 其他模型 BREM-SC [43] 是一种贝叶斯混合方法。它通过将单细胞基因表达和蛋白质数据建模为共享相同基础参数的概率分布混合体来整合它们。该模型可用于执行联合聚类其中可以通过后验概率来量化对聚类分配的信心度。与单组学聚类方法相比它表现出色。尽管用于训练模型的马尔可夫链蒙特卡洛MCMC过程可能计算密集但该模型通过利用概率分布来考虑两个组学层之间的差异提供了一种有效的整合方式。 SCHEMA [44] 是一种不同的度量学习方法旨在构建样本空间上的距离概念考虑了不同的组学数据。其中的一种组学通常是单细胞RNA测序被视为距离的主要基础然后使用其他组学来修改这个距离。这被制定为使用二次规划优化二次函数。因此可以整合单细胞RNA测序和单细胞ATAC测序数据从而为细胞发育轨迹提供深层次的见解。与基于分别对不同模态进行聚类或使用规范相关分析进行整合的方法相比该方法展现出更好的聚类性能。它是一种用于非对称整合不同质量数据模态的有用方法例如单细胞RNA测序和单细胞ATAC测序数据的情况。 处理来自同一组织的不同单个细胞产生的多组基因组数据的对齐方法 与多组学数据相比从同一组织的相似但不同细胞中获得每个模态的多模态数据在实验上要容易得多。协调这些数据的任务称为对齐图1与另一篇先前综述中描述的对角整合是同义的[17]。应用机器学习和统计方法来完成这项任务的文献非常丰富包括流形学习、基于神经网络的方法和贝叶斯方法如表3和表4所总结并如图3所示。重要的是要注意在多组学中我们事先不知道跨组学层的细胞对应关系因此除了在前一节中描述的学习细胞在多组学整合中的表示的工作之外还需要额外关注对齐这些表示的分布。因此专为整合设计的方法通常无法执行对齐。相反专为对齐设计的方法在整合任务上可能表现不佳。 图3 单细胞多组学对齐方法 展示了对齐多组学单细胞数据的一些常见方法 贝叶斯方法通过使用多个潜在变量对 -组学测量的概率分布进行建模并使用贝叶斯公式更新这些分布A流形对齐方法在组学空间中揭示了可以进行对齐的表面B以及基于神经网络的模型创建不同 -组学数据的潜在表示从而更容易进行对齐C。 贝叶斯方法 Clonealign [45]通过将通过RNA-seq测定的细胞分配给由DNA-seq数据衍生的克隆从而整合了异质群体的单细胞RNA和DNA测序数据。Clonealign基于贝叶斯潜变量模型其中使用分类变量来指定细胞分配。该模型通过在基因表达上引入拷贝数剂量效应将基因的拷贝数映射到其表达值。该模型还足够灵活可以容纳额外的协变量例如批次效应或可以从基因表达中推断出的生物信息细胞周期。除了通过模拟研究展示其稳健性外Clonealign还应用于真实的癌症数据集以发现新的克隆特异性失调的生物通路。 在MUSIC [46] 是一种无监督的主题建模方法用于整合分析单细胞RNA数据和汇聚的簇状规律间隔短回文重复CRISPR筛选数据[47]。该模型通过描绘扰动效应来连接细胞的基因表达谱和特定的生物功能从而更好地理解在单细胞CRISPR数据中的扰动功能。扰动效应优先步骤中MUSIC利用主题模型的输出并估计单个基因对细胞表型的扰动效应。它采用了三种不同的方案来建模综合的单细胞和CRISPR数据中的基因扰动效应整体扰动效应、由主题模型表示的功能主题特异性扰动效应以及不同扰动效应之间的关系。MUSIC应用于14个真实的单细胞CRISPR筛选数据集并准确量化和优先考虑了对细胞表型的单个基因扰动效应对大量噪音具有较高的容忍度。 在这种上下文中“对齐”指的是将来自不同来源或类型的数据映射到一个共同的框架或空间以便能够进行比较、分析或集成。 流形对齐方法 流形对齐方法的目标是推断多个复杂数据集中的低维结构图3B。一旦完成这一步就可以在数据集之间匹配数据点。这是一类非常广泛的算法我们在这里基于不同的思想进行了综述例如使用伪时间轨迹、核方法以及基于细胞距离的匹配等。 具体来说对于流形对齐方法其目标是将不同组学数据例如基因表达和甲基化数据中的特征对准以便更好地理解它们之间的关系或共同的结构。 MATCHER [48] 是第一种用于对齐不同形式的单细胞数据的流形对齐技术。他们的方法基于轨迹推断[49]。该方法首先为每个组学构建与细胞过程相对应的伪时间轨迹然后在不同组学之间对齐它们。伪时间轨迹将相应的细胞过程建模为一个高斯过程并推断与伪时间相对应的潜变量。这产生了一组曲线每一层组学都对应一条曲线捕捉了生物过程。然后这些曲线被投影到参考线上以便在不同组学之间匹配不同的细胞。该模型假设只有一个共同的生物过程需要建模。 基于最大均值差异的流形对齐MMD-MA[50] 是一种完全无监督的方法。对齐是通过匹配不同组学的低维表示来完成的这些表示是通过一种基于核的技术构建的该技术通过最小化两个数据集之间的最大均值差异MMD[51] 来实现。此外这些表示是通过考虑原始数据中距离的扭曲来构建的同时保持变换尽可能简单。该模型在包含来自同一单个细胞的基因表达和甲基化值的数据上进行了评估已知的细胞对应信息被隐藏而MMD-MA能够成功地重建这些信息。 基于距离匹配的方法是一类通过匹配数据集的结构来执行不受监督的不同组学数据对齐的方法图4。代表性的方法包括UNION-Com [52]、SCOT [53] 和 Pamona [53]。它们的共同思想是如果不同的组学层确实对应于相似的细胞样本则在重新排列细胞索引后任何两个组学层的距离矩阵将变得非常相似。来自不同组学的细胞之间的距离是通过考虑不同组学层中的kNN图并找到沿图的最近距离来计算的。UNION-Com [52]通过优化细胞排列后的距离矩阵的相似性找到连接数据集中点的匹配矩阵。这种匹配方法是对广义无监督流形对齐GUMA[54]的扩展引入了新的允许软匹配的概念。随后该方法执行了一种适用于在相同潜在空间中表示的多模态数据的t-分布随机邻居嵌入t-SNE[55]的版本。SCOT [53] 通过最优传输理论执行软匹配每个最优化问题都有一个不同的优化问题。被最小化的量是Gromov-Wasserstein距离它将earth-mover Wasserstein距离推广到不同空间之间的最优传输[56]。Pamona [57] 使用了与SCOT类似的方法但使用基于部分Gromov-Wasserstein距离[58]的最优传输的修改版本该距离考虑了在数据集之间没有适当匹配的数据点。通过这样做它允许数据集之间可能存在不完美的对齐容忍仅存在于一个数据集中的细胞类型。在找到对齐后与不同模态对应的数据被投影到一个通过Laplacian eigenmaps [59]降维的空间中。这种方法能够在匹配细胞时考虑所有数据集的整体结构而无需要求不同模态具有相同的分布。 图4 基于距离的对齐 基于距离的对齐算法的示意概述细胞在两种不同的图表示中由节点表示分别对应于两种不同的组学测定。具有非常相似组学测量的细胞连接以形成图。然后为了保持图上的距离概念对这两个图进行对齐。 在距离匹配方法的原始研究中进行了有限的基准测试。UNION-Com在评估基因表达、甲基化和染色质可及性数据之间标签转移质量时与Seurat v3和MMD-MA相比表现良好[52]。SCOT在包含转录组和表观遗传DNA甲基化或染色质可及性数据的多个真实和模拟数据集上与MMD-MA和UNION-Com相比表现良好[53]。Pamona在包含转录组和表观遗传数据的多个数据集上在基准测试中优于SCOT、MMD-MA和Seurat v3 [57]。显然需要进行更全面的比较以评估这一类方法在其他建模方法上的性能。 基于神经网络方法 神经网络包括自编码器和生成对抗网络GAN已用于无监督任务中的组学数据集对齐。自编码器早先已有描述。生成对抗网络通常包括两部分生成器网络和判别器网络。生成器试图产生与某个目标数据集相似的输出形式而判别器被优化以学习生成器输出与目标数据集元素之间的差异。在本节中我们总结了下面的相关神经网络方法。 SCIM [60] 基于多领域翻译方法[61]以无监督的方式整合多组学数据。它使用一个独立的变分自编码器为每种模态构建以将数据映射到降维的潜在空间表示。然后通过使用鉴别器网络该网络除了自编码器外还学习区分不同组学的潜在空间表示将这些表示对齐以具有相似的结构。两个自编码器和鉴别器网络同时进行训练使两个潜在空间尽可能相似。一旦两个数据集都被编码成大致对应的表示具有相似潜在表示的点将在数据集之间匹配。该模型在概率模拟单细胞RNA-seq树状拓扑结构PROSSTT[62]以及包含基因表达和蛋白质的数据集的仿真数据上进行了测试并在应用于展现复杂细胞分化过程的模拟数据时表现出色于MATCHER。 SCIMSingle-Cell Integration using Multi-domain translation使用了一种多领域翻译的方法通过无监督学习将多组学数据进行整合。以下是SCIM对齐的具体实现步骤 1. **每个模态的变分自编码器** 对于每个组学模态例如基因表达、蛋白质表达等SCIM使用一个独立的变分自编码器。这些自编码器的作用是将原始数据映射到一个降维的潜在空间以捕捉数据的重要特征。 2. **潜在空间对齐** 在编码器之后SCIM引入了一个鉴别器网络。这个鉴别器网络的作用是学习区分不同组学模态的潜在空间表示。通过使用鉴别器网络SCIM确保了不同模态的潜在表示具有相似的结构。这是通过在训练中优化自编码器和鉴别器网络来实现的。 3. **双模态训练** SCIM同时训练两个自编码器和鉴别器网络。这意味着在训练期间它努力使两个组学模态的潜在空间尽可能相似。这样通过在两个模态上学习SCIM能够找到它们之间的最佳映射从而实现对齐。 4. **匹配相似潜在表示** 一旦两个数据集都被编码成相应的表示SCIM通过匹配在这两个模态上具有相似潜在表示的点来完成对齐。这确保了在不同组学数据中具有相似特征的单元被正确地对齐。 在具体的实验中SCIM在使用概率模拟单细胞RNA-seq数据和包含基因表达和蛋白质表达的真实数据集时进行了测试并在复杂细胞分化过程的模拟数据上表现优越。SCIM的方法主要基于通过训练自编码器和鉴别器网络来优化潜在空间的结构从而使不同组学模态的数据能够在降维潜在空间中对齐。 MULTIGRATE [63] 使用多模态变分自编码器结构将多组学数据投影到共享的潜在空间。尽管与scMVAE模型 [28] 有些相似但这个框架提供了额外的灵活性并可用于整合成对和非成对的单细胞数据。此外该模型可以将来自多组学测定例如CITE-seq的数据与来自单组学测定例如scRNA-seq的数据进行整合。不同组学对应的数据首先通过各自的神经网络传递然后通过专家模型技术 [29] 进行合并形成潜在分布。解码器网络然后旨在从这个统一的表示中重建所有组学的数据。为了更好地对齐细胞MMD最大均值差异被添加到损失函数中惩罚不同测定之间点云的错位。他们的模型被用于创建多模态图谱并将COVID-192019冠状病毒病单细胞数据集映射到多模态参考上。  MAGAN [64] 利用生成对抗网络GANs来对齐来自不同领域的数据。MAGAN使用两个相互关联的GANs在组学层之间进行转换同时绑定它们的参数并要求它们的组合将任何点映射到其自身。换句话说如果第一个生成器将数据点 A 映射到数据点 B那么第二个生成器应该将 B 映射回 A。在概念上这与计算机视觉中的CycleGAN [65] 模型非常相似但具有一个关键创新使其能够更有效地对齐和整合单细胞数据。创新之处在于注意到虽然CycleGAN框架在对齐数据集整体上非常出色但它不一定能够正确匹配个别点。这对于单细胞数据来说是一个特别重要的问题。为了解决这个问题MAGAN 添加了一个对应损失用于衡量在生成器映射之前和之后的点之间的差异。该模型在各种数据集上进行了测试从模拟数据集到修改后的国家标准技术研究所MNIST手写数字到分子数据。该方法被应用于合并单细胞中的转录组和蛋白质组数据。即使在没有对应信息的情况下该模型也被证明能够有意义地对齐数据集。 其他方法 先前开发的一些用于对齐不同的单细胞RNA测序scRNA-seq数据集的方法原则上也可以重新用于单细胞多组学对齐。在这种情况下不同的组学数据被汇总到基因上并转换成基因活性得分与scRNA-seq数据具有相同的格式。在这里我们介绍了两种这样的方法LIGER和Seurat因为它们非常受欢迎。这种方法的一个缺点是无法单独建模组学数据。由于空间限制我们建议读者参考先前关于其他scRNA-seq整合方法的基准研究[66]。 基于典型相关分析CCA的方法通过选择在数据集之间相关的自由度来降低数据的维度。Seurat v3 [67] 结合了CCA和网络概念以对齐和整合单细胞多组学数据。在执行CCA后该算法识别数据集之间的锚点并对这些锚点的质量进行评分。锚点是通过相互最近邻MMN来识别的它们的质量是通过考虑锚点邻域之间的重叠来评分的。与Seurat v3类似MAESTRO [68] 也利用了典型相关分析来整合转录组和表观遗传数据并提供了全面的分析流程。bindSC [69] 也使用典型相关分析来构建数据的共享表示通过一个定制的程序进行迭代优化。 LIGER [70] 进行了综合的非负矩阵分解iNMF以学习解释数据集内和跨数据集的变异的因子。例如DNA甲基化等数据首先在基因上进行汇总。对应于不同数据集的细胞由不同的细胞特异性因子集描述。基因因子包括两个组成部分一个在数据集之间共享的部分一个是数据集特定的该模型旨在使数据集特定部分尽量小。在执行矩阵分解后形成了共享因子邻域图其中细胞根据其因子的相似性相连接并用于在模态之间对齐细胞。最近这种非负矩阵分解方法已经扩展到包括在线学习的概念。它通过实时迭代更新模型从而实现更好的可扩展性和计算效率 [71]。
http://www.sczhlp.com/news/276414/

相关文章:

  • 广州网站建设新际php开源cms系统源码
  • 自建网站营销是什么wordpress 赚钱
  • 上海网站建设模板文山网站建设报价
  • 建设一个一般网站需要多少时间怎么看网站的服务器
  • 网站开发中 即将上线做菠菜网站好赚吗
  • 企业网站推广公司 知乎做网站seo优化总结
  • php做网站项目的思路网上怎么样挣钱
  • 如何保存个人网站网站的免费空间是什么
  • 网站开发职业生涯规划书织梦网站密码
  • 移动端网站开发项目建设境外网站需要什么手续
  • 阿里云智能建站公司网站维护是做什么的
  • 网站建设徐州百度网络网站小语种网站建设要点
  • 网页设计模板网站图片wordpress淘客采集插件
  • 网站如何设置二级域名做私活网站
  • 什么网站可以免费做找客户wordpress主题修改头部
  • 做破解网站合法win10记事本怎么做网站
  • 网站建设中html 下载涉县网站建设
  • flask:使用flask-migrate迁移数据表
  • docker 搭建 sql 环境
  • html静态网站开发个人博客制作网站品牌公司哪家好
  • 网站建设4000-262-263伪静态 网站如何扫描
  • 搜索引擎优化包括哪些方面南京做网站优化的企业
  • 廉政网站 建设需求.net域名 可以做公司网站吗
  • 易语言做返利网站电子商务网站需求分析
  • 创新的手机网站建设上海建设网站
  • 餐饮网站建设wordpress首页添加图片不显示
  • 建设一个网站app全过程赣州市建设培训网
  • 网站建设的现状和未来WordPress将开发
  • 货运代理网站模板怎样用自己的主机做网站
  • 国内几个做外贸的网站五个常见的电子商务网站网址