构建跨物种单细胞基因list[二]

张开发

• 2026/4/14 17:05:28 • 15 分钟阅读

分享文章

跨物种单细胞分析实战[二]基于同源字典将小鼠Seurat对象转换为人类基因前言接上一篇文章构建跨物种单细胞基因list我们已经准备好了四个物种的同源基因对照表。本篇教程将进入实战环节如何利用这份字典将一个小鼠Mouse的 Seurat 对象完美转换为人类Human的 Seurat 对象。这里的核心难点在于多对一Many-to-One基因的处理以及大数据的内存优化。我们将使用稀疏矩阵运算来优雅地解决这个问题。1. 加载依赖与核心匹配函数首先我们需要定义一个能够同时处理“官方基因名”和“基因别名Synonym”的匹配函数以最大程度保留基因信息。library(Seurat)library(dplyr)library(tidyr)library(data.table)library(Matrix)library(glue)# # 核心函数: 生成一一对应的 Human Symbol List# Get_Mapped_Gene_List-function(input_genes,dict_path){message(glue::glue( 开始匹配流程输入基因数量: {length(input_genes)}))# 读取字典dict-fread(dict_path,data.tableFALSE)# 提取需要的列 (Mouse - Human)dict_official-dict%%select(Mouse_Symbol,Human_Symbol)%%filter(Mouse_Symbol!!is.na(Mouse_Symbol))# --- 步骤 1: 匹配官方 Symbol ---message( - 步骤 1: 正在匹配官方 Symbol...)index_official-match(input_genes,dict_official$Mouse_Symbol)result_list-dict_official$Human_Symbol[index_official]matched_count_1-sum(!is.na(result_list))message(glue::glue( 官方名匹配成功: {matched_count_1} 个))# --- 步骤 2: 尝试别名挽救 ---# 很多时候基因名可能是别名这一步能找回大量遗失的基因missing_indices-which(is.na(result_list))if(length(missing_indices)0){message(glue::glue( - 步骤 2: 正在尝试从别名中挽救 {length(missing_indices)} 个基因...))dict_synonym-dict%%select(Mouse_Synonym,Human_Symbol)%%separate_rows(Mouse_Synonym,sep \\| )%%filter(Mouse_Synonym!!is.na(Mouse_Synonym))genes_to_rescue-input_genes[missing_indices]index_synonym-match(genes_to_rescue,dict_synonym$Mouse_Synonym)rescued_human_symbols-dict_synonym$Human_Symbol[index_synonym]# 填补空缺result_list[missing_indices]-rescued_human_symbols matched_count_2-sum(!is.na(rescued_human_symbols))message(glue::glue( 别名挽救成功: {matched_count_2} 个))}else{message( - 步骤 2: 跳过 (所有基因已在第一步匹配成功))}# --- 统计 ---final_matched-sum(!is.na(result_list))total-length(input_genes)message(glue::glue(最终统计: {total} 个输入基因成功对应 {final_matched} 个 ({round(final_matched/total*100, 1)}%)))return(result_list)}2. 生成映射关系表这一步我们将 Seurat 对象中的基因名提取出来并运行上述函数生成一个新旧基因名的对照表df_check。# # 执行转换逻辑# # 假设你的原始 Seurat 对象名为 mouse.data# [关键] 直接使用 Seurat 对象的行名作为输入保证处理的是当前对象里真正存在的基因input_gene_vector-rownames(mouse.data)# 运行匹配函数 (请修改你的字典路径为实际路径)dict_path_user-/data/work/cross_species_genes/Universal_Species_Gene_Dictionary_Full.csvfinal_human_list-Get_Mapped_Gene_List(input_genesinput_gene_vector,dict_pathdict_path_user)# 创建检查表# NA 表示没有找到对应的同源基因df_check-data.frame(Original_Mapinput_gene_vector,Mapped_Humanfinal_human_list,stringsAsFactorsFALSE)# 查看前几行head(df_check)3. 矩阵转换与聚合核心难点在转换过程中我们经常会遇到“多对一”的情况即多个小鼠基因对应同一个人类基因。此时科学的做法是将这些基因的表达量求和。为了避免在大数据量下 R 语言内存溢出爆内存我们这里不使用常规的rowsum而是采用稀疏矩阵乘法Sparse Matrix Multiplication的方式进行聚合速度快且节省内存。# # 3. 准备矩阵与严格过滤# message(正在提取矩阵并进行预处理...)counts_matrix-GetAssayData(mouse.data,slotcounts)# 【Fix 1】过滤逻辑# 1. Mapped_Human 不能是 NA也不能是空字符串 (这是防止报错的关键)# 2. Original_Map 必须在矩阵行名里valid_map-df_check%%filter(!is.na(Mapped_Human)Mapped_Human!)%%filter(Original_Map%in%rownames(counts_matrix))# 提取子集 (去除无法转化的基因减小计算量)counts_matrix_subset-counts_matrix[valid_map$Original_Map,]# # 4. 稀疏矩阵聚合 (High Performance Mode)# message( 正在进行多对一基因聚合...)# 再次对齐顺序 (关键确保 valid_map 的顺序和 subset 矩阵完全一致)valid_map-valid_map[match(rownames(counts_matrix_subset),valid_map$Original_Map),]# 定义因子gene_groups-factor(valid_map$Mapped_Human)unique_human_genes-levels(gene_groups)# 提取唯一的 Human Gene# 构建稀疏映射矩阵# 原理构建一个 (Human x Mouse) 的 0/1 矩阵P-Matrix::sparse.model.matrix(~0gene_groups)# 【Fix 2】强制修正 P 的列名 (即未来 agg_counts 的行名)# 这一步确保列名是纯净的基因名colnames(P)-unique_human_genes# 转置变成 (Human x Mouse)P-Matrix::t(P)# 矩阵乘法: (Human x Mouse) * (Mouse x Cells) (Human x Cells)agg_counts-P%*%counts_matrix_subset# 【Fix 3: 最终保险】显式检查并赋予 agg_counts 行名if(is.null(rownames(agg_counts))){rownames(agg_counts)-unique_human_genes}message(glue::glue(聚合完成! 矩阵维度: {nrow(agg_counts)} x {ncol(agg_counts)}))4. 构建新 Seurat 对象与元数据更新得到转换后的矩阵后我们就可以创建新对象了。注意转换后的对象nCount_RNA和nFeature_RNA通常会比原对象低。nCount_RNA 下降因为没有同源基因的小鼠基因被丢弃了。nFeature_RNA 下降除了被丢弃的基因多对一合并也会导致基因数量减少。# # 创建新的 Seurat 对象# seurat_human-CreateSeuratObject(countsagg_counts,meta.datamouse.datameta.data,# 继承原有的分组、样本信息projectHumanConverted)虽然CreateSeuratObject会自动计算元数据但如果你想手动刷新或深入理解其计算过程可以使用以下代码# 1. 取出 counts 矩阵# counts_matrix - GetAssayData(seurat_human, slot counts)# 2. 计算 nCount_RNA每个细胞的 UMIs / 总计数# 使用 Matrix::colSums 可以高效处理稀疏矩阵# nCount - Matrix::colSums(counts_matrix)# 3. 计算 nFeature_RNA每个细胞检测到的基因数非零基因数# counts_mat 0 会返回逻辑矩阵colSums 计数 TRUE 的数量# nFeature - Matrix::colSums(counts_matrix 0)# 4. 写回 meta.data# seurat_human$nCount_RNA - nCount# seurat_human$nFeature_RNA - nFeature5. 数据完整性校验最后为了确保我们的代码逻辑没有错误比如漏算了某些基因我们可以对比一下“聚合前筛选出的矩阵总和”与“聚合后新矩阵的总和”。在数学上这两个值应该是相等的或极度接近。# # 最终校验# old_sum-sum(counts_matrix_subset)new_sum-sum(agg_counts)message(glue::glue(数据校验: 聚合前总Counts{old_sum}, 聚合后总Counts{new_sum}))if(abs(old_sum-new_sum)0.1){message(✅ 校验通过数据无损。)}else{message(⚠️ 警告数据总量有出入请检查代码逻辑。)}# 之后就可以进行常规流程了# seurat_human - NormalizeData(seurat_human)# seurat_human - FindVariableFeatures(seurat_human)总结通过以上步骤我们完成了一个严谨的跨物种 Seurat 对象转换流程。相比于简单的直接改名这种方法考虑了同源基因的多对一关系并且使用了稀疏矩阵运算来保证处理大规模单细胞数据时的效率和稳定性。

更多文章

前端开发 2026/4/14 17:04:21

如何轻松备份知识星球内容：3步创建个人专属PDF电子书

如何轻松备份知识星球内容：3步创建个人专属PDF电子书【免费下载链接】zsxq-spider 爬取知识星球内容，并制作 PDF 电子书。项目地址: https://gitcode.com/gh_mirrors/zs/zsxq-spider 你是否曾经在知识星球上看到一篇精彩文章，几周后…

如何用CompressO将1GB视频压缩到80MB：完整免费开源视频压缩指南【免费下载链接】compressO Convert any video/image into a tiny size. 100% free & open-source. Available for Mac, Windows & Linux. 项目地址: https://gitcode.com/gh_mirrors/co/co…

张开发

前端开发 2026/4/14 16:52:27

el-avatar组件加载本地图片资源的常见问题与解决方案

1. 为什么el-avatar组件加载本地图片会失败？ 很多Vue开发者在使用Element UI的el-avatar组件时都遇到过这样的问题：明明在开发环境下图片显示正常，但打包部署后却无法加载本地图片资源。这个问题看似简单，但背后涉及到webpack打包…

张开发

构建跨物种单细胞基因list[二]

最新文章

CameraX与华为ScanKit：打造高效二维码扫描的实战指南

拉松报名系统微信小程序（30057）

不确定性不是Bug，是架构缺陷：5个被忽视的AIAgent设计反模式（含开源项目实测对比数据）

超级智能太过单一！菲尔兹奖得主陶哲轩首提“哥白尼式智能观”：人类智能和AI各有好坏，最会用AI的往往是会“带人”的人

告别网络调试助手：手把手教你用STM32+FreeRTOS+LWIP实现一个简易TCP回显服务器/客户端

GLM-4.1V-9B-Base企业级应用：基于MySQL的智能图文数据管理系统

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

如何轻松备份知识星球内容：3步创建个人专属PDF电子书

微博相册批量下载终极指南：三步轻松获取高清图片收藏

3分钟搞定视频字幕：VideoSrt开源工具让你告别手动打字幕的烦恼

实测对比：DeepSeek-R1在RK3588安卓板上的推理速度与资源占用全解析（附性能优化建议）

Cursor Pro破解工具：从设备限制到永久免费使用的完整指南

STM32 HardFault调试实战：用Keil的Call Stack快速定位崩溃代码

AnimateDiff文生视频详细步骤：从启动服务到下载GIF的完整链路

Phi-3-mini-4k-instruct-gguf企业应用：IT运维知识库问答+故障排查步骤自动生成

5分钟完成视频字幕提取：Video-subtitle-extractor完整使用指南

抖音下载器终极指南：如何一键批量下载抖音视频和音乐

如何用CompressO将1GB视频压缩到80MB：完整免费开源视频压缩指南

el-avatar组件加载本地图片资源的常见问题与解决方案