开篇：数据处理绕不开的合并与拼接

张开发

• 2026/5/31 9:48:40 • 15 分钟阅读

分享文章

在Python数据分析工作中我们经常会遇到分散在不同文件、不同DataFrame中的数据想要挖掘数据价值第一步往往是把这些零散的数据整合到一起。数据合并与拼接是数据预处理阶段的核心操作掌握合适的技巧能大幅提升我们的工作效率。今天就结合实际场景聊聊Python中数据合并与拼接的常用方法和进阶技巧。基础拼接用concat实现简单数据堆叠pandas库中的concat函数是实现数据拼接最基础的工具它可以沿着指定轴行或列将多个对象堆叠到一起适合处理结构相似的数据集。1. 纵向拼接行方向当我们有多个字段完全一致的数据集比如不同月份的销售数据就可以用纵向拼接把它们合并成一个完整的年度数据Python复制import pandas as pd # 模拟两个结构相同的数据集 df1 pd.DataFrame({ 订单号: [A001, A002], 销售额: [1000, 1500], 日期: [2026-01-01, 2026-01-02] }) df2 pd.DataFrame({ 订单号: [A003, A004], 销售额: [800, 2000], 日期: [2026-02-01, 2026-02-02] }) # 纵向拼接 result pd.concat([df1, df2], ignore_indexTrue) print(result)这里的ignore_indexTrue会重置合并后数据的索引避免出现重复索引的问题。2. 横向拼接列方向如果是两个记录主体相同但字段不同的数据集比如用户基础信息表和用户行为记录表就可以用横向拼接整合Python复制df_user pd.DataFrame({ 用户ID: [U001, U002], 姓名: [张三, 李四] }) df_behavior pd.DataFrame({ 用户ID: [U001, U002], 浏览次数: [10, 25], 购买次数: [1, 3] }) # 横向拼接 result pd.concat([df_user, df_behavior], axis1) print(result)需要注意的是横向拼接时要确保两个数据集的索引对应一致否则可能会出现数据错位的问题。关联合并用merge实现精准匹配concat更适合结构相似数据的堆叠而当我们需要根据某个或多个关键字段进行数据关联时merge函数就派上用场了它类似于SQL中的JOIN操作能实现更精准的数据合并。1. 内连接Inner Join内连接只保留两个数据集中关键字段匹配成功的记录这是最常用的合并方式Python复制df_order pd.DataFrame({ 订单号: [A001, A002, A003], 用户ID: [U001, U002, U003], 金额: [1000, 1500, 800] }) df_user pd.DataFrame({ 用户ID: [U001, U002, U004], 姓名: [张三, 李四, 王五] }) # 基于用户ID进行内连接 result pd.merge(df_order, df_user, on用户ID) print(result)运行后只会保留用户ID为U001和U002的记录U003和U004因为在对方数据集中没有匹配项会被过滤掉。2. 左连接Left Join左连接会保留左表的所有记录右表中匹配不上的字段会填充为NaN适合需要保留主数据集全部信息的场景Python复制result pd.merge(df_order, df_user, on用户ID, howleft) print(result)此时订单表中的所有记录都会被保留U003对应的姓名字段会显示为NaN。3. 多关键字段合并当单个关键字段无法唯一匹配时可以指定多个关键字段进行合并比如同时根据订单号和日期匹配Python复制df_detail pd.DataFrame({ 订单号: [A001, A001, A002], 日期: [2026-01-01, 2026-01-01, 2026-01-02], 商品: [手机, 耳机, 电脑] }) result pd.merge(df_order, df_detail, on[订单号, 日期]) print(result) 进阶技巧提升合并效率与处理复杂场景1. 处理重复列名当两个数据集存在同名但含义不同的字段时可以通过suffixes参数给合并后的列名添加后缀区分Python复制df1 pd.DataFrame({ 用户ID: [U001, U002], 金额: [1000, 1500] }) df2 pd.DataFrame({ 用户ID: [U001, U002], 金额: [800, 2000] }) result pd.merge(df1, df2, on用户ID, suffixes(_订单, _退款)) print(result)2. 大数据集合并优化当处理超大数据集时直接合并可能会导致内存不足此时可以分批次合并或者先对数据进行筛选复制# 分批次读取并合并大数据 chunks [] for chunk in pd.read_csv(large_data.csv, chunksize10000): merged_chunk pd.merge(chunk, df_user, on用户ID) chunks.append(merged_chunk) result pd.concat(chunks, ignore_indexTrue)3. 用join实现按索引合并如果两个数据集的索引本身就是关联字段可以用join函数简化操作Python复制df_user.set_index(用户ID, inplaceTrue) df_order.set_index(用户ID, inplaceTrue) result df_order.join(df_user) print(result) 总结选对工具事半功倍数据合并与拼接没有绝对的最优方法关键是根据数据结构和业务需求选择合适的工具结构相似的数据集堆叠优先用concat需要按关键字段关联匹配用merge更灵活按索引关联时join能让代码更简洁。掌握这些技巧再复杂的数据集整合工作也能轻松应对希望今天的内容能帮到大家如果有其他数据处理的问题欢迎在评论区交流

开篇：数据处理绕不开的合并与拼接

最新文章

从芯片制造到电路设计：为什么CMOS工艺偏爱P型衬底？聊聊背后的历史与技术选择

【GraalVM静态镜像内存优化终极指南】：20年JVM专家亲授，从启动内存暴增300%到稳定＜25MB的7大实战压测技巧

TVA技术在洗煤车间检测中的场景适配与工艺优化

别只当数据搬运工了！深入STM32H7的DMA FIFO与突发传输，提升你的系统带宽（内存位宽不匹配怎么办）

大数据应用开发赛项备赛指南：从零开始掌握电商与工业互联网数据集处理

别再全局改MyBatis-Plus的maxLimit了！3.4版本后这样按需突破分页限制更安全

推荐文章

相关文章

分享文章

更多文章

EndNote打开显示激活失败

SQL Server笔记

snake

KLA-6200晶圆表面分析系统操作指南：全面且实用的操作手册，设备操作、软件开发与机械研发的...

nba球员数据项目书

数据自治与隐私守护：WeChatMsg本地化聊天记录管理的技术实践

Postman便携版终极指南：如何在Windows上免安装运行完整API测试环境

贵州公考面试选机构

基于西门子1200 PLC控制的两部四层电梯HMI仿真系统设计与实践

用户智能体交互协议AG-UI（上）

2026跨境电商数据采集避坑指南：实测实在Agent如何终结“数字员工”的幻觉时代

51万行代码一夜暴露：Claude Code为何从“安全标杆“沦为筛子