Python数据科学库详解：NumPy、Pandas与SciPy

张开发

• 2026/4/20 9:15:51 • 15 分钟阅读

分享文章

Python数据科学库详解NumPy、Pandas与SciPy一、背景与意义Python已成为数据科学领域的首选编程语言这得益于其丰富的数据科学库生态系统。NumPy、Pandas和SciPy是Python数据科学的三大核心库它们为数据处理、分析和科学计算提供了强大的工具。本文将深入探讨这些库的核心功能和使用方法。二、核心概念与技术2.1 NumPy数值计算基础NumPyNumerical Python是Python中用于科学计算的基础库提供了高效的多维数组对象和向量化操作。ndarrayNumPy的核心数据结构是一个多维数组对象广播不同形状数组之间的算术运算规则向量化操作无需显式循环的数组操作提高计算效率ufunc通用函数对数组元素进行逐元素操作2.2 Pandas数据分析利器Pandas是基于NumPy构建的数据分析库提供了Series和DataFrame等高级数据结构。Series一维标记数组DataFrame二维标记数据结构类似表格索引数据的标签支持多种类型的索引数据清洗处理缺失值、重复值等数据操作合并、分组、透视等2.3 SciPy科学计算库SciPy是基于NumPy的科学计算库提供了更多的科学计算功能。线性代数矩阵分解、求解线性方程组等优化函数优化、最小化等信号处理滤波、傅里叶变换等统计概率分布、假设检验等插值数据插值方法三、代码示例与实现3.1 NumPy基础操作import numpy as np # 创建数组 arr1 np.array([1, 2, 3, 4, 5]) arr2 np.array([[1, 2, 3], [4, 5, 6]]) # 数组属性 print(形状:, arr2.shape) print(维度:, arr2.ndim) print(数据类型:, arr2.dtype) # 数组操作 arr3 arr1 10 # 广播 arr4 np.dot(arr2, arr2.T) # 矩阵乘法 arr5 np.mean(arr2, axis0) # 按列求均值 # 索引和切片 print(arr2[0, 1]) # 访问单个元素 print(arr2[:, 1:]) # 切片操作 # 数组创建函数 zeros np.zeros((2, 3)) ones np.ones((2, 3)) random np.random.rand(2, 3)3.2 Pandas数据处理import pandas as pd # 创建Series s pd.Series([1, 3, 5, np.nan, 6, 8]) # 创建DataFrame dates pd.date_range(20230101, periods6) df pd.DataFrame(np.random.randn(6, 4), indexdates, columnslist(ABCD)) # 基本操作 print(df.head()) # 查看前几行 print(df.tail(3)) # 查看后几行 print(df.describe()) # 统计描述 # 数据选择 print(df[A]) # 选择列 print(df.loc[dates[0]]) # 按标签选择行 print(df.iloc[3:5, 0:2]) # 按位置选择 # 数据清洗 print(df.dropna()) # 删除缺失值 print(df.fillna(value5)) # 填充缺失值 # 数据操作 df[E] df[A] df[B] # 添加新列 df2 df.drop(E, axis1) # 删除列 # 分组操作 df.groupby(A).sum() # 合并操作 df1 pd.DataFrame({key: [foo, foo], value: [1, 2]}) df2 pd.DataFrame({key: [foo, foo], value: [3, 4]}) pd.merge(df1, df2, onkey)3.3 SciPy科学计算import scipy as sp from scipy import linalg, optimize, signal, stats, interpolate # 线性代数 A np.array([[1, 2], [3, 4]]) print(行列式:, linalg.det(A)) print(逆矩阵:, linalg.inv(A)) eigenvalues, eigenvectors linalg.eig(A) print(特征值:, eigenvalues) print(特征向量:, eigenvectors) # 优化 def f(x): return x**2 10*np.sin(x) result optimize.minimize(f, x00) print(最小值:, result.x) # 信号处理 t np.linspace(0, 1, 1000) signal_input np.sin(2*np.pi*10*t) np.sin(2*np.pi*20*t) filtered signal.savgol_filter(signal_input, window_length51, polyorder3) # 统计 data np.random.normal(0, 1, 1000) print(均值:, stats.describe(data).mean) print(标准差:, np.sqrt(stats.describe(data).variance)) print(偏度:, stats.skew(data)) print(峰度:, stats.kurtosis(data)) # 插值 x np.linspace(0, 10, 11) y np.sin(x) f interpolate.interp1d(x, y, kindcubic) x_new np.linspace(0, 10, 101) y_new f(x_new)四、性能分析与优化4.1 NumPy性能优化import time # 比较Python循环与NumPy向量化操作 n 1000000 # Python循环 start time.time() a range(n) b range(n) c [a[i] b[i] for i in range(n)] end time.time() print(fPython循环: {end - start:.4f}秒) # NumPy向量化 start time.time() a np.arange(n) b np.arange(n) c a b end time.time() print(fNumPy向量化: {end - start:.4f}秒)4.2 Pandas性能优化# 避免链式索引 # 不好的做法 df[A][df[A] 0] 0 # 好的做法 df.loc[df[A] 0, A] 0 # 使用合适的数据类型 df[integer_column] df[integer_column].astype(int32) df[category_column] df[category_column].astype(category) # 使用矢量化操作 # 不好的做法 def slow_function(x): return x * 2 1 df[new_column] df[old_column].apply(slow_function) # 好的做法 df[new_column] df[old_column] * 2 14.3 内存优化# 检查DataFrame内存使用情况 print(df.memory_usage(deepTrue)) # 减少内存使用 df pd.read_csv(large_file.csv, dtype{column1: int32, column2: float32}) # 分块处理大文件 chunksize 10000 for chunk in pd.read_csv(large_file.csv, chunksizechunksize): # 处理每个块 pass五、最佳实践与建议库的选择NumPy数值计算、数组操作Pandas数据分析、表格处理SciPy科学计算、高级数学功能性能优化优先使用向量化操作避免显式循环合理使用数据类型减少内存使用对于大型数据集考虑分块处理代码风格导入约定import numpy as np,import pandas as pd使用有意义的变量名添加适当的注释数据处理流程数据获取与加载数据清洗与预处理数据探索与可视化特征工程模型训练与评估常见陷阱链式索引导致的SettingWithCopyWarning数据类型不匹配内存不足过度使用apply函数六、总结NumPy、Pandas和SciPy是Python数据科学的三大核心库它们为数据处理、分析和科学计算提供了强大的工具。通过掌握这些库的核心功能和使用技巧我们可以更高效地进行数据科学工作。NumPy提供了高效的多维数组和向量化操作是其他库的基础Pandas提供了灵活的数据结构和丰富的数据操作功能适合处理结构化数据SciPy则提供了更多的科学计算功能如线性代数、优化、信号处理等。在实际应用中我们应该根据具体任务选择合适的库和方法并注意性能优化和代码质量。通过合理使用这些库我们可以更快速地从数据中提取有价值的信息做出更好的决策。随着数据科学的不断发展这些库也在不断更新和完善。建议大家关注它们的最新版本和特性以充分利用它们的强大功能。

更多文章

前端开发 2026/4/20 9:05:59

终极Dell G15散热控制指南：告别AWCC的轻量级解决方案

终极Dell G15散热控制指南：告别AWCC的轻量级解决方案【免费下载链接】tcc-g15 Thermal Control Center for Dell G15 - open source alternative to AWCC 项目地址: https://gitcode.com/gh_mirrors/tc/tcc-g15 还在为Dell G15笔记本的过热问题烦恼吗&#…

解锁运动数据潜力：开源运动视频分析工具从入门到精通的7个核心步骤【免费下载链接】Kinovea Video solution for sport analysis. Capture, inspect, compare, annotate and measure technical performances. 项目地址: https://gitcode.com/gh_mirrors/ki/Kino…

张开发

前端开发 2026/4/13 14:28:41

音乐格式转换完全指南：让加密音频重获自由的开源解决方案

音乐格式转换完全指南：让加密音频重获自由的开源解决方案【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 音乐格式转换是数字音乐时代的必备技能，尤…

张开发

Python数据科学库详解：NumPy、Pandas与SciPy

最新文章

终极指南：如何用免费PPT悬浮计时器掌控演讲时间

Whispers of the Ancients - Writeup by AI

别再只仿开环了！运放闭环CMRR仿真为什么更关键？（附Cadence实测对比）

深入TI C2000 DSP GPIO硬件：从GPxDAT、SET/CLEAR寄存器的区别，看如何写出更稳健的驱动代码

AGI持续学习的“暗物质瓶颈”曝光：3类不可见漂移源+2种对抗性记忆压缩算法（附GitHub可运行验证脚本）

为什么92%的材料实验室尚未接入AGI工作流？——2026奇点大会技术采纳障碍清单与迁移路线图

推荐文章

引导定位原理原理演示

C语言之整型常量后缀探秘：从1ULL/1UL/1L到跨平台编程(五十五)

【51单片机+DAC0832实战】手把手教你编程输出三种基础波形

WorkshopDL：解锁Steam创意工坊的跨平台模组下载神器

像素幻梦·创意工坊入门指南：理解16-bit现代像素视觉系统的色彩设计逻辑

从理论到实测：方波与三角波THD的硬件电路验证方案

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

终极Dell G15散热控制指南：告别AWCC的轻量级解决方案

数据主题域（Subject Area）

Speechless：保护数字记忆的微博内容备份解决方案

暗黑破坏神2存档编辑完整指南：可视化工具d2s-editor深度解析

别再死记公式了！手把手教你用OPA171设计一个±10V输出的同相放大器（附仿真文件）

千问3.5-2B玩转卷积神经网络：CNN结构可视化与调参指南

渗透测试发现的Nacos漏洞怎么修？SpringBoot项目实战修复指南

如何快速找回遗忘的压缩包密码：ArchivePasswordTestTool完整指南

HS2-HF补丁：5分钟搞定Honey Select 2汉化与功能增强终极指南

Realistic Vision V5.1 GPU显存实测：V5.1在FP16精度下的内存占用基准值

解锁运动数据潜力：开源运动视频分析工具从入门到精通的7个核心步骤

音乐格式转换完全指南：让加密音频重获自由的开源解决方案