MATLAB矩阵统计实战：从均值到协方差，一站式掌握核心函数

张开发

• 2026/6/23 14:28:10 • 15 分钟阅读

分享文章

1. MATLAB矩阵统计实战入门第一次接触MATLAB做数据分析时我被它强大的矩阵运算能力震撼到了。记得当时处理一个2000x2000的基因表达矩阵用for循环算均值算到电脑卡死后来发现用mean()函数一行代码就搞定了。这就是MATLAB的魅力——把复杂的统计计算封装成简单易用的函数。在数据分析中我们最常遇到的几个统计量就是均值、中位数、方差、标准差、相关系数和协方差。它们就像数据分析的六脉神剑掌握了就能看透数据背后的规律。比如均值告诉我们数据的中心位置方差反映数据的波动大小协方差则揭示变量间的关联程度。假设你现在手头有一个4x4的销售数据矩阵记录了四个季度四种产品的销售额。我们后续的实战演示都会基于这个矩阵sales [83 38 71 58; 89 72 64 33; 42 12 57 68; 34 71 92 48];这个矩阵的行代表季度列代表产品。接下来我们就用这个实际案例带你一站式掌握MATLAB的矩阵统计函数。2. 描述性统计均值与中位数2.1 均值计算全攻略mean()函数是MATLAB里最常用的统计函数之一。但你可能不知道它有四种不同的用法对应不同的计算场景列均值默认计算每列的均值col_means mean(sales) % 结果[62.00 48.25 71.00 51.75]行均值加入维度参数row_means mean(sales,2) % 结果[62.50; 64.50; 44.75; 61.25]全局均值双重mean嵌套global_mean mean(mean(sales)) % 结果58.25加权均值结合权重向量weights [0.3 0.2 0.1 0.4]; weighted_mean mean(sales.*weights) % 按列加权实际项目中我经常遇到需要计算移动平均的情况。比如要计算销售额的5日移动平均可以这样操作moving_avg movmean(sales,5); % 5点移动平均2.2 中位数的特殊意义中位数比均值更能抵抗异常值的干扰。去年分析用户年龄数据时就因为几个200岁的异常值导致均值严重偏离改用中位数后才得到合理结果。median()函数的使用方式和mean几乎一致col_medians median(sales) % 列中位数[62.5 54.5 67.5 53.0] row_medians median(sales,2) % 行中位数有个容易踩的坑是median(median())的用法。它并不是计算整个矩阵的中位数而是先求列中位数再对这些中位数取中位数double_median median(median(sales)) % 结果58.5 true_median median(sales(:)) % 整个矩阵的中位数603. 离散程度评估方差与标准差3.1 方差计算详解var()函数有个重要的flag参数flag0计算样本方差分母n-1flag1计算总体方差分母nsample_var var(sales,0,1) % 样本方差 population_var var(sales,1,1) % 总体方差在金融数据分析时我习惯用滚动方差观察波动率变化window_size 3; rolling_var movvar(sales,window_size);3.2 标准差的实战应用std()函数的参数和var完全一致。在质量控制中我们常用均值±3标准差作为正常范围mu mean(sales); sigma std(sales,0,1); control_range [mu-3*sigma; mu3*sigma];有个实用技巧是计算变异系数标准差/均值可以比较不同量纲数据的离散程度cv std(sales,0,1)./mean(sales) % 变异系数4. 关系分析相关系数与协方差4.1 相关系数的深入解读corrcoef()返回的是相关系数矩阵对角线是自相关总是1非对角线是互相关R corrcoef(sales) % 结果 % [1.0000 0.3528 0.0208 -0.7346 % 0.3528 1.0000 -0.5519 -0.2840 % 0.0208 -0.5519 1.0000 0.0731 % -0.7346 -0.2840 0.0731 1.0000]在用户行为分析中我发现点击量和停留时间的相关系数达到0.7这个发现直接优化了推荐策略。4.2 协方差矩阵的秘密cov()函数有个隐藏特性对向量输入返回方差对矩阵输入返回协方差矩阵vector_var cov(sales(:,1)) % 第一列的方差 cov_matrix cov(sales) % 完整的协方差矩阵在投资组合优化时协方差矩阵是关键输入。我曾经用5年股票数据计算协方差发现科技股和能源股呈现负相关这个发现帮助构建了更稳健的投资组合。5. 实战案例完整分析流程现在我们把所有函数串起来完成一个真实的数据分析报告。假设要分析某电商平台的用户行为数据% 数据准备 user_data [5.2 3.8 12 4; % 浏览时长(h)、点击量(次)、消费金额(元)、评分(1-5) 7.1 5.2 18 5; 3.4 2.1 8 3; 6.0 4.5 15 4]; % 描述性统计 fprintf(平均浏览时长%.2f小时\n, mean(user_data(:,1))); fprintf(中位数消费金额%.2f元\n, median(user_data(:,3))); % 离散程度分析 fprintf(评分标准差%.2f\n, std(user_data(:,4))); % 相关性分析 [R,P] corrcoef(user_data); fprintf(浏览时长与消费金额的相关系数%.2f(p%.4f)\n, R(1,3), P(1,3)); % 可视化展示 heatmap(cov(user_data), Colormap, hot);这个案例展示了如何从基础统计量入手逐步深入分析数据特征。在实际项目中我通常会把这些统计量计算封装成函数方便重复调用。6. 性能优化与常见问题处理大型矩阵时统计函数的效率很重要。我有次处理100万行数据时发现% 低效写法 for i 1:size(data,2) col_mean(i) mean(data(:,i)); end % 高效写法 col_mean mean(data); % 快10倍以上另一个常见问题是缺失值处理。MATLAB的统计函数默认会忽略NaNdata_with_nan [1 2 NaN 4]; valid_mean mean(data_with_nan, omitnan) % 结果2.333最后提醒一个易错点协方差矩阵计算时要注意数据维度。我曾经因为行列搞反导致分析结果完全错误花了三天才找到这个bug。