21天机器学习核心算法学习计划(量化方向)

张开发
2026/4/12 0:15:40 15 分钟阅读

分享文章

21天机器学习核心算法学习计划(量化方向)
️ 21天机器学习核心算法学习计划量化方向每天4小时总计3周21天每天分为理论推导1.5小时编程实战2小时复盘与笔记0.5小时目标是21天后能够独立用主流机器学习算法构建量化预测模型并理解每种算法在金融场景中的适用边界。第一周基础模型与线性方法天数学习内容编程实战金融数据Day1ML基础概念、过拟合/欠拟合、训练/验证/测试集划分、评估指标MSE/MAE/R²准确率/精确率/召回率/F1/AUC用make_classification模拟数据完整走一遍训练/测试切分→训练→预测→评估流程Day2线性回归原理最小二乘、梯度下降、Ridge/Lasso正则化用yfinance获取股票数据预测次日收益率回归对比有无正则化的效果Day3逻辑回归Sigmoid、交叉熵损失、决策边界预测次日涨跌二分类构造技术指标特征RSI、MACD输出混淆矩阵和AUCDay4分类评估深入ROC曲线、PR曲线、阈值选择绘制ROC曲线找到最佳阈值最大化F1或最小化业务成本Day5KNN原理距离度量、K值选择、维度灾难寻找历史相似K线组合输入N日收益率序列找到最相似的日期并观察后续走势Day6决策树ID3/CART、信息增益/基尼系数、剪枝参数用决策树预测涨跌可视化树结构观察不同max_depth下的过拟合Day7第一周复习与整合用线性回归逻辑回归KNN决策树对同一数据集预测横向比较性能写总结笔记第二周集成学习与SVM天数学习内容编程实战金融数据Day8随机森林原理Bagging、随机特征、OOB评估、特征重要性用随机森林预测涨跌输出特征重要性条形图删除低重要性特征后重训练Day9随机森林调参n_estimators, max_depth, min_samples_split用TimeSeriesSplit进行时间序列交叉验证网格搜索最优参数Day10集成学习进阶Boosting: AdaBoost, GBDT用GradientBoostingClassifier预测涨跌对比随机森林Day11XGBoost/LightGBM介绍量化领域主流工具用XGBoost预测涨跌调参学习率、树深度、正则化观察性能提升Day12SVM原理最大间隔、软间隔C参数、核函数线性/RBF用SVM预测市场方向对比线性核与RBF核用GridSearch调优C和gammaDay13朴素贝叶斯高斯/多项式/伯努利及独立性假设用高斯朴素贝叶斯快速构建“极端涨跌”预警模型将收益率离散化为5档Day14第二周复习与整合用随机森林XGBoostSVM朴素贝叶斯对比写“不同算法在量化预测中的优劣总结”第三周无监督、神经网络与实战天数学习内容编程实战金融数据Day15KMeans聚类肘部法则、轮廓系数、初始化问题对沪深300成分股根据市盈率、市净率、ROE、换手率等因子聚类分析每类股票的风格Day16PCA降维最大方差投影、主成分可解释性对20个技术指标做PCA观察累计方差用前3个主成分训练随机森林对比原始特征Day17神经网络入门MLP、激活函数、反向传播、优化器用sklearn.MLPClassifier预测涨跌尝试不同隐藏层大小Day18深度学习框架Keras入门搭建、训练、回调用Keras搭建3层MLP画出训练/验证loss曲线加入Dropout和早停防过拟合Day19LSTM基础处理序列数据、解决梯度消失用过去20天收盘价序列预测次日收盘价LSTM对比简单MLPDay20强化学习入门Agent, Environment, Reward用gym搭建简化交易环境状态持仓价格动作买/卖/持有实现随机策略Day21综合实战端到端量化策略选择一个模型随机森林/XGBoost/LSTM预测次日涨跌→构建交易信号→回测年化收益、夏普比率、最大回撤→对比买入持有基准撰写项目报告 每日4小时高效执行指南时间分配时段时长内容第一阶段1.5小时理论学习视频/书籍 公式推导纸笔第二阶段2小时编程实战金融数据完整流程第三阶段0.5小时复盘笔记写三个收获一个待解决问题每日标准流程理论学习1.5h看视频1.5倍速 读《Sklearn官方文档》对应章节 用纸笔推导关键公式编程实战2h获取金融数据 → 特征构造 → 标准化 → 按时间切分 → 训练 → 评估 → 可视化复盘0.5h在Notebook开头写总结算法适用场景、调参心得、量化注意点编程环境# 必装库pipinstallnumpy pandas matplotlib seaborn scikit-learn pipinstallyfinance akshare# 数据源pipinstallxgboost lightgbm pipinstalltensorflow keras pipinstallgym# 强化学习✅ 21天结束后的能力自测能独立用sklearn完成逻辑回归、随机森林、XGBoost、SVM、KMeans、PCA的完整流程能解释“为什么金融数据要用时间序列交叉验证而不是随机K折”能构建至少3个技术指标特征并用特征重要性筛选能训练一个LSTM即使效果不好但数据窗口生成、标准化、训练流程正确能完成一个简单的回测计算夏普比率和最大回撤并识别出潜在的前视偏差

更多文章