从机械转行互联网CV后,我决定再转多模态大模型

张开发
2026/4/16 4:30:33 15 分钟阅读

分享文章

从机械转行互联网CV后,我决定再转多模态大模型
先简单自我介绍一下本科是机械专业出身第一份工作做工业缺陷检测主要是传统机器视觉 深度学习现在在互联网公司做计算机视觉算法分类、检测、分割、OCR 外加 TensorRT/OpenVINO 部署。绕了一大圈其实一直都是在「看图」这条路上。所以我给自己定了一个新的方向在现有 CV 算法的基础上系统性地转向大模型 / 多模态方向。目前还在探索阶段谈不上“转行成功”但我不想等到完全确定了才开始记录。于是我先做了一件比较笨但踏实的事把自己从 0 开始学多模态大模型的过程全部整理成一个 GitHub 仓库边学边记边踩坑边写。GitHub 仓库From0to1-MLLM-StudyLog 仓库地址https://github.com/wz940216/From0to1-MLLM-StudyLog.git这个仓库主要是我的「多模态大模型学习日志」特点有几点从机械专业转过来的视角 不会扯太虚的理论更偏工程、偏“怎么跑起来、怎么部署”。按周记录 仓库按 Week1–Week24 组织每周会尽量放上这一周我大概在学什么LLM、多模态、部署相关看过的论文/文档/视频链接跑通的代码、小 demo 或踩过的坑。覆盖方向大致包括LLM 基础Qwen/LLaMA 等开源模型的使用与微调多模态基础CLIP、BLIP、LLaVA 这些经典框架简单多模态小项目比如图像-文本检索、图像问答等推理与部署vLLM、TensorRT、OpenVINO 等目前仓库还在持续更新很多东西也在边学边补充不是教程更像给自己和同样想转型的人留一份可以复盘的轨迹。想说给同样在纠结「要不要转大模型」的你我不是科班 AI 出身中间也走了机械 → 工业视觉 → 互联网 CV 这一大圈现在开始正式补多模态和大模型说早不早说晚不晚。如果你也本科专业不对口在传统 CV / 工业视觉 / 算法岗位对大模型很感兴趣又有点不知道从哪下手可以先不用给自己「转行成功」的压力我们可以先做两件小事承认这是趋势允许自己慢慢靠过去让学习过程有迹可循——不管是记在本子上还是像我一样丢在 GitHub 上。如果你对多模态大模型感兴趣或者也在准备往大模型方向转可以先收藏 / Fork 我的仓库 https://github.com/wz940216/From0to1-MLLM-StudyLog.git在评论区留个「一起学」 后面我会继续把每周的学习记录、踩坑经验包括机械狗视角下的弯路陆续更新到仓库和这里。希望半年、一年之后我们都能回头看到一条清晰的成长曲线而不是“当时也想学来着”的遗憾。

更多文章