AI基础学习-基础概念汇总

张开发
2026/4/11 14:44:26 15 分钟阅读

分享文章

AI基础学习-基础概念汇总
背景汇总学习AI基础概念做扫盲使用。文章目录一、AI相关基础概念1. 人工智能AI---让机器模仿人类的智能行为看、听、说、理解、推理、决策、创造2. AI的四次浪潮发展---符号主义/统计机器学习ML/深度学习DL/大语言模型LLM二、大语言模型LLM第四次AI浪潮基础概念1. 大语言模型LLM---一个超级大的、专门用来预测 “下一个词” 的神经网络函数2. LLM出现的背景---旧技术路线困境 与 Transformer出现GPU算力的爆发3. Transformer---LLM基石一个专门用来处理「序列数据」的神经网络架构4. 从「人类文字」到「LLM 计算」数据流水线---Token、Tokenizer、Token ID、Prompt、Context5. LLM训练流程---预训练、后训练、微调、强化学习三、大语言模型LLM软硬件层结构涉及概念1. LLM软硬件层级总结---软件层/运算层/处理器层/核心加速单元/基础运算/物理底层2. 运算层概念---矩阵运算、张量运算、卷积运算3. 处理器层概念---CPU、GPU、NPU、TPU、LPU4. 核心加速单元---Tensor Core、AI Engine、FPU5. 基础运算层---ALU、MAC、乘法器、加法器四、大语言模型LLM扩展优化与落地衍生相关技术1. 智能体Agent---AgentLLM记忆工具规划从“回答问题”变成“解决问题”2. 模型上下文协议MCP---AI 与外部世界的统一连接标准给Agent提供一套 “万能接口”3. 检索增强生成RAG---LLM 的外部知识库提高准确率和时效性4. Skill---Agent的专业做事方法给 AI 一套 “标准化做事流程”指导五、大语言模型LLM用户视角典型应用举例1. 聊天问答类陪聊、解答、通用全能---ChatGPT、豆包、Gemini、Claude、DeepSeek2. 写作办公类写、改、读、总结文档---Notion AI、Kimi、Jasper、WPS AI、豆包3. 编程助手写代码、改代码、开发效率---Copilot、Cursor、DeepSeek-Coder、豆包、CodeGeeX4. 智能 Agent交代目标自动干完---Devin、AutoGPT、OpenClaw、AutoGen、LangGraph5. 多模态能看、能听、能说、能画---GPT-4o、Gemini 3.1、Seed 2.0、Sora、Runway参考一、AI相关基础概念1. 人工智能AI—让机器模仿人类的智能行为看、听、说、理解、推理、决策、创造人工智能Artificial Intelligence。1956 年在达特茅斯会议一群科学家提出“用机器模拟人类智能”这就是 AI 概念的起点。让机器模仿人类的智能行为看、听、说、理解、推理、决策、创造。不是只会执行指令而是能理解、能学习、能自己解决问题。在题案中最初几个关键目标1让机器使用语言自然语言2让机器形成抽象概念3让机器解决原本只有人能解决的问题4让机器能够自己学习、自我改进。最初的信念人的大脑本质也是一套复杂的 “计算系统”。既然是计算系统就一定能用机器复现。2. AI的四次浪潮发展—符号主义/统计机器学习ML/深度学习DL/大语言模型LLM├── 符号AI1956~1970s人写规则 → 笨、不通用├── 机器学习 ML1990~2010s数据学规律 → 专用、窄任务├── 深度学习 DL2012~2020s神经网络学特征 → 图像语音可用└── 大语言模型 LLM2020~现在统一文字/逻辑/推理/代码 → 通用智能AI经历了四次发展浪潮从 “人教规则” → 变成 “机器从海量数据里自己学会世界知识”。二、大语言模型LLM第四次AI浪潮基础概念1. 大语言模型LLM—一个超级大的、专门用来预测 “下一个词” 的神经网络函数大型语言模型Large Language Model本质一个超级大的、专门用来预测 “下一个词” 的神经网络函数主要目标是通过大规模的训练数据来学习自然语言的规律并能够生成具有语义和语法正确性的文本。核心结构为 Transformer神经网络架构。LLM 是怎么来的1 把海量文字喂给它书籍、网页、论文、代码、百科……2 让它做一个极其枯燥的任务遮住一句话的最后一个词让模型猜。猜错了就微调内部参数猜对就保留。3 重复几百亿次 → 模型就 “懂了” 语言、逻辑、知识、代码。LLM 为什么这么强1小模型只会组词。大到一定规模后突然出现逻辑推理/代码能力/意图理解/常识2统一了所有任务以前 AI 分翻译、分类、摘要、对话、代码……现在全部统一成一种任务预测下一个词。3自然语言变成了 “通用接口”你不用写代码、配寄存器、画电路图。人类语言 最通用的编程接口。LLM参数数量级。单位B代表Billion10亿参数 模型用来 “存知识、存规律、存结构” 的存储空间。参数到底 “存” 的是什么不是存文字而是存词语之间的关系/语法结构/逻辑模式/代码规律/常识比如天是蓝的、苹果是水果/推理步骤因为… 所以…/参数越多能存储的 “精细规律” 就越多。LLM 本质预测下一个词的概率LLM Transformer 结构 海量文本训练 超大参数2. LLM出现的背景—旧技术路线困境 与 Transformer出现GPU算力的爆发人类想让机器理解语言试了规则、统计、小模型全都不够强之前所有路线都解决不了「语言复杂 长程依赖 无法并行」三大死结。直到 Transformer 解决了长上下文理解又发现模型越大能力越强这条铁律再加上 GPU 算力爆发、海量文本可获取最终才走出了一条用极端规模直接从文本里学知识、学逻辑、学语言的路线即LLM。3. Transformer—LLM基石一个专门用来处理「序列数据」的神经网络架构Transformer是一种用于自然语言处理NLP和其他序列到序列sequence-to-sequence任务的深度学习模型架构它在2017年由Vaswani等人首次提出。Transformer架构引入了最核心两个内容a. 自注意力机制self-attention mechanism能让模型全局关联上下文彻底抛弃 循环 和 依次处理采用一种能够一次性看到并处理整个序列中所有词的方法。 b. 多层网络堆叠层越底层学语法、拼写层越高层学逻辑、代码、推理、意图。形成了一个专门处理长文本序列的超级流水线。Transformer解决了旧模型核心问题1长文本上下文记不住2不能并行训练跑得慢。所以它才成为LLM地基让大模型成为可能。4. 从「人类文字」到「LLM 计算」数据流水线—Token、Tokenizer、Token ID、Prompt、Context从「人类文字」到「LLM 计算」的完整数据流水线用户输入 → Prompt → 历史对话 → Context→ Tokenizer → Token → Token ID → 送入 LLM→ 生成结果。大模型的任务就是算出当前这些token ID后应该续写哪些token。5. LLM训练流程—预训练、后训练、微调、强化学习LLM 的训练就像培养一个人整体流程如下从实用的视角平时我们使用的AI都走完预训练 → 微调 → 强化学习。如果我们要自己落地搭建一个现有的大模型使用不用做预训练太贵、最耗时需要几个月甚至几年只需要做 微调 / RAG 就够了。三、大语言模型LLM软硬件层结构涉及概念1. LLM软硬件层级总结—软件层/运算层/处理器层/核心加速单元/基础运算/物理底层2. 运算层概念—矩阵运算、张量运算、卷积运算运算层是LLM软件模型与硬件执行的核心衔接层核心任务是执行LLM所需的底层运算其中张量运算和矩阵运算是两大核心二者紧密关联。3. 处理器层概念—CPU、GPU、NPU、TPU、LPU处理器层CPU/GPU/NPU/TPU/LPU等是LLM算力的核心载体核心作用是承接运算层的张量/矩阵运算为LLM的推理与训练提供基础算力支撑与核心加速单元、基础运算层直接关联。4. 核心加速单元—Tensor Core、AI Engine、FPU核心加速单元是处理器层CPU/GPU/NPU等的内置专用模块核心作用是优化LLM所需的张量/矩阵运算提升运算效率、兼顾性能与功耗与运算层的张量运算、矩阵运算直接关联。5. 基础运算层—ALU、MAC、乘法器、加法器基础运算层ALU、MAC、乘法器、加法器等是所有运算的底层核心单元核心作用是执行LLM所需的基础算术与乘加运算将复杂的张量/矩阵运算拆解为简单可执行的操作四、大语言模型LLM扩展优化与落地衍生相关技术1. 智能体Agent—AgentLLM记忆工具规划从“回答问题”变成“解决问题”最早的含义Agent 能行动的主体来自拉丁语 agere意思是「去做、去行动」。从早期的机器人、软件代理它一直都在只是能力一直有限。机器学习时代的 Agent 能学但不懂沟通。大模型时代来了Agent相当于LLM记忆工具规划大模型的推理能力足够强能理解任务、分解目标工具调用Function Calling机制稳定AI 能主动“执行”操作。Agent它不再只是一个聊天模型而是一个能理解目标、规划路径、执行任务的自主系统2. 模型上下文协议MCP—AI 与外部世界的统一连接标准给Agent提供一套 “万能接口”MCPModel Context Protocol模型上下文协议是 Anthropic 在 2024 年底推出的AI 与外部世界的统一连接标准就像 USB-C 让不同设备能够通过相同的接口连接一样。Agent 通过一套 MCP Client调用所有 MCP Server。我们在构造 prompt 时没有MCP之前我们可能会人工从数据库中筛选或者使用工具检索可能需要的信息手动粘贴到 prompt 中。随着我们要解决的问题越来越复杂手工把信息引入到 prompt 中会变得越来越困难。为了克服手工 prompt 的局限性许多 LLM 平台引入了 function call 功能制允许模型在需要时调用预定义的函数来获取数据或执行操作。但是 function call 也有其局限性平台依赖性强不同 LLM 平台的 function call API 实现差异较大开发者在切换模型时需要重写代码增加了适配成本。除此之外还有安全性交互性等问题。Anthropic 基于这样的痛点设计了 MCP充当 AI 模型的万能转接头让 LLM 能轻松的获取数据或者调用工具。一句话串起来LLM 做 Function Calling 决策 → Agent 做规划 → 通过 MCP 协议调用各类 Tool →完成任务。3. 检索增强生成RAG—LLM 的外部知识库提高准确率和时效性检索增强生成Retrieval-Augmented Generation不是模型不是算法是一套方案 / 外挂模块。大型语言模型LLM面临两个问题第一个问题是LLM会产生幻觉第二个是LLM的知识中断。1知识截止当LLM返回的信息与模型的训练数据相比过时时每个基础模型都有知识截止这意味着其知识仅限于训练时可用的数据。2幻觉当模型自信地做出错误反应时就会发生幻觉。RAG是一种结合了信息检索、文本增强和文本生成的自然语言处理NLP的技术。RAG的目的是通过从外部知识库检索相关信息来辅助大语言模型生成更准确、更丰富的文本内容。RAG技术就像给AI装上 实时的百科全书通过先查资料后回答的机制让AI摆脱传统模型“知识遗忘困境”4. Skill—Agent的专业做事方法给 AI 一套 “标准化做事流程”指导Skill技能 是 AI Agent 体系中封装了完整业务流程、可被模型自主调用的标准化能力单元。一句话因为 LLM 只会 “想”不会 “做事”不知道什么时候调用、按什么顺序调用、失败了怎么办、怎么判断成功Tool 太底层提供各种原子能力没有业务逻辑没有流程没法直接完成复杂任务。企业 / 开发者不想每次都重新教 AI 怎么做事Skill 固定的、可复用的业务流程 调用规则 失败处理Skill 就是为了让 AI 真正能落地干活。Skill是一组包含说明书资源工具参考资料等各种AI Agent都开始支持导入Skill也能生成Skill。包括通过对话聊天记录、或者某个任务如编码过程记录你的习惯和思路生成Skill用于后续类似的工作。五、大语言模型LLM用户视角典型应用举例1. 聊天问答类陪聊、解答、通用全能—ChatGPT、豆包、Gemini、Claude、DeepSeek最通用、全民级LLM应用以自然语言多轮交互为核心主打“问啥答啥、陪聊解惑”适配所有普通用户的基础需求2. 写作办公类写、改、读、总结文档—Notion AI、Kimi、Jasper、WPS AI、豆包聚焦办公与写作场景主打“高效辅助、减轻文字工作量”帮用户快速完成写作、文档处理、办公协同等任务适配学生、职场人等有文字/办公需求的用户。3. 编程助手写代码、改代码、开发效率—Copilot、Cursor、DeepSeek-Coder、豆包、CodeGeeX聚焦编程与开发场景主打“提升开发效率、降低编程门槛”帮开发者快速完成代码生成、补全、调试、重构等任务适配程序员、开发工程师等专业人群。4. 智能 Agent交代目标自动干完—Devin、AutoGPT、OpenClaw、AutoGen、LangGraph聚焦复杂任务自主执行场景主打“输入目标、自主完成”具备规划、工具调用、记忆能力无需用户一步步指挥适配需要高效完成复杂多步骤任务的用户职场人、开发者。5. 多模态能看、能听、能说、能画—GPT-4o、Gemini 3.1、Seed 2.0、Sora、Runway聚焦多模态交互场景主打“打破文本限制实现看、听、说、画一体化”支持文本、图像、音频、视频的理解与生成适配所有有跨模态交互需求的用户。参考【闪客】一口气拆穿Skill/MCP/RAG/Agent/OpenClaw底层逻辑https://www.bilibili.com/video/BV1ojfDBSEPv【闪客】一小时从函数到 Transformerhttps://www.bilibili.com/video/BV1NCgVzoEG9/Skill 真的能替代你的同事吗从0到「会写Skill」科普liliMozihttps://www.bilibili.com/video/BV1JmD6BgETQ/

更多文章