LLM--分词基础

张开发

• 2026/6/1 4:42:10 • 15 分钟阅读

分享文章

文章目录三种不同的分词粒度Word-based TokenizersCharacter-based TokenizersSubword-based TokenizersBtye-Pair Encoding TokenizationWordPieceUnigram Tokenization参考资料作用将文本序列转化为数字序列即token编号作为transformer的输入三种不同的分词粒度Word-based TokenizersWord-based是最简单的分词方法就是将单词按照空格或者标点进行分割。英文中文在中文中jieba分词工具就是基于Word-based的实现的。优点简单符合人类自然语言缺点相同意思的词被划分为不同token词表非常大可能会出现unknown的情况。Character-based TokenizersCharacter-based是将文本按照字母/字级别分割tokens。英文可以有效的减少词表的大小比如下面的句子Let’s do some NLP tasks.按照字母分词后得到的token是L, e, t, , s, d, o, s, o, m, e, N, L, P, t, a, s, k, s, .中文比如下面的句子我们来做一个自然语言处理任务。按照字分词后得到的token是我们来做一个自然语言处理任务缺点对于英文来说没啥意义Subword-based Tokenizers按照**“子词”**进行分词这也是现在用的最多的分词方式。常用的方式有Byte-Pair EncodingBPEWordPieceSentencePieceUnigramBtye-Pair Encoding Tokenization分为两步骤“词频统计” 和 “词表合并”重复这两步知道到达预定的迭代次数过程比较复杂如图所示总的来说就是依据词表拆相邻合并(pair)统计词频更新词表缺点词表庞大WordPiece与BPE大体一样但是也有区别构建词表的时候除了第一个字母会添加##作为前缀word [w, ##o, ##r, ##d]使用联合概率大小对token进行合并一个例子依据公式存在一种现象如果一个单词其tokens和pair的大小都很大的时候最总计算的概率有可能不会很大但是如果tokens次数较小pair较大则总概率就会很大这就导致有可能不会将出现很频繁的词加入词表。Unigram Tokenization这个分类方式和前面两种都不用流程如下那如何删减token尝试删去一个 token并计算对应的 unigram loss 删除 p%使得 loss 增加最少的 token规则初看很抽象具体例子如下假设每个词的出现都是独立的说实话很复杂也很抽象简要流程总结如下拆分单词构建词表统计词表单词数量概率计算每个单词最高score并且计算loss假设删去某一个词表单词重新计算每个单词sorce和loss然后依据p%的概率决定删除几个词参考资料https://www.bilibili.com/video/BV1Fc411C7sz/?spm_id_from333.337.search-card.all.click%5Cvd_sourcef66cebc7ed6819c67fca9b4fa3785d39https://github.com/imxtx/llm-tutorialshttps://github.com/luhengshiwo/LLMForEverybody/blob/main/01-%E7%AC%AC%E4%B8%80%E7%AB%A0-%E9%A2%84%E8%AE%AD%E7%BB%83/%E5%85%A8%E7%BD%91%E6%9C%80%E5%85%A8%E7%9A%84%E5%A4%A7%E6%A8%A1%E5%9E%8B%E5%88%86%E8%AF%8D%E5%99%A8%EF%BC%88Tokenizer%EF%BC%89%E6%80%BB%E7%BB%93.md

更多文章

前端开发 2026/5/31 20:38:12

CyberEngineTweaks：重构赛博朋克2077游戏引擎的技术实践

CyberEngineTweaks：重构赛博朋克2077游戏引擎的技术实践【免费下载链接】CyberEngineTweaks Cyberpunk 2077 tweaks, hacks and scripting framework 项目地址: https://gitcode.com/gh_mirrors/cy/CyberEngineTweaks 当现代游戏引擎的封闭性限制了玩家的创…

张开发

前端开发 2026/5/31 10:19:11

MongoDB中大型文本字段怎么存_GridFS切分与外部存储对比

会。MongoDB单文档上限16MB，但超2MB字符串易致客户端OOM或超时；GridFS非自动魔法，需手动管理分块、拼接与清理；大文本应优先存OSS/S3，Mongo仅存元数据。大文本存MongoDB会撑爆内存吗？会。MongoDB单文档上限…

张开发

前端开发 2026/5/31 20:37:22

10分钟快速掌握Stanford CoreNLP：一站式自然语言处理工具完全指南

10分钟快速掌握Stanford CoreNLP：一站式自然语言处理工具完全指南【免费下载链接】CoreNLP CoreNLP: A Java suite of core NLP tools for tokenization, sentence segmentation, NER, parsing, coreference, sentiment analysis, etc. 项目地址: https://gitcod…

张开发

前端开发 2026/5/31 20:38:25

ViGEmBus虚拟游戏控制器驱动深度解析：如何实现Windows内核级完美模拟

ViGEmBus虚拟游戏控制器驱动深度解析：如何实现Windows内核级完美模拟【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus ViGEmBus虚拟游戏控制器驱动…

张开发

前端开发 2026/5/31 20:37:36

基于vue的广告投放管理系统[vue]-计算机毕业设计源码+LW文档

摘要：随着互联网广告行业的迅猛发展，高效管理广告投放成为企业提升广告效果和商业价值的关键。本文介绍了一个基于Vue框架开发的广告投放管理系统，旨在解决广告投放过程中信息管理混乱、投放策略调整不及时等问题。通过详细的需求分析&#x…

张开发

前端开发 2026/5/31 20:38:12

全平台资源下载利器：res-downloader零门槛使用指南

全平台资源下载利器：res-downloader零门槛使用指南【免费下载链接】res-downloader 视频号、小程序、抖音、快手、小红书、直播流、m3u8、酷狗、QQ音乐等常见网络资源下载! 项目地址: https://gitcode.com/GitHub_Trending/re/res-downloader 你是否曾遇到想…

张开发

前端开发 2026/5/31 20:38:49

快速原型：使用快马一键生成ollama d盘安装配置脚本

最近在本地跑大模型时遇到了C盘空间告急的问题，发现ollama默认安装路径在C盘，随着模型文件越来越多，系统盘很快就满了。于是研究了一套将ollama迁移到D盘的方案，用InsCode(快马)平台快速生成了自动化配置脚本，整个过程…

张开发

前端开发 2026/5/31 20:38:12

硅谷顶级工程师已经不写代码了，他们在做一种叫 Harness Engineering 的新工作

最近读到 Nav Toor 写的一篇长文，标题很抓人：为什么 2026 年最好的 AI 工程师已经不写代码了。文章讲的是一个正在工程圈子里快速升温但主流媒体几乎没有报道的新概念，叫 Harness Engineering。这个概念的起点是一个让人震惊的实验结果。同一…

张开发

前端开发 2026/5/31 20:41:29

2025届毕业生推荐的十大AI写作助手解析与推荐

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 处于学术写作那极为广阔的范围里，AI论文工具正逐步稳稳地变成研究者相当得力的帮…

张开发

前端开发 2026/5/31 20:38:11

一文吃透Spring Cloud：通俗讲解+实战落地，新手也能快速上手

做Java开发的同学，一定听过「Spring Cloud」，但很多人对它的认知都停留在“分布式框架”“微服务必备”，一提到注册中心、网关、配置中心就头大，甚至分不清Spring Cloud和Spring Boot的区别。其实Spring Cloud一点都不复杂&#x…

张开发

前端开发 2026/5/31 20:37:59

提升c语言编码效率：用快马智能生成可复用的基础工具函数库

提升C语言编码效率：用快马智能生成可复用的基础工具函数库最近在写C语言项目时，发现很多基础功能需要反复实现，比如字符串处理、动态数组管理这些轮子。每次从零开始写不仅耗时，还容易引入边界条件错误。后来尝试用InsCode(快马…

张开发

前端开发 2026/5/31 20:37:59

ImageToSTL：让图片秒变3D模型的开源工具

ImageToSTL：让图片秒变3D模型的开源工具【免费下载链接】ImageToSTL This tool allows you to easily convert any image into a 3D print-ready STL model. The surface of the model will display the image when illuminated from the left side. 项目地址: h…

张开发

LLM--分词基础

最新文章

从芯片制造到电路设计：为什么CMOS工艺偏爱P型衬底？聊聊背后的历史与技术选择

【GraalVM静态镜像内存优化终极指南】：20年JVM专家亲授，从启动内存暴增300%到稳定＜25MB的7大实战压测技巧

TVA技术在洗煤车间检测中的场景适配与工艺优化

别只当数据搬运工了！深入STM32H7的DMA FIFO与突发传输，提升你的系统带宽（内存位宽不匹配怎么办）

大数据应用开发赛项备赛指南：从零开始掌握电商与工业互联网数据集处理

别再全局改MyBatis-Plus的maxLimit了！3.4版本后这样按需突破分页限制更安全

推荐文章

相关文章

分享文章

更多文章

CyberEngineTweaks：重构赛博朋克2077游戏引擎的技术实践

MongoDB中大型文本字段怎么存_GridFS切分与外部存储对比

10分钟快速掌握Stanford CoreNLP：一站式自然语言处理工具完全指南

ViGEmBus虚拟游戏控制器驱动深度解析：如何实现Windows内核级完美模拟

基于vue的广告投放管理系统[vue]-计算机毕业设计源码+LW文档

全平台资源下载利器：res-downloader零门槛使用指南

快速原型：使用快马一键生成ollama d盘安装配置脚本

硅谷顶级工程师已经不写代码了，他们在做一种叫 Harness Engineering 的新工作

2025届毕业生推荐的十大AI写作助手解析与推荐

一文吃透Spring Cloud：通俗讲解+实战落地，新手也能快速上手

提升c语言编码效率：用快马智能生成可复用的基础工具函数库

ImageToSTL：让图片秒变3D模型的开源工具