别再手动敲发票了！用Python+EasyOCR，5分钟搞定票据信息自动提取（保姆级教程）

张开发

• 2026/4/18 18:05:54 • 15 分钟阅读

分享文章

别再手动敲发票了用PythonEasyOCR5分钟搞定票据信息自动提取保姆级教程每次月底报销时面对堆积如山的发票和收据你是否也感到头疼手动录入金额、日期、税号不仅耗时费力还容易出错。今天我们就用Python和开源的EasyOCR库打造一个能自动识别票据信息的工具将繁琐的财务工作压缩到5分钟内完成。这个方案特别适合财务人员、行政工作者以及需要处理大量票据的职场人士。即使你是Python初学者跟着这篇教程一步步操作也能轻松上手。我们会从环境配置开始逐行解析代码最后实现将识别结果自动导出为Excel表格的全流程。1. 环境准备与工具安装在开始之前我们需要准备好Python环境和必要的库。建议使用Python 3.7或更高版本这样可以避免一些兼容性问题。首先创建一个新的虚拟环境可选但推荐python -m venv invoice_ocr source invoice_ocr/bin/activate # Linux/Mac invoice_ocr\Scripts\activate # Windows然后安装核心依赖库pip install easyocr opencv-python pandasEasyOCR是一个基于深度学习的开源OCR库支持80多种语言对中文和数字的识别效果尤其出色。它内置了训练好的模型开箱即用不需要我们自己训练。注意第一次运行时会自动下载预训练模型文件较大约200MB请确保网络通畅。2. 基础票据识别功能实现让我们先实现一个最简单的票据识别功能。假设我们有一张发票的图片invoice.jpg需要提取上面的文字信息。import easyocr # 初始化阅读器指定中文和英文 reader easyocr.Reader([ch_sim, en]) # 读取图片并识别文字 result reader.readtext(invoice.jpg) # 打印识别结果 for detection in result: print(detection[1]) # detection[1]是识别出的文本这段代码会输出图片中所有识别出的文字。每个识别结果包含三个部分文字所在位置的坐标识别出的文本内容识别的置信度0-1之间的数值常见问题排查如果遇到CUDA out of memory错误可以尝试减小批处理大小reader easyocr.Reader([ch_sim, en], gpuFalse) # 使用CPU模式对于分辨率较低的图片可以先用图像处理软件提高质量3. 精准提取关键信息单纯的文字识别还不够我们需要从结果中提取出有用的结构化信息如发票金额开票日期发票代码/号码销售方名称下面是一个改进版的代码加入了信息提取逻辑import re from datetime import datetime def extract_invoice_info(texts): info {amount: None, date: None, code: None, seller: None} # 金额识别匹配金额或价税合计后的数字 amount_pattern r(金额|价税合计)[:]\s*(\d\.\d{2}) # 日期识别匹配yyyy-mm-dd或yyyy年mm月dd日格式 date_pattern r(\d{4})[-年](\d{1,2})[-月](\d{1,2})日? # 发票代码/号码识别通常为12位数字8位数字 code_pattern r发票代码[:]\s*(\d{12}).*发票号码[:]\s*(\d{8}) for text in texts: # 尝试匹配金额 amount_match re.search(amount_pattern, text) if amount_match and not info[amount]: info[amount] float(amount_match.group(2)) # 尝试匹配日期 date_match re.search(date_pattern, text) if date_match and not info[date]: year, month, day date_match.groups() info[date] f{year}-{month.zfill(2)}-{day.zfill(2)} # 其他信息的提取逻辑类似... return info优化技巧对于不同格式的发票可以准备多套正则表达式结合文本位置信息坐标可以提高匹配准确率对关键字段可以设置置信度阈值过滤低质量识别结果4. 处理复杂场景与常见问题实际工作中的发票往往并不完美可能会遇到以下问题4.1 图片质量不佳的解决方案问题类型解决方案代码示例模糊不清使用OpenCV锐化cv2.filter2D(img, -1, kernel)光线不均自适应阈值处理cv2.adaptiveThreshold()倾斜变形透视变换矫正cv2.getPerspectiveTransform()import cv2 import numpy as np def enhance_image(image_path): img cv2.imread(image_path) gray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 锐化处理 kernel np.array([[-1,-1,-1], [-1,9,-1], [-1,-1,-1]]) sharpened cv2.filter2D(gray, -1, kernel) # 自适应阈值 thresh cv2.adaptiveThreshold(sharpened, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2) return thresh4.2 提高特定字段的识别准确率对于发票中的关键数字如金额、税号我们可以采取特殊处理金额识别优化先定位包含¥或符号的区域对该区域进行高精度识别二次校验数字格式通常有两位小数日期识别优化优先检查发票顶部和底部区域结合上下文关键词开票日期、日期校验日期合理性不超过当前日期5. 批量处理与自动化输出最后我们将整个流程封装成一个完整的解决方案支持批量处理发票并导出Excel。import os from pandas import DataFrame def batch_process_invoices(folder_path): reader easyocr.Reader([ch_sim, en]) all_invoices [] for filename in os.listdir(folder_path): if filename.lower().endswith((.jpg, .png, .jpeg)): filepath os.path.join(folder_path, filename) enhanced_img enhance_image(filepath) # 临时保存处理后的图片 temp_path temp_processed.jpg cv2.imwrite(temp_path, enhanced_img) # 识别文字 results reader.readtext(temp_path, detail0) info extract_invoice_info(results) info[filename] filename all_invoices.append(info) # 导出到Excel df DataFrame(all_invoices) df.to_excel(invoice_results.xlsx, indexFalse) return df进阶功能建议添加自动分类功能差旅、办公、餐饮等与财务系统API对接实现自动填报搭建简单的Web界面方便非技术人员使用在实际使用中我发现对于增值税专用发票识别准确率能达到90%以上。而对于一些手写或打印质量较差的小票可能需要人工二次核对。建议对低置信度的结果进行标记方便后续检查。

更多文章

前端开发 2026/4/7 19:26:04

企业 AI 看起来很热，为什么真正稳定见效的并不多

【摘要】企业AI领域正上演一出“冰火两重天”的戏剧。一方面是超过70%的企业投身试点，热度空前；另一方面则是高达85%的项目未能产生预期价值，价值落地异常冰冷。这背后并非技术能力的瓶颈，而是一场深刻的管理变革与组织能力的大考…

张开发

前端开发 2026/4/18 12:52:10

go的 kratos的http自定义（响应）信息

/internal/server/http.go自定义：响应格式、错误opts append(opts, http.ResponseEncoder(responseEncoder)) opts append(opts, http.ErrorEncoder(errorEncoder))/internal/server/httpencoder.go上面的：自定义内容，写在下面package serv…

张开发

$WebLaTeX：云端协作时代的LaTeX写作新范式$

前端开发 2026/4/13 3:20:20

WebLaTeX：云端协作时代的LaTeX写作新范式

WebLaTeX：云端协作时代的LaTeX写作新范式【免费下载链接】WebLaTex A complete alternative for Overleaf with VSCode Web Git Integration Copilot Grammar & Spell Checker Live Collaboration Support. Based on GitHub Codespace and Dev container.…

张开发

前端开发 2026/4/12 18:20:23

终极指南：如何免费快速在线绘制专业流程图？GraphvizOnline完整教程

终极指南：如何免费快速在线绘制专业流程图？GraphvizOnline完整教程【免费下载链接】GraphvizOnline Lets Graphviz it online 项目地址: https://gitcode.com/gh_mirrors/gr/GraphvizOnline 在当今数字化时代，无论是软件开发、项目管…

张开发

前端开发 2026/4/10 17:15:13

原木全屋定制工厂：优质厂商选择标准深度解析

原木全屋定制因自然质感与个性化设计成为家居装修的热门选择，但市场上厂商质量参差不齐，选择优质工厂需从多维度评估。本文结合行业实践，深度解析原木全屋定制工厂的核心选择标准，并以临沂尚品工坊木业家具有限公司和实木定制A公司…

张开发

前端开发 2026/4/13 7:38:33

Windows 11性能诊断与优化实战：如何用Win11Debloat让系统提速60%

Windows 11性能诊断与优化实战：如何用Win11Debloat让系统提速60% 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declut…

张开发

前端开发 2026/4/11 1:09:49

技术负责人亲自操刀大模型备案，为何90%仍被驳回？

一、一个扎心的真相你可能不相信，但它确实在发生——根据行业内部统计，大模型备案的首次通过率不足10%，这意味着每提交10份申请，就有9份以上需要补充材料、重新提交，甚至直接被驳回。更扎心的是，在这90%的…

张开发

前端开发 2026/4/13 12:21:30

OpenClaw故障排查：千问3.5-9B接口连接失败解决方案

OpenClaw故障排查：千问3.5-9B接口连接失败解决方案 1. 问题背景与现象描述上周我在本地部署OpenClaw时，遇到了对接千问3.5-9B模型的连接问题。当时网关服务已经正常启动，但在管理界面测试模型调用时，却反复出现"Connectio…

张开发

前端开发 2026/4/18 0:03:03

基于效率的“前后双电机扭矩分配与四驱扭矩分配”策略

前后双电机扭矩分配，四驱扭矩分配，前后各一个电机，基于效率的扭矩分配。根据电机效率计算分配系数。系统效率最高。电动车四驱扭矩分配。电动四驱系统的扭矩分配就像给两个熊孩子分蛋糕——既要保证吃饱，又不能浪费粮食。前后轴…

张开发

前端开发 2026/4/13 7:50:23

终极Windows 11优化指南：如何用Win11Debloat一键清理系统臃肿

终极Windows 11优化指南：如何用Win11Debloat一键清理系统臃肿【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter…

张开发

前端开发 2026/4/13 7:40:31

什么是埋点测试，app埋点测试怎么做？

埋点测试是指在应用程序或网站中预设检查点，收集程序运行时的数据，以便于后续对程序进行性能分析或故障排查。埋点测试通常用于监控和追踪用户在软件产品中的行为，以收集有关用户体验、功能使用情况和潜在问题的数据。这些数据对于软件产品的…

张开发

$《经济研究》LaTeX模板实战指南：从格式规范到排版效率提升$

前端开发 2026/4/18 1:05:58

《经济研究》LaTeX模板实战指南：从格式规范到排版效率提升

《经济研究》LaTeX模板实战指南：从格式规范到排版效率提升【免费下载链接】Chinese-ERJ 《经济研究》杂志 LaTeX 论文模板 - LaTeX Template for Economic Research Journal 项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-ERJ 价值定位：…

张开发

别再手动敲发票了！用Python+EasyOCR，5分钟搞定票据信息自动提取（保姆级教程）

最新文章

把闲置的nRF52840 Dongle变成蓝牙嗅探器：低成本玩转BLE协议分析

Anthropic推出Claude Design，直击设计生产力痛点，或改写大模型商业化格局

SQL字符串操作：拼接、模糊与替换技巧

Visual Studio Code+PlatformIO + ESP32-S3 + Arduino 框架点亮一个小的led灯-测试

c++如何将程序的私有配置信息加密保存为.enc格式的二进制文件【详解】

如何通过闭包保存异步回调中所需的上下文状态数据

推荐文章

Spring with AI (): 定制对话——Prompt模板引入技

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

PS3游戏更新下载器完整指南：如何轻松获取官方游戏补丁

别再手动除草了！用Python+OpenCV部署一个田间杂草实时检测系统

YOLO 系列：YOLOv8 引入 DyHead 动态检测头，统一目标检测与旋转框检测

21天机器学习核心算法学习计划（量化方向）

相关文章

别再让PDF图片丢失了！Dify二次开发实战：优化知识库的图文混合检索能力

热点 | Harness 架构深度解析：AI智能体编排框架的核心原理

【Python时序预测实战】融合LSTM与Transformer：从模型构建到单变量预测全流程解析

MySQL分区表实战：从原理到高效数据管理

CSRankings区域筛选功能深度解析：如何找到全球最佳CS研究机构

OpCore-Simplify：让开源系统硬件适配从8小时到30分钟的技术革命

分享文章

更多文章

企业 AI 看起来很热，为什么真正稳定见效的并不多

go的 kratos的http自定义（响应）信息

WebLaTeX：云端协作时代的LaTeX写作新范式

终极指南：如何免费快速在线绘制专业流程图？GraphvizOnline完整教程

原木全屋定制工厂：优质厂商选择标准深度解析

Windows 11性能诊断与优化实战：如何用Win11Debloat让系统提速60%

技术负责人亲自操刀大模型备案，为何90%仍被驳回？

OpenClaw故障排查：千问3.5-9B接口连接失败解决方案

基于效率的“前后双电机扭矩分配与四驱扭矩分配”策略

终极Windows 11优化指南：如何用Win11Debloat一键清理系统臃肿

什么是埋点测试，app埋点测试怎么做？

《经济研究》LaTeX模板实战指南：从格式规范到排版效率提升