同步操作将从 celaraze/any-to-excel 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
一款使用 Python 编写的图像内表格数据提取工具,可以高效识别 PDF 原件、扫描件、复印件、彩色(黑白)照片、截图内的数据表格,提取后转为 Excel 文件输出。
这是一款开源工具,我给它取名叫Any2Excel
。顾名思义,往后的目标就是提取任意格式文件中的数据图表到可被结构化处理的 Excel 文件。
识别度高,操作简单,使用场景广泛。
支持手机拍照、扫描件、原件、复印件等等
pip install -r .\requirements.txt
poppler 安装后将其bin路径加入系统变量中
cp config+sample.yml config.yml
后补全config.yml
中的配置信息。
将 PDF 按每页转为 JPG 图像文件
暂时只取 PDF 第一页内容
提交 OCR 识别这个图像文件
将识别结果转为 Excel 导出
清除 Excel 文件的全部样式
cd PDF2Excel
python3 pdf2excel.py test.pdf
cd PDF2Excel
python3 image2excel.py capture.jpg
将需要转换的 PDF 文件/图片文件,拖拽到程序上就会自动执行
*.xlsx
包含了样式的 Excel 文件,可能会因为样式过多而文件过大。
*.xls
移除了样式的 Excel 文件,推荐。
config.yml
内包含了腾讯云的相关鉴权信息
感谢以下开源项目:
pdf2image
PyMuPDF
PyYAML
Laravel-Admin
所有的贡献者都在本项目的贡献清单中。
如果您在 Any2Excel 中发现安全漏洞,请通过 famio@qq.com 发送电子邮件告知我。
遵循 MIT 开源协议。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。