随着企业数字化进程不断加速,PDF转Word的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。
针对开发者的需求,飞桨文字识别套件PaddleOCR全新发布PP-StructureV2智能文档分析系统,支持一行命令实现PDF转Word功能,文字、表格、标题、图片都可完整恢复,一键实现PDF编辑自由!
图1 PDF文件转Word文件效果图
PP-StructureV2智能文档分析系统升级点包括以下2方面:
系统功能升级 :新增图像矫正和版面复原模块,支持标准格式pdf和图片格式pdf解析!
系统性能优化 :
版面分析:发布轻量级版面分析模型,速度提升11倍,平均CPU耗时仅需41ms!
表格识别:设计3大优化策略,预测耗时不变情况下,模型精度提升6%。
关键信息抽取:设计视觉无关模型结构,语义实体识别精度提升2.8%,关系抽取精度提升超过9.1%。
飞桨官网:https://www.paddlepaddle.org.cn
PaddleOCR项目地址:
GitHub: https://github.com/PaddlePaddle/PaddleOCR
Gitee: https://gitee.com/paddlepaddle/PaddleOCR
PP-StructureV2技术报告:https://arxiv.org/abs/2210.05391v2