一种基于深度神经网络的公文智能标签系统及其实现方法技术方案

技术编号:41685728 阅读:23 留言:0更新日期:2024-06-14 15:37
本发明专利技术公开了一种基于深度神经网络的公文智能标签系统及其实现方法,系统包括:文档解构模块,用于提取公文文档中的文本以及抽取标题和摘要;文档解构模块包括:文本解析子模块,用于对word类型公文进行文本解析;文档转图片子模块,用于对PDF格式公文进行数据转换;OCR文本解析子模块,用于对PDF格式公文转换后的数据进行文本解析;摘要抽取子模块,用于对文本解析后的数据进行识别和抽取得到标题摘要;智能标签模块,用于根据标题摘要进行打标签;智能标签模块包括数据处理子模块、模型架构子模块。本发明专利技术针对不同公文的类型、领域、主题,通过标签萃取、标签治理等方法构建标签体系,更精准应用于综合搜索、相关推荐等场景。

【技术实现步骤摘要】

本专利技术涉及智能办公,尤其涉及一种基于深度神经网络的公文智能标签系统及其实现方法


技术介绍

1、为推进建设整体智治、高效协同的现代政务办公提供数字化支撑,一系列政务信息高效协同应用应运而生。目前政府部门累积了大量往年未归类整理的文件,这些数据资产急需整理应用起来,对于公文打标的主流方法是使用关键字匹配和高频字词统计等,但是这些方法效率低下并且在实际应用时标签预测的准确性差。


技术实现思路

1、本专利技术提供一种基于深度神经网络的公文智能标签系统及其实现方法,针对不同公文的类型、领域、主题,通过标签萃取、标签治理等方法构建标签体系,可形成高价值的数据资产,更精准应用于包括综合搜索、相关推荐等使用场景。

2、一种基于深度神经网络的公文智能标签系统,包括:

3、文档解构模块,用于提取公文文档中的文本以及抽取标题和摘要;所述文档解构模块包括:

4、文本解析子模块,用于对word类型公文进行文本解析;

5、文档转图片子模块,用于对pdf格式公文进行数据转换;

<本文档来自技高网...

【技术保护点】

1.一种基于深度神经网络的公文智能标签系统,其特征在于,包括:

2.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述文本解析子模块采用python第三方库python-docx对word文档进行文本解析。

3.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述文档转图片子模块采用python的第三方库pdf2image将文档内容转换为多幅图片,并进一步将图片转为base64编码。

4.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述文本解析子模块、OCR文本解析子模块均以...

【技术特征摘要】

1.一种基于深度神经网络的公文智能标签系统,其特征在于,包括:

2.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述文本解析子模块采用python第三方库python-docx对word文档进行文本解析。

3.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述文档转图片子模块采用python的第三方库pdf2image将文档内容转换为多幅图片,并进一步将图片转为base64编码。

4.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述文本解析子模块、ocr文本解析子模块均以段落为单位进行文本解析,并以列表形式存储。

5.根据权利要求1所述的一种基于深度神经网络的公文智能标签系统,其特征在于,所述数据处理子模块用于数据清洗、数据增强...

【专利技术属性】
技术研发人员:李晓儿卫学彬周圣贤余镭夏晓瑜毛欢欢
申请(专利权)人:数字宁波科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1