一种面向工程项目word文档的智能化信息抽取方法及系统技术方案

技术编号:38826263 阅读:15 留言:0更新日期:2023-09-15 20:05
本发明专利技术提供一种面向工程项目word文档的智能化信息抽取方法及系统,获取工程文档,进行分词处理,得到文档词汇;将所述文档词汇进行编码,得到词汇向量,将所述词汇向量输入到预设的词性分类模型中,得到每个词汇向量对应的词性向量;将所述词性向量和词汇向量进行联合,得到对应每个词汇的组合向量;将所述组合向量输入到预设的项目分类模型中,所述项目分类模型输出对应每个所述组合向量的项目,所述项目均为预设表格中的项目;将每个所述组合向量所对应的文档词汇填入所述预设表格中,输出完成填写后的表格。本方案结合词汇的词性和该词汇本身得到对应每个所述组合向量的项目,通过词汇的词性提高分类的精准度,且能降低人工处理,效率较高。效率较高。效率较高。

【技术实现步骤摘要】
一种面向工程项目word文档的智能化信息抽取方法及系统


[0001]本专利技术涉及工程项目
,尤其涉及一种面向工程项目word文档的智能化信息抽取方法及系统。

技术介绍

[0002]工程项目的文档主要是基于项目及行业相关标准规范编制的大纲、实施方案、总案、结果报告等文档,该文档具有以下特点:
[0003](1)文档的编写过程遵循项目需求以及相关标准规范的要求,文档编制内容与要求相对固定;
[0004](2)文档目录层级较为灵活,标准规范文件仅约束了文档编制需要具有的内容,但对目录层级、目录编号未做硬性的规定,编写者可以按照实际情况增加层级;
[0005](3)文档内容复杂,文档中不仅仅只有文字,编写者还会根据实际情况插入图片、表格、代码片段等内容;
[0006](4)文档之间关联性强,相似文档在结构、内容上有较大的相似度。
[0007]工程项目文档包含大量的特征信息,并以文本的形式存储在文档各个部分,目前较为成熟的内容提取方案是通过人工提取的方法,具体是将相关人员培训后,通过浏览全文的方式进行内容提取,较好的项目中还可以实现基于专家系统的文档内容提取,既是在人工提取后,由行业专家对提取结果进行审阅,从而大大提高文档内容提取的精确度。
[0008]但是工程项目文档数据要素种类繁杂、相关技术和设备名称规范化程度低、语义环境复杂,难以实现数据要素的自动化定义和抽取,需要消耗大量时间开展人工整编工作。

技术实现思路

[0009]鉴于此,本专利技术的实施例提供了一种面向工程项目word文档的智能化信息抽取方法,以消除或改善现有技术中存在的一个或更多个缺陷。
[0010]本专利技术的一个方面提供了一种面向工程项目word文档的智能化信息抽取方法,所述方法的步骤包括:
[0011]获取工程文档,对所述工程文档进行分词处理,得到文档词汇;
[0012]将所述文档词汇进行编码,得到词汇向量,将所述词汇向量输入到预设的词性分类模型中,得到每个词汇向量对应的词性向量;
[0013]将所述词性向量和词汇向量进行联合,得到对应每个词汇的组合向量;
[0014]将所述组合向量输入到预设的项目分类模型中,所述项目分类模型输出对应每个所述组合向量的项目,所述项目均为预设表格中的项目;
[0015]将每个所述组合向量所对应的文档词汇填入所述预设表格中,输出完成填写后的表格。
[0016]采用上述方案,本方案首先对文档词汇进行词性分类,得到对应词汇向量的词性向量,并将所述词性向量和词汇向量联合为组合向量,输入到项目分类模型,结合词汇的词
性和该词汇本身得到对应每个所述组合向量的项目,通过词汇的词性提高分类的精准度,进一步将文档词汇填入所述预设表格中,输出完成填写后的表格,完成文档的自动化定义和抽取,降低人工处理,效率较高。
[0017]在本专利技术的一些实施方式中,所述方法的步骤还包括,获取与所述表格相对应的模板图像,所述模板图像中的每个像素格均对应所述表格中的一个项目;基于所述表格被填写的项目对所述模板图像进行渲染,将所述模板图像渲染为判定图像;将所述判定图像输入到预设的文档分类模型中,输出所述文档的类型。
[0018]在本专利技术的一些实施方式中,在基于所述表格被填写的项目对所述模板图像进行渲染的步骤中,所述模板图像中各个像素格的像素值为第一像素值,将所述表格被填写的项目对应的像素格的像素值修改为第二像素值。
[0019]在本专利技术的一些实施方式中,基于预设的匹配表将所述文档的类型转化为字符,将所述字符作为判定图像的标签,将带有标签的判定图像向用户端发送。
[0020]在本专利技术的一些实施方式中,提取完成填写后的表格中对应每个项目的文档词汇,建立所述文档词汇与判定图像中该文档词汇所属的项目的对应关系,将保存有对应关系的文档词汇构建为数据包向用户端发送。
[0021]在本专利技术的一些实施方式中,所述方法的步骤还包括数据解析,所述数据解析的步骤包括:
[0022]获取所述数据包和带有标签的判定图像;
[0023]基于所述匹配表通过所述标签匹配所述文档的类型,基于所述判定图像获取表格中被填写的项目;
[0024]基于所述数据包中所述文档词汇与判定图像中该文档词汇所属的项目的对应关系,将所述文档词汇还原至对应的项目中,得到带有文档类型的填写后的表格。
[0025]在本专利技术的一些实施方式中,在将所述词性向量和词汇向量进行联合,得到对应每个词汇的组合向量的步骤中,将所述词汇向量连接于所述词性向量的末端,得到所述组合向量。
[0026]本专利技术的第二方面还提供一种面向工程项目word文档的智能化信息抽取系统,所述系统包括:
[0027]分词模块,用于获取工程文档,对所述工程文档进行分词处理,得到文档词汇;
[0028]词性向量计算模块,用于将所述文档词汇进行编码,得到词汇向量,将所述词汇向量输入到预设的词性分类模型中,得到每个词汇向量对应的词性向量;
[0029]组合向量计算模块,用于将所述词性向量和词汇向量进行联合,得到对应每个词汇的组合向量;
[0030]项目分类模块,用于将所述组合向量输入到预设的项目分类模型中,所述项目分类模型输出对应每个所述组合向量的项目,所述项目均为预设表格中的项目;
[0031]表格绘制模块,用于将每个所述组合向量所对应的文档词汇填入所述预设表格中,输出完成填写后的表格。
[0032]在本专利技术的一些实施方式中,所述系统还包括文档分类模块,所述文档分类模块的功能包括:获取与所述表格相对应的模板图像,所述模板图像中的每个像素格均对应所述表格中的一个项目;基于所述表格被填写的项目对所述模板图像进行渲染,将所述模板
图像渲染为判定图像;将所述判定图像输入到预设的文档分类模型中,输出所述文档的类型。
[0033]在本专利技术的一些实施方式中,所述系统还包括数据传输模块,所述数据传输模块的功能包括:
[0034]基于预设的匹配表将所述文档的类型转化为字符,将所述字符作为判定图像的标签,将带有标签的判定图像向用户端发送;
[0035]提取完成填写后的表格中对应每个项目的文档词汇,建立所述文档词汇与判定图像中该文档词汇所属的项目的对应关系,将保存有对应关系的文档词汇构建为数据包向用户端发送。
[0036]在本专利技术的一些实施方式中,所述系统还包括数据解析模块,所述数据解析模块的功能包括:
[0037]获取所述数据包和带有标签的判定图像;
[0038]基于所述匹配表通过所述标签匹配所述文档的类型,基于所述判定图像获取表格中被填写的项目;
[0039]基于所述数据包中所述文档词汇与判定图像中该文档词汇所属的项目的对应关系,将所述文档词汇还原至对应的项目中,得到带有文档类型的填写后的表格。
[0040]本专利技术的第三方面还提供一种面向工程项目word文档的智能化信息抽取装置,该装置包括计算机设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向工程项目word文档的智能化信息抽取方法,其特征在于,所述方法的步骤包括:获取工程文档,对所述工程文档进行分词处理,得到文档词汇;将所述文档词汇进行编码,得到词汇向量,将所述词汇向量输入到预设的词性分类模型中,得到每个词汇向量对应的词性向量;将所述词性向量和词汇向量进行联合,得到对应每个词汇的组合向量;将所述组合向量输入到预设的项目分类模型中,所述项目分类模型输出对应每个所述组合向量的项目,所述项目均为预设表格中的项目;将每个所述组合向量所对应的文档词汇填入所述预设表格中,输出完成填写后的表格。2.根据权利要求1所述的面向工程项目word文档的智能化信息抽取方法,其特征在于,所述方法的步骤还包括,获取与所述表格相对应的模板图像,所述模板图像中的每个像素格均对应所述表格中的一个项目;基于所述表格被填写的项目对所述模板图像进行渲染,将所述模板图像渲染为判定图像;将所述判定图像输入到预设的文档分类模型中,输出所述文档的类型。3.根据权利要求2所述的面向工程项目word文档的智能化信息抽取方法,其特征在于,在基于所述表格被填写的项目对所述模板图像进行渲染的步骤中,所述模板图像中各个像素格的像素值为第一像素值,将所述表格被填写的项目对应的像素格的像素值修改为第二像素值。4.根据权利要求2所述的面向工程项目word文档的智能化信息抽取方法,其特征在于,基于预设的匹配表将所述文档的类型转化为字符,将所述字符作为判定图像的标签,将带有标签的判定图像向用户端发送。5.根据权利要求4所述的面向工程项目word文档的智能化信息抽取方法,其特征在于,提取完成填写后的表格中对应每个项目的文档词汇,建立所述文档词汇与判定图像中该文档词汇所属的项目的对应关系,将保存有对应关系的文档词汇构建为数据包向用户端发送。6.根据权利要求5所述的面向工程项目word文档的智能化信息抽取方法,其特征在于,所述方法的步骤还包括数据解析,所述数据解析的步骤包括:获取所述数据包和带有标签的判定图像;基于所述匹配表通过所述标签匹配所述文档的类型,基于所述判定图像获取表格中被填写的项目;基于所述数据包中所述文档词汇与判定图像中该文档词汇所属的项目的对应关系,将所述...

【专利技术属性】
技术研发人员:丁海斌李一陈阳张立斌卜宪政陈文炜李进常秀丰陈媛琦
申请(专利权)人:中国人民解放军九二四九三部队信息技术中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1