一种业务文档的处理方法、装置、设备和存储介质制造方法及图纸

技术编号:22722589 阅读:26 留言:0更新日期:2019-12-04 05:32
本发明专利技术实施例公开了一种业务文档的处理方法、装置、设备和存储介质。该方法通过获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性,解决了因业务文档因格式、内容的表示形式繁多所带来的业务属性统计困难的问题,实现节约人工成本,提高统计业务对象的业务属性的正确率。

A processing method, device, device and storage medium of business document

The embodiment of the invention discloses a processing method, device, device and storage medium of a business document. The method obtains the business document belonging to the business object, converts the text element and image element included in the business document into the target text, analyzes the target text and obtains the corresponding attribute value of the business object under the preset business attribute, associates and stores the attribute value with the business object to count the business object The business attributes of the business document can solve the problem of business attribute statistics caused by various formats and contents, save labor costs, and improve the accuracy of business attribute statistics of business objects.

【技术实现步骤摘要】
一种业务文档的处理方法、装置、设备和存储介质
本专利技术实施例涉及数据处理的技术,尤其涉及一种业务文档的处理方法、装置、设备和存储介质。
技术介绍
对于一些实际的业务场景,需要确定各业务对象的业务属性。如,业务对象为公司,则该业务属性可以是该公司的名称、地址、服务范围、技术、产品等。进一步的,当业务对象为公司的产品时,则该产品的业务属性可以是系列、颜色、功能、大小等。一般的,对于业务对象而言,可以有各种业务文档对该业务对象的业务属性进行说明。示例性的,该业务文档可以是产品说明书、企业宣传文档、企业介绍文档等。现有的,由于业务文档的格式繁多、而且内容的表示形式比较丰富,不利于通过自动化的方式从该业务文档中提取出该业务对象的业务属性。进而,一般的,采用的人工的方式对该业务文档进行整理,这也带来了极高的人力成本和出错的概率。
技术实现思路
本专利技术提供一种业务文档的处理方法、装置、设备和存储介质,以实现节约人工成本,提高统计业务对象的业务属性的正确率。第一方面,本专利技术实施例提供了一种业务文档的处理方法,该方法包括:获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。进一步的,所述将所述业务文档所包括的文本元素和图像元素转换为目标文本,包括:从所述业务文档的页面中读取页面元素,所述页面元素包括文本元素和图像元素;将所述页面元素中的文本元素,转换为第一文字信息;对所述页面元素中的图像元素进行字符识别,得到第二文字信息;对所述第一文字信息和所述第二文字信息进行组合,得到所述业务文档的目标文本。进一步的,所述对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值,包括:对所述目标文本进行分词处理,得到候选词语;获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系;将所述候选词语与所述字典文件中的标准词语进行匹配;当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。进一步的,在获取预置的业务属性所对应的字典文件之后,还包括:基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面;使用所述主题页面中的候选词语,继续执行所述将所述候选词语与所述字典文件中的标准词语进行匹配的步骤。进一步的,所述基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面,包括:获取词语分类模型;针对所述业务文档中每一页面,将所述页面对应的所述候选词语输入所述词语分类模型进行处理,得到所述候选词语的第一概率,其中,所述第一概率为所述候选词语归类于主题页面的概率,所述主题页面为与预置的业务属性相关的页面;将每一页面中所有所述候选词语的第一概率进行乘积计算,得到所述页面的第二概率,所述第二概率为所述页面归类于主题页面的概率;将所述第二概率满足预设条件的页面,作为主题页面。进一步的,所述获取词语分类模型,包括:获取携带有主题标签的样本页面,所述主题标签与预置的业务属性相关联;从所述样本页面中提取样本词语,并将该样本词语标记为所述主题标签;使用所述样本词语进行模型训练,得到词语分类模型。进一步的,在所述获取与业务对象存在关联关系的业务文档之后,还包括:将所述业务文档中的页面转换为页面图像;识别所述页面图像中的预置的图标;将与所述图标关联设置的属性值,作为所述业务对象在预置的业务属性下所对应的属性值。第二方面,本专利技术实施例还提供了一种业务文档的处理装置,该装置包括:业务文档获取模块,用于获取归属于业务对象的业务文档;目标文本转换模块,用于将所述业务文档所包括的文本元素和图像元素转换为目标文本;属性值获取模块,用于对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;存储模块,用于将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。第三方面,本专利技术实施例还提供了一种业务文档的处理设备,该设备包括:存储器以及一个或多个处理器;所述存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的业务文档的处理方法。第四方面,本专利技术实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面中任一所述的业务文档的处理方法。本专利技术实施例通过获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性,解决了因业务文档因格式、内容的表示形式繁多所带来的业务属性统计困难的问题,实现节约人工成本,提高统计业务对象的业务属性的正确率。附图说明图1为本专利技术实施例一提供的一种业务文档的处理方法的流程图;图2为本专利技术实施例二提供的一种业务文档的处理方法的流程图;图3为本专利技术实施例三提供的一种业务文档的处理装置的结构示意图;图4为本专利技术实施例四提供的一种业务文档的处理设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种业务文档的处理方法的流程图,本实施例可适用于统计业务对象的业务属性的情况,该方法可以由业务文档的处理设备来执行,该业务文档的处理设备可以是服务器、电脑、终端等。本实施例以业务文档的处理设备为服务器为例进行说明,该服务器可以是集群服务器或独立服务器。参照图1,该方法具体包括如下步骤:S110、获取归属于业务对象的业务文档。本实施例中,业务文档包括对业务对象的业务属性的说明。其中,业务对象为实际业务中的个体,且每个业务对象具有各自的业务属性。该业务属性为该业务对象的属性。例如,业务对象为公司,则该业务属性可以是该公司的名称、地址、服务范围、技术、产品等;公司的业务文档可以是企业宣传文档、企业介绍文档等。又例如,当业务对象为公司的产品时,则该产品的业务属性可以是系列、颜色、功能、大小等。产本文档来自技高网...

【技术保护点】
1.一种业务文档的处理方法,其特征在于,包括:/n获取归属于业务对象的业务文档;/n将所述业务文档所包括的文本元素和图像元素转换为目标文本;/n对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;/n将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。/n

【技术特征摘要】
1.一种业务文档的处理方法,其特征在于,包括:
获取归属于业务对象的业务文档;
将所述业务文档所包括的文本元素和图像元素转换为目标文本;
对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。


2.根据权利要求1所述的方法,其特征在于,所述将所述业务文档所包括的文本元素和图像元素转换为目标文本,包括:
从所述业务文档的页面中读取页面元素,所述页面元素包括文本元素和图像元素;
将所述页面元素中的文本元素,转换为第一文字信息;
对所述页面元素中的图像元素进行字符识别,得到第二文字信息;
对所述第一文字信息和所述第二文字信息进行组合,得到所述业务文档的目标文本。


3.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值,包括:
对所述目标文本进行分词处理,得到候选词语;
获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系;
将所述候选词语与所述字典文件中的标准词语进行匹配;
当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。


4.根据权利要求3所述的方法,其特征在于,在获取预置的业务属性所对应的字典文件之后,还包括:
基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面;
使用所述主题页面中的候选词语,继续执行所述将所述候选词语与所述字典文件中的标准词语进行匹配的步骤。


5.根据权利要求4所述的方法,其特征在于,所述基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面,包括:
获取词语分类模型;
针对所述业务文档中每一页面,将所述页面对...

【专利技术属性】
技术研发人员:黄劲纪炎明康阳
申请(专利权)人:盈盛智创科技广州有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1