The embodiment of the invention discloses a processing method, device, device and storage medium of a business document. The method obtains the business document belonging to the business object, converts the text element and image element included in the business document into the target text, analyzes the target text and obtains the corresponding attribute value of the business object under the preset business attribute, associates and stores the attribute value with the business object to count the business object The business attributes of the business document can solve the problem of business attribute statistics caused by various formats and contents, save labor costs, and improve the accuracy of business attribute statistics of business objects.
【技术实现步骤摘要】
一种业务文档的处理方法、装置、设备和存储介质
本专利技术实施例涉及数据处理的技术,尤其涉及一种业务文档的处理方法、装置、设备和存储介质。
技术介绍
对于一些实际的业务场景,需要确定各业务对象的业务属性。如,业务对象为公司,则该业务属性可以是该公司的名称、地址、服务范围、技术、产品等。进一步的,当业务对象为公司的产品时,则该产品的业务属性可以是系列、颜色、功能、大小等。一般的,对于业务对象而言,可以有各种业务文档对该业务对象的业务属性进行说明。示例性的,该业务文档可以是产品说明书、企业宣传文档、企业介绍文档等。现有的,由于业务文档的格式繁多、而且内容的表示形式比较丰富,不利于通过自动化的方式从该业务文档中提取出该业务对象的业务属性。进而,一般的,采用的人工的方式对该业务文档进行整理,这也带来了极高的人力成本和出错的概率。
技术实现思路
本专利技术提供一种业务文档的处理方法、装置、设备和存储介质,以实现节约人工成本,提高统计业务对象的业务属性的正确率。第一方面,本专利技术实施例提供了一种业务文档的处理方法,该方法包括:获取归属于业务对象的业务文档;将所述业务文档所包括的文本元素和图像元素转换为目标文本;对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。进一步的,所述将所述业务文档所包括的文本元素和图像元素转换为目标文本,包括:从所述业 ...
【技术保护点】
1.一种业务文档的处理方法,其特征在于,包括:/n获取归属于业务对象的业务文档;/n将所述业务文档所包括的文本元素和图像元素转换为目标文本;/n对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;/n将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。/n
【技术特征摘要】
1.一种业务文档的处理方法,其特征在于,包括:
获取归属于业务对象的业务文档;
将所述业务文档所包括的文本元素和图像元素转换为目标文本;
对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值;
将所述属性值与所述业务对象进行关联存储,以统计所述业务对象的业务属性。
2.根据权利要求1所述的方法,其特征在于,所述将所述业务文档所包括的文本元素和图像元素转换为目标文本,包括:
从所述业务文档的页面中读取页面元素,所述页面元素包括文本元素和图像元素;
将所述页面元素中的文本元素,转换为第一文字信息;
对所述页面元素中的图像元素进行字符识别,得到第二文字信息;
对所述第一文字信息和所述第二文字信息进行组合,得到所述业务文档的目标文本。
3.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行分析处理,得到所述业务对象在预置的业务属性下所对应的属性值,包括:
对所述目标文本进行分词处理,得到候选词语;
获取预置的业务属性所对应的字典文件,其中,所述字典文件包括所述业务属性的属性值与至少一个标准词语之间的映射关系;
将所述候选词语与所述字典文件中的标准词语进行匹配;
当所述字典文件中存在与所述候选词语匹配成功的标准词语时,则将与所述候选词语存在所述映射关系的属性值,作为所述业务对象在所述业务属性下的属性值。
4.根据权利要求3所述的方法,其特征在于,在获取预置的业务属性所对应的字典文件之后,还包括:
基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面;
使用所述主题页面中的候选词语,继续执行所述将所述候选词语与所述字典文件中的标准词语进行匹配的步骤。
5.根据权利要求4所述的方法,其特征在于,所述基于所述业务文档中每一页面对应的所述候选词语,将与预置的业务属性相关的页面作为主题页面,包括:
获取词语分类模型;
针对所述业务文档中每一页面,将所述页面对...
【专利技术属性】
技术研发人员:黄劲,纪炎明,康阳,
申请(专利权)人:盈盛智创科技广州有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。