文本识别方法、装置、设备及存储介质制造方法及图纸

技术编号:26419972 阅读:23 留言:0更新日期:2020-11-20 14:15
本发明专利技术涉及大数据技术,提供了一种文本识别方法、装置、设备及存储介质。该方法基于关键词从第一数据源获取第一文本集并生成样本集,基于样本集对预先构建的模型进行训练得到文本要素提取模型,从第二数据源获取第二类型的第二文本集,基于预设标签要素对第二文本集中的文本执行聚类操作得到多个标签对应的子文本簇,基于各子文本簇对应的文本集建立规则引擎,获取原始文本,将其输入文本要素提取模型,得到原始文本对应的多个标签要素,将多个标签要素输入规则引擎,得到原始文本的目标识别结果。本发明专利技术可以避免由于提取文字信息不准确,导致识别文本核心要素准确性较低的问题。本发明专利技术还涉及区块链技术,各文本数据存储于区块链中。

【技术实现步骤摘要】
文本识别方法、装置、设备及存储介质
本专利技术涉及大数据
,尤其涉及一种文本识别方法、装置、设备及存储介质。
技术介绍
目前,现有的对行政非诉案件的监督,大多是人为根据裁判文书中的文本和图片的文字信息,获取文字信息的属性特征进行规则配置,根据经验或规则执行相应的判断,虽然现有技术中出现了自动提取关键信息的相关技术方案,由于法院卷宗中文书与其他信息的多样性,现有技术中的提取文字信息时,容易出现应提取的信息不全面或提取了过多无关的信息,导致识别文本的核心要素的准确性较低。
技术实现思路
鉴于以上内容,本专利技术提供一种文本识别方法、装置、设备及存储介质,其目的在于解决现有技术中由于提取文字信息不准确,导致识别文本核心要素准确性较低的技术问题。为实现上述目的,本专利技术提供一种文本识别方法,该方法包括:从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模本文档来自技高网...

【技术保护点】
1.一种文本识别方法,应用于电子设备,其特征在于,所述方法包括:/n从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;/n从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;/n响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;/n将所述原始文本对...

【技术特征摘要】
1.一种文本识别方法,应用于电子设备,其特征在于,所述方法包括:
从第一数据源获取包含预设关键词的第一文本集,在所述第一文本集标注标签要素,将所述第一文本集中的文本作为自变量,各文本对应的标签要素作为因变量生成训练样本集,基于所述训练样本集训练预先构建的模型得到文本要素提取模型;
从第二数据源获取第二预设类型的第二文本集,基于所述标签要素对第二文本集中的文本执行聚类操作,得到多个子文本簇,基于各子文本簇对应的文本集建立规则引擎;
响应用户发出的文本识别请求,获取所述文本识别请求携带的原始文本,将所述原始文本输入所述文本要素提取模型,得到所述原始文本对应的多个标签要素;
将所述原始文本对应的多个标签要素输入所述规则引擎,得到所述原始文本的目标识别结果,将所述识别结果推送至预设用户。


2.如权利要求1所述的文本识别方法,其特征在于,所述预先构建的模型包括将word2vec作为嵌入层,并嵌套栈式循环神经网络,最后将条件随机场模型作为多分类任务输出层的有监督模型。


3.如权利要求1所述的文本识别方法,其特征在于,所述基于所述训练样本集训练预先构建的模型得到文本要素提取模型包括:
将所述训练样本集按照预设比例分成训练集及验证集;
利用所述训练集中的自变量及因变量对所述预先构建的模型进行训练,每隔预设周期使用所述验证集对所述预先构建的模型进行验证,利用所述验证集中的自变量及因变量对所述文本要素提取模型的第一准确率进行验证;
当验证所述第一准确率大于第一预设阈值时,结束训练,得到所述文本要素提取模型。


4.如权利要求1所述的文本识别方法,其特征在于,所述基于所述标签要素对第二文本集中的各文本执行聚类操作包括:
基于所述标签要素对所述第二文本集中的文本执行分词处理得到多个文本特征词;
基于词向量转换模型分别将所述文本特征词转换为词向量,并将所述第二文本集对应的所有词向量进行叠加,得到所述第二文本集的多个文本向量;
对所述多个文本向量执行聚类操作得到多个子文本簇。


5.如权利要求1所述的文本识别方法,其特征在于,所述方法还包括:
基于所述标签要素及各所述标签要素对应的子文本集建立标签库。

...

【专利技术属性】
技术研发人员:胡耀辉马宁陈文鸿
申请(专利权)人:平安国际智慧城市科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1