一种数据处理方法及系统技术方案

技术编号:28675386 阅读:20 留言:0更新日期:2021-06-02 02:52
本发明专利技术提供一种数据处理方法及系统,方法包括:获取原始图像集;将原始图像集输入第一卷积神经网络进行训练,获取文字识别模型;获取待识别图像;将待识别图像输入文字识别模型进行文字识别,获取识别结果;将识别结果输入语义标签提取模型进行语义标签提取,获取识别结果中的文本向量的语义标签;根据语义标签,对识别结果进行一次更新,进而进行文字协同编辑;本发明专利技术中的数据处理方法,通过对待识别图像进行文字识别,并将识别结果输入语义标签提取模型进行语义标签提取,根据提取出的语义标签,对识别结果进行一次更新,进而进行多端文字协同编辑,实现对图像中的文本数据的快速提取与协同编辑,文本识别精确度较高。

【技术实现步骤摘要】
一种数据处理方法及系统
本专利技术涉及数据处理领域,尤其涉及一种数据处理方法及系统。
技术介绍
随着数据处理技术的发展,对图像数据处理的应用也越来越广泛,例如在医学会诊等场景中,存在很多打印或者手写的医学文件,如体检报告,医学病历、图像影像、CT检查、医学处方、诊断思路、医学要点等,目前,上述医学文件只能通过图片或PDF等格式进行传输与查看,不能较好地支持数据的快速提取和编辑,且文字识别精确度较低。
技术实现思路
本专利技术提供一种数据处理方法及系统,以解决现有技术中不能较好地对图像中的文本数据进行快速提取和编辑,且文字识别精确度较低的问题。本专利技术提供的数据处理方法,包括:获取原始图像集;将所述原始图像集输入第一卷积神经网络进行训练,获取文字识别模型;获取待识别图像;将所述待识别图像输入所述文字识别模型进行文字识别,获取识别结果;将所述识别结果输入语义标签提取模型进行语义标签提取,获取识别结果中的文本向量的语义标签;根据所述语义标签,对所述识别结果进行一次更新,进而本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:/n获取原始图像集;/n将所述原始图像集输入第一卷积神经网络进行训练,获取文字识别模型;/n获取待识别图像;/n将所述待识别图像输入所述文字识别模型进行文字识别,获取识别结果;/n将所述识别结果输入语义标签提取模型进行语义标签提取,获取识别结果中的文本向量的语义标签;/n根据所述语义标签,对所述识别结果进行一次更新,进而进行文字协同编辑。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:
获取原始图像集;
将所述原始图像集输入第一卷积神经网络进行训练,获取文字识别模型;
获取待识别图像;
将所述待识别图像输入所述文字识别模型进行文字识别,获取识别结果;
将所述识别结果输入语义标签提取模型进行语义标签提取,获取识别结果中的文本向量的语义标签;
根据所述语义标签,对所述识别结果进行一次更新,进而进行文字协同编辑。


2.根据权利要求1所述的数据处理方法,其特征在于,将所述原始图像集输入第一卷积神经网络进行训练的步骤包括:
将所述原始图像集输入所述第一卷积神经网络进行文字特征提取,文字特征提取的步骤至少包括以下之一:分布特征提取、结构形态特征提取,获取分布特征向量和/或结构形态特征向量;
将所述分布特征向量与预设数据库中对应的文字特征进行第一对比,获取第一对比结果;
将所述结构形态特征向量与预设数据库中对应的文字特征进行第二对比,获取第二对比结果;
根据所述第一对比结果和/或所述第二对比结果,获取识别结果并进行迭代训练,进而获取文字识别模型。


3.根据权利要求2所述的数据处理方法,其特征在于,进行文字特征提取的步骤包括:
根据所述原始图像集中的原始图像和预设的区域划分原则,获取一个或多个文字区域;
对所述文字区域进行二值化处理,获取二值化区域;
根据所述二值化区域中的黑色像素点及白色像素点的集合,获取所述原始图像中的像素点的分布特征向量;
对所述原始图像集中的原始图像进行细线化,获取细线化图像;
获取所述细线化图像的结构形态特征,进而获取所述结构形态特征向量,所述结构形态特征至少包括以下之一:笔划端点、交叉点、笔划段。


4.根据权利要求1所述的数据处理方法,其特征在于,所述语义标签提取模型的获取步骤包括:
获取原始文本集,所述原始文本集包括:语义标签标注;
将所述原始文本集输入第一长短期记忆网络进行训练,获取所述语义标签提取模型,训练步骤包括:文本特征去噪、分布式向量转换、语义特征提取及反馈优化;
所述反馈优化的步骤包括:根据预设的损失函数,获取语义标签的真实值和预测值之间的差值,进而进行迭代训练,所述损失函数的数学表达为:
Y(t)=c(t)+Y(t+1)



其中,Y(t)为t时刻总的损失函数,c(t)为t时刻的损失函数,Y(t+1)为t+1时刻总的损
失函数,ω为预设的第一权重值,σ为预设的第二权重值,ki为语义标签的真实值,为语义
标签的预测值,1≤i≤t,λ为语义标签的真实值的权值,m为函数参数,b为语义标签的预测
值的权值。


5.根据权利要求1所述的数据处理方法,其特征在于,根据所述语义标签,对所述识别结果进行一次更新的步骤包括:
构建分类数据库;
将所述语义标签与所述分类数据库中词集的分类标签进行匹配,获取匹配结果;
若所述匹配结果超出预设的匹配阈值,则将所述分类标签对应的词集...

【专利技术属性】
技术研发人员:姚娟娟钟南山陈君石
申请(专利权)人:明品云北京数据科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1