【技术实现步骤摘要】
基于深度学习的相似信息合并方法、装置、设备及介质
本专利技术涉及人工智能
,尤其涉及一种基于深度学习的相似信息合并方法、装置、电子设备及计算机可读存储介质。
技术介绍
随着法律制度的越来越完善,目前法官在办理案件过程中会从不同渠道获取到不同的案件信息,而不同的渠道获取的案件信息格式存在差异,同时获取到案件可能是相似或者重复的。如何让将相似的信息进行合并处理,成为了越来越重要的需求。目前市场上主流的信息合并方法是人工合并信息。但此种方法过于依赖于人工进行,效率低下,无法达成既高效又个性化的信息合并。
技术实现思路
本专利技术提供一种基于深度学习的相似信息合并方法、装置、电子设备及计算机可读存储介质,其主要目的在于对相似信息进行合并,减少人工干预。为实现上述目的,本专利技术提供的一种基于深度学习的相似信息合并方法,包括:获取第一原始图像集和第二原始图像集,对所述第一原始图像集和所述第二原始图像集进行预处理,得到第一待合并图像集和第二待合并图像集;利用预先训练完成的文本识别 ...
【技术保护点】
1.一种基于深度学习的相似信息合并方法,其特征在于,所述方法包括:/n获取第一原始图像集和第二原始图像集,对所述第一原始图像集和所述第二原始图像集进行预处理,得到第一待合并图像集和第二待合并图像集;/n利用预先训练完成的文本识别模型对所述第一待合并图像集和所述第二待合并图像集进行文本识别,得到第一词向量和第二词向量,并对所述第一词向量和第二词向量编码,生成第一键值、其对应的第一结果值及第二键值、其对应的第二结果值,根据所述第一键值和第一结果值及所述第二键值和第二结果值,将所述第一待合并图像集和所述第二待合并图像集转换为第一输出文本和第二输出文本;/n利用所述键值计算所述第一 ...
【技术特征摘要】
1.一种基于深度学习的相似信息合并方法,其特征在于,所述方法包括:
获取第一原始图像集和第二原始图像集,对所述第一原始图像集和所述第二原始图像集进行预处理,得到第一待合并图像集和第二待合并图像集;
利用预先训练完成的文本识别模型对所述第一待合并图像集和所述第二待合并图像集进行文本识别,得到第一词向量和第二词向量,并对所述第一词向量和第二词向量编码,生成第一键值、其对应的第一结果值及第二键值、其对应的第二结果值,根据所述第一键值和第一结果值及所述第二键值和第二结果值,将所述第一待合并图像集和所述第二待合并图像集转换为第一输出文本和第二输出文本;
利用所述键值计算所述第一输出文本和所述第二输出文本的编辑距离;
比较所述编辑距离与预设的阈值之间的大小;
若所述编辑距离小于或者等于预设的阈值时,将所述第一输出文本和所述第二输出文本进行合并处理,得到并输出合并数据集;
若所述编辑距离大于预设的阈值时,直接输出所述第一输出文本和所述第二输出文本。
2.如权利要求1所述的基于深度学习的相似信息合并方法,其特征在于,所述对所述第一词向量和第二词向量编码,包括:
获取词向量的唯一编码函数;
利用编译器将所述词向量的唯一编码函数编译为编码生成语句;
利用所述编码生成语句对所述第一词向量和第二词向量编码。
3.如权利要求1所述的基于深度学习的相似信息合并方法,其特征在于,所述文本识别模型包括:
词向量层,用于将所述第一待合并图像集包含的文本中的单词和字符转化为第一词向量,将所述第二待合并图像集包含的文本中的单词和字符转化为第二词向量;
Bi-LSTM层,用于将所述第一词向量和所述第二词向量进行分割,对分割后的所述第一词向量和所述第二词向量进行编码,得到所述第一词向量的第一编码表征和所述第二词向量的第二编码表征,利用所述第一编码表征和所述第二编码表征对分割后的所述第一词向量和所述第二词向量进行标注,得到第一键值和对应的第一结果值及第二键值和对应的第二结果值;
CRF层,用于将所述第一键值和对应的第一结果值及第二键值和对应的第二结果值中相同类型的键值和结果值进行拼接,生成输出文本。
4.如权利要求3所述的基于深度学习的相似信息合并方法,其特征在于,所述利用所述第一编码表征和所述第二编码表征对分割后的所述第一词向量和所述第二词向量进行标注,包括:
设置标注队列任务;
将所述第一词向量和所述第二词向量按照所述标注队列任务的顺序进行标注。
5.如权利要求3所述的基于深度学习的相似信息合并方法,其特征在于,所述将相同类型的键值和结果值进行拼接,生成输出文本,包括:
将相同类型的键值和结果值进行拼接;...
【专利技术属性】
技术研发人员:高立志,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。