相似度评估方法、答案搜索方法、装置、设备及介质制造方法及图纸

技术编号：29254158 阅读：19 留言：0更新日期：2021-07-13 17:24

本公开涉及一种相似度评估方法、答案搜索方法、装置、设备及介质，其中相似度评估方法包括：获取待评估相似度的目标字符串以及目标文本图像；将目标字符串和目标文本图像输入至预先训练得到的相似度评估模型；通过相似度评估模型分别提取目标字符串的字符特征信息以及目标文本图像的图像特征信息，并基于字符特征信息和图像特征信息评估目标字符串与目标文本图像的内容相似度；其中，字符特征信息包括字符特征间的位置关系和语义关系；图像特征信息包括图像特征间的位置关系和语义关系。上述方式综合提升了相似度评估准确性，有助于进一步提升答案搜索精度，可更好应用于拍照判题中。

全部详细技术资料下载

【技术实现步骤摘要】
相似度评估方法、答案搜索方法、装置、设备及介质
本公开涉及人工智能
，尤其涉及相似度评估方法、答案搜索方法、装置、设备及介质。
技术介绍
拍照判题是人工智能技术在教育领域的一项重要应用，可节约教师判题成本，提升判题效率。具体而言，用户针对题目进行作答后拍照，然后将拍照所得的作答图像上传至可拍照判题的应用程序，由应用程序对作答图像进行识别并评分。然而，目前的拍照判题技术的应用场合非常受限，大多仅能处理诸如横式、竖式等逻辑可批改的小学数学口算题目，而无法处理常见的带有语义信息的题型，主要难点在于当前技术难以基于用户上传的带有语义信息的题型的图像而从题库中准确搜索出相应的正确答案，专利技术人经研究发现，突破该难点的关键瓶颈点在于相似度评估方式不佳，目前存在的文本图像之间的相似度评估方式以及字符串之间的相似度评估方式都存在准确度不高的问题，难以较好应用于针对语义信息的题型进行答案搜索的场合。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种相似度评估方法、答案搜索方法、装置、设备及介质。根据本公开实施例的一方面，提供了一种相似度评估方法，所述方法包括：获取待评估相似度的目标字符串以及目标文本图像；将所述目标字符串和所述目标文本图像输入至预先训练得到的相似度评估模型；通过所述相似度评估模型分别提取所述目标字符串的字符特征信息以及所述目标文本图像的图像特征信息，并基于所述字符特征信息和所述图像特征信息评估所述目标字符串与所述目标文本图像的内容相似度；其中...

【技术保护点】
1.一种相似度评估方法，其特征在于，包括：/n获取待评估相似度的目标字符串以及目标文本图像；/n将所述目标字符串和所述目标文本图像输入至预先训练得到的相似度评估模型；/n通过所述相似度评估模型分别提取所述目标字符串的字符特征信息以及所述目标文本图像的图像特征信息，并基于所述字符特征信息和所述图像特征信息评估所述目标字符串与所述目标文本图像的内容相似度；/n其中，所述字符特征信息包括字符特征间的位置关系和语义关系；所述图像特征信息包括图像特征间的位置关系和语义关系。/n

【技术特征摘要】
1.一种相似度评估方法，其特征在于，包括：
获取待评估相似度的目标字符串以及目标文本图像；
将所述目标字符串和所述目标文本图像输入至预先训练得到的相似度评估模型；
通过所述相似度评估模型分别提取所述目标字符串的字符特征信息以及所述目标文本图像的图像特征信息，并基于所述字符特征信息和所述图像特征信息评估所述目标字符串与所述目标文本图像的内容相似度；
其中，所述字符特征信息包括字符特征间的位置关系和语义关系；所述图像特征信息包括图像特征间的位置关系和语义关系。

2.根据权利要求1所述的相似度评估方法，其特征在于，所述相似度评估模型按照以下步骤训练得到：
获取多个训练样本组，每个所述训练样本组包括文本图像样本以及字符串样本，且所述训练样本组标注有所述文本图像样本与所述字符串样本之间的内容相似度；
采用所述多个训练样本组对初始模型进行训练，将训练结束时所得的模型作为相似度评估模型。

3.根据权利要求2所述的相似度评估方法，其特征在于，所述获取多个训练样本组的步骤，包括：
获取文本图像样本，并提取所述文本图像样本的字符串，将提取到的所述字符串作为原始字符串；
采用增加字符、删减字符和修改字符中的一种或多种方式对所述原始字符串进行篡改，得到多个篡改字符串；
分别计算每个所述篡改字符串和所述原始字符串之间的相似度，并将每个所述篡改字符串和所述原始字符串之间的相似度作为每个所述篡改字符串与所述文本图像样本之间的内容相似度；
令所述原始字符串和每个所述篡改字符串分别作为字符串样本，通过所述文本图像样本和每个所述字符串样本分别组合得到多个训练样本组，并标注每个所述训练样本组中字符串样本与文本图像样本之间的内容相似度。

4.根据权利要求3所述的相似度评估方法，其特征在于，所述分别计算每个所述篡改字符串与所述原始字符串之间的相似度的步骤，包括：
对于每个所述篡改字符串，计算该篡改字符串与所述原始字符串之间的编辑距离；
比较该篡改字符串的长度与所述原始字符串的长度，从中选取最大字符串长度；
基于所述编辑距离与所述最大字符串长度，计算该篡改字符串与所述原始字符串之间的相似度。

5.根据权利要求4所述的相似度评估方法，其特征在于，所述基于所述编辑距离与所述最大字符串长度，计算该篡改字符串与所述原始字符串之间的相似度的步骤，包括：
计算所述编辑距离与所述最大字符串长度之间的比值；
令数值1减去所述比值，得到该篡改字符串与所述原始字符串之间的相似度。

6.根据权利要求1所述的相似度评估方法，其特征在于，所述相似度评估模型包括图像特征提取网络、字符特征提取网络、以及与所述图像特征提取网络和所述字符特征提取网络分别相连的相似度计算网络；
其中，所述图像特征提取网络的输入为所述目标文本图像，输出为图像特征信息；
所述字符特征提取网络的输入为所述目标字符串，输出为字符特征信息；
所述相似度计算网络的输入为所述图像特征信息和所述字符特征信息，输出为所述目标字符串与所述目标文本图像的内容相似度。

7.根据权利要求6所述的相似度评估方法，其特征在于，所述图像特征提取网络包括特征提取单元和图像信息提取单元；其中，
所述特征提取单元用于提取所述目标文本图像的图像特征向量；
所述图像信息提取单元用于基于所述图像特征向量提取出图像特征信息...

【专利技术属性】
技术研发人员：李自荐，秦勇，
申请(专利权)人：北京世纪好未来教育科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人