文本相似度量化方法、设备及系统技术方案

技术编号:31083109 阅读:16 留言:0更新日期:2021-12-01 12:30
本发明专利技术提供了文本相似度量化方法、设备及系统。该设备包括:处理器;包括计算机程序代码的存储器。存储器和计算机程序代码与处理器一起促使该设备:获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径,其中,每个最短操作路径包括一个或多个编辑对,每个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作;确定多个相似度得分,每个相似度得分对应所述多个最短操作路径之一,其中每个相似度得分是通过对每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的;选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。字符串之间的文本相似度。字符串之间的文本相似度。

【技术实现步骤摘要】
文本相似度量化方法、设备及系统


[0001]本专利技术通常涉及文本相似度量化方法、设备及系统。

技术介绍

[0002]光学字符识别(通常缩写为OCR)是一种识别图像或物理文档中的文本并将识别出的文本转换为机器编码文本的技术。机器编码文本通常被称为OCR文本。
[0003]eKYC(electronic

Know Your Customer,电子了解您的客户)是一种数字尽职调查过程,由企业执行以验证其客户的身份并评估在业务关系上是否存在非法意图(例如洗钱)的潜在风险。
[0004]当执行eKYC时,OCR可用于识别例如身份证、护照等官方身份(ID)文件中的文本内容(例如,姓名、地址、身份证号等)。通常,在用户界面上显示OCR文本,以用于用户进行确认或编辑。如果用户使用编辑文本来更正OCR文本,则出于风险控制考虑,有必要先验证编辑文本是否合理,再接受更正。因此,评估OCR文本与用户编辑文本之间的相似度以验证编辑文本是否合理变得有用。
[0005]目前,编辑距离(Edit Distance)技术和杰卡德距离(Jaccard Distance)技术用于评估两个文本字符串之间的相似度。然而,编辑距离技术基于将一个文本字符串转换为另一个文本字符串所需的最少操作次数来评估相似度,但是忽略了两个文本字符串之间的视觉相似度;另一方面,杰卡德距离技术忽略了视觉相似度和两个文本字符串中字符的顺序。
[0006]下表1中显示了如何根据编辑距离技术评估2个文本字符串之间的相似度的示例。/>[0007][0008]如表1所示,在编辑距离技术中,编辑距离用于指示将文本字符串A转换为文本字符串B所需的最少操作次数。在示例1中,需要一次操作:用字母“O”替换数字“0”,以将“B0B”转换为“BOB”。在示例2中,需要一次操作:用数字“1”替换字母“B”,以将“BOB”转换为“1OB”。示例1和示例2中的编辑距离相同,即每个编辑距离等于1。这样,在编辑距离技术中,“B0B”和“BOB”之间的相似度以及“BOB”和“1OB”之间的相似度被认为是相同的。这样的相似度评估仅考虑最少操作次数,而忽略了每次操作中的字符对之间的视觉相似度,不正确地将“0”和“O”与“B”和“1”视为相同。
[0009]因此,存在提供如下方法和设备的需求,该方法和设备不仅评估将一个文本字符
串转换为另一文本字符串所需的最少操作次数,而且还评估两个文本字符串之间的相关性,即这些操作在这两个文本字符串之间发生的可能性,从而提供改进文本相似度评估的整体综合机制。
[0010]借助于改进的文本相似度评估机制,本专利技术中的方法和设备不仅用于评估(即确定“是否相似”)两个文本字符串之间的文本相似度,还用于量化(即确定“有多相似”)这两个文本字符串之间的文本相似度,从而便于eKYC系统以及其他任何采用OCR技术的电子系统以更高的准确性和可靠性来对OCR文本的手动更正进行自动验证。

技术实现思路

[0011]在一个实施例中,提供文本相似度量化设备,该设备包括:处理器;以及包括计算机程序代码的存储器。该存储器和该计算机程序代码被配置为与所述处理器一起促使所述设备:将编辑对收集到历史数据库中;计算所述历史数据库中所述编辑对的频率;确定所述历史数据库中所述编辑对的历史相似度得分,其中当确定所述历史相似度得分时,所述设备被促使:对所述历史数据库中的每个所述编辑对执行log(频率)计算;根据以下公式将所述log(频率)计算归一化到0.0到1.0的范围:得分(p)=1.0

(log(p)

最小得分)/(最大得分

最小得分),其中p表示每个所述编辑对,log(p)表示log(p的频率)计算,最大得分表示log(p的频率)计算的最大得分,且最小得分表示log(p的频率)计算的最小得分。其中,所述设备进一步被促使:获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径,其中,所述多个最短操作路径中的每一个包括一个或多个编辑对,所述一个或多个编辑对中的每一个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作;确定多个相似度得分,所述多个相似度得分中的每个所述相似度得分对应所述多个最短操作路径之一,其中所述多个相似度得分中的每个所述相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的,其中从所述历史数据库取得所述一个或多个编辑对的所述历史相似度得分;选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。
[0012]在另一实施例中,提供量化文本相似度的计算机实现方法,包括:将编辑对收集到历史数据库中;计算所述历史数据库中所述编辑对的频率;确定所述历史数据库中所述编辑对的历史相似度得分,其中,计算历史相似度得分包括:对所述历史数据库中的每个编辑对执行log(频率)计算;根据以下公式将所述log(频率)计算归一化到0.0到1.0的范围:得分(p)=1.0

(log(p)

最小得分)/(最大得分

最小得分),其中p表示每个所述编辑对,log(p)表示log(p的频率)计算,最大得分表示log(p的频率)计算的最大得分,且最小得分表示log(p的频率)计算的最小得分,其中,该方法还包括:获得用编辑文本字符串更正光学字符识别(OCR)文本字符串的多个最短操作路径,其中,所述多个最短操作路径中的每一个包括一个或多个编辑对,所述一个或多个编辑对中的每一个表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作;确定所述多个最短操作路径的多个相似度得分,其中所述多个相似度得分中的每个所述相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的一个或多个编辑对的历史相似度得分进行求和来确定的,其中从所述历史数据库取得所述一个或多个编辑对的所述历史相似度得分;选择所
述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。
[0013]在又一实施例中,提供文本相似度量化系统,包括:用于从数字图像中捕获OCR文本字符串的OCR设备;用于捕获用户编辑字符串的输入设备;用于对文本相似度进行量化的文本相似度量化设备,其中,所述文本相似度量化设备包括历史相似度得分确定设备,其中,所述文本相似度量化设备被配置为:将编辑对收集到历史数据库中;计算所述历史数据库中编辑对的频率;通过所述历史相似度得分确定设备,确定所述历史数据库中所述编辑对的历史相似度得分,其中,所述历史相似度得分确定设备被促使:对所述历史数据库中的每个所述编辑对执行log(频率)计算;根据以下公式将所述log(频率)计算归一化到0.0到1.0的范围:得分(p)=1.0

(log(p)

最小得分)/(最大得分
–<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本相似度量化设备,所述设备包括:处理器;以及包括计算机程序代码的存储器;所述存储器和所述计算机程序代码被配置为,与所述处理器一起使得所述设备:获得用编辑文本字符串更正光学字符识别OCR文本字符串的多个最短操作路径,其中,所述多个最短操作路径中的每一个最短操作路径包括一个或多个编辑对,所述一个或多个编辑对中的每一个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作;确定多个相似度得分,所述多个相似度得分中的每个相似度得分对应所述多个最短操作路径之一,其中所述多个相似度得分中的每个相似度得分是通过对所述多个最短操作路径中的每个最短操作路径中的所述一个或多个编辑对的历史相似度得分进行求和来确定的;以及选择所述多个相似度得分中最小相似度得分来量化所述OCR文本字符串与所述编辑文本字符串之间的文本相似度。2.如权利要求1所述的设备,其中,所述设备进一步被使得:将编辑对收集到历史数据库中;计算在预定的时间段内所述编辑对被存储到所述历史数据库中的频率,作为所述历史数据库中所述编辑对的频率;以及确定所述历史数据库中所述编辑对的历史相似度得分,其中,当确定所述历史相似度得分时,所述设备被使得:对所述历史数据库中的每个所述编辑对的频率执行log计算;以及根据以下公式将所述log计算归一化到0.0到1.0的范围:得分(p)=1.0

(log(p)

最小得分)/(最大得分

最小得分),其中p表示每个所述编辑对,log(p)表示对p的频率执行log计算,最大得分表示对p的频率执行log计算的最大得分,且最小得分表示对p的频率执行log计算的最小得分;其中从所述历史数据库中取得所述一个或多个编辑对的所述历史相似度得分。3.根据权利要求2所述的设备,其中,所述设备进一步被使得:将具有最小相似度得分的最短操作路径中的编辑对添加到所述历史数据库中;以及更新所述历史数据库中所述编辑对的历史相似度得分,其中,当更新所述历史相似度得分时,所述设备被使得:计算所述历史数据库中与具有最小相似度得分的最短操作路径中的编辑对对应的编辑对的频率;以及通过以下步骤确定所述历史数据库中与具有最小相似度得分的最短操作路径中的编辑对对应的编辑对的历史相似度得分:对所述历史数据库中与具有最小相似度得分的最短操作路径中的编辑对对应的每个所述编辑对的频率执行log计算;以及将所述log计算归一化到0.0到1.0的范围。4.根据权利要求1

3中任一项所述的设备,其中,当获得所述多个最短操作路径时,所述设备被使得:
执行编辑距离计算,以利用所述编辑文本字符串更正所述OCR文本字符串,其中在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作是插入操作、删除操作或替换操作中之一。5.根据权利要求1

3中任一项所述的设备,其中,所述设备进一步被使得:如果所述多个相似度得分中的最小相似度得分低于预定阈值,则用所述编辑文本字符串更正所述OCR文本字符串。6.根据权利要求1

3中任一项所述的设备,其中,所述设备进一步被使得:如果所述多个相似度得分中的最小相似度得分高于所述预定阈值,则维持所述OCR文本字符串。7.根据权利要求1

3中任一项所述的设备,其中,所述设备进一步被使得:扫描数字图像以捕获所述OCR文本字符串,以及捕获所述编辑文本字符串。8.一种量化文本相似度的计算机实现方法,包括:获得用编辑文本字符串更正光学字符识别OCR文本字符串的多个最短操作路径,其中,所述多个最短操作路径中的每一个最短操作路径包括一个或多个编辑对,所述一个或多个编辑对中的每一个编辑对表示在用所述编辑文本字符串进行更正期间对所述OCR文本字符串中的字符可执行的操作;确定所述多个最短操作路径的多个相似度得分,其中所述多个相似度得分中的每个相似度得分是通过对所述多个最短操作路...

【专利技术属性】
技术研发人员:李若愚
申请(专利权)人:创新先进技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1