文本识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35791163 阅读:11 留言:0更新日期:2022-12-01 14:40
本申请公开了一种文本识别方法、装置、电子设备及存储介质,属于通信技术领域,该方法包括:获取序列特征信息和语义特征信息,该序列特征信息用于指示第一文本与第二文本的序列相似度,语义特征信息用于指示第一文本与第二文本的语义相似度;根据序列特征信息和语义特征信息,确定第一文本与第二文本的相似度。确定第一文本与第二文本的相似度。确定第一文本与第二文本的相似度。

【技术实现步骤摘要】
文本识别方法、装置、电子设备及存储介质


[0001]本申请属于通信
,具体涉及一种文本识别方法、装置、电子设备及存储介质。

技术介绍

[0002]兴趣点(Point of Interest,POI)泛指一切可以在空间中抽象为点的地理对象,是导航电子地图的重要组成部分,常见的POI有学校,车站,医院,超市等,POI的名称是电子设备用于检索和推荐的重要依据,因此电子设备正确识别两个POI名称的相似程度至关重要。
[0003]相关技术中,电子设备计算文本之间的相似度(即上述两个POI名称对应的文本之间的相似度)时,一般是通过关键词匹配技术实现相似度的计算,然而,由于语言的复杂性较高,电子设备使用简单的关键词匹配技术对一些文本进行计算时很容易产生误判,因此电子设备识别POI名称相似度的精确性较低。

技术实现思路

[0004]本申请实施例的目的是提供一种文本识别方法、装置、电子设备及存储介质,能够解决电子设备识别POI名称相似度的精确性较低的问题。
[0005]第一方面,本申请实施例提供了一种文本识别方法,该文本识别方法包括:获取序列特征信息和语义特征信息,该序列特征信息用于指示第一文本与第二文本的序列相似度,语义特征信息用于指示第一文本与第二文本的语义相似度;根据序列特征信息和语义特征信息,确定第一文本与第二文本的相似度。
[0006]第二方面,本申请实施例提供了一种文本识别装置,该文本识别装置包括:获取模块和确定模块;获取模块,用于获取序列特征信息和语义特征信息,该序列特征信息用于指示第一文本与第二文本的序列相似度,语义特征信息用于指示第一文本与第二文本的语义相似度;确定模块,用于根据序列特征信息和语义特征信息,确定第一文本与第二文本的相似度。
[0007]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0008]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0009]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0010]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
[0011]在本申请实施例中,电子设备可以获取文本的序列特征信息,以及语义特征信息,从而可以根据序列特征信息和语义特征信息,确定第一文本与第二文本(即两个POI名称对应的文本)之间的相似度。本方案中,由于电子设备可以获取用于指示第一文本与第二文本的序列相似度的序列特征信息,以及用于指示第一文本与第二文本的语义相似度的语义特征信息,因此电子设备可以将第一文本与第二文本的序列特征信息和第一文本与第二文本的语义特征信息进行融合处理,以确定第一文本与第二文本的相似度,即电子设备是综合运用了两个维度的特征信息,对文本的相似度进行判断的,如此,能够降低电子设备对文本的误判率,从而提高了电子设备识别POI名称相似度的精确性。
附图说明
[0012]图1是本申请实施例提供的一种文本识别方法的示意图之一;
[0013]图2是本申请实施例提供的一种电子设备基于词汇窗口的滑动比较的流程示意图;
[0014]图3是本申请实施例提供的一种文本识别装置的结构示意图;
[0015]图4是本申请实施例提供的一种电子设备的硬件结构示意图之一;
[0016]图5是本申请实施例提供的一种电子设备的硬件结构示意图之二。
具体实施方式
[0017]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0018]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0019]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的文本识别方法进行详细地说明。
[0020]本申请实施例中的文本识别方法可以应用于文本识别的场景。
[0021]目前,POI的名称写法丰富多样,具体表现为同一个POI有不同的写法,不同的POI有相似的写法,如表1所示;
[0022]表1
[0023]POI名称1POI名称2POI关系新光汇购物中心义乌新光汇相同火车站Train station相同第六中学(高中部)第六中学不同(附属关系)玫瑰花园

193号玫瑰花园

195号不同(同级关系)麻辣火锅(一店)麻辣火锅(二店)不同
[0024]在判断两个POI名称的相似度时,相关技术中有的只利用了语义相关的特征编码进行判断,然而这种方式用在POI相似度的场景下,容易出现完全不相干的POI被判断为高相似度(例如:父亲背心VS妈妈背心),如此,误判率较高。有的引入了关键词识别,通过加入文本中关键词的损失,来使模型能够关注到某些特定的词的重要性。然而这种方式依赖前置的序列标注模型,有两个难点,一是在POI领域,关键词的界定十分模糊,如华为手机维修,关键词抽取可以是华为,可以是手机,还可以是维修;二是两个模块相互依赖,对标注数据的质量要求较高,并且上游关键词的标注质量会直接影响下游相似度的判断表现。因此该方案要达到较好的效果,难度较高。有的添加了语义发散度辅助衡量相似度,然而这种方式往往适用于多词汇量的文档里领域,对于长度普遍在2

8个字POI名称适用性较差。
[0025]在本申请实施例提供的方案中,电子设备可以获取序列特征信息,以及语义特征信息,从而可以根据序列特征信息和语义特征信息,确定第一文本与第二文本(即两个POI名称对应的文本)之间的相似度。本方案中,由于电子设备可以获取用于指示第一文本与第二文本的序列相似度的序列特征信息,以及用于指示第一文本与第二文本的语义相似度的语义特征信息,因此电子设备可以将第一文本与第二文本的序列特征信息和第一文本与第二文本的语义特征信息进行融合处理,以确定第一文本与第二文本的相似度,降低了电子设备使用单语义为主的相似度模型时对文本的误判率,从而提高了电子设备识别POI名称相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取序列特征信息和语义特征信息,所述序列特征信息用于指示第一文本与第二文本的序列相似度,所述语义特征信息用于指示所述第一文本与所述第二文本的语义相似度;根据所述序列特征信息和所述语义特征信息,确定所述第一文本与所述第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述获取序列特征信息,包括:根据至少一个分值、语序相似度、所述第一文本的长度和所述第二文本的长度,确定所述序列特征信息,所述至少一个分值用于指示所述第一文本与所述第二文本在至少一个维度上的序列匹配度,每个分值分别对应一个维度,所述语序相似度为所述第一文本与所述第二文本的语序相似度。3.根据权利要求1所述的方法,其特征在于,所述获取序列特征信息,包括:对所述第一文本进行序列编码处理,得到第一序列编码矩阵,并对所述第二文本进行序列编码处理,得到第二序列编码矩阵;对所述第一序列编码矩阵进行横向拼接处理和线性变换处理,得到第一压缩矩阵,并对所述第二序列编码矩阵进行横向拼接处理和线性聚合处理,得到第二压缩矩阵;对所述第一压缩矩阵和所述第二压缩矩阵进行最大池化处理,得到所述序列特征信息。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取语义特征信息,包括:对所述第一文本进行字符映射处理,得到第一字向量矩阵,并对所述第二文本进行字符映射处理,得到第二字向量矩阵;对所述第一字向量矩阵进行卷积处理,得到第一矩阵,并对第二字向量矩阵进行卷积处理,得到第二矩阵;对所述第一字向量矩阵和所述第一矩阵进行横向拼接处理和线性变换处理,得到第三压缩矩阵,并对所述第二字向量矩阵和所述第二矩阵进行横向拼接处理和线性变换处理,得到第四压缩矩阵;对所述第三压缩矩阵和所述第四压缩矩阵进行最大池化处理,得到所述语义特征信息。5.根据权利要求1所述的方法,其特征在于,所述根据所述序列特征信息和所述语义特征信息,确定所述第一文本与所述第二文本的相似度,包括:对所述序列特征信息与所述语义特征信息进行融合处理,得到目标特征信息;对所述目标特征信息进行随机失活处理和线性变换处理,得到目标向量,所述目标向量包括第一数值和第二数值,所述第一数值用于指示所述第一文本与所述第二文本相似,所述第二数值用于指示所述第一文本与所述第二文本不相似;对所述目标向量进行函数转换处理,得到第一概率和第二概率,所述第一概率为所述第一文本与所述第二文本相似的概率,所述第二概率为所述第一文本与所述第二文本不相似的概率;根据所述第一概率和所述第二概率,确定所述第一文本与所述第二文本的相似度。6.一种文本识别装置,其特征在于,所述文本识别装置包括:获取模块和确定模块;
所述获取模块,用于获取序列特征信息和语义特征信息,所述序列特征信息用于指示第一文本与第二文本的序列相似度,所述语义特征信息用于指示所述第一文本...

【专利技术属性】
技术研发人员:杨浩铭
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1