【技术实现步骤摘要】
文本识别方法、装置、电子设备及存储介质
[0001]本申请属于通信
,具体涉及一种文本识别方法、装置、电子设备及存储介质。
技术介绍
[0002]兴趣点(Point of Interest,POI)泛指一切可以在空间中抽象为点的地理对象,是导航电子地图的重要组成部分,常见的POI有学校,车站,医院,超市等,POI的名称是电子设备用于检索和推荐的重要依据,因此电子设备正确识别两个POI名称的相似程度至关重要。
[0003]相关技术中,电子设备计算文本之间的相似度(即上述两个POI名称对应的文本之间的相似度)时,一般是通过关键词匹配技术实现相似度的计算,然而,由于语言的复杂性较高,电子设备使用简单的关键词匹配技术对一些文本进行计算时很容易产生误判,因此电子设备识别POI名称相似度的精确性较低。
技术实现思路
[0004]本申请实施例的目的是提供一种文本识别方法、装置、电子设备及存储介质,能够解决电子设备识别POI名称相似度的精确性较低的问题。
[0005]第一方面,本申请实施例提供了一种文本识别方法,该文本识别方法包括:获取序列特征信息和语义特征信息,该序列特征信息用于指示第一文本与第二文本的序列相似度,语义特征信息用于指示第一文本与第二文本的语义相似度;根据序列特征信息和语义特征信息,确定第一文本与第二文本的相似度。
[0006]第二方面,本申请实施例提供了一种文本识别装置,该文本识别装置包括:获取模块和确定模块;获取模块,用于获取序列特征信息和语义特征信息,该序列特征信息 ...
【技术保护点】
【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取序列特征信息和语义特征信息,所述序列特征信息用于指示第一文本与第二文本的序列相似度,所述语义特征信息用于指示所述第一文本与所述第二文本的语义相似度;根据所述序列特征信息和所述语义特征信息,确定所述第一文本与所述第二文本的相似度。2.根据权利要求1所述的方法,其特征在于,所述获取序列特征信息,包括:根据至少一个分值、语序相似度、所述第一文本的长度和所述第二文本的长度,确定所述序列特征信息,所述至少一个分值用于指示所述第一文本与所述第二文本在至少一个维度上的序列匹配度,每个分值分别对应一个维度,所述语序相似度为所述第一文本与所述第二文本的语序相似度。3.根据权利要求1所述的方法,其特征在于,所述获取序列特征信息,包括:对所述第一文本进行序列编码处理,得到第一序列编码矩阵,并对所述第二文本进行序列编码处理,得到第二序列编码矩阵;对所述第一序列编码矩阵进行横向拼接处理和线性变换处理,得到第一压缩矩阵,并对所述第二序列编码矩阵进行横向拼接处理和线性聚合处理,得到第二压缩矩阵;对所述第一压缩矩阵和所述第二压缩矩阵进行最大池化处理,得到所述序列特征信息。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述获取语义特征信息,包括:对所述第一文本进行字符映射处理,得到第一字向量矩阵,并对所述第二文本进行字符映射处理,得到第二字向量矩阵;对所述第一字向量矩阵进行卷积处理,得到第一矩阵,并对第二字向量矩阵进行卷积处理,得到第二矩阵;对所述第一字向量矩阵和所述第一矩阵进行横向拼接处理和线性变换处理,得到第三压缩矩阵,并对所述第二字向量矩阵和所述第二矩阵进行横向拼接处理和线性变换处理,得到第四压缩矩阵;对所述第三压缩矩阵和所述第四压缩矩阵进行最大池化处理,得到所述语义特征信息。5.根据权利要求1所述的方法,其特征在于,所述根据所述序列特征信息和所述语义特征信息,确定所述第一文本与所述第二文本的相似度,包括:对所述序列特征信息与所述语义特征信息进行融合处理,得到目标特征信息;对所述目标特征信息进行随机失活处理和线性变换处理,得到目标向量,所述目标向量包括第一数值和第二数值,所述第一数值用于指示所述第一文本与所述第二文本相似,所述第二数值用于指示所述第一文本与所述第二文本不相似;对所述目标向量进行函数转换处理,得到第一概率和第二概率,所述第一概率为所述第一文本与所述第二文本相似的概率,所述第二概率为所述第一文本与所述第二文本不相似的概率;根据所述第一概率和所述第二概率,确定所述第一文本与所述第二文本的相似度。6.一种文本识别装置,其特征在于,所述文本识别装置包括:获取模块和确定模块;
所述获取模块,用于获取序列特征信息和语义特征信息,所述序列特征信息用于指示第一文本与第二文本的序列相似度,所述语义特征信息用于指示所述第一文本...
【专利技术属性】
技术研发人员:杨浩铭,
申请(专利权)人:维沃移动通信有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。