【技术实现步骤摘要】
端到端实体模糊方法和系统、电子设备、计算机存储介质
[0001]本专利技术属于自然语言处理
,更具体的说,尤其涉及一种端到端实体模糊方法和系统、电子设备、计算机存储介质。
技术介绍
[0002]自然语言处理,主要解决的是自然语言处理过程中,当在语音识别后的文本包含噪音、识别错误、用户表达不全的情况下,能够根据实体候选列表匹配到最相似的实体。
[0003]现有的实体模糊技术主要靠的是特征工程方案,在模型推理之前,需要人工计算特征,例如前缀匹配、后缀匹配、编辑距离等特征。这种模型方案不属于端到端的模型方案,工程化较复杂;且人工总结的特征可能存在不全面的情况,使得模型无法学习到更多深度次隐藏的特征。
技术实现思路
[0004]有鉴于此,本专利技术的目的在于提供一种端到端实体模糊方法和系统、电子设备、计算机存储介质,用于舍弃现有人工总结、计算的特征方式,采用模型自主学习特征方式,让模型能够自主学习到更多深层次的特征信息。
[0005]本申请第一方面公开了一种端到端实体模糊方法,包括:
[0006]获取用户的请求信息;
[0007]将所述请求信息分别与多个预设的候选信息均进行实体模糊处理,得到多个相似度;
[0008]取多个所述相似度中相似度最高的值,作为实体模糊后的最终相似度。
[0009]可选的,将所述请求信息与所述预设的候选信息进行实体模糊处理,得到所述相似度,包括:
[0010]对所述请求信息和所述预设的候选信息进行词性解析,得到所述请求信息 ...
【技术保护点】
【技术特征摘要】
1.一种端到端实体模糊方法,其特征在于,包括:获取用户的请求信息;将所述请求信息分别与多个预设的候选信息均进行实体模糊处理,得到多个相似度;取多个所述相似度中相似度最高的值,作为实体模糊后的最终相似度。2.根据权利要求1所述的端到端实体模糊方法,其特征在于,将所述请求信息与所述预设的候选信息进行实体模糊处理,得到所述相似度,包括:对所述请求信息和所述预设的候选信息进行词性解析,得到所述请求信息的文本信息、所述请求信息的词性信息、所述候选信息的文本信息和所述候选信息的词性信息;对所述请求信息的文本信息与所述候选信息的文本信息,进行特征自训练,得到特征相似度;以及,对所述请求信息的文本信息、所述请求信息的词性信息、所述候选信息的文本信息和所述候选信息的词性信息进行注意力处理得到注意力相似度;将所述特征相似度和所述注意力相似度,进行拼接后进行矩阵运行,得到所述请求信息的文本信息与候选信息的文本信息的相似度。3.根据权利要求2所述的端到端实体模糊方法,其特征在于,对所述请求信息的文本信息与所述候选信息的文本信息,进行特征自训练,得到特征相似度,包括:所述请求信息的文本信息保持不动,所述候选信息的文本信息向右依次平移,并计算每次平移后的两个文本信息的叠加向量;以及,所述请求信息的文本信息保持不动,所述候选信息的文本信息向左依次平移,并计算每次平移后的两个的叠加向量;将各个所述叠加向量作为局部相似片段;将各个所述局部片段进行线性函数处理,得到特征相似度。4.根据权利要求3所述的端到端实体模糊方法,其特征在于,请求信息的文本信息保持不动,候选信息的文本信息向右依次平移,并计算每次平移后的两个文本信息的叠加向量;以及,所述请求信息的文本信息保持不动,所述候选信息的文本信息向左依次平移,并计算每次平移后的两个文本信息的叠加向量,所采用的公式包括:其中,pos是左右平移位置编码;向左平移n次时,pos分别是0,
‑
1,
‑
2,
‑
n;向右平移n次时,pos分别是0,1,2,n;d为位置编码矩阵的维度;PE(pos,2i)为学习偶数位置上的位置编码矩阵;PE(pos,2i+1)为学习奇数位置上的位置编码矩阵;所述线性函数处理所采用的公式为:其中,所述w1、w2表示模型学习的参数,linear表示线性函数;feat_left_mat为左移特征矩阵;feat_right_mat为右移特征矩阵;right_posi_emb为公式(1)向右平移n次的值;left_posi_emb为公式(1)向左平移n次的值;feat_mat为学习后的特征矩阵;final_feat_mat为线性处理后的矩阵。
...
【专利技术属性】
技术研发人员:梅林海,陈洋,连德富,刘权,凌震华,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。