自然语言文本处理方法、装置、存储介质和电子设备制造方法及图纸

技术编号:26792129 阅读:51 留言:0更新日期:2020-12-22 17:07
本发明专利技术实施例公开了一种自然语言文本处理方法、装置、存储介质和电子设备。本发明专利技术实施例在获取目标文本中各目标词语对应的目标词向量后,根据目标词向量确定各目标词语与预定词表中的多个词语的相似度,从而根据各目标词语与预定词表中的多个词语的相似度确定目标文本的文本向量。本发明专利技术实施例的方法根据词语间的相关性确定目标文本的文本向量,提升了文本向量对于目标文本实际含义表征的准确性。

【技术实现步骤摘要】
自然语言文本处理方法、装置、存储介质和电子设备
本专利技术涉及计算机
,具体涉及一种自然语言文本处理方法、装置、存储介质和电子设备。
技术介绍
随着计算机
的不断发展,越来越多的工作由计算机完成。在计算机完成工作的过程中,通常需要进行人机交互,因此计算机需要进行自然语言理解(NaturalLanguageUnderstanding,NLU)。但有时用户发送的文本较为简短,使得文本向量无法较好地表征文本的实际含义,导致计算机无法根据文本向量对文本进行准确的意图识别。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种自然语言文本处理方法、装置、存储介质和电子设备,用于根据词语间的相关性确定目标文本的文本向量,提升文本向量对于目标文本实际含义表征的准确性。根据本专利技术实施例的第一方面,提供一种自然语言文本处理方法,所述方法包括:获取目标文本中各目标词语对应的目标词向量;根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目本文档来自技高网...

【技术保护点】
1.一种自然语言文本处理方法,其特征在于,所述方法包括:/n获取目标文本中各目标词语对应的目标词向量;/n根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语;/n根据各所述相似度确定所述目标文本的文本向量。/n

【技术特征摘要】
1.一种自然语言文本处理方法,其特征在于,所述方法包括:
获取目标文本中各目标词语对应的目标词向量;
根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语;
根据各所述相似度确定所述目标文本的文本向量。


2.根据权利要求1所述的方法,其特征在于,所述根据所述目标词向量确定所述目标词语与多个非目标词语的相似度包括:
获取各所述非目标词语对应的非目标词向量;
对于各所述目标词语,计算所述目标词向量与各所述非目标词向量的相似度。


3.根据权利要求1所述的方法,其特征在于,所述根据各所述相似度确定所述目标文本的文本向量包括:
根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素;
根据各所述元素确定所述文本向量。


4.根据权利要求3所述的方法,其特征在于,所述根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素包括:
对于各所述目标词语,将相似度满足预定相似度条件的所述非目标词语确定为候选词语;
响应于所述候选词语对应于多个相似度,将所述相似度中的最大值确定为对应的所述元素;
响应于所述候选词语对应于一个相似度,将所述相似度确定为对应的所述元素。


5.根据权利要求4所述的方法,其特征在于,所述根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素还包括:
响应于存在多个非候选词语,将非候选词语的所述非目标词语对应的元素确定为0。


6.根据权利要求3所述的方法,其特征在于,所述根据各所述元素确定所述文本向量包括:
将各所述元素依照所述预定词表的顺序排序,确定目标向量;
对所述目标向量进行降维处理,确定所述文本向量。


7.一种自然语言文本处理装置,其特征在于,所述装置包括:
词向量获取单元,用于获取目标文本中各目标词语对应的目标词向量;
相似度获取单元,用于根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语...

【专利技术属性】
技术研发人员:冯浩刘纯一王鹏王征
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1