【技术实现步骤摘要】
一种语义识别方法、相关装置以及设备
本申请实施例涉及人工智能领域,尤其涉及一种语义识别方法、相关装置以及设备。
技术介绍
在自然语言处理中,一词多义是经常出现的情况,也是许多场景中需要解决的问题。无论是中文还是其他的语言,都会出现一词多义的情形。也即是说,相同的词语在不同的语境或者不同的上下文中,会呈现出不同的含义。如何准确识别多义词的具体含义成为了急需解决的问题。一种语义识别的方式是,在对待识别多义词进行语义识别时,可以将同一句话中待识别多义词前后几个词作为参考词。由于参考词和待识别多义词在同一句话中,参考词对于待识别多义词的影响较大,因此,可以通过识别参考词的含义,来表征待识别多义词的含义。在这种语义识别的方法中,若待识别多义词是一个语句中的首个词语或者最后一个词语,那么用来进行语义识别的参考词的数量就会减少,降低了语义识别的准确度。
技术实现思路
本申请实施例提供了一种语义识别方法、相关装置以及设备,在对待识别多义词进行语义识别时,不仅会将待识别多义词上下文的词语序列作为参考因素,还会参考待识别多义词所在的待识别文本的主题词语,丰富了语义识别的参考因素,从而提高了语义识别的准确度。本申请实施例一方面提供了一种语义识别方法,包括:获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括N种语义类型,N为大于1的整数,待识别文本包括至少两个语句;根据待识别文本获取主题词语其中,主题词语用于表示待识别文本的主题类型;根据待识别文本获取词语序 ...
【技术保护点】
1.一种语义识别方法,其特征在于,包括:/n获取待识别文本,其中,所述待识别文本包括待识别多义词,所述待识别多义词包括N种语义类型,所述N为大于1的整数,所述待识别文本包括至少两个语句;/n根据所述待识别文本获取主题词语,其中,所述主题词语用于表示所述待识别文本的主题类型;/n根据所述待识别文本获取词语序列,其中,所述词语序列包括所述待识别多义词和目标词语,所述目标词语包括所述待识别多义词的上文词语和下文词语中的至少一项;/n根据所述主题词语和所述词语序列,确定所述待识别多义词对应的语义识别特征;/n根据所述语义识别特征,从所述N种语义类型中确定所述待识别多义词在所述待识别文本中的含义。/n
【技术特征摘要】
1.一种语义识别方法,其特征在于,包括:
获取待识别文本,其中,所述待识别文本包括待识别多义词,所述待识别多义词包括N种语义类型,所述N为大于1的整数,所述待识别文本包括至少两个语句;
根据所述待识别文本获取主题词语,其中,所述主题词语用于表示所述待识别文本的主题类型;
根据所述待识别文本获取词语序列,其中,所述词语序列包括所述待识别多义词和目标词语,所述目标词语包括所述待识别多义词的上文词语和下文词语中的至少一项;
根据所述主题词语和所述词语序列,确定所述待识别多义词对应的语义识别特征;
根据所述语义识别特征,从所述N种语义类型中确定所述待识别多义词在所述待识别文本中的含义。
2.根据权利要求1所述的语义识别方法,其特征在于,所述根据所述主题词语和所述词语序列,确定所述待识别多义词的语义识别特征,包括:
从文本集合的主题词语集合中,确定所述主题词语对应的关联主题词语;
从所述文本集合的词语序列集合中,确定所述词语序列对应的关联词语序列;
根据所述关联主题词语和所述关联词语序列,确定所述待识别多义词的语义识别特征。
3.根据权利要求1所述的语义识别方法,其特征在于,在所述根据所述待识别文本获取主题词语之前,所述方法还包括:
处理待识别文本,得到至少两个词向量;
将所述至少两个词向量输入主题模型,得到主题分布向量;
确定所述至少两个词向量中每一个词向量与所述主题分布向量之间的距离;
根据所述距离,确定主题相关词向量;
所述根据所述待识别文本获取主题词语,包括:
根据所述主题相关词向量,确定主题词语特征;
根据所述主题词语特征,确定所述主题词语。
4.根据权利要求3所述的语义识别方法,其特征在于,所述根据所述主题相关词向量,确定所述主题词语特征,包括:
若所述主题相关词向量的数量为一个,则确定所述主题相关词向量为所述主题词语特征;
若所述主题相关词向量的数量大于一个,则处理所述主题相关词向量,得到所述主题词语特征。
5.根据权利要求4所述的语义识别方法,其特征在于,所述处理所述主题相关词向量,得到所述主题词语特征,包括:
对所述主题相关词向量求平均值,得到所述主题词语特征;或者,
对所述主题相关词向量进行加权求和,得到所述主题词语特征;或者,
确定所述主题相关词向量中的最大值,为所述主题词语特征。
6.根据权利要求3所述的语义识别方法,其特征在于,所述根据所述主题相关词向量,确定所述主题词语特征,包括:
若所述主题相关词向量的数量大于一个,则聚类所述主题相关词,得到主题标签;
若所述主题标签的数量为一个,则确定所述主题标签为所述主题词语特征;
若所述主题标签的数量大于一个,则对所述主题标签求平均值,得到所述主题词语特征;或者对所述主题标签进行加权求和,得到所述主题词语特征;或者确定所述主题标签的最大值,为所述主题词语特征。
7.根据权利要求1至6中任一项所述的语义识别方法,其特征在于,所述根据所述待识别文本获取词语序列,包括:
对所述待识别文本进行分句处理,得到至少两个语句;
获取所述至少两个语句中目标语句的频繁序列,其中,所述目标语句包括所述待识别多义词所在的语句,和所述待识别多义词所在语句的前X个语句,和所述待识别多义词所在语句的...
【专利技术属性】
技术研发人员:刘志煌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。