一种语义识别方法、相关装置以及设备制造方法及图纸

技术编号:29675103 阅读:14 留言:0更新日期:2021-08-13 21:57
本申请实施例公开了一种应用于自然语言处理的语义识别方法、相关装置以及设备,用于提高语义识别的准确度。本申请实施例方法包括:获取待识别文本,待识别文本中包含待识别多义词,待识别多义词包括N种语义类型,待识别文本中包括至少两个语句。获取待识别文本的主题词语和词语序列,并根据主题词语和词语序列,确定待识别多义词的语义识别特征。然后根据语义识别特征,从N种语义类型中,确定待识别多义词在待识别文本中的含义。

【技术实现步骤摘要】
一种语义识别方法、相关装置以及设备
本申请实施例涉及人工智能领域,尤其涉及一种语义识别方法、相关装置以及设备。
技术介绍
在自然语言处理中,一词多义是经常出现的情况,也是许多场景中需要解决的问题。无论是中文还是其他的语言,都会出现一词多义的情形。也即是说,相同的词语在不同的语境或者不同的上下文中,会呈现出不同的含义。如何准确识别多义词的具体含义成为了急需解决的问题。一种语义识别的方式是,在对待识别多义词进行语义识别时,可以将同一句话中待识别多义词前后几个词作为参考词。由于参考词和待识别多义词在同一句话中,参考词对于待识别多义词的影响较大,因此,可以通过识别参考词的含义,来表征待识别多义词的含义。在这种语义识别的方法中,若待识别多义词是一个语句中的首个词语或者最后一个词语,那么用来进行语义识别的参考词的数量就会减少,降低了语义识别的准确度。
技术实现思路
本申请实施例提供了一种语义识别方法、相关装置以及设备,在对待识别多义词进行语义识别时,不仅会将待识别多义词上下文的词语序列作为参考因素,还会参考待识别多义词所在的待识别文本的主题词语,丰富了语义识别的参考因素,从而提高了语义识别的准确度。本申请实施例一方面提供了一种语义识别方法,包括:获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括N种语义类型,N为大于1的整数,待识别文本包括至少两个语句;根据待识别文本获取主题词语其中,主题词语用于表示待识别文本的主题类型;根据待识别文本获取词语序列,其中,词语序列包括待识别多义词和目标词语,目标词语包括待识别多义词的上文词语和下文词语中的至少一项;根据主题词语和词语序列,确定待识别多义词对应的语义识别特征;根据语义识别特征,从N种语义类型中确定待识别多义词在待识别文本中的含义。本申请另一方面提供了一种语义识别装置,包括:获取单元,具体用于获取待识别文本,其中,待识别文本包括待识别多义词,待识别多义词包括N种语义类型,N为大于1的整数,待识别文本包括至少两个语句;处理单元,具体用于:根据待识别文本获取主题词语,其中,主题词语用于表示待识别文本的主题类型;根据待识别文本获取词语序列,其中,词语序列包括待识别多义词和目标词语,目标词语包括待识别多义词的上文词语和下文词语中的至少一项;根据主题词语和词语序列,确定待识别多义词对应的语义识别特征;根据语义识别特征,从N种语义类型中确定待识别多义词在待识别文本中的含义。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:从文本集合的主题词语集合中,确定主题词语对应的关联主题词语;从文本集合的词语序列集合中,确定词语序列对应的关联词语序列;根据关联主题词语和关联词语序列,确定待识别多义词的语义识别特征。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元还用于:处理待识别文本,得到至少两个词向量;将至少两个词向量输入主题模型,得到主题分布向量;确定至少两个词向量中每一个词向量与主题分布向量之间的距离;根据距离,确定主题相关词向量;根据主题相关词向量,确定主题词语特征;并根据主题词语特征,确定主题词语。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元,具体用于:若主题相关词向量的数量为一个,则确定主题相关词向量为主题词语特征;若主题相关词向量的数量大于一个,则处理主题相关词向量,得到主题词语特征。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元,具体用于:对主题相关词向量求平均值,得到主题词语特征;或者,对主题相关词向量进行加权求和,得到主题词语特征;或者,确定主题相关词向量中的最大值,为主题词语特征。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:若主题相关词向量的数量大于一个,则聚类主题相关词,得到主题标签;若主题标签的数量为一个,则确定主题标签为主题词语特征;若主题标签的数量大于一个,则对主题标签求平均值,得到主题词语特征;或者对主题标签进行加权求和,得到主题词语特征;或者确定主题标签的最大值,为主题词语特征。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:对待识别文本进行分句处理,得到至少两个语句;获取至少两个语句中目标语句的频繁序列,其中,目标语句包括待识别多义词所在的语句,和待识别多义词所在语句的前X个语句,和待识别多义词所在语句的后Y个语句中的至少一项,X≥1,Y≥1,且X、Y均为整数;确定支持度大于阈值的频繁序列,为目标频繁序列,支持度用于表示频繁序列在目标语句中的出现的频率;并根据目标频繁序列,确定词语序列。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:确定目标语句中的目标词语为一项前缀,目标词语在目标语句中出现的频率满足预设条件;组合一项前缀,得到二项前缀;若二项前缀在目标语句中出现的频率满足预设条件,则确定二项前缀为频繁序列。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:若目标频繁序列的数量为一个,则确定目标频繁序列为词语序列;若目标频繁序列的数量大于一个,则处理目标频繁序列,得到词语序列。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:对目标频繁序列求平均值,得到词语序列;或者,对目标频繁序列进行加权求和,得到词语序列;或者,确定目标频繁序列的最大值,为词语序列。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:对语义识别特征和N种语义类型中的每种语义类型,进行贝叶斯运算;根据运算结果,确定待识别多义词在待识别文本中的含义。在一种可能的设计中,本申请实施例另一方面的一种实现方式中,处理单元具体用于:分别确定N种语义类型中每种语义类型与语义识别特征的互信息;若互信息的取值大于或者等于预设阈值,则确定待识别多义词在待识别文本中的含义为互信息对应的词义类型。本申请的另一方面提供了一种计算机设备,包括:存储器、处理器以及总线系统;存储器用于存储程序代码;处理器用于用于根据所述程序代码中的指令执行上述任一方面所述的语义识别方法;总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所提供的语义识别方法。本申请的另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读本文档来自技高网...

【技术保护点】
1.一种语义识别方法,其特征在于,包括:/n获取待识别文本,其中,所述待识别文本包括待识别多义词,所述待识别多义词包括N种语义类型,所述N为大于1的整数,所述待识别文本包括至少两个语句;/n根据所述待识别文本获取主题词语,其中,所述主题词语用于表示所述待识别文本的主题类型;/n根据所述待识别文本获取词语序列,其中,所述词语序列包括所述待识别多义词和目标词语,所述目标词语包括所述待识别多义词的上文词语和下文词语中的至少一项;/n根据所述主题词语和所述词语序列,确定所述待识别多义词对应的语义识别特征;/n根据所述语义识别特征,从所述N种语义类型中确定所述待识别多义词在所述待识别文本中的含义。/n

【技术特征摘要】
1.一种语义识别方法,其特征在于,包括:
获取待识别文本,其中,所述待识别文本包括待识别多义词,所述待识别多义词包括N种语义类型,所述N为大于1的整数,所述待识别文本包括至少两个语句;
根据所述待识别文本获取主题词语,其中,所述主题词语用于表示所述待识别文本的主题类型;
根据所述待识别文本获取词语序列,其中,所述词语序列包括所述待识别多义词和目标词语,所述目标词语包括所述待识别多义词的上文词语和下文词语中的至少一项;
根据所述主题词语和所述词语序列,确定所述待识别多义词对应的语义识别特征;
根据所述语义识别特征,从所述N种语义类型中确定所述待识别多义词在所述待识别文本中的含义。


2.根据权利要求1所述的语义识别方法,其特征在于,所述根据所述主题词语和所述词语序列,确定所述待识别多义词的语义识别特征,包括:
从文本集合的主题词语集合中,确定所述主题词语对应的关联主题词语;
从所述文本集合的词语序列集合中,确定所述词语序列对应的关联词语序列;
根据所述关联主题词语和所述关联词语序列,确定所述待识别多义词的语义识别特征。


3.根据权利要求1所述的语义识别方法,其特征在于,在所述根据所述待识别文本获取主题词语之前,所述方法还包括:
处理待识别文本,得到至少两个词向量;
将所述至少两个词向量输入主题模型,得到主题分布向量;
确定所述至少两个词向量中每一个词向量与所述主题分布向量之间的距离;
根据所述距离,确定主题相关词向量;
所述根据所述待识别文本获取主题词语,包括:
根据所述主题相关词向量,确定主题词语特征;
根据所述主题词语特征,确定所述主题词语。


4.根据权利要求3所述的语义识别方法,其特征在于,所述根据所述主题相关词向量,确定所述主题词语特征,包括:
若所述主题相关词向量的数量为一个,则确定所述主题相关词向量为所述主题词语特征;
若所述主题相关词向量的数量大于一个,则处理所述主题相关词向量,得到所述主题词语特征。


5.根据权利要求4所述的语义识别方法,其特征在于,所述处理所述主题相关词向量,得到所述主题词语特征,包括:
对所述主题相关词向量求平均值,得到所述主题词语特征;或者,
对所述主题相关词向量进行加权求和,得到所述主题词语特征;或者,
确定所述主题相关词向量中的最大值,为所述主题词语特征。


6.根据权利要求3所述的语义识别方法,其特征在于,所述根据所述主题相关词向量,确定所述主题词语特征,包括:
若所述主题相关词向量的数量大于一个,则聚类所述主题相关词,得到主题标签;
若所述主题标签的数量为一个,则确定所述主题标签为所述主题词语特征;
若所述主题标签的数量大于一个,则对所述主题标签求平均值,得到所述主题词语特征;或者对所述主题标签进行加权求和,得到所述主题词语特征;或者确定所述主题标签的最大值,为所述主题词语特征。


7.根据权利要求1至6中任一项所述的语义识别方法,其特征在于,所述根据所述待识别文本获取词语序列,包括:
对所述待识别文本进行分句处理,得到至少两个语句;
获取所述至少两个语句中目标语句的频繁序列,其中,所述目标语句包括所述待识别多义词所在的语句,和所述待识别多义词所在语句的前X个语句,和所述待识别多义词所在语句的...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1