一种信息处理的方法、会话响应的方法及装置制造方法及图纸

技术编号:21952408 阅读:25 留言:0更新日期:2019-08-24 17:42
本申请公开了一种信息处理的方法,包括:获取第一待处理信息;若第一待处理信息中包括第一指代词,则从N组对话信息中获取候选先行词集合,其中,N组对话信息是与第一待处理信息相邻的对话信息,候选先行词集合包括至少一个候选先行词,候选先行词包括至少一个名词,N为大于或等于1的整数;通过信息处理模型获取候选先行词集合中候选先行词所对应的分类结果;根据候选先行词的分类结果,对第一待处理信息中的第一指代词进行消除,得到第二待处理信息。本申请还提供了一种会话响应的方法以及装置。本申请实施例能够提取到更贴近实际含义的候选先行词,从而提升指代消除的准确性。

A Method and Device for Information Processing and Session Response

【技术实现步骤摘要】
一种信息处理的方法、会话响应的方法及装置
本申请涉及人工智能领域,尤其涉及一种信息处理的方法、会话响应的方法及装置。
技术介绍
随着信息呈现爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究,指代消除是自然语言理解中的重点和难点之一。指代是自然语言中常见的语言现象,对于简化表述,衔接上下文起着重要作用,但这也给计算机理解自然语言增加了难度。目前,采用的指代消除方法主要依赖于词性特征,即通过词性特征提取指代词集合和候选先行词集合,然后基于笛卡尔积得到表述对,最后将每个表述对的特征输入到模型中,通过模型得到每个表述对的得分,将得分最高的先行词用于指代消除。然而,根据词性特征提取所有名词作为候选先行词还存在这样的问题,比如,对于“蒲公英的约定”会被拆分成两个名词,即“蒲公英”和“约定”,使得这两个词语分别作为不同的候选先行词,从而导致指代错误。
技术实现思路
本申请实施例提供了一种信息处理的方法、会话响应的方法及装置,可以得到包括多个名词的候选先行词,使得提取到的候选先行词更贴近实际含义,从而提升指代消除的准确性。有鉴于此,本申请第一方面提供一种信息处理的方法,包括:获取第一待处理信息;若所述第一待处理信息中包括第一指代词,则从N组对话信息中获取候选先行词集合,其中,所述N组对话信息是与所述第一待处理信息相邻的对话信息,所述候选先行词集合包括至少一个候选先行词,所述候选先行词包括至少一个名词,所述N为大于或等于1的整数;通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果;根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词进行消除,得到第二待处理信息。本申请第二方面提供一种会话响应的方法,包括:获取第一待处理信息,其中,所述第一待处理信息包括指代词;根据所述第一待处理信息,从N组对话信息中获取候选先行词集合,其中,所述N组对话信息是与所述第一待处理信息相邻的对话信息,所述对话信息包括请求信息以及响应信息,所述候选先行词集合包括至少一个候选先行词,所述候选先行词包括至少一个名词,所述N为大于或等于1的整数;通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果;根据所述候选先行词的分类结果,对所述第一待处理信息中的所述指代词进行消除,得到第二待处理信息;展示会话响应信息,其中,所述会话响应信息为根据所述会话响应信息生成的。本申请第三方面提供一种信息处理装置,包括:获取模块,用于获取第一待处理信息;所述获取模块,还用于若所述第一待处理信息中包括第一指代词,则从N组对话信息中获取候选先行词集合,其中,所述N组对话信息是与所述第一待处理信息相邻的对话信息,所述候选先行词集合包括至少一个候选先行词,所述候选先行词包括至少一个名词,所述N为大于或等于1的整数;所述获取模块,还用于通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果;消除模块,用于根据所述获取模块获取的所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词进行消除,得到第二待处理信息。在一种可能的设计中,在本申请实施例的第三方面的第一种实现方式中,所述获取模块,具体用于获取所述N组对话信息,其中,所述对话信息包括请求信息以及响应信息;从所述N组对话信息中提取实体信息集合,其中,所述实体信息集合包括至少一个实体信息,所述实体信息包括至少一个名词;根据所述实体信息集合生成所述候选先行词集合。在一种可能的设计中,在本申请实施例的第三方面的第二种实现方式中,所述获取模块,具体用于检测所述实体信息集合中是否存在相同的实体信息;若检测到所述实体信息集合中存在相同的实体信息,则对所述相同的实体信息进行合并处理,得到所述候选先行词集合;若未检测到所述实体信息集合中存在相同的实体信息,则将所述实体信息集合作为所述候选先行词集合。在一种可能的设计中,在本申请实施例的第三方面的第三种实现方式中,所述获取模块,具体用于根据预置实体库对所述实体信息集合中的实体信息进行匹配,其中,所述预置实体库用于指示实体信息与语义信息的映射关系;若所述实体信息集合中存在至少两个实体信息对应于相同的语义信息,则将所述至少两个实体信息进行合并处理,得到所述候选先行词集合;若所述实体信息集合中的实体信息对应于不同的语义信息,则将所述实体信息集合作为所述候选先行词集合。在一种可能的设计中,在本申请实施例的第三方面的第四种实现方式中,所述信息处理装置还包括生成模块;所述获取模块,还用于从N组对话信息中获取候选先行词集合之后,从所述第一待处理信息中获取所述第一指代词所对应的上下文信息,其中,所述上下文信息包括第一信息和第二信息,所述第一信息为位于所述第一指代词之前的信息,所述第二信息为位于所述第一指代词之后的信息;所述生成模块,用于根据所述候选先行词集合以及所述获取模块获取的所述上下文信息生成词序列集合,其中,所述词序列集合包括至少一个词序列,所述词序列与所述候选先行词具有对应关系;所述获取模块,具体用于通过所述信息处理模型获取所述词序列集合中所述词序列所对应的分类结果。在一种可能的设计中,在本申请实施例的第三方面的第五种实现方式中,所述获取模块,具体用于通过所述信息处理模型中的嵌入层获取所述词序列所对应的词向量序列;通过所述信息处理模型中的卷积层获取所述词向量序列所对应的第一特征数据;通过所述信息处理模型中的最大池化层获取所述第一特征数据所对应的第二特征数据;通过所述信息处理模型中的全连接层获取所述第二特征数据输出所述分类结果。在一种可能的设计中,在本申请实施例的第三方面的第六种实现方式中,所述信息处理装置还包括确定模块以及训练模块;所述获取模块,还用于通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果之前,获取待训练样本集合,其中,所述待训练样本集合包括待训练正样本以及待训练负样本,所述待训练正样本包括第一待训练信息、第一待训练指代词以及第一待训练先行词,所述第一待训练信息、所述第一待训练指代词与所述第一待训练先行词具有对应关系,所述待训练负样本包括第二待训练信息、第二待训练指代词以及第二待训练先行词,所述第二待训练信息、所述第二待训练指代词与所述第二待训练先行词不具有对应关系;所述获取模块,还用于通过待训练信息处理模型获取所述待训练样本集合所对应的预测分类结果;所述确定模块,用于根据所述获取模块获取的所述预测分类结果以及所述待训练样本集合所对应的真实分类结果,确定所述待训练信息处理模型所对应的模型参数;所述训练模块,用于采用所述确定模块确定的所述模型参数对所述待训练信息处理模型进行训练,得到所述信息处理模型。在一种可能的设计中,在本申请实施例的第三方面的第七种实现方式中,所述获取模块,具体用于若所述第一待处理信息中还包括第二指代词,则从所述N组对话信息中获取所述候选先行词集合;所述根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词进行消除,得到第二待处理信息,包括:根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词以及所述第二指代词进行消除,得到第三待处理信息。在一种可能的设计中,在本申请实施例的第三方面的第八种实现方式中,所述信息处理装置还包本文档来自技高网...

【技术保护点】
1.一种信息处理的方法,其特征在于,包括:获取第一待处理信息;若所述第一待处理信息中包括第一指代词,则从N组对话信息中获取候选先行词集合,其中,所述N组对话信息是与所述第一待处理信息相邻的对话信息,所述候选先行词集合包括至少一个候选先行词,所述候选先行词包括至少一个名词,所述N为大于或等于1的整数;通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果;根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词进行消除,得到第二待处理信息。

【技术特征摘要】
1.一种信息处理的方法,其特征在于,包括:获取第一待处理信息;若所述第一待处理信息中包括第一指代词,则从N组对话信息中获取候选先行词集合,其中,所述N组对话信息是与所述第一待处理信息相邻的对话信息,所述候选先行词集合包括至少一个候选先行词,所述候选先行词包括至少一个名词,所述N为大于或等于1的整数;通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果;根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词进行消除,得到第二待处理信息。2.根据权利要求1所述的方法,其特征在于,所述从N组对话信息中获取候选先行词集合,包括:获取所述N组对话信息,其中,所述对话信息包括请求信息以及响应信息;从所述N组对话信息中提取实体信息集合,其中,所述实体信息集合包括至少一个实体信息,所述实体信息包括至少一个名词;根据所述实体信息集合生成所述候选先行词集合。3.根据权利要求2所述的方法,其特征在于,所述根据所述实体信息集合生成所述候选先行词集合,包括:检测所述实体信息集合中是否存在相同的实体信息;若检测到所述实体信息集合中存在相同的实体信息,则对所述相同的实体信息进行合并处理,得到所述候选先行词集合;若未检测到所述实体信息集合中存在相同的实体信息,则将所述实体信息集合作为所述候选先行词集合。4.根据权利要求2所述的方法,其特征在于,所述根据所述实体信息集合生成所述候选先行词集合,包括:根据预置实体库对所述实体信息集合中的实体信息进行匹配,其中,所述预置实体库用于指示实体信息与语义信息的映射关系;若所述实体信息集合中存在至少两个实体信息对应于相同的语义信息,则将所述至少两个实体信息进行合并处理,得到所述候选先行词集合;若所述实体信息集合中的实体信息对应于不同的语义信息,则将所述实体信息集合作为所述候选先行词集合。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述从N组对话信息中获取候选先行词集合之后,所述方法还包括:从所述第一待处理信息中获取所述第一指代词所对应的上下文信息,其中,所述上下文信息包括第一信息和第二信息,所述第一信息为位于所述第一指代词之前的信息,所述第二信息为位于所述第一指代词之后的信息;根据所述候选先行词集合以及所述上下文信息生成词序列集合,其中,所述词序列集合包括至少一个词序列,所述词序列与所述候选先行词具有对应关系;所述通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果,包括:通过所述信息处理模型获取所述词序列集合中所述词序列所对应的分类结果。6.根据权利要求5所述的方法,其特征在于,所述通过所述信息处理模型获取所述词序列集合中所述词序列所对应的分类结果,包括:通过所述信息处理模型中的嵌入层获取所述词序列所对应的词向量序列;通过所述信息处理模型中的卷积层获取所述词向量序列所对应的第一特征数据;通过所述信息处理模型中的最大池化层获取所述第一特征数据所对应的第二特征数据;通过所述信息处理模型中的全连接层获取所述第二特征数据输出所述分类结果。7.根据权利要求1或6所述的方法,其特征在于,所述通过信息处理模型获取所述候选先行词集合中所述候选先行词所对应的分类结果之前,所述方法还包括:获取待训练样本集合,其中,所述待训练样本集合包括待训练正样本以及待训练负样本,所述待训练正样本包括第一待训练信息、第一待训练指代词以及第一待训练先行词,所述第一待训练信息、所述第一待训练指代词与所述第一待训练先行词具有对应关系,所述待训练负样本包括第二待训练信息、第二待训练指代词以及第二待训练先行词,所述第二待训练信息、所述第二待训练指代词与所述第二待训练先行词不具有对应关系;通过待训练信息处理模型获取所述待训练样本集合所对应的预测分类结果;根据所述预测分类结果以及所述待训练样本集合所对应的真实分类结果,确定所述待训练信息处理模型所对应的模型参数;采用所述模型参数对所述待训练信息处理模型进行训练,得到所述信息处理模型。8.根据权利要求1所述的方法,其特征在于,所述从N组对话信息中获取候选先行词集合,包括:若所述第一待处理信息中还包括第二指代词,则从所述N组对话信息中获取所述候选先行词集合;所述根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词进行消除,得到第二待处理信息,包括:根据所述候选先行词的分类结果,对所述第一待处理信息中的所述第一指代词以及所述第二指代词进行消除,得到第三待处理信...

【专利技术属性】
技术研发人员:熊昊奇卢小东曹云波
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1