关键词和答案的确定方法、装置和计算机可读存储介质制造方法及图纸

技术编号:19215712 阅读:23 留言:0更新日期:2018-10-20 06:43
本公开涉及一种关键词的确定方法、装置和计算机可读存储介质,涉及自然语言处理技术领域。该方法包括:将语料中的句子划分为多个单词;根据多个单词建立第一词列表,第一词列表中包括各单词及其在语料中的出现频率,第一词列表中的各单词按照其出现频率排序;根据划分得到的单词生成各合成词,合成词由N个单词组成,N大于等于2;根据各合成词建立第二词列表,第二词列表包括各合成词及其在所述语料中的出现频率,第二词列表中的各合成词按照其出现频率排序;根据第一词列表中各单词的出现频率和排序情况,以及第二词列表中包含各单词的合成词的出现频率和排序情况,确定各关键词。本公开的技术方案能够提高用户体验。

【技术实现步骤摘要】
关键词和答案的确定方法、装置和计算机可读存储介质
本公开涉及自然语言处理
,特别涉及一种关键词的确定方法、关键词的装置和计算机可读存储介质。
技术介绍
如今新一轮的人工智能和机器学习浪潮席卷全球,对各行各业都产生了深远的影响。基于人工智能,大数据和深度学习基础上发展起来自然语言理解以及自然语言生成技术在近年中更是得到了长足的发展。随着信息的碎片化,服务的多元化,以及人力成本越来越高,使用基于自然语言理解和自然语言生成的机器人客服逐渐取代人工客服,对顾客进行全流程接待并解决顾客的问题是大势所趋。在相关技术中,机器人将顾客的问句和训练集中的所有句子进行对比,找出问句的最相近句子,然后以最接近句子的意图作为问句的意图。或者将问句与事先准备的问答对中的问题进行比较,找出最相似的问题,然后用该问题的答案作为应答回复给顾客。
技术实现思路
本公开的专利技术人发现上述相关技术中存在如下问题:答案的生成需要依靠事先准备的标注语料或者问答对作为机器人学习的先验知识,导致在遇到未知问题时无法准确理解问题的意图,无法作出合适的应答,从而影响用户体验。鉴于此,本公开提出了一种能够准确理解语料意图的关键词和答案的确定技术方案用于生成合适的应答,从而提升用户体验。根据本公开的一些实施例,提供了一种关键词的确定方法,包括:将语料中的句子划分为多个单词;根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;根据划分得到的单词生成各合成词,所述合成词由N个单词组成,N大于等于2;根据所述各合成词建立第二词列表,所述第二词列表包括所述各合成词及其在所述语料中的出现频率,所述第二词列表中的各合成词按照其出现频率排序;根据所述第一词列表中各单词的出现频率和排序情况,以及所述第二词列表中包含所述各单词的合成词的出现频率和排序情况,确定各关键词。可选地,将所述关键词作为候选词,并根据所述候选词建立候选词列表,所述候选词列表中包含所述候选词及其在所述语料中的出现频率,所述候选词最多由M个单词组成,M大于等于1,所述候选词列表中的各候选词按照其出现频率排序;根据所述划分得到的单词重新生成合成词,所述合成词由L个单词组成,L大于M;根据所述合成词建立第三词列表,所述第三词列表包括所述各合成词及其在所述语料中的出现频率,所述第三词列表中的各合成词按照其出现频率排序;根据所述候选词列表中各候选词的出现频率和排序情况,以及所述第三词列表中包含所述各候选词的合成词的出现频率和排序情况,确定各关键词;重复执行上述步骤一次或多次。可选地,判断所述第二词列表中合成词的出现频率与所述第一词列表中被所述合成词包含的单词的出现频率的比值是否大于阈值;在所述比值大于所述阈值的情况下,将所述合成词确定为关键词;在所述比值小于或等于所述阈值的情况下,判断所述合成词在所述第二列表中的排序是否高于所述单词在所述第一次列表中的排序,所述第一次列表中的单词按照单词的出现频率从高到低排序,所述第二次列表中的合成词按照合成词的出现频率从高到低排序,在是的情况下,将所述合成词确定为所述关键词,在否的情况下,将所述单词确定为所述关键词。根据本公开的另一些实施例,提供了一种答案的确定方法,包括:上述任一个实施例中的关键词的确定方法;和根据接收到的问题中包含的所述关键词,在数据库中查找相应文档以生成所述问题的一个或多个答案。可选地,根据生成的各答案建立候选答案数据库,所述候选答案数据库中包含所述各答案的调用次数和所述各答案的意图标签,所述调用次数为所述各答案被用来回答问题的次数,所述意图标签根据所述各答案被用来回答问题时该问题所在会话的上下文的意图生成;从当前问题所在的会话中确定所述当前问题的意图;根据所述当前问题的意图和所述候选答案数据库中的意图标签,在所述候选答案数据库中确定各候选答案及其第一评分;计算所述当前问题与所述各候选答案的文本匹配程度作为所述各候选答案的第二评分;根据所述第一评分、所述第二评分和所述各候选答案的调用次数确定所述当前问题的答案。可选地,根据确定的答案的意图标签在所述数据库中查找相应的文本;根据所述相应的文本,回答所述当前问题。根据本公开的又一些实施例,提供一种关键词的确定装置,包括:划分单元,用于将语料中的句子划分为多个单词;词列表生成单元,用于根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;合成词生成单元,用于根据划分得到的单词生成各合成词,所述合成词由N个单词组成,N大于等于2;所述词列表生成单元还用于根据所述各合成词建立第二词列表,所述第二词列表包括所述各合成词及其在所述语料中的出现频率,所述第二词列表中的各合成词按照其出现频率排序;确定单元,用于根据所述第一词列表中各单词的出现频率和排序情况,以及所述第二词列表中包含所述各单词的合成词的出现频率和排序情况,确定各关键词。可选地,所述词列表生成单元将所述关键词作为候选词,并根据所述候选词建立候选词列表,所述候选词列表中包含所述候选词及其在所述语料中的出现频率,所述候选词由最多M个单词组成,M大于等于1,所述候选词列表中的各候选词按照其出现频率排序;所述合成词生成单元根据所述划分得到的单词重新生成合成词,所述合成词由L个单词组成,L大于M;所述词列表生成单元根据所述合成词建立第三词列表,所述第三词列表包括所述各合成词及其在所述语料中的出现频率,所述第三词列表中的各合成词按照其出现频率排序,所述确定单元根据所述候选词列表中各候选词的出现频率和排序情况,以及所述第三词列表中包含所述各候选词的合成词的出现频率和排序情况,确定各关键词;所述词列表生成单元、所述合成词生成单元和所述确定单元重复执行上述步骤一次或多次。可选地,所述确定单元判断所述第二词列表中合成词的出现频率与所述第一词列表中被所述合成词包含的单词的出现频率的比值是否大于阈值,在所述比值大于所述阈值的情况下,将所述合成词确定为关键词,在所述比值小于或等于所述阈值的情况下,判断所述合成词在所述第二列表中的排序是否高于所述单词在所述第一次列表中的排序,所述第一次列表中的单词按照单词的出现频率从高到低排序,所述第二次列表中的合成词按照合成词的出现频率从高到低排序,在是的情况下,将所述合成词确定为所述关键词,在否的情况下,将所述单词确定为所述关键词。根据本公开的再一些实施例,提供了一种答案的确定装置,包括:所述任一个实施例中的关键词的确定装置;和答案生成单元,用于根据接收到的问题中包含的所述关键词,在数据库中查找相应文档以生成所述问题的一个或多个答案。可选地,所述答案生成单元还用于根据生成的各答案建立候选答案数据库,所述候选答案数据库中包含所述各答案的调用次数和所述各答案的意图标签,所述调用次数为所述各答案被用来回答问题的次数,所述意图标签根据所述各答案被用来回答问题时该问题所在会话的上下文的意图生成,从当前问题所在的会话中确定所述当前问题的意图,根据所述当前问题的意图和所述候选答案数据库中的意图标签,在所述候选答案数据库中确定各候选答案及其第一评分,计算所述当前问题与所述各候选答案的文本匹配程度作为所本文档来自技高网...

【技术保护点】
1.一种关键词的确定方法,包括:将语料中的句子划分为多个单词;根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;根据划分得到的单词生成各合成词,所述合成词由N个单词组成,N大于等于2;根据所述各合成词建立第二词列表,所述第二词列表包括所述各合成词及其在所述语料中的出现频率,所述第二词列表中的各合成词按照其出现频率排序;根据所述第一词列表中各单词的出现频率和排序情况,以及所述第二词列表中包含所述各单词的合成词的出现频率和排序情况,确定各关键词。

【技术特征摘要】
1.一种关键词的确定方法,包括:将语料中的句子划分为多个单词;根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;根据划分得到的单词生成各合成词,所述合成词由N个单词组成,N大于等于2;根据所述各合成词建立第二词列表,所述第二词列表包括所述各合成词及其在所述语料中的出现频率,所述第二词列表中的各合成词按照其出现频率排序;根据所述第一词列表中各单词的出现频率和排序情况,以及所述第二词列表中包含所述各单词的合成词的出现频率和排序情况,确定各关键词。2.根据权利要求1所述的确定方法,还包括:将所述关键词作为候选词,并根据所述候选词建立候选词列表,所述候选词列表中包含所述候选词及其在所述语料中的出现频率,所述候选词最多由M个单词组成,M大于等于1,所述候选词列表中的各候选词按照其出现频率排序;根据所述划分得到的单词重新生成合成词,所述合成词由L个单词组成,L大于M;根据所述合成词建立第三词列表,所述第三词列表包括所述各合成词及其在所述语料中的出现频率,所述第三词列表中的各合成词按照其出现频率排序;根据所述候选词列表中各候选词的出现频率和排序情况,以及所述第三词列表中包含所述各候选词的合成词的出现频率和排序情况,确定各关键词;重复执行上述步骤一次或多次。3.根据权利要求1所述的确定方法,其中,所述确定各关键词包括:判断所述第二词列表中合成词的出现频率与所述第一词列表中被所述合成词包含的单词的出现频率的比值是否大于阈值;在所述比值大于所述阈值的情况下,将所述合成词确定为关键词;在所述比值小于或等于所述阈值的情况下,判断所述合成词在所述第二列表中的排序是否高于所述单词在所述第一次列表中的排序,所述第一次列表中的单词按照单词的出现频率从高到低排序,所述第二次列表中的合成词按照合成词的出现频率从高到低排序,在是的情况下,将所述合成词确定为所述关键词,在否的情况下,将所述单词确定为所述关键词。4.一种答案的确定方法,包括:权利要求1-3任一项所述关键词的确定方法;和根据接收到的问题中包含的所述关键词,在数据库中查找相应文档以生成所述问题的一个或多个答案。5.根据权利要求4所述的确定方法,还包括:根据生成的各答案建立候选答案数据库,所述候选答案数据库中包含所述各答案的调用次数和所述各答案的意图标签,所述调用次数为所述各答案被用来回答问题的次数,所述意图标签根据所述各答案被用来回答问题时该问题所在会话的上下文的意图生成;从当前问题所在的会话中确定所述当前问题的意图;根据所述当前问题的意图和所述候选答案数据库中的所述意图标签,在所述候选答案数据库中确定各候选答案及其第一评分;计算所述当前问题与所述各候选答案的文本匹配程度作为所述各候选答案的第二评分;根据所述第一评分、所述第二评分和所述各候选答案的调用次数确定所述当前问题的答案。6.根据权利要求5所述的确定方法,还包括:根据确定的答案的意图标签在所述数据库中查找相应的文本;根据所述相应的文本,回答所述当前问题。7.一种关键词的确定装置,包括:划分单元,用于将语料中的句子划分为多个单词;词列表生成单元,用于根据所述多个单词建立第一词列表,所述第一词列表中包括各单词及其在所述语料中的出现频率,所述第一词列表中的各单词按照其出现频率排序;合成词生成单元,用于根据划分得到的单词生...

【专利技术属性】
技术研发人员:梁仕强
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1