关键词组合生成模型训练方法及装置制造方法及图纸

技术编号:32182589 阅读:13 留言:0更新日期:2022-02-08 15:45
本申请提供关键词组合生成模型训练方法及装置,其中所述关键词组合生成模型训练方法包括:获取样本问题和所述样本问题对应的样本答案;提取所述样本问题的至少一个初始关键词组合,确定每个初始关键词组合对应的关联文档集合;根据所述样本答案和每个关联文档集合确定种子关键词组合;根据所述种子关键词组合确定所述样本问题的样本关键词组合;根据所述样本问题和所述样本关键词组合训练关键词组合生成模型,直至达到训练停止条件。不仅可以提高对样本问题标注关键词组合的速度,还可以提高样本关键词组合的准确性,有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。识不匹配的问题。识不匹配的问题。

【技术实现步骤摘要】
关键词组合生成模型训练方法及装置


[0001]本申请涉及计算机技术的人工智能领域,特别涉及关键词组合生成模型训练方法及装置、关键词组合生成方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]随着计算机
人工智能的发展,自然语言处理领域也得到了快速发展,根据文本进行信息检索是自然语言处理领域的一个重要分支。人工智能(artificial intelligence;AI)是指已工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况,包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(NLP,Natural Language Processing)是计算机科学领域的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。随着自然语言处理技术的发展,各个应用程序的用户对应用程序能够准确识别和理解用户发出的问题的需求也越来越高。
[0003]对于问句处理任务,现有技术在垂直领域内的冷启动阶段进行检索时,由于没有用户数据,通常通过有监督的人工标注来标注不同问句中的关键词组合,进而训练机器学习的模型。但基于人工标注依赖于人的先验知识,在没有标注答案监督的情况下进行标注,会导致待处理问句中的关键词组合标注不准确,进而导致在某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配。因此,亟需一种有效的方案以解决上述问题。

技术实现思路

[0004]有鉴于此,本申请实施例提供了关键词组合生成模型训练方法及装置、关键词组合生成方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的关键词组合标注不准确、效率低等技术缺陷。
[0005]根据本申请实施例的第一方面,提供了一种关键词组合生成模型训练方法,包括:
[0006]获取样本问题和所述样本问题对应的样本答案;
[0007]提取所述样本问题的至少一个初始关键词组合,确定每个初始关键词组合对应的关联文档集合;
[0008]根据所述样本答案和每个关联文档集合确定种子关键词组合;
[0009]根据所述种子关键词组合确定所述样本问题的样本关键词组合;
[0010]根据所述样本问题和所述样本关键词组合训练关键词组合生成模型,直至达到训练停止条件。
[0011]根据本申请实施例的第二方面,提供了一种关键词组合生成方法,包括:
[0012]获取待处理问题;
[0013]将所述待处理问题输入至预先训练好的关键词组合生成模型,其中,所述关键词
组合生成模型是通过上述的关键词组合生成模型训练方法训练得到的;
[0014]所述关键词组合生成模型响应于所述待处理问题作为输入而生成关键词组合。
[0015]根据本申请实施例的第三方面,提供了一种关键词组合生成模型训练装置,包括:
[0016]第一获取模块,被配置为获取样本问题和所述样本问题对应的样本答案;
[0017]提取模块,被配置为提取所述样本问题的至少一个初始关键词组合,确定每个初始关键词组合对应的关联文档集合;
[0018]种子关键词组合确定模块,被配置为根据所述样本答案和每个关联文档集合确定种子关键词组合;
[0019]样本关键词组合确定模块,被配置为根据所述种子关键词组合确定所述样本问题的样本关键词组合;
[0020]训练模块,被配置为根据所述样本问题和所述样本关键词组合训练关键词组合生成模型,直至达到训练停止条件。
[0021]根据本申请实施例的第四方面,提供了一种关键词组合生成装置,包括:
[0022]第二获取模块,被配置为获取待处理问题;
[0023]输入模块,被配置为将所述待处理问题输入至预先训练好的关键词组合生成模型,其中,所述关键词组合生成模型是通过上述的关键词组合生成模型训练方法训练得到的;
[0024]生成模块,被配置为所述关键词组合生成模型响应于所述待处理问题作为输入而生成关键词组合。
[0025]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。
[0026]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。
[0027]根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该计算机指令被芯片执行时实现所述关键词组合生成模型训练方法或所述关键词组合生成方法的步骤。
[0028]本申请实施例提供的关键词组合生成模型训练方法,通过获取样本问题以及与样本问题对应的样本答案,对样本问题进行初始关键词组合的提取,并确定每个初始关键词组合的关联文档集合,进一步地,根据样本答案和关联文档集合确定出种子关键词组合,进而确定出样本关键词组合,在此基础上根据样本问题以及样本问题对应的样本关键词组合对关键词组合生成模型进行训练,直至达到训练停止条件。如此,不仅可以提高对样本问题标注关键词组合的速度,还可以提高样本关键词组合的准确性,有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。进一步地,通过分词与过滤停用词的方式在所述样本问题中提取初始关键词组合,节省了计算资源,提高了后续根据关键词组合进行检索的检索效率;根据样本答案在管理文档集合中匹配并确定样本关联文档集合,保证了样本答案与样本关联文档集合的匹配程度,解决了现有技术中利用人工标注关键词导致的在某些垂直领域内检索答案不准确的问题。
附图说明
[0029]图1是本申请一实施例提供的计算设备的结构框图;
[0030]图2是本申请一实施例提供的关键词组合生成模型训练方法的流程图;
[0031]图3是本申请一实施例提供的关键词组合生成方法的示意图;
[0032]图4是本申请一实施例提供的应用于一个具体应用场景中的流程图;
[0033]图5是本申请一实施例提供的关键词组合生成模型训练装置的结构示意图;
[0034]图6是本申请一实施例提供的关键词组合生成装置的结构示意图。
具体实施方式
[0035]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0036]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键词组合生成模型训练方法,其特征在于,包括:获取样本问题和所述样本问题对应的样本答案;提取所述样本问题的至少一个初始关键词组合,确定每个初始关键词组合对应的关联文档集合;根据所述样本答案和每个关联文档集合确定种子关键词组合;根据所述种子关键词组合确定所述样本问题的样本关键词组合;根据所述样本问题和所述样本关键词组合训练关键词组合生成模型,直至达到训练停止条件。2.如权利要求1所述的方法,其特征在于,所述确定每个初始关键词组合对应的关联文档集合,包括:搜索所述每个初始关键词组合对应的初始关联文档;对所述每个初始关键词组合对应的初始关联文档进行筛选,生成每个初始关键词组合对应的关联文档集合。3.如权利要求1所述的方法,其特征在于,所述根据所述样本答案和每个关联文档集合确定种子关键词组合,包括:根据所述样本答案和每个关联文档集合确定样本关联文档集合;将所述样本关联文档集合对应的初始关键词组合确定为种子关键词组合。4.如权利要求3所述的方法,其特征在于,所述根据所述样本答案和每个关联文档集合确定样本关联文档集合,包括:将所述样本答案与每个关联文档集合中的关联文档进行匹配;确定与所述样本答案匹配的关联文档为样本关联文档,将所述样本关联文档对应的关联文档集合确定为样本关联文档集合。5.如权利要求1所述的方法,其特征在于,所述根据所述种子关键词组合确定所述样本问题的样本关键词组合,包括:获取每个种子关键词组合对应的关联文档集合中与所述样本答案相匹配的样本关联文档;获取每个种子关键词组合对应的关联文档集合中所述样本关联文档的排名;根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合。6.如权利要求5所述的方法,其特征在于,所述根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合,包括:将所述排名在预设排名范围内的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合;和/或将所述排名最高的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合。7.如权利要求1所述的方法,其特征在于,所述根据所述种子关键词组合确定所述样本问题的样本关键词组合,包括:将所述种子关键词组合中包含关键词最多的种子关键词组合确定为样本关键词组合。8.如权利要求1所述的方法,其特征在于,所述提取所述样本问题的至少一个初始关键
词组合,包括:对所述样本问题进行分词处理,得到所述样本问题的至少一个关键词;根据所述至少一个关键词确定至少一个初始关键词组合。...

【专利技术属性】
技术研发人员:吴思远李长亮李小龙
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1