词权重生成模型训练方法及装置、词权重生成方法及装置制造方法及图纸

技术编号:30703266 阅读:17 留言:0更新日期:2021-11-06 09:43
本申请提供词权重生成模型训练方法及装置、词权重生成方法及装置,其中所述词权重生成模型训练方法包括:分别获取目标问题、所述目标问题对应的目标答案;提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合获得每个目标关键词的目标权重值;根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件,通过本申请提供的方法,解决了无监督方法中无法利用语义和文本信息的缺点。本信息的缺点。本信息的缺点。

【技术实现步骤摘要】
词权重生成模型训练方法及装置、词权重生成方法及装置


[0001]本申请涉及计算机技术中的人工智能领域,特别涉及词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligenc)是一门交叉学科,通常视为计算机科学的分支,研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统。随着人工智能技术的发展,自然语言处理领域也得到了快速发展,自然语言处理(Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。根据文本进行信息检索是自然语言处理领域的一个重要分支。
[0003]在根据文本进行信息检索的过程中,文本信息中的词权重值是信息检索研究的一个基本问题,目的是对文本中的词赋予不同的权重值,便于在后续的处理过程中更有侧重点,现有的常用词权重计算方法主要分为有监督训练模型和无监督计算的方法,其中,有监督训练方法需要通过大量的人工标注的数据训练一个回归模型进行词权重预测,但是人工标注成本较高且人工标注难度较大,而无监督计算方法通常是通过如TF

IDF、TextRank等算法进行计算,无监督计算的方法虽然不需要人工标注,但是无法有效利用文本中的语义信息,导致相同的词在不同的文本中具有相同的权重,生成的词权重值效果较差。

技术实现思路

[0004]有鉴于此,本申请实施例提供了词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
[0005]根据本申请实施例的第一方面,提供了一种词权重生成模型训练方法,包括:
[0006]分别获取目标问题、所述目标问题对应的目标答案;
[0007]提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;
[0008]根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
[0009]根据所述目标关键词组合获得每个目标关键词的目标权重值;
[0010]根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件。
[0011]根据本申请实施例的第二方面,提供了一种词权重生成方法,包括:
[0012]获取待处理问题,并提取所述待处理问题的目标关键词;
[0013]将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过权利要求1

10任意一项所述的词权重生成模型训练方法或者其他训练方法训练获得的;
[0014]响应于作为输入的所述待处理问题和所述目标关键词,所述词权重模型生成每个
目标关键词对应的预测权重值。
[0015]根据本申请实施例的第三方面,提供了一种词权重生成模型训练装置,包括:
[0016]获取模块,被配置为分别获取目标问题、所述目标问题对应的目标答案;
[0017]提取模块,被配置为提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;
[0018]确定模块,被配置为根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;
[0019]权重值获得模块,被配置为根据所述目标关键词组合获得每个目标关键词的目标权重值;
[0020]训练模块,被配置为根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件。
[0021]根据本申请实施例的第四方面,提供了一种词权重生成装置,包括:
[0022]获取模块,被配置为获取待处理问题,并提取所述待处理问题的目标关键词;
[0023]输入模块,被配置为将所述待处理问题和所述目标关键词输入至预先训练好的词权重生成模型,其中,所述词权重生成模型是通过权利要求1

10任意一项所述的词权重生成模型训练方法或者其他训练方法训练获得的;
[0024]生成模块,被配置为响应于作为输入的所述待处理问题和所述目标关键词,所述词权重模型生成每个目标关键词对应的预测权重值。
[0025]根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。
[0026]根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。
[0027]根据本申请实施例的第七方面,提供了一种芯片,其存储有计算机指令,该指令被芯片执行时实现所述词权重生成模型训练方法或所述词权重生成方法的步骤。
[0028]本申请实施例提供的词权重生成模型训练方法中,包括分别获取目标问题、所述目标问题对应的目标答案;提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合获得每个目标关键词的目标权重值;根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件。本申请实施例提供的词权重生成模型训练方法,可以计算目标关键词在不同的文档中不同的权重值,提高了生成关键词的权重值的准确度。
[0029]其次,通过日志记录信息获取目标问题和目标答案,解决了人工标注数据费时费力的问题,通过线上点击数据,实现了无需人工的自动化训练样本构建目标。
[0030]最后,在词权重生成模型中,根据关键词的语义和特征信息,可以综合利用更多文本语义和文本信息的特征,更好的生成目标关键词和关键词权重。
附图说明
[0031]图1是本申请实施例提供的计算设备的结构框图;
[0032]图2是本申请实施例提供的词权重生成模型训练方法的流程图;
[0033]图3是本申请实施例提供的每个关键词组合搜索后获得召回文档的示意图;
[0034]图4是本申请实施例提供的词权重生成方法的流程图;
[0035]图5是本申请实施例提供的词权重生成模型训练装置的结构示意图;
[0036]图6是本申请实施例提供的词权重生成装置的结构示意图。
具体实施方式
[0037]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0038]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词权重生成模型训练方法,其特征在于,包括:分别获取目标问题、所述目标问题对应的目标答案;提取所述目标问题的关键词,组成关键词组合,根据至少一个所述关键词组合确定初始文档集合;根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合;根据所述目标关键词组合获得每个目标关键词的目标权重值;根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,直至达到训练停止条件。2.如权利要求1所述的词权重生成模型训练方法,其特征在于,提取所述目标问题的关键词,组成关键词组合,包括:提取所述目标问题的至少一个关键词;根据所述至少一个关键词生成关键词组合。3.如权利要求1所述的词权重生成模型训练方法,其特征在于,根据至少一个所述关键词组合确定初始文档集合,包括:搜索并获取每个关键词组合对应的初始文档;将每个上述初始文档组合成为初始文档集合。4.如权利要求3所述的词权重生成模型训练方法,其特征在于,根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合,包括:根据所述目标答案在所述初始文档集合中确定目标文档集合;根据所述目标文档集合确定目标关键词组合。5.如权利要求4所述的词权重生成模型训练方法,其特征在于,根据所述目标答案在所述初始文档集合中确定目标文档集合,包括:将所述目标答案与所述初始文档集合中的初始文档进行匹配;确定与所述目标答案匹配的初始文档为目标文档,并将至少一个或多个目标文档组合生成目标文档集合。6.如权利要求5所述的词权重生成模型训练方法,其特征在于,根据所述目标文档集合确定目标关键词组合,包括:将每篇目标文档对应的关键词组合确定为目标关键词组合。7.如权利要求1所述的词权重生成模型训练方法,其特征在于,根据所述目标关键词组合获得每个目标关键词的目标权重值,包括:根据每个目标关键词在所述目标关键词集合中出现的次数确定每个目标关键词的第一权重值;将每个目标关键词在所述目标文档集合中的逆文档频率作为每个目标关键词的第二权重值;根据每个目标关键词的第一权重值和第二权重值获得每个目标关键词的目标权重值。8.如权利要求1所述的词权重生成模型训练方法,其特征在于,根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型,包括:将所述目标问题和每个目标关键词输入至词权重模型;响应于作为输入的所述目标问题和每个目标关键词,所述词权重模型生成每个目标关
键词对应的预测权重值;根据每个目标关键词对应的预测权重值和目标权重值,计算得到损失值;根据所述损失值调整所述词权重模型的参数。9.如权利要求8所述的词权重生成模型训练方法,其特征在于,响应于作为输入的所述目标问题和每个目标关键词,所...

【专利技术属性】
技术研发人员:王丙琛李长亮
申请(专利权)人:北京金山数字娱乐科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1