词权重生成模型训练方法及装置、词权重生成方法及装置制造方法及图纸

技术编号：30703266 阅读：17 留言：0更新日期：2021-11-06 09:43

本申请提供词权重生成模型训练方法及装置、词权重生成方法及装置，其中所述词权重生成模型训练方法包括：分别获取目标问题、所述目标问题对应的目标答案；提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合获得每个目标关键词的目标权重值；根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件，通过本申请提供的方法，解决了无监督方法中无法利用语义和文本信息的缺点。本信息的缺点。本信息的缺点。

全部详细技术资料下载

【技术实现步骤摘要】
词权重生成模型训练方法及装置、词权重生成方法及装置

[0001]本申请涉及计算机技术中的人工智能领域，特别涉及词权重生成模型训练方法及装置、词权重生成方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]人工智能(artificial intelligenc)是一门交叉学科，通常视为计算机科学的分支，研究表现出与人类智能(如推理和学习)相关的各种功能的模型和系统。随着人工智能技术的发展，自然语言处理领域也得到了快速发展，自然语言处理(Natural Language Processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。根据文本进行信息检索是自然语言处理领域的一个重要分支。
[0003]在根据文本进行信息检索的过程中，文本信息中的词权重值是信息检索研究的一个基本问题，目的是对文本中的词赋予不同的权重值，便于在后续的处理过程中更有侧重点，现有的常用词权重计算方法主要分为有监督训练模型和无监督计算的方法，其中，有监督训练方法需要通过大量的人工标注的数据训练一个回归模型进行词权重预测，但是人工标注成本较高且人工标注难度较大，而无监督计算方法通常是通过如TF
‑
IDF、TextRank等算法进行计算，无监督计算的方法虽然不需要人工标注，但是无法有效利用文本中的语义信息，导致相同的词在不同的文本中具有相同的权重，生成的词权重值效果较差。

技术实现思路

[0004]有鉴于此，本申请实施例提供了词...

【技术保护点】

【技术特征摘要】
1.一种词权重生成模型训练方法，其特征在于，包括：分别获取目标问题、所述目标问题对应的目标答案；提取所述目标问题的关键词，组成关键词组合，根据至少一个所述关键词组合确定初始文档集合；根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合；根据所述目标关键词组合获得每个目标关键词的目标权重值；根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，直至达到训练停止条件。2.如权利要求1所述的词权重生成模型训练方法，其特征在于，提取所述目标问题的关键词，组成关键词组合，包括：提取所述目标问题的至少一个关键词；根据所述至少一个关键词生成关键词组合。3.如权利要求1所述的词权重生成模型训练方法，其特征在于，根据至少一个所述关键词组合确定初始文档集合，包括：搜索并获取每个关键词组合对应的初始文档；将每个上述初始文档组合成为初始文档集合。4.如权利要求3所述的词权重生成模型训练方法，其特征在于，根据所述目标答案和所述初始文档集合确定目标文档集合和目标关键词组合，包括：根据所述目标答案在所述初始文档集合中确定目标文档集合；根据所述目标文档集合确定目标关键词组合。5.如权利要求4所述的词权重生成模型训练方法，其特征在于，根据所述目标答案在所述初始文档集合中确定目标文档集合，包括：将所述目标答案与所述初始文档集合中的初始文档进行匹配；确定与所述目标答案匹配的初始文档为目标文档，并将至少一个或多个目标文档组合生成目标文档集合。6.如权利要求5所述的词权重生成模型训练方法，其特征在于，根据所述目标文档集合确定目标关键词组合，包括：将每篇目标文档对应的关键词组合确定为目标关键词组合。7.如权利要求1所述的词权重生成模型训练方法，其特征在于，根据所述目标关键词组合获得每个目标关键词的目标权重值，包括：根据每个目标关键词在所述目标关键词集合中出现的次数确定每个目标关键词的第一权重值；将每个目标关键词在所述目标文档集合中的逆文档频率作为每个目标关键词的第二权重值；根据每个目标关键词的第一权重值和第二权重值获得每个目标关键词的目标权重值。8.如权利要求1所述的词权重生成模型训练方法，其特征在于，根据所述目标问题、每个目标关键词和目标权重值训练词权重生成模型，包括：将所述目标问题和每个目标关键词输入至词权重模型；响应于作为输入的所述目标问题和每个目标关键词，所述词权重模型生成每个目标关
键词对应的预测权重值；根据每个目标关键词对应的预测权重值和目标权重值，计算得到损失值；根据所述损失值调整所述词权重模型的参数。9.如权利要求8所述的词权重生成模型训练方法，其特征在于，响应于作为输入的所述目标问题和每个目标关键词，所...

【专利技术属性】
技术研发人员：王丙琛，李长亮，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人