关键词组合生成模型训练方法及装置制造方法及图纸

技术编号：32182589 阅读：13 留言：0更新日期：2022-02-08 15:45

本申请提供关键词组合生成模型训练方法及装置，其中所述关键词组合生成模型训练方法包括：获取样本问题和所述样本问题对应的样本答案；提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合；根据所述样本答案和每个关联文档集合确定种子关键词组合；根据所述种子关键词组合确定所述样本问题的样本关键词组合；根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。不仅可以提高对样本问题标注关键词组合的速度，还可以提高样本关键词组合的准确性，有效避免某些垂直领域搭建的数据库中关键词组合与人的先验知识不匹配的问题。识不匹配的问题。识不匹配的问题。

全部详细技术资料下载

【技术实现步骤摘要】
关键词组合生成模型训练方法及装置

[0001]本申请涉及计算机技术的人工智能领域，特别涉及关键词组合生成模型训练方法及装置、关键词组合生成方法及装置、计算设备和计算机可读存储介质。

技术介绍

[0002]随着计算机
人工智能的发展，自然语言处理领域也得到了快速发展，根据文本进行信息检索是自然语言处理领域的一个重要分支。人工智能(artificial intelligence；AI)是指已工程化(即设计并制造)的系统感知环境的能力，以及获取、处理、应用和表示知识的能力。人工智能领域关键技术的发展状况，包括机器学习、知识图谱、自然语言处理、计算机视觉、人机交互、生物特征识别、虚拟现实/增强现实等关键技术。自然语言处理(NLP，Natural Language Processing)是计算机科学领域的一个重要研究方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。随着自然语言处理技术的发展，各个应用程序的用户对应用程序能够准确识别和理解用户发出的问题的需求也越来越高。
[0003]对于问句处理任务，现有技术在垂直领域内的冷启动阶段进行检索时，由于没有用户数据，通常通过有监督的人工标注来标注不同问句中的关键词组合，进而训练机器学习的模型。但基于人工标注依赖于人的先验知识，在没有标注答案监督的情况下进行标注，会导致待处理问句中的关键词组合标注不准确，进而导致在某些垂直领域搭建的数据库中关键词组...

【技术保护点】

【技术特征摘要】
1.一种关键词组合生成模型训练方法，其特征在于，包括：获取样本问题和所述样本问题对应的样本答案；提取所述样本问题的至少一个初始关键词组合，确定每个初始关键词组合对应的关联文档集合；根据所述样本答案和每个关联文档集合确定种子关键词组合；根据所述种子关键词组合确定所述样本问题的样本关键词组合；根据所述样本问题和所述样本关键词组合训练关键词组合生成模型，直至达到训练停止条件。2.如权利要求1所述的方法，其特征在于，所述确定每个初始关键词组合对应的关联文档集合，包括：搜索所述每个初始关键词组合对应的初始关联文档；对所述每个初始关键词组合对应的初始关联文档进行筛选，生成每个初始关键词组合对应的关联文档集合。3.如权利要求1所述的方法，其特征在于，所述根据所述样本答案和每个关联文档集合确定种子关键词组合，包括：根据所述样本答案和每个关联文档集合确定样本关联文档集合；将所述样本关联文档集合对应的初始关键词组合确定为种子关键词组合。4.如权利要求3所述的方法，其特征在于，所述根据所述样本答案和每个关联文档集合确定样本关联文档集合，包括：将所述样本答案与每个关联文档集合中的关联文档进行匹配；确定与所述样本答案匹配的关联文档为样本关联文档，将所述样本关联文档对应的关联文档集合确定为样本关联文档集合。5.如权利要求1所述的方法，其特征在于，所述根据所述种子关键词组合确定所述样本问题的样本关键词组合，包括：获取每个种子关键词组合对应的关联文档集合中与所述样本答案相匹配的样本关联文档；获取每个种子关键词组合对应的关联文档集合中所述样本关联文档的排名；根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合。6.如权利要求5所述的方法，其特征在于，所述根据所述样本关联文档的排名确定所述种子关键词组合中所述样本问题的样本关键词组合，包括：将所述排名在预设排名范围内的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合；和/或将所述排名最高的所述样本关联文档对应的种子关键词组合确定为所述样本问题的样本关键词组合。7.如权利要求1所述的方法，其特征在于，所述根据所述种子关键词组合确定所述样本问题的样本关键词组合，包括：将所述种子关键词组合中包含关键词最多的种子关键词组合确定为样本关键词组合。8.如权利要求1所述的方法，其特征在于，所述提取所述样本问题的至少一个初始关键
词组合，包括：对所述样本问题进行分词处理，得到所述样本问题的至少一个关键词；根据所述至少一个关键词确定至少一个初始关键词组合。...

【专利技术属性】
技术研发人员：吴思远，李长亮，李小龙，
申请(专利权)人：北京金山数字娱乐科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人