一种面向特定领域的智能问答系统冷启动方法及装置制造方法及图纸

技术编号:36813144 阅读:11 留言:0更新日期:2023-03-09 00:57
本发明专利技术公开了一种面向特定领域的智能问答系统冷启动方法及装置,通过种子关键词与关键词联想工具的结合,可以批量化、自动化地搜集大规模形式多样、覆盖面广的问题

【技术实现步骤摘要】
一种面向特定领域的智能问答系统冷启动方法及装置


[0001]本专利技术涉及自然语言处理
,尤其涉及一种面向特定领域的智能问答系统冷启动方法及装置。

技术介绍

[0002]在系统构建初期,缺乏有价值数据的时候,如何有效地满足业务需求的问题,即为“冷启动”问题。冷启动问题是机器学习系统中十分常见、无法回避的问题,因为任何机器学习系统都要经历从无到有的过程,冷启动能够保证在产品早期用户的使用要求。
[0003]问答系统是自然语言处理领域一个经典问题,它主要用于回答人们以自然语言形式提出的问题,在智能语音交互、在线客服、知识获取等场景中有着广泛的应用。智能问答模型通常是基于有监督式学习,这种学习方式通常十分依赖高质量文本,然而系统构建初期普遍面临缺乏有价值数据的压力和挑战,现有的面向智能问答系统的冷启动策略大多采用人工问答方式产生种子数据,或者是基于规则的方法按照特定模式自动生成用户问答数据集,所述两种方法虽然可以挖掘和积累一定数据量的原始问答集,但也存在一些不容忽视的问题。一方面,基于规则方式可以自动化、批量化地获取数据,但存在数据模式单一,数据缺乏真实性、数据质量参差不齐、数据混乱甚至无效等特点;另一方面,依赖人工方式实现大规模数据集的构造,容易使得制作数据集的成本过高,此外,数据标注任务受标注人员主观影响大,会引入一定的标注误差,导致数据一致性难以保证。
[0004]近年来,凭借着强大的泛化能力和对数据的高效利用,预训练模型已在自然语言处理、计算机视觉等多个领域取得了显著效果,特别是针对零样本和少样本学习场景,基于提示的预训练模型研究获得了长足发展,然目前为止,却鲜有看见预训练模型在冷启动场景中的应用。

技术实现思路

[0005]本专利技术的目的是克服现有技术存在的问题,提供了一种面向特定领域的智能问答系统冷启动方法和装置。
[0006]本专利技术通过以下技术方案来实现上述目的:
[0007]一种面向特定领域的智能问答系统冷启动方法及装置,包括以下步骤:
[0008]步骤A,获取面向特定领域的种子关键词数据集;
[0009]步骤B,基于种子关键词数据集,构建粗粒度问题

答案来源文档数据集,实现问题Q
i
和答案来源文档Doc
i
的关联;
[0010]步骤C,构建阅读理解模型;
[0011]步骤D,获取细粒度问题

答案数据集,对粗粒度问题

答案来源文档数据集,基于阅读理解模型从文档Doc
i
中生成对应问题Q
i
的答案片段Ans
i
,若Ans
i
不为空,则将问题Q
i
和Ans
i
关联,形成细粒度问题

答案数据集;
[0012]步骤E,对细粒度问题

答案数据集进行质量检测,将检测合格的问题

答案抽取出
来放入至标准问题

答案库中;
[0013]步骤F,构建检索式预训练模型;
[0014]步骤G,当获取到用户查询时,基于所述检索式预训练模型,将用户查询和所述标准问题

答案库中的所有问题进行相似性度量,选择与用户查询最相似问题所关联的答案作为最优答案返回给用户,并保存用户查询和响应结果的三元信息,即(用户查询,最相似问题,最优答案)三元组,用于后续模型优化和业务迭代。
[0015]进一步方案为,所述步骤A中,获取特定领域种子关键词数据集的方法包括:由领域专家人工构建;基于统计的方法,如新词发现;从领域相关的开放数据源,如:网页、论文、专利等资料中,利用规则方法抽取种子关键词;结合上述方式构建种子关键词数据集。
[0016]进一步方案为,所述步骤B中,具体包括;
[0017]B1、从所述种子关键词数据集中采样m个关键词,采用非空任意符将这m个关键词串联起来,组成新关键词w,重复采样多次,形成新关键词集合Corpus_key;
[0018]B2、针对所述新关键词集合Corpus_key中的任意关键词w
i
,基于关键词联想工具,将新关键词w
i
扩展成为待搜索词条W
i
,通过搜索引擎对待搜索词条W
i
进行搜索,获得相关搜索结果(网页数据),重复搜索过程多次,形成搜索结果集合Corpus_search;
[0019]B3、对搜素结果集合Corpus_search进行去重、筛选,过滤掉领域无关、文章体裁不符等网页数据,得到有效网页数据集合;
[0020]B4、对获取到的有效网页数据集合进行处理,将网页数据的标题作为问题,网页数据的正文作为答案来源文档,然后把问题和答案来源文档关联起来,构建粗粒度问题

答案来源文档数据集。
[0021]进一步方案为,所述步骤B1包括:
[0022]种子关键词数据集合的大小为n,每次从种子关键词数据集合中采样的关键词个数为m:1≤m≤n,完整采样过程结束后,新关键词集合的大小为:
[0023][0024]所述步骤B2包括:
[0025]所述关键词联想工具t的个数为a,a≥1,获取的待搜索词条集合Corpus_entry为所有关键词联想工具针对所有新关键词扩展得到的词条的总和:
[0026][0027]式(2)中的f指的是关键词扩展过程;
[0028]所述搜索引擎的个数为b,b≥1;获得的搜索结果(网页数据)集合为所有搜索引擎基于上述待搜索词条集合进行词条搜索而得到的搜索结果的总和:
[0029][0030]式(3)中的g指的是词条搜索过程;
[0031]关键词联想工具包括:关键词联想API、关键词联想生成器等;
[0032]关键词联想API包括:百度搜索关键词联想API、谷歌搜索关键词联想API、搜狗搜
索关键词联想API等;
[0033]关键词联想生成器包括各类开源、半开源、闭源等形式的关键词联想生成工具;
[0034]所述步骤B3包括:
[0035]对网页数据的分析主体包括:网页数据标题、网页数据正文,所述网页关联的其它相关数据、网页数据等;
[0036]过滤网页数据的方式包括:基于规则的方式、基于人工方式、基于规则与人工相结合方式。
[0037]进一步方案为,所述步骤C中,所述阅读理解模型类型可以为:抽取式阅读理解模型以及生成式阅读理解模型;
[0038]所述阅读理解模型具备两大功能:判别文档是否可用于回答相应问题;若文档可支持问题的回答,从文档中定位相应问题的答案;
[0039]所述阅读理解模型包括:开源预训练阅读理解模型、经过下游任务微调后的预训练阅读理解模型、从头开始训练获得的预训练阅读理解模型、以及各种开源、半开源、闭源形式的阅读理解模型。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向特定领域的智能问答系统冷启动方法,其特征在于,包括以下步骤:步骤A,获取面向特定领域的种子关键词数据集;步骤B,基于种子关键词数据集,构建粗粒度问题

答案来源文档数据集,实现问题Q
i
和答案来源文档Doc
i
的关联;步骤C,构建阅读理解模型;步骤D,获取细粒度问题

答案数据集,对粗粒度问题

答案来源文档数据集,基于阅读理解模型从文档Doc
i
中生成对应问题Q
i
的答案片段Ans
i
,若Ans
i
不为空,则将问题Q
i
和Ans
i
关联,形成细粒度问题

答案数据集;步骤E,对细粒度问题

答案数据集进行质量检测,将检测合格的问题

答案抽取出来放入至标准问题

答案库中;步骤F,构建检索式预训练模型;步骤G,当获取到用户查询时,基于所述检索式预训练模型,将用户查询和所述标准问题

答案库中的所有问题进行相似性度量,选择与用户查询最相似问题所关联的答案作为最优答案返回给用户,并保存用户查询和响应结果的三元信息,用于后续模型优化和业务迭代。2.如权利要求1所述的一种面向特定领域的智能问答系统冷启动方法,其特征在于,所述步骤A中,获取特定领域种子关键词数据集的方法包括:由领域专家人工构建;基于统计的方法;从领域相关的开放数据源,利用规则方法抽取种子关键词;结合上述方式构建种子关键词数据集。3.如权利要求1所述的一种面向特定领域的智能问答系统冷启动方法,其特征在于,所述步骤B中,具体包括;B1、从所述种子关键词数据集中采样m个关键词,采用非空任意符将这m个关键词串联起来,组成新关键词w,重复采样多次,形成新关键词集合Corpus_key;B2、针对所述新关键词集合Corpus_key中的任意关键词w
i
,基于关键词联想工具,将新关键词w
i
扩展成为待搜索词条W
i
,通过搜索引擎对待搜索词条W
i
进行搜索,获得相关搜索结果,重复搜索过程多次,形成搜索结果集合Corpus_search;B3、对搜素结果集合Corpus_search进行去重、筛选,过滤掉领域无关、文章体裁不符网页数据,得到有效网页数据集合;B4、对获取到的有效网页数据集合进行处理,将网页数据的标题作为问题,网页数据的正文作为答案来源文档,然后把问题和答案来源文档关联起来,构建粗粒度问题

答案来源文档数据集。4.如权利要求3所述的一种面向特定领域的智能问答系统冷启动方法,其特征在于,所述步骤B1包括:种子关键词数据集合的大小为n,每次从种子关键词数据集合中采样的关键词个数为m:1≤m≤n,完整采样过程结束后,新关键词集合的大小为:所述步骤B2包括:所述关键词联想工具t的个数为a,a≥1,获取的待搜索词条集合Corpus_entry为所有
关键词联想工具针对所有新关键词扩展得到的词条的总和:式(2)中的f指的是关键词扩展过程;所述搜索引擎的个数为b,b≥1;获得的搜索结果集合为所有搜索引擎基于上述待搜索词条集合进行词条搜索而得到的搜索结果的总和:式(3)中的g指的是词条搜索过程;所述步骤B3包括:对网页数据的分析主体包括:网页数据标题、网页数据正文,所述网页关联的其它相关数据、网页数据;过滤网页数据的方式包...

【专利技术属性】
技术研发人员:杨兰周兴发饶璐谭斌孙锐展华益
申请(专利权)人:四川长虹电子控股集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1