【技术实现步骤摘要】
排序模型确定方法、排序方法、装置及电子设备
本申请涉及机器阅读理解
,具体而言,涉及一种排序模型确定方法、排序方法、装置及电子设备。
技术介绍
近些年,机器阅读理解被广泛的应用于各种文章的动态信息抽取,以及各种问答机器人的辅助上,然而,在未给定回答目标问题的文档时,想要获得答案,召回文档就显得至关重要了。目前,召回文档的通用办法是通过搜索引擎,从文档数据库中,召回多个与目标问题对应的多个候选文档。以ElasticSearch搜索引擎为例,虽然其召回TOP10的准确率已经达到90%,但是对于基于阅读理解式的问答系统,从TOP10的候选文档中去寻找答案的计算量和准确度都是一种挑战。另外,现有的预训练语言模型都是通用领域的,通过通用领域的预训练语言模型去处理领域内任务会损失一定程度的准确度。
技术实现思路
本申请的目的在于,提供一种排序模型确定方法、排序方法、装置及电子设备,以解决上述问题。第一方面,本申请提供的排序模型确定方法,包括:通过搜索引擎,从文档数据库中,召回多个与训练问题集对应 ...
【技术保护点】
1.一种排序模型确定方法,其特征在于,包括:/n通过搜索引擎,从文档数据库中,召回多个与训练问题集对应的候选文档集,多个所述候选文档集中,每个候选文档集包括的候选文档数量不同;/n针对多个所述候选文档集中的每个候选文档集,根据所述训练问题集中每个训练问题对应的问题答案,为所述候选文档集包括的每篇候选文档添加文档标记;/n针对多个所述候选文档集中的每个候选文档集,构建对应的训练数据集,以获得多个训练数据集,所述训练数据集包括所述训练问题集中每个训练问题,以及所述训练数据集对应的候选文档集中,添加有文档标记的每篇候选文档;/n通过所述多个训练数据集,分别对预训练语言模型进行训练 ...
【技术特征摘要】
1.一种排序模型确定方法,其特征在于,包括:
通过搜索引擎,从文档数据库中,召回多个与训练问题集对应的候选文档集,多个所述候选文档集中,每个候选文档集包括的候选文档数量不同;
针对多个所述候选文档集中的每个候选文档集,根据所述训练问题集中每个训练问题对应的问题答案,为所述候选文档集包括的每篇候选文档添加文档标记;
针对多个所述候选文档集中的每个候选文档集,构建对应的训练数据集,以获得多个训练数据集,所述训练数据集包括所述训练问题集中每个训练问题,以及所述训练数据集对应的候选文档集中,添加有文档标记的每篇候选文档;
通过所述多个训练数据集,分别对预训练语言模型进行训练,获得多个排序模型;
分别对所述多个排序模型进行测试,获得多个测试结果,以根据所述多个测试结果,从所述多个排序模型中选取出目标模型。
2.根据权利要求1所述的排序模型确定方法,其特征在于,所述通过搜索引擎,从文档数据库中,召回多个与训练问题集对应的候选文档集,包括:
确定出多个比例数值,所述多个比例数值中,每个比例数值不同,且每个比例数值为大于1的整数;
针对所述多个比例数值中的每个比例数值,针对所述训练问题集中的每个训练问题,通过所述搜索引擎,从所述文档数据库中,召回所述比例数值篇与所述训练问题对应的候选文档,组成一个所述候选文档集,以获得多个所述候选文档集。
3.根据权利要求2所述的排序模型确定方法,其特征在于,所述通过所述搜索引擎,从所述文档数据库中,召回所述比例数值篇与所述训练问题对应的候选文档,组成一个所述候选文档集,包括:
通过关键词抽取算法,从所述训练问题中,获取至少一个关键词;
通过所述搜索引擎,从所述文档数据库中,召回所述比例数值篇与所述至少一个关键词对应的候选文档,组成一个所述候选文档集。
4.根据权利要求1或2所述的排序模型确定方法,其特征在于,所述文档标记包括第一文档标记和第二文档标记,所述根据所述训练问题集中每个训练问题对应的问题答案,为所述候选文档集包括的每篇候选文档添加文档标记,包括:
针对所述候选文档集中包括的每篇候选文档,确定出与所述候选文档对应的训练问题,并判断所述候选文档中,是否包括与所述训练问题对应的问题答案;
若所述候选文档中,包括与所述训练问题对应的问题答案,则为所述候选文档添加第一文档标记;
若所述候选文档中,不包括与所述训练问题对应的问题答案,则为所述候选文档添加第二文档标记。
5.根据权利要求2所述的排序模型确定方法,其特征在于,所述分别对所述多个排序模型进行测试,获得多个测试结果,以根据所述多个测试结果,从所述多个排序模型中选取出目标模型,包括:
针对所述多个排序模型中的每个排序模型,确定出所述排序模型对应的比例数值,并针对测试问题集中的每个测试问题,通过所述搜索引擎,从所述文档数据库中,召回所述比例数值篇与所述测试问题对应的测试文档,构建一个...
【专利技术属性】
技术研发人员:王福钋,杜新凯,韩佳,史辉,高峰,刘谦,史祎凡,蔡岩松,
申请(专利权)人:阳光保险集团股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。