本发明专利技术公开了一种基于迁移学习句向量的长文本答案选择方法,采用两阶段方法构建迁移学习句向量网络以及训练预测网络,其中迁移学习句向量网络包括包括孪生网络结构、注意力聚合结构和分类层;训练预测网络包括孪生网络结构和距离度量层。首先,本发明专利技术不需要对数据集文本序列进行分词,直接以完整的问题答案句子作为输入,避免了分词工具造成的错误传播。其次,第二阶段的训练预测网络结构简单,计算效率高。最后,引入迁移学习方法结合孪生网络结构及注意力机制获得语义更加相似的句向量模型权重,对第二阶段的训练预测网络提供了代表句子级的语义向量,获得了比传统方法及普通深度学习网络方法更好的效果,尤其对于长文本数据,其效果更突出。
A long text answer selection method based on transfer learning sentence vector
【技术实现步骤摘要】
一种基于迁移学习句向量的长文本答案选择方法
本专利技术涉及自然语言处理、深度学习中的预训练语言模型、注意力机制。具体为一种基于迁移学习句向量的长文本答案选择方法。
技术介绍
互联网在这些年高速发展,各种信息平台以“井喷”的方式暴增。据Hootsuite网站和wearesocial两个网站不完全统计,截至2019年,世界上的网民数量已经突破3.5亿人,而且全球45%的人口都是社交媒体的使用者。数据显示,从2018年到2019年网络用户新增了439万人次,而且社交媒体用户在这一年中增长了348万人次。大量的数据显示,目前全球网络已经到达了一个非常发达的盛世,随着网络带来的是无数的互联网知识信息。大量的网站承载着网络信息充斥在互联网环境中,带来的问题是如何有效的搜索利用,因此搜索引擎的存在就显得非常重要。现在计算机的存储和计算速度已经迎来了黄金时代,以前计算机的计算能力和存储能力成为阻碍搜索引擎发展的绊脚石,这些问题随着高性能计算,高性能存储的到来,如何高效精准搜索到最相关的检索结果成为搜索引擎的研究重点。针对这个研究重点,我们必须攻克的是精准检索海量文档中最相关的信息这一难题。纵观搜索发展历史,第一代搜索引擎Archie3主要用来搜索分布在各个主机中的文件。当万维网出现后,出现了EINetGalaxy(TradewaveGalaxy)4,功能相当于是最早的门户网站。中间经过历代搜索引擎技术更新,在以百度、谷歌、微软等大型互联网公司主导的Baidu搜索引擎、Google搜索引擎、Bing搜索引擎为主的竞争下,如何精准搜索将仍是今后一直持续的研究热点。随着人工智能浪潮兴起,机器学习,深度学习方法为图像识别、自然语言处理、语音识别处理等领域带来了新的解决思路。面对搜索引擎检索召回的结果不理想的现状,很多检索结果需要搜索人进行二次筛选过滤,因此自动问答技术应运而生。答案选择技术是自动问答技术中的一个重要步骤,在生活中有着广泛应用,如小米的小爱同学、Iphone的Siri、微软的小冰以及百度度秘等等都是自动问答技术的实际落地产物。在任务型自动问答领域,自动问答技术成就的机器人助手能够极大的解放双手,只用语音命令即可控制完成一系列任务。在闲聊型自动问答领域,闲聊机器人可以为乏味枯燥的生活中增添一丝人生乐趣。在现代医学领域,自动问答技术可以为医生患者构建更加方便高效的沟通方式。因此,如何改进自动问答领域的问答精准性变得尤为重要,针对检索型自动问答领域,在其中扮演着非常重要角色的答案选择技术,在上文中介绍的搜索引擎中同样占据着非常重要的角色。现有的答案选择方法通常使用孪生网络结构,对问题文本和答案文本分别建模,最后通过余弦距离等相似度度量方法分辨问题和答案是否匹配。但是传统方法主要是聚焦在短文本匹配任务上,缺乏对长文本应用场景的研究,难以解决长文本应用领域的“语义迁移”和“语义鸿沟”等问题。而且由于医疗领域的问答数据普遍具有“问题短答案长”的特性,其使用现有的答案选择方法匹配效果和召回精度都无法满足上线需要,因此为了更好地对长文本数据进行答案选择,主要涉及的技术难点如下:1.如何设计模型建模长文本序列;2.如何利用外部知识,引入迁移学习方法提升召回精度;3.如何设计评价指标量化模型的效果。
技术实现思路
为了解决上述问题,本专利技术提出了一种基于迁移学习句向量的长文本答案选择方法,使用BERT作为特征提取层建模长文本数据,采取迁移学习+训练预测两阶段任务。首先,问题和答案文本序列作为输入,使用BERT输入格式进行处理,不需要额外分词,避免了分词造成的错误传播。其次,使用迁移学习方法并辅以孪生网络结构和注意力聚合结构,使迁移学习得到的问题和答案句向量更加语义相似。最后,在训练预测过程中使用迁移学习的模型权重参数初始化得到文本的句向量,并简单地通过距离度量方法计算问题和答案句向量的语义相似度,由于简化了训练预测网络结构,获得了更高的召回效率及更低的显存占用,本专利技术采用两阶段方式,相对于直接使用BERT的[CLS]语义向量,获得了更高的召回精度。为了实现上述目的,本专利技术采用如下的技术方案:一种基于迁移学习句向量的长文本答案选择方法,步骤如下:1)使用XPATH设计爬虫爬取问诊论坛医患问答数据,并做数据清洗;将医患问答数据中的答案作为正样本;针对医患问答数据中的问题,使用Lucene索引工具进行相关性答案的检索召回,将相关性答案作为负样本;根据获得的正样本和负样本构造点式答案选择数据集,并按照27:1~8:1的比例划分迁移学习数据集和训练预测数据集;2)建立迁移学习句向量网络,包括孪生网络结构、注意力聚合结构和分类层,所述孪生网络结构包括成对的输入层、特征提取层、池化层,所述的注意力聚合结构包括注意力层、聚合网络层;所述的特征提取层采用BERT模型,加载全词遮盖权重BERT参数进行初始化,特征提取后取均值池化输出,并依次经过注意力层、聚合网络层对特征进行聚合输出;聚合输出向量同BERT池化输出向量进行拼接并输入到分类层进行二分类输出;利用步骤1)得到的迁移学习数据集,对迁移学习句向量网络进行训练,采用MRR、Precision@K评价指标方法,将问题和答案是否匹配的二分类值同真实标签进行匹配,选择匹配分数最高的模型对应的网络参数,得到BertAttTL迁移学习句向量模型;3)建立训练预测网络,包括孪生网络结构和距离度量层,所述孪生网络结构包括成对的输入层、特征提取层、池化层;所述的特征提取层采用BERT模型,使用步骤2)得到的BertAttTL迁移学习句向量模型的权重参数对训练预测网络中的BERT模型和池化层参数进行初始化,经池化层输出问题句向量和答案句向量,将两种句向量输入到距离度量层获取语义相似度,依照相似度以阈值进行划分得到是否相似的二分类值作为预测内容输出;利用步骤1)得到的训练预测数据集对训练预测网络进行训练,采用MRR、Precision@K评价指标方法,将最终得到的二分类值同真实标签进行匹配,选取匹配分数最高的模型对应的网络参数,得到训练好的训练预测网络;4)将待处理的问题和答案文本输入步骤3)得到的训练预测网络中,输出所有候选答案的二分类值,得到待处理问题的最终答案。进一步的,所述的MRR、Precision@K评价指标方法具体为:将迁移学习句向量网络或训练预测网络的输出表示为pred=[p1,p2,...,pn],其中pi表示第i个候选答案的预测值0或1,0表示不相似,1表示相似,n表示样本集中的测试样例的个数;真实标签数据表示为label=[t1,t1,,...,tn],其中ti表示第i个候选答案的真实标签0或1,0表示不相似,1表示相似,n表示样本集中的测试样例的个数;针对一个问题的所有候选答案,通过迁移学习句向量网络或训练预测网络获取二分类值之后进行排序,得到针对第i个问题的正确答案的排名ranki;MRR计算公式为:其中,Q为问题集合,|Q|表示所有问题的数量;Precision@K计算公本文档来自技高网...
【技术保护点】
1.一种基于迁移学习句向量的长文本答案选择方法,其特征在于,步骤如下:/n1)获取权威的医患问答数据,将医患问答数据中的答案作为正样本;针对医患问答数据中的问题,使用Lucene索引工具进行相关性答案检索召回,将相关性答案作为负样本;根据获得的正样本和负样本构造答案选择数据集,并按照27:1~8:1的比例划分迁移学习数据集和训练预测数据集;/n2)建立迁移学习句向量网络,包括孪生网络结构、注意力聚合结构和分类层,所述孪生网络结构包括成对的输入层、特征提取层、池化层,所述的注意力聚合结构包括注意力层、聚合网络层;所述的特征提取层采用BERT模型,加载全词遮盖权重BERT参数进行初始化,特征提取后取均值池化输出,并依次经过注意力层、聚合网络层对特征进行聚合输出;聚合输出向量同BERT池化输出向量进行拼接并输入到分类层进行二分类输出;/n利用步骤1)得到的迁移学习数据集,对迁移学习句向量网络进行训练,采用MRR、Precision@K评价指标方法,将问题和答案是否匹配的二分类值同真实标签进行匹配,选择匹配分数最高的模型对应的网络参数,得到BertAttTL迁移学习句向量模型;/n3)建立训练预测网络,包括孪生网络结构和距离度量层,所述孪生网络结构包括成对的输入层、特征提取层、池化层;所述的特征提取层采用BERT模型,使用步骤2)得到的BertAttTL迁移学习句向量模型的权重参数对训练预测网络中的BERT模型和池化层参数进行初始化,经池化层输出问题句向量和答案句向量,将两种句向量输入到距离度量层获取语义相似度,依照相似度以阈值进行划分得到是否相似的二分类值作为预测内容输出;利用步骤1)得到的训练预测数据集对训练预测网络进行训练,采用MRR、Precision@K评价指标方法,将最终得到的二分类值同真实标签进行匹配,选取匹配分数最高的模型对应的网络参数,得到训练好的训练预测网络;/n4)将待处理的问题和答案文本输入步骤3)得到的训练预测网络中,输出所有候选答案的二分类值,得到待处理问题的最终答案。/n...
【技术特征摘要】
1.一种基于迁移学习句向量的长文本答案选择方法,其特征在于,步骤如下:
1)获取权威的医患问答数据,将医患问答数据中的答案作为正样本;针对医患问答数据中的问题,使用Lucene索引工具进行相关性答案检索召回,将相关性答案作为负样本;根据获得的正样本和负样本构造答案选择数据集,并按照27:1~8:1的比例划分迁移学习数据集和训练预测数据集;
2)建立迁移学习句向量网络,包括孪生网络结构、注意力聚合结构和分类层,所述孪生网络结构包括成对的输入层、特征提取层、池化层,所述的注意力聚合结构包括注意力层、聚合网络层;所述的特征提取层采用BERT模型,加载全词遮盖权重BERT参数进行初始化,特征提取后取均值池化输出,并依次经过注意力层、聚合网络层对特征进行聚合输出;聚合输出向量同BERT池化输出向量进行拼接并输入到分类层进行二分类输出;
利用步骤1)得到的迁移学习数据集,对迁移学习句向量网络进行训练,采用MRR、Precision@K评价指标方法,将问题和答案是否匹配的二分类值同真实标签进行匹配,选择匹配分数最高的模型对应的网络参数,得到BertAttTL迁移学习句向量模型;
3)建立训练预测网络,包括孪生网络结构和距离度量层,所述孪生网络结构包括成对的输入层、特征提取层、池化层;所述的特征提取层采用BERT模型,使用步骤2)得到的BertAttTL迁移学习句向量模型的权重参数对训练预测网络中的BERT模型和池化层参数进行初始化,经池化层输出问题句向量和答案句向量,将两种句向量输入到距离度量层获取语义相似度,依照相似度以阈值进行划分得到是否相似的二分类值作为预测内容输出;利用步骤1)得到的训练预测数据集对训练预测网络进行训练,采用MRR、Precision@K评价指标方法,将最终得到的二分类值同真实标签进行匹配,选取匹配分数最高的模型对应的网络参数,得到训练好的训练预测网络;
4)将待处理的问题和答案文本输入步骤3)得到的训练预测网络中,输出所有候选答案的二分类值,得到待处理问题的最终答案。
2.如权利要求1所述的一种基于迁移学习句向量的长文本答案选择方法,其特征在于,所述的MRR、Precision@K评价指标方法具体为:
将迁移学习句向量网络或训练预测网络的输出表示为pred=[p1,p2,...,pn],其中pi表示第i个候选答案的预测值0或1,0表示不相似,1表示相似,n表示样本集中的测试样例的个数;真实标签数据表示为label=[t1,t2,,...,tn],其中ti表示第i个候选答案的真实标签0或1,0表示不相似,1表示相似;针对一个问题的所有候选答案,通过迁移学习句向量网络或训练预测网络获取二分类...
【专利技术属性】
技术研发人员:张引,王炜,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。