The realization method of machine reading comprehension is disclosed, and the filtered second data set is obtained by filtering the first data set according to the type of the problem; the problem is semantically matched with the data I in the second data set to get the score of the semantic matching of the data i; the problem and the data I are computed to get the score of the feature matching of the data I by maximizing the coverage; and the semantic matching of the weighted data I is weighted. Scores and feature matching scores are used to get matching scores between question and data i; voting scores of data I are calculated according to multi-document voting algorithm, and final scores of data I are calculated according to matching scores and voting scores of data i; the first n data i n the sequence are selected according to the descending order of final scores as candidate data sets; the candidate data sets are input into the baseline model based on the data I. The baseline model predicts the answers of the input data sets and obtains the candidate answer sets of the questions. This application realizes the sorting of data sets and extracts effective answers to questions.
【技术实现步骤摘要】
一种机器阅读理解的实现方法以及装置
本专利技术涉及自然语言的机器理解,特别地,涉及一种机器阅读理解的实现方法以及装置。
技术介绍
随着互联网的兴起和发展,数据急速增长,如何利用机器阅读理解技术来帮助用户查找到满意的答案,是自然语言理解技术研究领域中的一个经典课题。机器阅读理解作为自然语言理解的一个子领域,让机器具备自然语言的阅读理解与问答能力,一直是研究者和业界关注的对象,也是目前智能语音交互和人机对话的核心难题。机器阅读理解(MachineReadingComprehension)是让机器像人类一样通过阅读自然语言文本,然后经过推理总结,从而能够精准地回答和阅读内容相关的问题。机器阅读方法分为两类:分别为生成式和抽取式。生成式是从理论上来说不受知识的局限,对于问题自动生成答案,但是生成式有时产生的答案答非所问,句式不通,不能很好地体现出人类的思维逻辑以及自然表述的特点。抽取式通过给定问题以及相关的文章进行训练,让机器具备阅读的能力,并对提出的新问题,在相关文章中抽取出相应的答案。相对于生成式而言,抽取式的技术优势更加明显,应用更为广泛。自斯坦福机器阅读理解数据集 ...
【技术保护点】
1.一种机器阅读理解的实现方法,其特征在于,该方法包括,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;对数据i按照多文档投票算法计算数据i的投票得分;根据数据i的匹配得分和投票得分,计算出数据i的最终得分;按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;将所述候选数据集作为基线模型的输入数据集,基于基线模型 ...
【技术特征摘要】
1.一种机器阅读理解的实现方法,其特征在于,该方法包括,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;对数据i按照多文档投票算法计算数据i的投票得分;根据数据i的匹配得分和投票得分,计算出数据i的最终得分;按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;将所述候选数据集作为基线模型的输入数据集,基于基线模型对输入数据集进行答案预测,得到所述问题的候选答案集,其中,i为不大于第二数据集合中数据总数的自然数,n为基线模型的输入数据集合中的数据个数。2.如权利要求1所述的实现方法,其特征在于,该方法进一步包括,对候选答案集中的候选答案进行交叉验证,按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,从第二投票得分中选择出最大得分所对应的答案作为候选答案,其中,t为不大于n的自然数。3.如权利要求1或2所述的实现方法,其特征在于,所述第一数据集合为段落集合;所述第二数据集合中的数据i为段落集合中的段落i;所述基线模型为BiDAF模型;所述第一数据集合中的数据为清洗了字符级噪声和/或句子级噪声的数据;该方法还包括,将所述过滤后的第二数据集合中的段落进行段落重组。4.如权利要求3所述的实现方法,其特征在于,所述按照多答案投票算法,计算候选答案集中的答案t的交叉验证投票得分,包括,按照如下式子进行计算:对于答案t,计算交叉验证投票得分va_scoret其中,rouge(ansi,ansi)表示候选答案集合中的候选答案ansi与该集合中的其他答案ansj的相关性计算函数,Df为候选集,函数g是指数平滑函数,s_scorej为利用边界模型为段落j预测边界得分;所述根据数据i的位置信息对该答案t的投票得分进行加权,得到第二投票得分,包括,按照式子进行计算:s_scorei=h(s_scorei)·va_scoreta_scoret=s_scorei·l(indexi)其中,函数h是对数平滑函数,函数l是指数平滑函数,indexi是候选段落所在的位置信息,a_scoret为第二投票得分。5.如权利要求3所述的实现方法,其特征在于,所述段落重组包括,将段落长度低于第一阈值的段落顺序地拼接,拼接后的段落长度不大于第二阈值,并得到重组后的段落集合,该集合作为第三段落集合;所述i为不大于第三段落集合中段落总数的自然数。6.如权利要求3所述的实现方法,其特征在于,所述最大覆盖度计算包括,基于最大覆盖度算法,分别计算基于词和基于字的最大覆盖度,并分别得到第一最大覆盖度和第二最大覆盖度,将第一最大覆盖度与第二最大覆盖度之和作为段落i的特征匹配得分。7.如权利要求3所述的实现方法,其特征在于,所述加权所述数据i的语义匹配得分和特征匹配得分得到问题与数据i的匹配得分,包括,按照式子计算所述匹配得分:m_scorei=βi·(ps,i+pc,i)其中,m_scorei为匹配得分,βi为针对描述类问题所识别出的段落i中包含有列表信息时所设置的加权值,ps,i为段落i的文本语义匹配得分,pc,i为段落i的特征匹配得分。8.如权利要求7所述的实现方法,其特征在于,所述对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;包括,计算段落i的投票得分为:其中,rouge(i,j)表示第三段落集合DC中的段落i与该集合中的其他段落j的相关性计算函数;按照指数平滑函数对段落i的投票得分进行加权处理,段落i的最终得分p_scorei为:p_scorei=m_scorei·f(v_scorei)其中f函数是指数平滑函数。9.一种减少候选数据集规模的方法,其特征在于,该方法包括,根据问题类型过滤第一数据集合,得到过滤后的第二数据集合;将问题与第二数据集合中的数据i进行语义匹配,得数据i的语义匹配得分;将问题与所述数据i进行最大覆盖度计算,得到数据i的特征匹配得分;加权所述数据i的语义匹配得分和特征匹配得分,得到问题与数据i的匹配得分;对数据i按照多文档投票算法计算数据i的投票得分,根据数据i的匹配得分和投票得分,计算出数据i的最终得分;按照所计算得到的最终得分的降序,对所述第二数据集合中的数据进行排序,选择序列中前n个数据,作为候选数据集;其中,i、n均为...
【专利技术属性】
技术研发人员:杨志明,时迎成,
申请(专利权)人:深思考人工智能机器人科技北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。