当前位置: 首页 > 专利查询>廖伟智专利>正文

基于机器阅读理解的科技资源检索方法技术

技术编号:29614627 阅读:17 留言:0更新日期:2021-08-10 18:28
本发明专利技术公开一种基于机器阅读理解的科技资源检索方法,依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理;处理后的文本采用n‑gram的TF‑IDF的文本匹配方法,通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息,最终计算文本与关键词之间的相似度得分,进而确定相关文本;匹配后的文本采用机器阅读理解方法,将机器阅读理解模型融入到检索模型中,通过理解文本中的内容返回检索结果。该检索方法不仅充分考虑了文本中词的频率TF和逆文本频率IDF,还充分考虑了词的顺序信息,进而充分理解文本语义,实现更加精准的文本匹配,而且增加模型理解的能力,通过理解文本中的内容返回更加准确的检索结果,提高用户的检索效率。

【技术实现步骤摘要】
基于机器阅读理解的科技资源检索方法
本专利技术属于数据检索
,具体涉及一种基于机器阅读理解的科技资源检索方法。
技术介绍
科技服务业是现代服务业的重要组成部分,是实现科技创新引领产业升级、推动经济向中高端水平迈进的关键一环,对于深入实施创新驱动发展战略、推动经济提质增效升级具有重要意义。在发达国家,知识密集性服务业是科技服务业的典型代表,其中,以研究开发、知识产权、科技咨询等为代表的科技资源是科技服务的主要利用对象与源泉。科技资源检索技术在各行业技术及科研人员中均有普遍的应用需求,如为支持企业技术研发人员开展创新设计而进行的专利检索、为满足企业技术需求合作寻求而进行的成果转化供需匹配检索、为支持科技项目研发而开展的知识文献与相关项目检索等等。但是,目前科技资源的检索效率与准确率并不高,是导致各界科技研发重复投入、无效投入的主要因素之一,致使各界科研力量浪费巨大。如一方面大量企业的难点技术寻求合作难,另一方面现有大量科研成果却又难以找到合适的应用结合点,落地转化困难,而造成两者矛盾的主要原因是技术资源供需匹配检索能力不足;另据权威专利机构统计,目前科研人员申报的专利技术专利中有66%以上是因其新颖性、创新点不足或重复而不能获得授权,这与专利申报初期对现有专利相关性检索的覆盖面和准确性不够有较大关系。因此,有效、准确的科技资源检索对支撑各界科研工作尤为重要。现有对科技资源的检索方式主要是通过用户输入查询关键词,得到一系列相关结果,再由人工筛选判断后找到合适的检索结果,使得检索结果冗余、不准确,且耗时耗力。现有方法的主要问题是缺乏对实际需求的匹配和对科技文本资源语义的理解。由于科技资源不同于日常普通的生活和生产资源,具有显著的专业性、知识性和复杂性,关键词检索法无法对其特性进行理解,结果也就难以满足科技资源服务的需求。因此,理解科技文本资源语义,并匹配科技资源服务的实际需求是科技资源检索的迫切需求和主要任务。
技术实现思路
本专利技术所要解决的技术问题便是针对上述现有技术的不足,提供一种基于机器阅读理解的科技资源检索方法,该检索方法实现更加精准的文本匹配,而且将机器阅读理解模型融入到检索模型中,增加模型理解的能力,通过理解文本中的内容返回更加准确的检索结果,提高用户的检索效率。本专利技术所采用的技术方案是:基于机器阅读理解的科技资源检索方法,包括以下步骤:(1)文本预处理:依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理;(2)文本匹配模型:处理后的文本采用n-gram的TF-IDF的文本匹配方法,通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息,最终计算文本与关键词之间的相似度得分,进而确定相关文本;(3)机器阅读理解模型:匹配后的文本采用机器阅读理解方法,将机器阅读理解模型融入到检索模型中,通过理解文本中的内容返回检索结果。现有国内外面向科技资源的检索主流方法仍然是通过传统检索方法进行。主要借助Web信息资源检索技术进行科技资源、科技类文献的检索,其主要包括直接访问信息源搜索、利用检索工具进行相关科技资源检索、通过电子邮箱定制搜索等几种检索途径。由于科技文本资源是科技资源最为普遍的存在形式,面向科技文本资源的检索核心是解决文本信息获取的方法。如图1所示为目前科技文本资源检索的具体操作流程,首先通过用户通过输入查询关键词,利用科技文本检索工具进行相关信息检索,并返回一系列相关列表,用户再进一步进行筛选。为解决科技文本资源检索过程中的需求匹配与语义理解问题,重点研究支持科技文本资源挖掘应用的科技资源检索方法,提出一种基于机器阅读理解的科技资源检索方法,包括以下步骤:(1)文本预处理:依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理;针对科技文本数据源存在噪音大、专业词汇多等特点,以及中文文本存在停用词等问题,完成科技文本预处理,具体主要包括去除文本噪声、分词、去停用词、训练词向量等,为后序科技文本检索工作提供数据保证和形式化支持。(2)文本匹配模型:处理后的文本采用n-gram的TF-IDF的文本匹配方法,通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息,最终计算文本与关键词之间的相似度得分,进而确定相关文本;通过对n-gram算法的引入,不仅能获取科技文本词的词频TF和逆文本频率IDF,还能充分考虑词序问题,提高了相关文本匹配的准确率。(3)机器阅读理解模型:匹配后的文本采用机器阅读理解方法,将机器阅读理解模型融入到检索模型中,通过理解文本中的内容返回检索结果。目前的检索方法首先计算输入的关键词与科技文本的相关程度,然后根据科技文本的相关程度获得一系列排名靠前的科技文本,用户需通过逐一阅读来获得最终的科技信息。该方法由于在科技文本检索过程中只通过计算文本的相关度,并未对科技文本中的内容进行理解,致使文本的返回结果不准确。本专利技术在输入查询后,分别经过模型内部编码模块、匹配模块及预测模块获取相应文本查询结果作为输出。编码模块作用是提取问题和文本特征,匹配模块作用是加强查询词与文本交互,预测模块作用是获取查询结果。本方案针对现有科技资源检索存在返回结果冗余、不精确等问题,在对科技文本资源特点以及检索方法问题分析的基础上,研究并提出基于机器阅读理解的科技文本检索总体技术实现方案,该方案分别针对科技文本匹配及文本理解需求两方面开展研究。本方案针对检索模型不具备多文档推理能力问题,提出基于分层注意力指针网络的推理方法。该方法应用于机器阅读理解模型的推理模块中,此方法采用分层注意力机制分别对词级别和句子级别进行注意力匹配,采用指针网络进行句子推理。本文在中文和英文数据集上进行了模型的多个对比实验,验证了该方法的有效性。进一步地,噪声去除采用python的内置模块re正则化对科技文本进行噪音去除。进一步地,科技文本的词向量处理采用Word2vec进行词向量训练最终获得词向量。进一步地,文本匹配模型基于一个假设,即第N个词的出现只与前N-1个词有关,整个句子的概率为各个词概率的乘积,假设有W句子序列w1w2w3wn,则通过n-gram语言模型表示如式(4-20):P(W)=P(w1|begin)P(w2|w1)P(w3|w1w2)...P(wn|w1w2w3...wn-1)(4-20)在n-gram模型中,采用的形式为Bi-gram、Tri-gram、four-gram或five-gram,其中Bi-gram、Tri-gram进行滑动的窗口宽度分别为2和3,其具体计算公式如式(4-21)、(4-22):P(W)=P(w1|begin)P(w2|w1)P(w3|w2)...P(wn|wn-1)(4-21)P(W)=P(w1|begin1begin2)P(w2|begin1w1)P(wn|wn-2wn-1)(4-22)其中,在进行TF-IDF计算过程中,首先计算词频TF,即一个词在文本中出现的次数,为了便于不同长度文本之间的本文档来自技高网
...

【技术保护点】
1.基于机器阅读理解的科技资源检索方法,其特征在于,包括以下步骤:/n(1)文本预处理:依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理;/n(2)文本匹配模型:处理后的文本采用n-gram的TF-IDF的文本匹配方法,通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息,最终计算文本与关键词之间的相似度得分,进而确定相关文本;/n(3)机器阅读理解模型:匹配后的文本采用机器阅读理解方法,将机器阅读理解模型融入到检索模型中,通过理解文本中的内容返回检索结果。/n

【技术特征摘要】
1.基于机器阅读理解的科技资源检索方法,其特征在于,包括以下步骤:
(1)文本预处理:依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理;
(2)文本匹配模型:处理后的文本采用n-gram的TF-IDF的文本匹配方法,通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息,最终计算文本与关键词之间的相似度得分,进而确定相关文本;
(3)机器阅读理解模型:匹配后的文本采用机器阅读理解方法,将机器阅读理解模型融入到检索模型中,通过理解文本中的内容返回检索结果。


2.根据权利要求1所述的基于机器阅读理解的科技资源检索方法,其特征在于,所述步骤(1)中噪声去除采用python的内置模块re正则化对科技文本进行噪音去除。


3.根据权利要求1所述的基于机器阅读理解的科技资源检索方法,其特征在于,所述步骤(1)中科技文本的词向量处理采用Word2vec进行词向量训练最终获得词向量。


4.根据权利要求1所述的基于机器阅读理解的科技资源检索方法,其特征在于,所述步骤(2)中模型基于一个假设,即第N个词的出现只与前N-1个词有关,整个句子的概率为各个词概率的乘积,假设有W句子序列w1w2w3wn,则通过n-gram语言模型表示如式(4-20):
P(W)=P(w1|begin)P(w2|w1)P(w3|w1w2)...P(wn|w1w2w3...wn-1)(4-20)
在n-gram模型中,采用的形式为Bi-gram、Tri-gram、four-gram或five-gram,其中Bi-gram、Tri-gram进行滑动的窗口宽度分别为2和3,其具体计算公式如式(4-21)、(4-22):
P(W)=P(w1|begin)P(w2|w1)P(w3|w2)...P(wn|wn-1)(4-21)
P(W)=P(w1|begin1begin2)P(w2|begin1w1)...P(wn|wn-2wn-1)(4-22)
其中,在进行TF-IDF计算过程中,首先计算词频TF,即一个词在文本中出现的次数,为了便于不同长度文本之间的比较,对TF进行了标准化,其计算公式如(4-23):



IDF为逆文档频率,其计算公式如式(4-24):



式中,N为语料库中的文档总数,nw为包含词w的文档数,nw+1的目的是防止w不出现在任何文档中导致分母为0;
TF-IDF即是将TF与IDF相乘作为词的特征权值,其计算公式如式(4-25):
TF-IDF=TF*IDF(4-25)
对于文本匹配任务,在获取文本的特征权值之后,需要通过相似度计算确定词与文本的相关性,主要通过余弦相似性计算得到,其定义如式(4-26):



式中,qj代表第j个特征词的权重,wij代表第i篇文档第j个词的权重,k代表空间维度。


5.根据权利要求1所述的基于机器阅读理解的科技资源检索方法,其特征在于,所述步骤(3)中机器阅读理解模型主要由编码模块、匹配模块、推理模块、答案预测模块构成。


6.根据权利要求5所述的基于机器阅读理解的科技资源检索方法,其特征在于,所述编码模块中首先分别获得上下文和问题的词向量和字符向量Wc、Wq、Vc、Vq,词向量采用预训练的GloVe词向量;通过使用CNN获得每个字符的字符向量;之后将获得的词向量和字符向量进行拼接,其具体计算公式如式(4-27)~(4-30):
Wc,Wq=GloVe(C,Q)(4-27)
Vc,Vq=Conv1D(C,Q)(4-28)
c1i=[Wci;Vci](4-29)
Q1j=[Wqi;Vqi](4-30)
式(4-27)中GloVe表示采用预训练的GloVe词向量,Conv1D表示使用CNN进行一维卷积,C1i表示通过第i个词的词向量与第i个词的字符向量进行拼接后的结果,通过计算最终获得一个新的向量C1和Q1,C1∈R1w*dwQ1∈Rmw*dw,lw是上下文C的长度,mw是问题Q的长度,dw是词向量的维度;
在获得上下文C和问题Q的词向量C1、Q1之后,分别将C1和Q1传入到一个双向RNN中,分别获得上下文向量C2、Q2,,C2∈R1w*2dc,Q2∈R1w*2dc,dc是一层RNN的输出单元个数,其计算公式如式(4-31)~(4-33):









式中,分别代表双向GRU中不同方向的编码结果,其中j代表第j个词,最终通过将两个方向编码获...

【专利技术属性】
技术研发人员:廖伟智叶光磊
申请(专利权)人:廖伟智叶光磊
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1