基于机器阅读理解的科技资源检索方法技术

技术编号：29614627 阅读：17 留言：0更新日期：2021-08-10 18:28

本发明专利技术公开一种基于机器阅读理解的科技资源检索方法，依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理；处理后的文本采用n‑gram的TF‑IDF的文本匹配方法，通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息，最终计算文本与关键词之间的相似度得分，进而确定相关文本；匹配后的文本采用机器阅读理解方法，将机器阅读理解模型融入到检索模型中，通过理解文本中的内容返回检索结果。该检索方法不仅充分考虑了文本中词的频率TF和逆文本频率IDF，还充分考虑了词的顺序信息，进而充分理解文本语义，实现更加精准的文本匹配，而且增加模型理解的能力，通过理解文本中的内容返回更加准确的检索结果，提高用户的检索效率。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器阅读理解的科技资源检索方法
本专利技术属于数据检索
，具体涉及一种基于机器阅读理解的科技资源检索方法。
技术介绍
科技服务业是现代服务业的重要组成部分，是实现科技创新引领产业升级、推动经济向中高端水平迈进的关键一环，对于深入实施创新驱动发展战略、推动经济提质增效升级具有重要意义。在发达国家，知识密集性服务业是科技服务业的典型代表，其中，以研究开发、知识产权、科技咨询等为代表的科技资源是科技服务的主要利用对象与源泉。科技资源检索技术在各行业技术及科研人员中均有普遍的应用需求，如为支持企业技术研发人员开展创新设计而进行的专利检索、为满足企业技术需求合作寻求而进行的成果转化供需匹配检索、为支持科技项目研发而开展的知识文献与相关项目检索等等。但是，目前科技资源的检索效率与准确率并不高，是导致各界科技研发重复投入、无效投入的主要因素之一，致使各界科研力量浪费巨大。如一方面大量企业的难点技术寻求合作难，另一方面现有大量科研成果却又难以找到合适的应用结合点，落地转化困难，而造成两者矛盾的主要原因是技术资源供需匹配检索能力不足；另据权威专利机构统计，目前科研人员申报的专利技术专利中有66％以上是因其新颖性、创新点不足或重复而不能获得授权，这与专利申报初期对现有专利相关性检索的覆盖面和准确性不够有较大关系。因此，有效、准确的科技资源检索对支撑各界科研工作尤为重要。现有对科技资源的检索方式主要是通过用户输入查询关键词，得到一系列相关结果，再由人工筛选判断后找到合适的检索结果，使得检索结果冗余、不准确，且耗时...

【技术保护点】
1.基于机器阅读理解的科技资源检索方法，其特征在于，包括以下步骤：/n(1)文本预处理：依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理；/n(2)文本匹配模型：处理后的文本采用n-gram的TF-IDF的文本匹配方法，通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息，最终计算文本与关键词之间的相似度得分，进而确定相关文本；/n(3)机器阅读理解模型：匹配后的文本采用机器阅读理解方法，将机器阅读理解模型融入到检索模型中，通过理解文本中的内容返回检索结果。/n

【技术特征摘要】
1.基于机器阅读理解的科技资源检索方法，其特征在于，包括以下步骤：
(1)文本预处理：依次对文本进行噪声去除、中文文本分词、停用词去除以及科技文本的词向量处理；
(2)文本匹配模型：处理后的文本采用n-gram的TF-IDF的文本匹配方法，通过计算文本中词的词频TF、逆文本频率IDF和词的顺序信息，最终计算文本与关键词之间的相似度得分，进而确定相关文本；
(3)机器阅读理解模型：匹配后的文本采用机器阅读理解方法，将机器阅读理解模型融入到检索模型中，通过理解文本中的内容返回检索结果。

2.根据权利要求1所述的基于机器阅读理解的科技资源检索方法，其特征在于，所述步骤(1)中噪声去除采用python的内置模块re正则化对科技文本进行噪音去除。

3.根据权利要求1所述的基于机器阅读理解的科技资源检索方法，其特征在于，所述步骤(1)中科技文本的词向量处理采用Word2vec进行词向量训练最终获得词向量。

4.根据权利要求1所述的基于机器阅读理解的科技资源检索方法，其特征在于，所述步骤(2)中模型基于一个假设，即第N个词的出现只与前N-1个词有关，整个句子的概率为各个词概率的乘积，假设有W句子序列w1w2w3wn，则通过n-gram语言模型表示如式(4-20)：
P(W)＝P(w1|begin)P(w2|w1)P(w3|w1w2)...P(wn|w1w2w3...wn-1)(4-20)
在n-gram模型中，采用的形式为Bi-gram、Tri-gram、four-gram或five-gram，其中Bi-gram、Tri-gram进行滑动的窗口宽度分别为2和3，其具体计算公式如式(4-21)、(4-22)：
P(W)＝P(w1|begin)P(w2|w1)P(w3|w2)...P(wn|wn-1)(4-21)
P(W)＝P(w1|begin1begin2)P(w2|begin1w1)...P(wn|wn-2wn-1)(4-22)
其中，在进行TF-IDF计算过程中，首先计算词频TF，即一个词在文本中出现的次数，为了便于不同长度文本之间的比较，对TF进行了标准化，其计算公式如(4-23)：

IDF为逆文档频率，其计算公式如式(4-24)：

式中，N为语料库中的文档总数，nw为包含词w的文档数，nw+1的目的是防止w不出现在任何文档中导致分母为0；
TF-IDF即是将TF与IDF相乘作为词的特征权值，其计算公式如式(4-25)：
TF-IDF＝TF*IDF(4-25)
对于文本匹配任务，在获取文本的特征权值之后，需要通过相似度计算确定词与文本的相关性，主要通过余弦相似性计算得到，其定义如式(4-26)：

式中，qj代表第j个特征词的权重，wij代表第i篇文档第j个词的权重，k代表空间维度。

5.根据权利要求1所述的基于机器阅读理解的科技资源检索方法，其特征在于，所述步骤(3)中机器阅读理解模型主要由编码模块、匹配模块、推理模块、答案预测模块构成。

6.根据权利要求5所述的基于机器阅读理解的科技资源检索方法，其特征在于，所述编码模块中首先分别获得上下文和问题的词向量和字符向量Wc、Wq、Vc、Vq，词向量采用预训练的GloVe词向量；通过使用CNN获得每个字符的字符向量；之后将获得的词向量和字符向量进行拼接，其具体计算公式如式(4-27)～(4-30)：
Wc，Wq＝GloVe(C，Q)(4-27)
Vc，Vq＝Conv1D(C，Q)(4-28)
c1i＝[Wci；Vci](4-29)
Q1j＝[Wqi；Vqi](4-30)
式(4-27)中GloVe表示采用预训练的GloVe词向量，Conv1D表示使用CNN进行一维卷积，C1i表示通过第i个词的词向量与第i个词的字符向量进行拼接后的结果，通过计算最终获得一个新的向量C1和Q1，C1∈R1w*dwQ1∈Rmw*dw，lw是上下文C的长度，mw是问题Q的长度，dw是词向量的维度；
在获得上下文C和问题Q的词向量C1、Q1之后，分别将C1和Q1传入到一个双向RNN中，分别获得上下文向量C2、Q2，，C2∈R1w*2dc，Q2∈R1w*2dc，dc是一层RNN的输出单元个数，其计算公式如式(4-31)～(4-33)：

式中，分别代表双向GRU中不同方向的编码结果，其中j代表第j个词，最终通过将两个方向编码获...

【专利技术属性】
技术研发人员：廖伟智，叶光磊，
申请(专利权)人：廖伟智，叶光磊，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人