一种标准文献的查询比对方法及系统技术方案

技术编号：38154453 阅读：14 留言：0更新日期：2023-07-13 09:21

本发明专利技术公开了一种标准文献的查询比对方法及系统，包括对用户输入的关键词和抓取的文献进行文本预处理，计算预处理后的用户输入关键词和抓取的文献相似性，将所述相似性作为目标函数，根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，采用第二算法优化所述深度神经网络模型的梯度估计，用预处理后的文本训练所述优化后的深度神经网络模型，保留相似性大0.9的文献直到遍历所有的文献，输出比对结果。该方法不仅可以提高比对精度，同时具有较好的可解释性，可以直接应用于标准文献的查询比对系统中。可以直接应用于标准文献的查询比对系统中。可以直接应用于标准文献的查询比对系统中。

全部详细技术资料下载

【技术实现步骤摘要】
一种标准文献的查询比对方法及系统

[0001]本专利技术涉及比对
，尤其涉及一种标准文献的查询比对方法及系统。

技术介绍

[0002]比对技术在中文信息处理领域的应用越来越广泛，可以帮助标准文献的查询比对系统及时、高效地获取标准文献信息，实现用户输入关键词和文献的精准比对。目前，标准文献具有数量庞大、类型多样、信息密度大、多学科综合性等共性特点，比对技术的定性分析和判断存在较多的不确定因素，导致比对分析的结果出现较大的随机性。虽然已经构建了一些标准全文数据库，也有一些专业的全文检索软件工具，但仍不能有效解决标准文献比对工作中的随机问题，因此需要一种标准文献的查询比对方法及系统。

技术实现思路

[0003]本专利技术的目的是要提供一种标准文献的查询比对方法及系统。
[0004]为达到上述目的，本专利技术是按照以下技术方案实施的：本专利技术包括以下步骤：A对用户输入的关键词和抓取的文献进行文本预处理；B计算预处理后的文本相似性，将所述相似性作为目标函数；C根据相似性根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，采用第二算法优化所述深度神经网络模型的梯度估计；D用预处理后的文本训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出结果。
[0005]进一步，采用第一模型对所述对所述向量进行序列标记的方法，包括：设定初始值：
[0006]其中t时刻的属于状态i的概率，t时刻状态i的隐状态序号，混淆矩阵；递推计算：/>[0007]其中整段时间序列的时长T，存在可能得状态数N，序列长度k，隐藏状态的转移矩阵；递推结束：
[0008]其中函数求出概率取最大值时的参数；预测最优的状态序列：
[0009]通过设置t的值可能得到每一个时刻对应最优的状态。
[0010]进一步，所述采用第二模型对所述序列标记后的向量进分词的方法，包括：将带分词的字符串从左到右切分为；计算当前词与前驱词的概率：；其中字符串词m个，相关的前几个词；计算该词的累计概率值:；保留大的累计概率，直到该字符串结束：从开始，按照从右到左的顺序，将前驱词输出分词结束。
[0011]进一步，计算预处理后的用户输入关键词和抓取的文献相似性的方法，包括：
[0012]其中n维向量表示句子，目标文本中n维向量表示句子，在目标文本出现的次数n，相似性。
[0013]进一步，所述采用第一算法优化所述神经网络模型的学习率的方法，包括：给定超参数，在时间步t>0计算状态变量：
[0014]其中小批量随机梯度；目标函数：
[0015]其中梯度下降；将目标函数自变量中每个元素的学习率通过按元素运算重新调整，再更新自变量：
[0016]其中是学习率，维持数值稳定常数；并且计算相似性，迭代直到相似性大于0.9且学习率不变时输出学习率。
[0017]进一步，所述采用第二算法优化所述神经网络模型的梯度估计的方法，包括：设定优化后的学习率，当时间步为零时初始化和中的每个元素，给定超参数，时间步的小批量随机梯度的指数加权移动平均：
[0018]其中小批量随机梯度；给定超参数，将小批量随机梯度按元素平方后的项做指数加权移动平均得到：
[0019]对变量和偏差修正：
[0020]使用偏差修正后的变量和，将模型参数中每个元素的学习率通过按元素运行重新调整：
[0021]其中是为了维持数值稳定的常数，使用迭代自变量：
[0022]并且计算相似性，迭代直到相似性大于0.9且梯度估计最大时输出结果。
[0023]进一步，所述用预处理后的数据训练所述优化后的深度神经网络模型的方法，包括：将优化后的学习率和梯度估计带入所述深度神经网络模型中，将预处理后的数据送入网络中，逐层进行前向计算，直至输出层，然后将当前网络输出与标准文献比较，并计算相似性；根据链式法则，逐层计算出相似性关于各层的梯度：
[0024]其中L是相似性函数，相似性函数对于激活函数的梯度，权重梯度
；根据反向过程得到权重梯度，更新权重：
[0025]其中，权重梯度，学习率；比较权重，保留大的并输出为结果。
[0026]第二方面，一种标准文献的查询比对系统，包括预处理模块，用于取出所述用户输入关键词和抓取的文献的中文字符，将所述中文字符转变为向量，采用第一模型对所述向量进行序列标记，采用第二模型对所述序列标记后的向量进分词；计算模块，用于计算预处理后的文本相似性，将所述相似性作为目标函数；构建模块，用于根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，采用第二算法优化所述深度神经网络模型的梯度估计；输出模块，用于训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出比对结果。
[0027]本专利技术的有益效果是：本专利技术是一种标准文献的查询比对方法及系统，与现有技术相比，本专利技术具有以下技术效果：1．本专利技术通过预处理、计算相似性、构建优化深度神经网络和训练深度神经网络步骤，可以提高比对的准确性，从而提高比对的精度，系统将比对自动化，可以大大提高精度和速度，提高工作效率，可以实现对用户输入的关键词和抓取的文献的实时比对，及时给出不同用户输入的关键词对应的标准文献，对标准文献的查询比对系统具有重要意义，可以适应不同关键词、不同位置的标准文献的比对需求，具有一定的普适性。
[0028]2．本专利技术的方法可以综合考虑用户输入关键词和抓取的文献的相关性，利用深度神经网络模型将比对问题转化为预测问题，使用第一算法和第二算法优化深度神经网络，通过对已知用户输入关键词和抓取的文献的文本预处理，实现对比对的准确把控。该方法不仅可以提高比对精度，同时具有较好的可解释性，可以直接应用于标准文献的查询比对系统中。
附图说明
[0029]图1为本专利技术一种标准文献的查询比对方法及系统的步骤流程图。
具体实施方式
[0030]下面以及具体实施例对本专利技术作进一步描述，在此专利技术的示意性实施例以及说明用来解释本专利技术，但并不作为对本专利技术的限定。
[0031]本专利技术标准文献的查询比对方法及系统包括以下步骤：如图1所示，在本实施例中，包括以下步骤：A对用户输入的关键词和抓取的文献进行文本预处理；B计算预处理后的用户输入关键词和抓取的文献相似性，将所述相似性作为目标函数；
C根据相似性根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，采用第二算法优化所述深度神经网络模型的梯度估计；D用预处理后的文本训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出结果。
[0032]在本实施例中，采用第一模型对所述对所述向量进行序列标记的方法，包括：设定初始值：；其中t时刻的属于状态i的概率，t时刻状态i的隐状态序号，混淆矩阵；递推计算：
[0033]其中整段时间序列的时长T，存在可能得状态数本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种标准文献的查询比对方法，其特征在于，包括：A对用户输入的关键词和抓取的文献进行文本预处理，包括取出所述用户输入关键词和抓取的文献的中文字符，将所述中文字符转变为向量，采用第一模型对所述向量进行序列标记，采用第二模型对所述序列标记后的向量进分词；B计算预处理后的文本相似性，将所述相似性作为目标函数；C根据相似性根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，采用第二算法优化所述深度神经网络模型的梯度估计；D用预处理后的随机选取文本训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出比对结果。2.根据权利要求1所述标准文献的查询比对方法，其特征在于，采用第一模型对所述向量进行序列标记的方法，包括：设定初始值：；其中t时刻的属于状态i的概率，t时刻状态i的隐状态序号，混淆矩阵；递推计算：；其中整段时间序列的时长T，存在可能得状态数N，序列长度k，隐藏状态的转移矩阵；递推结束：；其中函数求出概率取最大值时的参数；预测最优的状态序列：；通过设置t的值可能得到每一个时刻对应最优的状态。3.根据权利要求1所述标准文献的查询比对方法，其特征在于，所述采用第二模型对所述序列标记后的向量进分词的方法，包括：将带分词的字符串从左到右切分为；计算当前词与前驱词的概率：；其中字符串词m个，相关的前几个词；计算该词的累计概率值:
；保留大的累计概率，直到该字符串结束：从开始，按照从右到左的顺序，将前驱词输出分词结束。4.根据权利要求1所述标准文献的查询比对方法，其特征在于，计算预处理后的用户输入关键词和抓取的文献相似性的方法，包括：；其中n维向量表示句子，目标文本中n维向量表示句子，在目标文本出现的次数n，相似性。5.根据权利要求1所述标准文献的查询比对方法，其特征在于，所述采用第一算法优化所述神经网络模型的学习率的方法，包括：给定超参数，在时间步t>0计算状态变量：；其中小批量随机梯度；目标函数：；其中梯度下降；将目标函数自变量中每...

【专利技术属性】
技术研发人员：旻苏，
申请(专利权)人：中国标准化研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人