一种神经网络训练方法、语义检索方法及系统技术方案

技术编号:33350874 阅读:13 留言:0更新日期:2022-05-08 09:56
本发明专利技术公开一种神经网络训练方法,包括步骤:S1:对句子进行标注;S2:将标注好的句子输入神经网络模型;S3:设置损失函数;S4:根据损失函数的损失值,对神经网络进行训练。本发明专利技术采取的技术方案使用的神经网络训练方法得到的模型参数少,检索速度快,能够获取文本的语义信息,从而提高了检索的准确率。从而提高了检索的准确率。从而提高了检索的准确率。

【技术实现步骤摘要】
一种神经网络训练方法、语义检索方法及系统


[0001]本专利技术涉及信息检索
,尤其涉及一种神经网络训练方法、语义检索方法及系统。

技术介绍

[0002]海量的信息中,信息搜索是重要的技术之一,由于语言的特点,同一个意思,都会有较多的相同以及相似的词汇进行表达,为了更进一步检索到想要的信息,有的还基于句子的意思进行概括和总结。
[0003]随着自然语言处理技术的发展,语义搜索作为信息搜索搜得到了快速的发展,语音搜索能从海量的文本中,根据用户输入的词语或者句子,能够搜索出语义相同或者相似的语句,由于其具有深度的信息检索和挖掘能力,在文献搜索、智能客户、智能问答、推荐系统等领域得到了广泛的应用。
[0004]现有技术中,有的语义搜索技术已经结合深度神经网络来进行探索,现有的检索算法主要是基于文本相似度bm2.5和tf

idf(term frequency

inverse document frequency)来实现,其技术缺陷在于,只能能够计算词的词频特征,检索的词在文本中出现才可以被检索到。只能获取词频信息,但是很难获取文本的语义信息,如果不出现,但是语义相近的词无法被检索到。导致其检索准确率不高。

技术实现思路

[0005]本专利技术为解决现有技术中存在的技术问题,提供一种神经网络训练方法,包括步骤:
[0006]S1:对句子进行标注;
[0007]S2:将标注好的句子输入神经网络模型;
[0008]S3:设置损失函数;
[0009]S4:根据损失函数的损失值,对神经网络进行训练。
[0010]进一步地,步骤S1:对句子进行标注为:sentenceA,sentenceB,Score。
[0011]进一步地,步骤S3:设置损失函数中的损失函数公式为:
[0012][0013]其中,m为训练的样本数量,label为人工标注的sentenceA和sentenceB的相似度,EsentenceA和EsentenceB为神经网络模型中抽取出来的句向量,cos为余弦相似度。
[0014]进一步地,S2:将标注好的句子输入神经网络模型包括步骤:
[0015]将字向量、位置编码、字所在的句子信息均设置为128维;
[0016]将上述各向量乘以矩阵,得到768维的向量;
[0017]输入神经网络,得到句子特征F,句子特征维度为:输入句子个数*最长句子长度*768;
[0018]将句子特征F输入至卷积神经网络,对句子的每个字的特征进行加权求和。
[0019]进一步地,所述神经网络结构为依次串联的6对transformer组和卷积神经网络构成,其中,每对transformer组由二层transformer构成,每组的transformer参数完全共享。
[0020]本专利技术还提供一种基于神经网络的语义检索方法,包括步骤:
[0021]对文本库进行计算得到特征向量E_total,并存储;
[0022]将用户查询的信息转换为向量S_f;
[0023]计算S_f和E_total的余弦相似度;
[0024]将余弦相似度得分最高的前N条句子返回检索结果。
[0025]本专利技术还提供一种基于神经网络的语义检索系统,包括采集模块、处理模块以及输出模块,其中:
[0026]采集模块对文本库进行计算得到特征向量E_total,并存储;
[0027]处理模块用以对用户的输入的信息进行处理;
[0028]输出模块用以将处理模块的处理结果返回给用户。
[0029]本专利技术还提供一种计算机可读存储介质,所述存储介质中存储有指令或者程序,所述指令或者程序由处理器加载并执行以实现所述的语义检索方法。
[0030]本专利技术还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行所述的语义检索方法。
[0031]本专利技术公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
[0032]由此可见,本专利技术采取的技术方案使用的神经网络训练方法得到的模型参数少,检索速度快,能够获取文本的语义信息,从而提高了检索的准确率。
[0033]为了对本专利技术有更清楚全面的了解,下面结合附图,对本专利技术的具体实施方式进行详细描述。
附图说明
[0034]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本申请实施例的神经网络训练示意图。
具体实施方式
[0036]现有的检索算法主要是基于bm2.5和tf

idf的,只能计算词的词频特征,检索的词在文本中出现才可以被检索到。如果不出现,但是语义相近的词无法被检索到。因此传统检索模型只能获取词频信息很难获取文本的语义信息。
[0037]也有的基于bert的语义检索模型在训练时采用的是交叉熵损失函数,而在测试(实际检索)的时候,采用的是其他算法来计算得分,因此造成训练和预测阶段不一致,也导
致准确率不高。为此,本申请针对现有技术的技术缺陷,公开一种神经网络训练方法,包括步骤:
[0038]S1:对句子进行标注;
[0039]S2:将标注好的句子输入神经网络模型;
[0040]S3:设置损失函数;
[0041]S4:根据损失函数的损失值,对神经网络进行训练。
[0042]下面结合各种优选的实施方式进一步说明本申请的技术方案。
[0043]S1:对句子进行标注;
[0044]此步骤的目的是把输入句子变成用于训练神经网络可以处理的句子格式。标注的一行的格式为:sentenceA,sentenceB,Score,即二条句子,以及相似度的数值,比如:
[0045]今天上海天气怎么样?今天上海天气如何?0.99,Score(数值)是0至1之间的数。
[0046]上述这行表述中,sentenceA即为:今天上海天气怎么样?
[0047]sentenceB即为:今天上海天气如何?
[0048]这二条句子的相似度数值为0.99,即为这二条句子的语义所表达的意思基本一样,当检索到其中任何一条句子,其另外一条也能检索出来。
[0049]S2:将标注好的句子输入神经网络模型:
[0050]对文本标注完之后,即可将标注完的数据集输入到神经网络模型中进行训练。...

【技术保护点】

【技术特征摘要】
1.一种神经网络训练方法,其特征是,包括步骤:S1:对句子进行标注;S2:将标注好的句子输入神经网络模型;S3:设置损失函数;S4:根据损失函数的损失值,对神经网络进行训练。2.如权利要求1所述的神经网络训练方法,其特征是,步骤S1:对句子进行标注为:sentenceA,sentenceB,Score。3.如权利要求1所述的神经网络训练方法,其特征是,步骤S3:设置损失函数中的损失函数公式为:其中,m为训练的样本数量,label为人工标注的sentenceA和sentenceB的相似度,EsentenceA和EsentenceB为神经网络模型中抽取出来的句向量,cos为余弦相似度。4.如权利要求1所述的神经网络训练方法,其特征是,S2:将标注好的句子输入神经网络模型包括步骤:将字向量、位置编码、字所在的句子信息均设置为128维;将上述各向量乘以矩阵,得到768维的向量;输入神经网络,得到句子特征F,句子特征维度为:输入句子个数*最长句子长度*768;将句子特征F输入至卷积神经网络,对句子的每个字的特征进行加权求和。5.如权利要求1所述的神经网络训练方法,其特征是,所述神经网络结构为依次串联的6对...

【专利技术属性】
技术研发人员:曾祥云朱姬渊
申请(专利权)人:上海易康源医疗健康科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1