一种文本相关性识别模型的调优方法、系统和存储介质技术方案

技术编号:35694577 阅读:13 留言:0更新日期:2022-11-23 14:44
本发明专利技术涉及网络模型技术领域,具体涉及一种文本相关性识别模型的调优方法、系统和存储介质。本发明专利技术首先根据数据预处理规则对输入文本进行切分,并将切分后的文本输入至TD

【技术实现步骤摘要】
一种文本相关性识别模型的调优方法、系统和存储介质


[0001]本专利技术涉及网络模型
,具体涉及一种文本相关性识别模型的调优方法、系统和存储介质。

技术介绍

[0002]文本相关性任务是一个为了判断文本中提及的实体与文本本身的相关性程度的任务,即输入一个文本,例如:“伊利家新款高蛋白脱脂奶粉,不甜但是巨好喝健康食品喝出来的健康”,输入的实体词为“伊利”,任务判断结果为:实体词“伊利”是输入文本“伊利家新款高蛋白脱脂奶粉,不甜但是巨好喝健康食品喝出来的健康”的强相关实体。再如:输入一个文本“内蒙牛群过马路也是这样过,有放牛人看着呢”,输入的实体词为“蒙牛”,任务判断结果为:实体词“蒙牛”就是输入文本“内蒙牛群过马路也是这样过,有放牛人看着呢”的弱相关实体。
[0003]现有技术中对文本序列进行编码并进行二分类的主流模型是LSTM神经网络模型。但是,使用LSTM神经网络模型对文本序列进行分类建模时,会存在文本编码能力弱的问题。因此,出现了TD

LSTM模型作为LSTM的升级版,对文本相关性任务进行建模,捕捉目标实体词的上下文特征并进行分类,请参见图1,图1是LSTM和TD

LSTM的模型结构图。
[0004]输入文本“这就不得不想想蒙牛这么多年为什么包装技术上,就一点也没有突破的原因了”,为了使文本适应模型的输入形式,需要对文本的进行处理,处理后的文本在TD

LSTM模型结构图中的表示为:“蒙牛”作为target word(当实体词在文本中出现多次,使用实体词第一次出现的位置作为target word),“这就不得不想想蒙牛”输入LSTM

L,“蒙牛这么多年为什么包装技术上,就一点也没有突破的原因了”输入LSTM

R。最终将LSTM

L与LSTM

R的输出进行向量拼接,作为softmax的输入,进行相关性预测。
[0005]使用TD

LSTM模型进行文本相关性预测存在以下缺点:
[0006]1、使用实体词所在位置对输入文本进行切分,当文本中出现目标实体词target word多次,如果使用实体词第一次出现的位置作为target word,会导致切分后的两小句的句子长度差异过大,无法完全发挥TD

LSTM模型的序列编码优势。
[0007]2、使用target word对输入文本进行分句时,是直接在全文的基础上进行的切分,将分句后的小句作为模型输入,此时左右小句中会分别包含大量的噪音信息,此类噪音信息会降低模型判断能力。

技术实现思路

[0008]有鉴于此,本专利技术的目的在于提供一种文本相关性识别模型的调优方法、系统和存储介质,以解决现有技术中使用TD

LSTM模型判断文本相关性准确率不高的问题。
[0009]根据本专利技术实施例的第一方面,提供一种文本相关性识别模型的调优方法,包括:
[0010]根据数据预处理规则对输入文本进行切分并筛选,并将筛后的文本输入至TD

LSTM模型,得到实体词在输入文本中的相关性分值A;
[0011]将文本的字面匹配信息和实体在文本中的分布规则信息输入至机器学习模型GBDT中,得到实体词在输入文本中的相关性分值B;
[0012]根据所述相关性分值A、所述相关性分值B和预设的处理规则,计算得到实体相关性程度的最终结果。
[0013]优选地,所述根据数据预处理规则对输入文本进行切分并筛选,包括:
[0014]根据分隔符对输入文本进行切分,并筛选出包含实体词最长的五句;
[0015]或者,包含实体词最长的三句;
[0016]或者,普通首尾句和包含实体词最长的一句;
[0017]或者,包含实体词的首尾句和包含实体词除首尾句的最长一句。
[0018]优选地,所述方法,还包括:
[0019]当包含实体子句的条数少于数据预处理规则中的条数时,取满足条件的最大子句。
[0020]优选地,当实体此在输入文本中出现了大于等于第一次,则选择中间的实体词位置对输入文本进行切分。
[0021]优选地,所述将文本的字面匹配信息,包括:
[0022]5.1实体词词频;
[0023]5.2全文词数;
[0024]5.3实体词词频/全文词数;
[0025]5.4实体词是否在标题中。
[0026]优选地,所述实体在文本中的分布规则信息,包括:
[0027]6.1实体词第一次出现的位置相对于输入文本中第一个词的偏移量;
[0028]6.2实体词第一次出现的位置相对于输入文本中最后一个词的偏移量;
[0029]6.3实体词最后一次出现的位置相对于输入文本中第一个词的偏移量;
[0030]6.4实体词最后一次出现的位置相对于输入文本中最后一个词的偏移量;
[0031]6.5实体词最后一次出现的位置与第一次出现的位置的间隔;
[0032]6.6实体词多次出现时的平均间隔;
[0033]6.7实体词实际位置偏离平均间隔的偏移量的平均值。
[0034]优选地,所述方法,包括:
[0035]所述根据所述相关性分值A、所述相关性分值B和预设的处理规则,得到实体相关性程度的最终结果,包括:
[0036]将所述相关性分值A和所述相关性分值B相加后除以2,得到实体相关性程度C。
[0037]优选地,若所述实体相关性程度C大于0.5,则实体词对于输入文本为强相关实体;
[0038]若所述实体相关性程度C小于等于0.5,则实体词对于输入文本为弱相关实体。
[0039]根据本专利技术实施例的第二方面,提供一种文本相关性识别模型的调优系统,包括:
[0040]切分模块,用于根据数据预处理规则对输入文本进行切分,并将切分后的文本输入至TD

LSTM模型,得到实体词在输入文本中的相关性分值A;
[0041]输入模块,用于将文本的字面匹配信息和实体在文本中的分布规则信息输入至机器学习模型GBDT中,得到实体词在输入文本中的相关性分值B;
[0042]计算模块,用于根据所述相关性分值A、所述相关性分值B和预设的处理规则,计算
得到实体相关性程度的最终结果。
[0043]根据本专利技术实施例的第三方面,提供一种计算机可读存储介质,其上存储有可擦写的计算机程序;
[0044]当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述的方法。
[0045]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0046]本专利技术首先根据数据预处理规则对输入文本进行切分,并将切分后的文本输入至TD

LSTM模型,得到实体词在输入文本中的相关性分值A,同时,将文本的字面匹配信息和实体在文本中的分布规则本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相关性识别模型的调优方法,其特征在于,包括:根据数据预处理规则对输入文本进行切分并筛选,将筛选后的文本输入至TD

LSTM模型,得到实体词在输入文本中的相关性分值A;将文本的字面匹配信息和实体在文本中的分布规则信息输入至机器学习模型GBDT中,得到实体词在输入文本中的相关性分值B;根据所述相关性分值A、所述相关性分值B和预设的处理规则,计算得到实体相关性程度的最终结果。2.根据权利要求1所述的方法,其特征在于,所述根据数据预处理规则对输入文本进行切分并筛选,包括:根据分隔符对输入文本进行切分,并筛选出包含实体词最长的五句;或者,包含实体词最长的三句;或者,普通首尾句和包含实体词最长的一句;或者,包含实体词的首尾句和包含实体词除首尾句的最长一句。3.根据权利要求2所述的方法,其特征在于,还包括:当包含实体子句的条数少于数据预处理规则中的条数时,取满足条件的最大子句。4.根据权利要求2或3所述的方法,其特征在于,包括:当实体此在输入文本中出现了大于等于第一次,则选择中间的实体词位置对输入文本进行切分。5.根据权利要求1所述的方法,其特征在于,所述将文本的字面匹配信息,包括:5.1实体词词频;5.2全文词数;5.3实体词词频/全文词数;5.4实体词是否在标题中。6.根据权利要求5所述的方法,其特征在于,所述实体在文本中的分布规则信息,包括:6.1实体词第一次出现的位置相对于输入文本中第一个词的偏移量;6.2实体词第一次出现的位置相对于输入文本中最后一个词的偏移量...

【专利技术属性】
技术研发人员:王兆元龚浩李青龙
申请(专利权)人:北京智慧星光信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1