一种文本相关性识别模型的调优方法、系统和存储介质技术方案

技术编号：35694577 阅读：13 留言：0更新日期：2022-11-23 14:44

本发明专利技术涉及网络模型技术领域，具体涉及一种文本相关性识别模型的调优方法、系统和存储介质。本发明专利技术首先根据数据预处理规则对输入文本进行切分，并将切分后的文本输入至TD

全部详细技术资料下载

【技术实现步骤摘要】
一种文本相关性识别模型的调优方法、系统和存储介质

[0001]本专利技术涉及网络模型
，具体涉及一种文本相关性识别模型的调优方法、系统和存储介质。

技术介绍

[0002]文本相关性任务是一个为了判断文本中提及的实体与文本本身的相关性程度的任务，即输入一个文本，例如：“伊利家新款高蛋白脱脂奶粉，不甜但是巨好喝健康食品喝出来的健康”，输入的实体词为“伊利”，任务判断结果为：实体词“伊利”是输入文本“伊利家新款高蛋白脱脂奶粉，不甜但是巨好喝健康食品喝出来的健康”的强相关实体。再如：输入一个文本“内蒙牛群过马路也是这样过，有放牛人看着呢”，输入的实体词为“蒙牛”，任务判断结果为：实体词“蒙牛”就是输入文本“内蒙牛群过马路也是这样过，有放牛人看着呢”的弱相关实体。
[0003]现有技术中对文本序列进行编码并进行二分类的主流模型是LSTM神经网络模型。但是，使用LSTM神经网络模型对文本序列进行分类建模时，会存在文本编码能力弱的问题。因此，出现了TD
‑
LSTM模型作为LSTM的升级版，对文本相关性任务进行建模，捕捉目标实体词的上下文特征并进行分类，请参见图1，图1是LSTM和TD
‑
LSTM的模型结构图。
[0004]输入文本“这就不得不想想蒙牛这么多年为什么包装技术上，就一点也没有突破的原因了”，为了使文本适应模型的输入形式，需要对文本的进行处理，处理后的文本在TD
‑
LSTM模型结构图中的表示为：“蒙牛”作为target word(当实体词在文本中...

【技术保护点】

【技术特征摘要】
1.一种文本相关性识别模型的调优方法，其特征在于，包括：根据数据预处理规则对输入文本进行切分并筛选，将筛选后的文本输入至TD
‑
LSTM模型，得到实体词在输入文本中的相关性分值A；将文本的字面匹配信息和实体在文本中的分布规则信息输入至机器学习模型GBDT中，得到实体词在输入文本中的相关性分值B；根据所述相关性分值A、所述相关性分值B和预设的处理规则，计算得到实体相关性程度的最终结果。2.根据权利要求1所述的方法，其特征在于，所述根据数据预处理规则对输入文本进行切分并筛选，包括：根据分隔符对输入文本进行切分，并筛选出包含实体词最长的五句；或者，包含实体词最长的三句；或者，普通首尾句和包含实体词最长的一句；或者，包含实体词的首尾句和包含实体词除首尾句的最长一句。3.根据权利要求2所述的方法，其特征在于，还包括：当包含实体子句的条数少于数据预处理规则中的条数时，取满足条件的最大子句。4.根据权利要求2或3所述的方法，其特征在于，包括：当实体此在输入文本中出现了大于等于第一次，则选择中间的实体词位置对输入文本进行切分。5.根据权利要求1所述的方法，其特征在于，所述将文本的字面匹配信息，包括：5.1实体词词频；5.2全文词数；5.3实体词词频/全文词数；5.4实体词是否在标题中。6.根据权利要求5所述的方法，其特征在于，所述实体在文本中的分布规则信息，包括：6.1实体词第一次出现的位置相对于输入文本中第一个词的偏移量；6.2实体词第一次出现的位置相对于输入文本中最后一个词的偏移量...

【专利技术属性】
技术研发人员：王兆元，龚浩，李青龙，
申请(专利权)人：北京智慧星光信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人