一种基于句子表征的短文本相似度匹配方法及应用组成比例

技术编号:37982548 阅读:27 留言:0更新日期:2023-06-30 09:57
本发明专利技术涉及一种基于句子表征的短文本相似度匹配方法及应用,构建针对文本匹配与表征学习的模型,以孪生网络为基础,以基于连续批次数据的正负样本增强方法进行损失计算;训练完成的模型用于短文本相似度匹配;方法应用于税务行业的问答系统,为用户问匹配税务行业的标准问。本发明专利技术解决对于相同长度样本的置信度计算偏移的缺陷,加强样本本身的语义表达,增加不同句子中的语义差异的关注概率,降低句子长度对于模型判断的干扰;充分利用历史时间步的连续批次样本中已有的的特征向量,优化当前时间步模型的训练目标,在利用更多样本特征数据的同时不增加训练时长;提升模型预测准确度,节省标注人力成本;特别适用于专业领域。特别适用于专业领域。特别适用于专业领域。

【技术实现步骤摘要】
一种基于句子表征的短文本相似度匹配方法及应用


[0001]本专利技术涉及电数字数据处理的
,特别涉及一种基于句子表征的短文本相似度匹配方法及应用。

技术介绍

[0002]随着科学技术的不断发展,各行各业中,智能信息咨询服务的需求日益增长,通过深度学习以及自然语言处理的相关技术来实现智能咨询服务趋于普遍。在此前提下,服务的核心要点在于,智能咨询服务能够准确的推荐出用户咨询问题的答案,而这就对咨询服务中的问答系统性能提出了较高的要求,确切地说,是对用户提出的问题与问答系统中的本地问题的匹配提出了较高的要求。
[0003]目前大多数文本相似度匹配算法都是通过对两条文本的拼接序列进行编码操作并输出它们的关联程度来实现,即将两条文本的相似度作为推荐问题先后排序的依据,这种方式虽然在一定程度上解决了传统机器学习模型对语义特征提取不足的问题,但是模型参数量的增加导致模型在提升准确度的同时也大幅增加了预测时间,特别是针对文本相似度计算的任务,对于问答库中待排序的每一个文本都需要与用户的问题文本进行相似度计算,在并发性能要求比较高的场景下并不能满足本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于句子表征的短文本相似度匹配方法,其特征在于:构建针对文本匹配与表征学习的模型,所述模型以孪生网络为基础,以基于连续批次数据的正负样本增强方法进行损失计算;以训练完成的模型用于短文本相似度匹配。2.根据权利要求1所述的一种基于句子表征的短文本相似度匹配方法,其特征在于:所述正负样本增强方法包括正样本数据增强和组合式负样本构造;所述正样本和负样本的训练集为单独且未标注的对应应用领域的文本。3.根据权利要求2所述的一种基于句子表征的短文本相似度匹配方法,其特征在于:所述正样本数据增强包括以下步骤:S1.1对于任一正样本,以此正样本与正样本本身组成训练样本对;S1.2查找当前正样本中是否存在对应当前应用领域的专业词,若是,则以对应当前应用领域的专业词对训练样本对中的正样本本身进行重复扩充,所述重复扩充的专业词重复于当前专业词前或后,进行S1.4,否则进行下一步;S1.3在正样本的句子中随机重复选取个字进行重复扩充;S1.4得到正样本的训练样本对x
i
与4.根据权利要求3所述的一种基于句子表征的短文本相似度匹配方法,其特征在于:S1.3中,重复次数为2~6次。5.根据权利要求2所述的一种基于句子表征的短文本相似度匹配方法,其特征在于:所述组合式负样本构造包括批次内的负样本构造和连续批次的负样本构造。6.根据权利要求5所述的一种基于句子表征的短文本相似度匹配方法,其特征在于:批次内的负样本构造为,任一批次内的负样本对由每个样本与除了自己本身的其它一个训练样本构成。7.根据权利要求6所述的一种基于句子表征的短文本相似度匹配方法,其特征在于:令批次大小为N,学习目标函数为其中,h
i
=f
θ...

【专利技术属性】
技术研发人员:王晶陈煜
申请(专利权)人:一贯智服杭州技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1