一种关键句提取模型的训练方法、装置及存储介质制造方法及图纸

技术编号:41719254 阅读:22 留言:0更新日期:2024-06-19 12:45
本说明书公开了一种关键句提取模型的训练方法、装置及存储介质,待训练的提取模型包含编码层、池化层和分类层,获取目标文本,确定组成目标文本的各子句,针对每个子句,将该子句输入编码层,得到由该子句包含的各分词对应的词向量确定的词特征,将词特征输入池化层,得到句特征,将各子句的句特征输入分类层,确定该目标文本的关键句中的首句和尾句,将首句与尾句之间的各子句,作为预测关键句,根据目标文本的标注关键句与预测关键句的差异,训练提取模型。通过池化层将词语级别的词特征转化为句子级别的句特征,并通过句子级别的标注关键句对提取模型进行训练,可以得到连续的子句组成的各预测关键句,从而提取到更加准确的关键句。

【技术实现步骤摘要】

本说明书涉及计算机,尤其涉及一种关键句提取模型的训练方法、装置及存储介质


技术介绍

1、关键句提取指利用机器学习的方法在一段文本中提取出包含特定信息,或具有总结摘要性质的句子。关键句提取是自然语言处理领域的重要内容,可以为业务风控、自动问答、舆情监控等任务提供支持。如,在业务风控任务中,可以根据提取处的关键句判断当前任务中是否存在个人信息泄露风险,以便对该业务进行风控。

2、在关键句提取中,通常以逗号或句号作为分割符将一段文本划分为多个子句,对每个子句进行关键句的识别,最终提取出关键句。目前,可以用基于关键词识别的方法进行关键句提取,先在文本中识别出关键词,再将包含关键词的子句,确定为关键句。但是,在这种方法中,训练数据的标签是针对关键词的词语级别的标签,导致对于关键句的识别过于细化。由于在一个文本中,并非所有子句都包含关键词,在提取结果中只会得到含关键词的子句组成的关键句,关键句中的信息不连贯,以致提取的关键句不准确。

3、所以,本说明书提供一种关键句提取模型的训练方法。


技术实现思路

本文档来自技高网...

【技术保护点】

1.一种关键句提取模型的训练方法,待训练的提取模型包含编码层、池化层和分类层,所述方法包括:

2.如权利要求1所述的方法,所述分类层包含第一分类子层和第二分类子层,所述第一分类子层由首句分类网络和尾句分类网络组成;

3.如权利要求2所述的方法,所述第二分类子层包含两个参数矩阵;

4.如权利要求2所述的方法,根据所述结果矩阵,确定所述目标文本的关键句中的首句以及所述关键句中的尾句,具体包括:

5.如权利要求2所述的方法,确定所述目标文本对应的标注关键句,根据所述标注关键句与所述预测关键句的差异,训练所述提取模型,具体包括:

6.如...

【技术特征摘要】

1.一种关键句提取模型的训练方法,待训练的提取模型包含编码层、池化层和分类层,所述方法包括:

2.如权利要求1所述的方法,所述分类层包含第一分类子层和第二分类子层,所述第一分类子层由首句分类网络和尾句分类网络组成;

3.如权利要求2所述的方法,所述第二分类子层包含两个参数矩阵;

4.如权利要求2所述的方法,根据所述结果矩阵,确定所述目标文本的关键句中的首句以及所述关键句中的尾句,具体包括:

5.如权利要求2所述的方法,确定所述目标文本对应的标注关键句,根据所述标注关键句与所述预测关键句的差异,训练所述提取模型,具体包括:

6.如权利要求5所述的方...

【专利技术属性】
技术研发人员:马志远都金涛孟昌华嵇佳颖周欣欣李肖潞
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1