文本摘要确定方法和装置制造方法及图纸

技术编号:26971322 阅读:21 留言:0更新日期:2021-01-06 00:02
本发明专利技术公开了一种文本摘要确定方法和装置。其中,该方法包括:在获取到待确定摘要的目标文件之后,将目标文件的内容拆分为多个语句;将拆分得到的多个语句按照语句相似度划分为多个语句类;从每一个语句类中,确定出一个或多个与目标文件的内容的目标相似度最高的目标语句;将确定出的目标语句组合为目标文件的摘要。本发明专利技术解决了文本摘要确定的准确性较低的技术问题。

【技术实现步骤摘要】
文本摘要确定方法和装置
本专利技术涉及计算机领域,具体而言,涉及一种文本摘要确定方法和装置。
技术介绍
现有技术中,通常需要在获取到一个文件之后,确定出文件中的内容的摘要,以根据摘要确定文件的核心内容或思想。而现有技术中,确定文件的内容的摘要的过程中,通常是将文件的内容拆分成多个簇,将每个簇的簇心组合为摘要。该确定摘要的方法确定的摘要准确性低。
技术实现思路
本专利技术实施例提供了一种文本摘要确定方法和装置,以至少解决文本摘要确定的准确性较低的技术问题。根据本专利技术实施例的一个方面,提供了一种文本摘要确定方法,包括:在获取到待确定摘要的目标文件之后,将上述目标文件的内容拆分为多个语句;将拆分得到的上述多个语句按照语句相似度划分为多个语句类;从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句;将确定出的上述目标语句组合为上述目标文件的摘要。作为一种可选的示例,从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句之前,上述方法还包括:将每一个上述语句类中的每一个上述语句确定为当前语句,对上述当前语句执行以下操作:确定上述当前语句与上述目标文件的内容的第一相似度与上述当前语句与上述目标文件的内容的第二相似度,上述第一相似度用于指示上述当前语句与上述目标文件的内容在通用领域的相似度,上述第二相似度用于指示上述当前语句与上述目标文件的内容在专有领域的相似度;将上述第一相似度与上述第二相似度的加权求和结果确定为上述当前语句与上述目标文件的上述目标相似度。作为一种可选的示例,确定上述当前语句与上述目标文件的内容的第一相似度包括:将上述当前语句与上述目标文件的内容输入到第一神经网络模型中,其中,上述第一神经网络模型为预先训练的用于输出语句的向量的模型;获取上述第一神经网络模型输出的上述当前语句的第一语句向量与上述目标文件的内容的第二语句向量;将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。作为一种可选的示例,上述将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度包括:对上述余弦相似度进行平滑处理;将平滑处理后的上述余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。作为一种可选的示例,确定上述当前语句与上述目标文件的内容的第二相似度包括:对上述当前语句与上述目标文件的内容进行分词,得到上述当前语句的第一分词结果与上述目标文件的内容的第二分词结果;将上述第一分词结果转换为多个第一词向量,并将上述第二分词结果转换为多个第二词向量;根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量;将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度。作为一种可选的示例,上述根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量包括:将多个上述第一词向量的加权求和结果除以上述当前语句的句子长度所得到的商确定为上述当前语句的上述第一句向量;将多个上述第二词向量的加权求和结果除以上述目标文件的内容长度所得到的商确定为上述目标文件的上述第二句向量。作为一种可选的示例,在根据上述第一词向量得到上述当前语句的第一句向量,并根据上述第二分词结果得到上述目标文件的内容的第二句向量之后,在将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度之前,上述方法还包括:对上述第一句向量与上述第二句向量分别执行主成分分析步骤,确定上述第一句向量中的噪声与上述第二句向量中的噪声;删除上述第一句向量中的噪声与上述第二句向量中的噪声。作为一种可选的示例,上述将拆分得到的上述多个语句按照语句相似度划分为多个语句类包括:按照上述目标文件的内容的长度,确定上述目标文件的语句类的数量N,其中,上述N为正整数;将拆分得到的上述多个语句按照上述相似度划分为上述N个语句类。作为一种可选的示例,上述将确定出的上述目标语句组合为上述目标文件的摘要包括:按照上述目标语句在上述目标文件中出现的先后顺序,将上述目标语句组合为一段文本;将上述一段文本确定为上述目标文件的摘要。根据本专利技术实施例的另一方面,还提供了一种文本摘要确定装置,包括:拆分单元,用于在获取到待确定摘要的目标文件之后,将上述目标文件的内容拆分为多个语句;划分单元,用于将拆分得到的上述多个语句按照语句相似度划分为多个语句类;第一确定单元,用于从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句;组合单元,用于将确定出的上述目标语句组合为上述目标文件的摘要。作为一种可选的示例,上述装置还包括:第二确定单元,用于从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句之前,将每一个上述语句类中的每一个上述语句确定为当前语句,对上述当前语句执行以下操作:确定上述当前语句与上述目标文件的内容的第一相似度与上述当前语句与上述目标文件的内容的第二相似度,上述第一相似度用于指示上述当前语句与上述目标文件的内容在通用领域的相似度,上述第二相似度用于指示上述当前语句与上述目标文件的内容在专有领域的相似度;将上述第一相似度与上述第二相似度的加权求和结果确定为上述当前语句与上述目标文件的上述目标相似度。作为一种可选的示例,上述第二确定单元包括:输入模块,用于将上述当前语句与上述目标文件的内容输入到第一神经网络模型中,其中,上述第一神经网络模型为预先训练的用于输出语句的向量的模型;获取模块,用于获取上述第一神经网络模型输出的上述当前语句的第一语句向量与上述目标文件的内容的第二语句向量;第一确定模块,用于将上述第一语句向量与上述第二语句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。作为一种可选的示例,上述第一确定模块包括:处理子模块,用于对上述余弦相似度进行平滑处理;第一确定子模块,用于将平滑处理后的上述余弦相似度确定为上述当前语句与上述目标文件的内容的上述第一相似度。作为一种可选的示例,上述第二确定单元包括:分词模块,用于对上述当前语句与上述目标文件的内容进行分词,得到上述当前语句的第一分词结果与上述目标文件的内容的第二分词结果;转换模块,用于将上述第一分词结果转换为多个第一词向量,并将上述第二分词结果转换为多个第二词向量;第二确定模块,用于根据多个上述第一词向量得到上述当前语句的第一句向量,并根据多个上述第二分词结果得到上述目标文件的内容的第二句向量;第三确定模块,用于将上述第一句向量与上述第二句向量的余弦相似度确定为上述当前语句与上述目标文件的内容的第二相似度。作为一种可选的示例,上述第二确定模块包括:第二确定子模块,用于将多个上述第一词向量的加权求和结果除以上述当前语句的句子长度所得到的商确定为上述本文档来自技高网...

【技术保护点】
1.一种文本摘要确定方法,其特征在于,包括:/n在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;/n将拆分得到的所述多个语句按照语句相似度划分为多个语句类;/n从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;/n将确定出的所述目标语句组合为所述目标文件的摘要。/n

【技术特征摘要】
1.一种文本摘要确定方法,其特征在于,包括:
在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;
将拆分得到的所述多个语句按照语句相似度划分为多个语句类;
从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;
将确定出的所述目标语句组合为所述目标文件的摘要。


2.根据权利要求1所述的方法,其特征在于,从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句之前,所述方法还包括:
将每一个所述语句类中的每一个所述语句确定为当前语句,对所述当前语句执行以下操作:
确定所述当前语句与所述目标文件的内容的第一相似度与所述当前语句与所述目标文件的内容的第二相似度,所述第一相似度用于指示所述当前语句与所述目标文件的内容在通用领域的相似度,所述第二相似度用于指示所述当前语句与所述目标文件的内容在专有领域的相似度;
将所述第一相似度与所述第二相似度的加权求和结果确定为所述当前语句与所述目标文件的所述目标相似度。


3.根据权利要求2所述的方法,其特征在于,确定所述当前语句与所述目标文件的内容的第一相似度包括:
将所述当前语句与所述目标文件的内容输入到第一神经网络模型中,其中,所述第一神经网络模型为预先训练的用于输出语句的向量的模型;
获取所述第一神经网络模型输出的所述当前语句的第一语句向量与所述目标文件的内容的第二语句向量;
将所述第一语句向量与所述第二语句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度。


4.根据权利要求3所述的方法,其特征在于,所述将所述第一语句向量与所述第二语句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度包括:
对所述余弦相似度进行平滑处理;
将平滑处理后的所述余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度。


5.根据权利要求2所述的方法,其特征在于,确定所述当前语句与所述目标文件的内容的第二相似度包括:
对所述当前语句与所述目标文件的内容进行分词,得到所述当前语句的第一分词结果与所述目标文件的内容的第二分词结果;
将所述第一分词结果转换为多个第一词向量,并将所述第二分词结果转换为多个第二词向量;
根据多个所述第一词向...

【专利技术属性】
技术研发人员:王千
申请(专利权)人:上海风秩科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1