文本摘要确定方法和装置制造方法及图纸

技术编号:26971322 阅读:41 留言:0更新日期:2021-01-06 00:02
本发明专利技术公开了一种文本摘要确定方法和装置。其中,该方法包括:在获取到待确定摘要的目标文件之后,将目标文件的内容拆分为多个语句;将拆分得到的多个语句按照语句相似度划分为多个语句类;从每一个语句类中,确定出一个或多个与目标文件的内容的目标相似度最高的目标语句;将确定出的目标语句组合为目标文件的摘要。本发明专利技术解决了文本摘要确定的准确性较低的技术问题。

【技术实现步骤摘要】
文本摘要确定方法和装置
本专利技术涉及计算机领域,具体而言,涉及一种文本摘要确定方法和装置。
技术介绍
现有技术中,通常需要在获取到一个文件之后,确定出文件中的内容的摘要,以根据摘要确定文件的核心内容或思想。而现有技术中,确定文件的内容的摘要的过程中,通常是将文件的内容拆分成多个簇,将每个簇的簇心组合为摘要。该确定摘要的方法确定的摘要准确性低。
技术实现思路
本专利技术实施例提供了一种文本摘要确定方法和装置,以至少解决文本摘要确定的准确性较低的技术问题。根据本专利技术实施例的一个方面,提供了一种文本摘要确定方法,包括:在获取到待确定摘要的目标文件之后,将上述目标文件的内容拆分为多个语句;将拆分得到的上述多个语句按照语句相似度划分为多个语句类;从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句;将确定出的上述目标语句组合为上述目标文件的摘要。作为一种可选的示例,从每一个上述语句类中,确定出一个或多个与上述目标文件的内容的目标相似度最高的目标语句之前,上述方法还包括:将每一个上述本文档来自技高网...

【技术保护点】
1.一种文本摘要确定方法,其特征在于,包括:/n在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;/n将拆分得到的所述多个语句按照语句相似度划分为多个语句类;/n从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;/n将确定出的所述目标语句组合为所述目标文件的摘要。/n

【技术特征摘要】
1.一种文本摘要确定方法,其特征在于,包括:
在获取到待确定摘要的目标文件之后,将所述目标文件的内容拆分为多个语句;
将拆分得到的所述多个语句按照语句相似度划分为多个语句类;
从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句;
将确定出的所述目标语句组合为所述目标文件的摘要。


2.根据权利要求1所述的方法,其特征在于,从每一个所述语句类中,确定出一个或多个与所述目标文件的内容的目标相似度最高的目标语句之前,所述方法还包括:
将每一个所述语句类中的每一个所述语句确定为当前语句,对所述当前语句执行以下操作:
确定所述当前语句与所述目标文件的内容的第一相似度与所述当前语句与所述目标文件的内容的第二相似度,所述第一相似度用于指示所述当前语句与所述目标文件的内容在通用领域的相似度,所述第二相似度用于指示所述当前语句与所述目标文件的内容在专有领域的相似度;
将所述第一相似度与所述第二相似度的加权求和结果确定为所述当前语句与所述目标文件的所述目标相似度。


3.根据权利要求2所述的方法,其特征在于,确定所述当前语句与所述目标文件的内容的第一相似度包括:
将所述当前语句与所述目标文件的内容输入到第一神经网络模型中,其中,所述第一神经网络模型为预先训练的用于输出语句的向量的模型;
获取所述第一神经网络模型输出的所述当前语句的第一语句向量与所述目标文件的内容的第二语句向量;
将所述第一语句向量与所述第二语句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度。


4.根据权利要求3所述的方法,其特征在于,所述将所述第一语句向量与所述第二语句向量的余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度包括:
对所述余弦相似度进行平滑处理;
将平滑处理后的所述余弦相似度确定为所述当前语句与所述目标文件的内容的所述第一相似度。


5.根据权利要求2所述的方法,其特征在于,确定所述当前语句与所述目标文件的内容的第二相似度包括:
对所述当前语句与所述目标文件的内容进行分词,得到所述当前语句的第一分词结果与所述目标文件的内容的第二分词结果;
将所述第一分词结果转换为多个第一词向量,并将所述第二分词结果转换为多个第二词向量;
根据多个所述第一词向...

【专利技术属性】
技术研发人员:王千
申请(专利权)人:上海风秩科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1