摘要抽取方法和装置、存储介质和电子装置制造方法及图纸

技术编号:24574627 阅读:38 留言:0更新日期:2020-06-21 00:12
本申请提供了一种摘要抽取方法和装置、存储介质和电子装置,其中,该方法包括:对同一剧本的多个场景进行聚类,得到多个情节,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。通过本申请,解决了相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题,提高了摘要抽取的准确率。

Abstract extraction methods and devices, storage media and electronic devices

【技术实现步骤摘要】
摘要抽取方法和装置、存储介质和电子装置
本申请涉及计算机领域,尤其涉及一种摘要抽取方法和装置、存储介质和电子装置。
技术介绍
目前,对于剧本场景的自动摘要工作,可以使用TextRank(文本排名)的方法进行摘要抽取。然而,TextRank的方法适合新闻类的文章,这类文章通过比较短的文字表达一个完整的主题,能够找到主题句。然而,对于包含多个剧集的剧本可以包含多个场次,例如,一部30集的剧本大约会有1200个场次,而每个场次不是独立的,与前后连续的一些场次会组成一个情节,因此,单独对每个场景来进行分析是不符合业务场景的。可见,相关技术中的剧本摘要抽取方式,存在摘要抽取准确率低的问题。
技术实现思路
本申请实施例提供了一种摘要抽取方法和装置、存储介质和电子装置,以至少解决相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题。根据本申请实施例的一个方面,提供了一种摘要抽取方法,包括:对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。根据本申请实施例的另一个方面,提供了一种摘要抽取装置,包括:聚类单元,用于对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;确定单元,用于根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;排序单元,用于根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;抽取单元,用于按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。可选地,聚类单元包括:生成模块,用于按照词频-逆文档频率,生成与多个场景中的每个场景对应的特征向量;聚类模块,用于使用与每个场景对应的特征向量对多个场景进行聚类,得到多个场景类簇,其中,多个场景类簇与多个情节一一对应。可选地,确定单元包括:第一提取模块,用于提取每个情节的情节关键词,并对情节关键词进行排序,得到第一排序结果;第二提取模块,用于提取目标场景的场景关键词,并对场景关键词进行排序,得到初始排序结果;调整模块,用于根据第一排序结果调整初始排序结果,得到第二排序结果,以使场景关键词中,属于情节关键词的关键词的顺序与第一排序结果一致、且位于不属于情节关键词的关键词之前。可选地,调整模块包括:获取子模块,用于获取场景关键词的第一关键词和第二关键词;第一调整子模块,用于在第一关键词属于情节关键词,第二关键词不属于情节关键词,且初始排序结果中第一关键词的位置在第二关键词的位置之后的情况下,将初始排序结果中第一关键词的位置调整到第二关键词的位置之前;第二调整子模块,用于在第一关键词和第二关键词均属于情节关键词,且第一关键词和第二关键词在情节关键词的第一排序结果中的第一位置关系与第一关键词和第二关键词在初始排序结果中的第二位置关系不同的情况下,将第二位置关系调整为第一位置关系。可选地,排序单元包括:选取模块,用于根据第二排序结果中场景关键词的顺序,从场景关键词选取出目标数量的目标关键词;第一获取模块,用于按照第二排序结果从目标关键词中获取当前关键词;第一确定模块,用于从待排序句子中确定包含当前关键词的一个或多个目标句子,其中,待排序句子为多个句子中未排序的句子;第二确定模块,用于根据一个或多个目标句子包含的目标关键词,确定一个或多个目标句子的子排序结果,其中,第三排序结果包括子排序结果。可选地,抽取单元包括:第二获取模块,用于按照第三排序结果从多个句子中获取当前句子;第三确定模块,用于在当前句子中包含场景关键词中的动词或者名词,且从当前句子识别出当前句子中包含的目标主语、目标谓语和目标宾语的情况下,根据目标主语、目标谓语和目标宾语,确定目标场景的摘要。可选地,上述装置还包括:获取单元,用于在根据目标主语、目标谓语和目标宾语,确定目标场景的摘要之前,获取关键词的关键词列表,其中,关键词包括场景关键词中的动词和场景关键词中的名词;分析单元,用于对当前句子进行依存语法分析,得到当前句子的语法分析结果,其中,语法分析结果为词关系矩阵;识别单元,用于在从当前句子中查找到关键词列表中包含的目标关键词的情况下,根据语法分析结果,识别当前句子中包含的目标主语、目标谓语和目标宾语。根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本申请实施例的又一个方面,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。通过本申请,采用对场景进行聚类,并根据聚类得到的情节抽取每个场景的关键词的方式,对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要,由于根据情节关键词的顺序抽取每个场景的关键词并确定其顺序,能够保证上下文连续的场景(同一情节中的场景)的摘要有一定的连贯性,符合剧本的情节主题,达到了提高摘要抽取的准确率的效果,从而解决了相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是根据本申请实施例的一种可选的服务器的硬件结构框图;图2是根据本申请实施例的一种可选的摘要抽取方法的流程图;图3是根据本申请实施例的一种可选的摘要抽取方法的示意图;图4是根据本申请实施例的另一种可选的摘要抽取方法的示意图;图5是根据本申请实施例的一种可选的系统架构的示意图;图6是根据本申请实施例的另一种可选的摘要抽取方法的流程图;图7是根据本申请实施例的一种可选的摘要抽取装置本文档来自技高网...

【技术保护点】
1.一种摘要抽取方法,其特征在于,包括:/n对同一剧本的多个场景进行聚类,得到多个情节,其中,所述多个情节中的每个情节包括所述多个场景中的一个或多个场景;/n根据对所述每个情节中包含的情节关键词进行排序得到的第一排序结果,确定所述每个情节中的目标场景的场景关键词和对所述场景关键词进行排序得到的第二排序结果;/n根据所述第二排序结果对所述目标场景中包含的多个句子进行排序,得到所述多个句子的第三排序结果,其中,所述多个句子中的每个句子至少包含一个所述场景关键词;/n按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要。/n

【技术特征摘要】
1.一种摘要抽取方法,其特征在于,包括:
对同一剧本的多个场景进行聚类,得到多个情节,其中,所述多个情节中的每个情节包括所述多个场景中的一个或多个场景;
根据对所述每个情节中包含的情节关键词进行排序得到的第一排序结果,确定所述每个情节中的目标场景的场景关键词和对所述场景关键词进行排序得到的第二排序结果;
根据所述第二排序结果对所述目标场景中包含的多个句子进行排序,得到所述多个句子的第三排序结果,其中,所述多个句子中的每个句子至少包含一个所述场景关键词;
按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要。


2.根据权利要求1所述的方法,其特征在于,对所述同一剧本的所述多个场景进行聚类,得到所述多个情节包括:
按照词频-逆文档频率,生成与所述多个场景中的每个场景对应的特征向量;
使用与所述每个场景对应的特征向量对所述多个场景进行聚类,得到多个场景类簇,其中,所述多个场景类簇与所述多个情节一一对应。


3.根据权利要求1所述的方法,其特征在于,根据对所述每个情节中包含的所述情节关键词进行排序得到的所述第一排序结果,确定所述每个情节中的所述目标场景的所述场景关键词和对所述场景关键词进行排序得到的所述第二排序结果包括:
提取所述每个情节的所述情节关键词,并对所述情节关键词进行排序,得到所述第一排序结果;
提取所述目标场景的所述场景关键词,并对所述场景关键词进行排序,得到初始排序结果;
根据所述第一排序结果调整所述初始排序结果,得到所述第二排序结果,以使所述场景关键词中,属于所述情节关键词的关键词的顺序与所述第一排序结果一致、且位于不属于所述情节关键词的关键词之前。


4.根据权利要求3所述的方法,其特征在于,根据所述第一排序结果调整所述初始排序结果,得到所述第二排序结果包括:
获取所述场景关键词的第一关键词和第二关键词;
在所述第一关键词属于所述情节关键词,所述第二关键词不属于所述情节关键词,且所述初始排序结果中所述第一关键词的位置在所述第二关键词的位置之后的情况下,将所述初始排序结果中所述第一关键词的位置调整到所述第二关键词的位置之前;
在所述第一关键词和所述第二关键词均属于所述情节关键词,且所述第一关键词和所述第二关键词在所述第一排序结果中的第一位置关系与所述第一关键词和所述第二关键词在所述初始排序结果中的第二位置关系不同的情况下,将所述第二位置关系调整为所述第一位置关系。


5.根据权利要求1所述的方法,其特征在于,根据所述第二排序结果对所述目标场景中包含的所述多个句子进行排序,得到...

【专利技术属性】
技术研发人员:王文超阳任科郏昕赵冲翔
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1