【技术实现步骤摘要】
摘要抽取方法和装置、存储介质和电子装置
本申请涉及计算机领域,尤其涉及一种摘要抽取方法和装置、存储介质和电子装置。
技术介绍
目前,对于剧本场景的自动摘要工作,可以使用TextRank(文本排名)的方法进行摘要抽取。然而,TextRank的方法适合新闻类的文章,这类文章通过比较短的文字表达一个完整的主题,能够找到主题句。然而,对于包含多个剧集的剧本可以包含多个场次,例如,一部30集的剧本大约会有1200个场次,而每个场次不是独立的,与前后连续的一些场次会组成一个情节,因此,单独对每个场景来进行分析是不符合业务场景的。可见,相关技术中的剧本摘要抽取方式,存在摘要抽取准确率低的问题。
技术实现思路
本申请实施例提供了一种摘要抽取方法和装置、存储介质和电子装置,以至少解决相关技术中的剧本摘要抽取方式存在的摘要抽取准确率低的问题。根据本申请实施例的一个方面,提供了一种摘要抽取方法,包括:对同一剧本的多个场景进行聚类,得到多个情节,其中,多个情节中的每个情节包括多个场景中的一个或多个场景;根据对每个情节中包含的情节关键词进行排序得到的第一排序结果,确定每个情节中的目标场景的场景关键词和对场景关键词进行排序得到的第二排序结果;根据第二排序结果对目标场景中包含的多个句子进行排序,得到多个句子的第三排序结果,其中,多个句子中的每个句子至少包含一个场景关键词;按照第三排序结果对目标场景进行摘要抽取,得到目标场景的摘要。根据本申请实施例的另一个方面,提供了一种摘要抽取装置,包括:聚类单元,用于 ...
【技术保护点】
1.一种摘要抽取方法,其特征在于,包括:/n对同一剧本的多个场景进行聚类,得到多个情节,其中,所述多个情节中的每个情节包括所述多个场景中的一个或多个场景;/n根据对所述每个情节中包含的情节关键词进行排序得到的第一排序结果,确定所述每个情节中的目标场景的场景关键词和对所述场景关键词进行排序得到的第二排序结果;/n根据所述第二排序结果对所述目标场景中包含的多个句子进行排序,得到所述多个句子的第三排序结果,其中,所述多个句子中的每个句子至少包含一个所述场景关键词;/n按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要。/n
【技术特征摘要】
1.一种摘要抽取方法,其特征在于,包括:
对同一剧本的多个场景进行聚类,得到多个情节,其中,所述多个情节中的每个情节包括所述多个场景中的一个或多个场景;
根据对所述每个情节中包含的情节关键词进行排序得到的第一排序结果,确定所述每个情节中的目标场景的场景关键词和对所述场景关键词进行排序得到的第二排序结果;
根据所述第二排序结果对所述目标场景中包含的多个句子进行排序,得到所述多个句子的第三排序结果,其中,所述多个句子中的每个句子至少包含一个所述场景关键词;
按照所述第三排序结果对所述目标场景进行摘要抽取,得到所述目标场景的摘要。
2.根据权利要求1所述的方法,其特征在于,对所述同一剧本的所述多个场景进行聚类,得到所述多个情节包括:
按照词频-逆文档频率,生成与所述多个场景中的每个场景对应的特征向量;
使用与所述每个场景对应的特征向量对所述多个场景进行聚类,得到多个场景类簇,其中,所述多个场景类簇与所述多个情节一一对应。
3.根据权利要求1所述的方法,其特征在于,根据对所述每个情节中包含的所述情节关键词进行排序得到的所述第一排序结果,确定所述每个情节中的所述目标场景的所述场景关键词和对所述场景关键词进行排序得到的所述第二排序结果包括:
提取所述每个情节的所述情节关键词,并对所述情节关键词进行排序,得到所述第一排序结果;
提取所述目标场景的所述场景关键词,并对所述场景关键词进行排序,得到初始排序结果;
根据所述第一排序结果调整所述初始排序结果,得到所述第二排序结果,以使所述场景关键词中,属于所述情节关键词的关键词的顺序与所述第一排序结果一致、且位于不属于所述情节关键词的关键词之前。
4.根据权利要求3所述的方法,其特征在于,根据所述第一排序结果调整所述初始排序结果,得到所述第二排序结果包括:
获取所述场景关键词的第一关键词和第二关键词;
在所述第一关键词属于所述情节关键词,所述第二关键词不属于所述情节关键词,且所述初始排序结果中所述第一关键词的位置在所述第二关键词的位置之后的情况下,将所述初始排序结果中所述第一关键词的位置调整到所述第二关键词的位置之前;
在所述第一关键词和所述第二关键词均属于所述情节关键词,且所述第一关键词和所述第二关键词在所述第一排序结果中的第一位置关系与所述第一关键词和所述第二关键词在所述初始排序结果中的第二位置关系不同的情况下,将所述第二位置关系调整为所述第一位置关系。
5.根据权利要求1所述的方法,其特征在于,根据所述第二排序结果对所述目标场景中包含的所述多个句子进行排序,得到...
【专利技术属性】
技术研发人员:王文超,阳任科,郏昕,赵冲翔,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。