剧本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:24518047 阅读:44 留言:0更新日期:2020-06-17 06:57
本发明专利技术实施例提供了一种剧本处理方法、装置、电子设备及计算机可读存储介质,属于计算机技术领域。该方法中,根据预设的集编号表述范围将待处理剧本分割为多个剧集,根据预设的场景编号表述范围将剧集分割为多个场景文本,提取场景文本中包含的场景信息字符,将场景文本中包含的场景信息字符、场景文本的场景编号及场景文本所属剧集的集编号,确定为场景文本的待整理信息,将场景文本的待整理信息以及场景文本中的正文文本,按照预设形式进行组合。以单个场景文本为处理对象进行提取,一定程度上可以降低剧本内部的耦合度,进而提高提取准确性。将场景文本按照预设形式重新组合,使场景文本内部的形式保持一致,进而方便处理。

Script processing method, device, electronic equipment and computer readable storage medium

【技术实现步骤摘要】
剧本处理方法、装置、电子设备及计算机可读存储介质
本专利技术属于计算机
,特别是涉及一种剧本处理方法、装置、电子设备及计算机可读存储介质。
技术介绍
在规范化管理、拍摄统筹管理、剧本智能评估等应用场景中,往往涉及到对剧本中的待整理信息进行分析。其中,待整理信息指的是集编号、场景编号、时间、地点及人物的场景信息字符。而这些场景信息字符往往分散在剧本内容中,现有技术中往往是预先限定固定的几种固定的场景信息格式模板,并利用固定格式模板直接从剧本中提取待整理信息。由于编剧的书写习惯不同,每个剧本中文本的编写结构存在较大差异,这样,在剧本的格式与固定格式模板中的格式差距较大时,会导致按照固定格式模板提取的待整理信息的准确性较低。
技术实现思路
本专利技术提供一种剧本处理方法、装置、电子设备及计算机可读存储介质,以便解决提取的待整理信息的准确性较低的问题。在本专利技术实施的第一方面,首先提供了一种剧本处理方法,应用于电子设备,该方法包括:根据预设的集编号表述范围,确定所述待处理剧本中包含的集编号以及所述集编号的位置,并根据所述包含的集编号及所述集编号的位置将所述待处理剧本分割为多个剧集;对于至少一个所述剧集,根据预设的场景编号表述范围,确定所述剧集中包含的场景编号以及所述场景编号的位置,并根据所述场景编号及所述场景编号的位置将所述剧集分割为所述多个场景文本;对于至少一个所述场景文本,提取所述场景文本中包含的场景信息字符;将所述场景文本中包含的场景信息字符、所述场景文本的场景编号及所述场景文本所属剧集的集编号,确定为所述场景文本的待整理信息;将所述场景文本的待整理信息以及所述场景文本中的正文文本,按照预设形式进行组合,形成目标剧本。在本专利技术实施的第二方面,还提供了一种剧本处理装置,应用于电子设备,该装置包括:第一确定模块,用于根据预设的集编号表述范围,确定所述待处理剧本中包含的集编号以及所述集编号的位置,并根据所述包含的集编号及所述集编号的位置将所述待处理剧本分割为多个剧集;第二确定模块,用于对于至少一个所述剧集,根据预设的场景编号表述范围,确定所述剧集中包含的场景编号以及所述场景编号的位置,并根据所述场景编号及所述场景编号的位置将所述剧集分割为所述多个场景文本;提取模块,用于对于至少一个所述场景文本,提取所述场景文本中包含的场景信息字符;第三确定模块,用于将所述场景文本中包含的场景信息字符、所述场景文本的场景编号及所述场景文本所属剧集的集编号,确定为所述场景文本的待整理信息;组合模块,用于将所述场景文本的待整理信息以及所述场景文本中的正文文本,按照预设形式进行组合,形成目标剧本。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的剧本处理方法。在本专利技术实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的剧本处理方法。本专利技术实施例提供的剧本处理方法,可以根据预设的集编号表述范围,确定待处理剧本中包含的集编号以及集编号的位置,并根据包含的集编号及集编号的位置将待处理剧本分割为多个剧集,根据预设的场景编号表述范围,确定剧集中包含的场景编号及场景编号的位置,并根据场景编号及场景编号的位置将剧集分割为多个场景文本,对于至少一个场景文本,提取场景文本中包含的场景信息字符,将场景文本中包含的场景信息字符、场景文本的场景编号及场景文本所属剧集的集编号,确定为场景文本的待整理信息,将所述场景文本的待整理信息以及所述场景文本中的正文文本,按照预设形式进行组合,形成目标剧本。本专利技术实施例中,通过先将待处理剧本划分为场景文本,以单个场景文本为处理对象进行提取,一定程度上可以降低剧本内部的耦合度,进而可以降低剧本格式对场景信息提取的干扰,提高提取准确性。同时,在提取到场景信息之后,会将场景文本按照预设形式重新组合,这样,可以使剧本中各个场景文本内部的形式保持一致,进而方便后续对该剧本进行处理。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1是本专利技术实施例提供的一种剧本处理方法的步骤流程图;图2-1是本专利技术实施例提供的另一种剧本处理方法的步骤流程图;图2-2是本专利技术实施例提供的一种预处理示意图;图2-3是本专利技术实施例提供的一种处理流程示意图;图2-4是本专利技术实施例提供的一种处理示意图;图2-5是本专利技术实施例提供的一种场景文本的组成示意图;图3是本专利技术实施例提供的一种剧本处理装置的框图;图4是本专利技术实施例提供的一种电子设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。图1是本专利技术实施例提供的一种剧本处理方法的步骤流程图,该方法可以应用于电子设备,如图1所示,该方法可以包括:步骤101、根据预设的集编号表述范围,确定所述待处理剧本中包含的集编号以及所述集编号的位置,并根据所述包含的集编号及所述集编号的位置将所述待处理剧本分割为多个剧集。本专利技术实施例中,预设的集编号表述范围可以是在执行本步骤之前预先获取的。集编号表述范围中可以包含有的多种表述形式的集编号。具体的在获取这些表述形式的集编号时,可以获取大量的样本剧本,其中,样本剧本可以是从网络中爬取的剧本。然后提取样本剧本表示集编号的字符,接着,按照表述形式对这些表示集编号的字符进行归纳,进而得到多种不同表述形式的集编号。其中,集编号的表述形式可以为文字、数字、英文及罗字符号,等等。进一步地,实际应用场景中,剧本往往会包括多个剧集,每个剧集中往往会包含不同的场景,其中,每个场景对应一段场景文本,该场景文本用于描绘该场景的内容。每个剧集及场景文本都会有对应的编号,以方便区分。因此,本步骤中,可以先基于预设的集编号表述范围,确定待处理剧本中包含的集编号及集编号的位置。具体的,可以将预设的集编号表述范围中包含的集编号与待处理剧本中包含的内容进行匹配,然后将相匹配的字符确定为集编号,将该相匹配的字符所处的位置确定为集编号的位置。进一步地,可以根据识别出来的集编号及位置进行分割,得到待处理剧本中包含的剧集。由于预先收集了多种不同表述形式的集编号,因此,本专利技术实施例中使用这些预设的集编号进行匹配的方式,一定程度上可以避免由于剧本编写人员的书写习惯不同,导致不能准确的识别集编号的问题,进而可以提高剧集划分的准确率。步骤102、对于至少一个所述剧集,根据预设的场景编号表述范围,确定所述剧集中包含的场景编号以及所述场景编号的位置,并根据所述场景编号及所述场景编号的位置将所述剧集分割为所述多个场景文本。本专利技术实施例中,预设的场景编号表述范围可以是在执行本步骤之前预先获取的。场景编号表述范围中可以包含有的多种表述形本文档来自技高网...

【技术保护点】
1.一种剧本处理方法,其特征在于,应用于电子设备,所述方法包括:/n根据预设的集编号表述范围,确定所述待处理剧本中包含的集编号以及所述集编号的位置,并根据所述集编号及所述集编号的位置将所述待处理剧本分割为多个剧集;/n对于至少一个所述剧集,根据预设的场景编号表述范围,确定所述剧集中包含的场景编号以及所述场景编号的位置,并根据所述场景编号及所述场景编号的位置将所述剧集分割为所述多个场景文本;/n对于至少一个所述场景文本,提取所述场景文本中包含的场景信息字符;/n将所述场景文本中包含的场景信息字符、所述场景文本的场景编号及所述场景文本所属剧集的集编号,确定为所述场景文本的待整理信息;/n将所述场景文本的待整理信息以及所述场景文本中的正文文本,按照预设形式进行组合,形成目标剧本。/n

【技术特征摘要】
1.一种剧本处理方法,其特征在于,应用于电子设备,所述方法包括:
根据预设的集编号表述范围,确定所述待处理剧本中包含的集编号以及所述集编号的位置,并根据所述集编号及所述集编号的位置将所述待处理剧本分割为多个剧集;
对于至少一个所述剧集,根据预设的场景编号表述范围,确定所述剧集中包含的场景编号以及所述场景编号的位置,并根据所述场景编号及所述场景编号的位置将所述剧集分割为所述多个场景文本;
对于至少一个所述场景文本,提取所述场景文本中包含的场景信息字符;
将所述场景文本中包含的场景信息字符、所述场景文本的场景编号及所述场景文本所属剧集的集编号,确定为所述场景文本的待整理信息;
将所述场景文本的待整理信息以及所述场景文本中的正文文本,按照预设形式进行组合,形成目标剧本。


2.根据权利要求1所述的方法,其特征在于,所述对于至少一个所述场景文本,提取所述场景文本中包含的场景信息字符,包括:
根据预设的场景信息提示词范围值,对所述场景文本进行遍历,以确定所述场景文本中是否包含场景信息提示词;
若所述场景文本中包含场景信息提示词,将与所述场景信息提示词相邻的字符确定为场景信息字符,并进行提取;
若所述场景文本中不包含场景信息提示词,将所述场景文本划分为多个子文本;根据预设的场景信息字符范围值和/或所述子文本中词语的词性,从所述子文本中提取场景信息字符。


3.根据权利要求2所述的方法,其特征在于,所述根据预设的场景信息字符范围值和/或所述子文本中词语的词性,从所述子文本中提取场景信息字符,包括:
确定所述子文本中包含的词语的词性;将词性为预设词性且包含特定字的词语,确定为场景信息字符,并进行提取;
和/或,根据预设的场景信息字符范围值对所述子文本进行遍历,以确定所述子文本中是否包含存在于所述预设的场景信息字符范围值的字符;若包含,将所述字符确定为场景信息字符,并进行提取;
其中,所述场景信息字符范围值中至少包含以下信息中的一种:常用的表示时间的字符、表示地点的字符、表示天气的字符及表示人名的字符。


4.根据权利要求1所述的方法,其特征在于,所述根据预设的集编号表述范围,确定所述待处理剧本中包含的集编号以及所述集编号的位置,包括:
根据所述预设的集编号表述范围,生成集编号正则表达式;所述集编号正则表达式中定义有所述集编号表述范围中包含的集编号;
利用所述集编号正则表达式对所述待处理剧本进行正则匹配,确定所述待处理剧本中包含的各个剧集的集编号以及所述集编号的位置。


5.根据权利要求1所述的方法,其特征在于,所述根据预设的场景编号表述范围,确定所述剧集中包含的场景编号以及...

【专利技术属性】
技术研发人员:郏昕阳任科赵冲翔
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1