用于小说场景文本的分割方法及系统技术方案

技术编号:35779831 阅读:26 留言:0更新日期:2022-12-01 14:24
本发明专利技术属于自然语言处理技术领域,具体涉及用于小说场景文本的分割方法及系统。方法包括如下步骤S1,场景实体提取模型训练;S2,场景分割策略配置;S3,段落对象集合初始化;S4,场景实体提取;S5,场景边界确定;S6,场景抽取;S7,剧幕生成;S8,结束判定。本发明专利技术具有能够解决人工改编剧本耗时长、场景不一致的问题,且大幅降低进一步改编工作量的特点。大幅降低进一步改编工作量的特点。大幅降低进一步改编工作量的特点。

【技术实现步骤摘要】
用于小说场景文本的分割方法及系统


[0001]本专利技术属于自然语言处理
,具体涉及用于小说场景文本的分割方法及系统。

技术介绍

[0002]将小说改编成剧本时,需要对拟改编小说中的素材进行整理提炼,最后形成特定结构的剧本。剧本一般以场景为故事单元进行组织,场景是在一段相对联系的物理时间内,发生在同一空间范围内的情节,场景要素分散在小说内容中,主要包含地点、时间、人物、对白等信息。
[0003]在场景文本人工编辑方式下,由于编者对场景分割依据存在主观差异,分割结果难以保证一致性,耗时长且效率低,亟需以技术手段辅助进行场景分割。同时,现有场景信息提取技术是以词典匹配方式进行,严重依赖词典,无法识别出词典未定义的信息。
[0004]因此,设计一种能够解决人工改编剧本耗时长、场景不一致的问题,且大幅降低进一步改编工作量的用于小说场景文本的分割方法及系统,就显得十分重要。
[0005]例如,申请号为CN201911201695.9的中国专利文献描述的基于中文小说文本的阅读器信息抽取方法和系统。阅读器信息抽取方法将需要提取关键词的文本分割成以单词为粒度和以汉字为粒度的文本,并分别转换为词向量和字向量,采用向量训练神经网络,并结合注意力机制提取文本特征,根据文本特征的预测结果完成信息抽取。虽然采用字向量和词向量两种粒度的文本表示方法,将两种粒度的向量表示方法同时应用在注意力机制模型中,并结合二者的预测结果,提高相关任务的信息提取准确性,帮助读者理解文本内容,利用自然语言处理算法,满足读者需要回顾前面章节的需求,提升用户体验,但是其缺点在于,无法用于对小说场景文本进行分割,仍然难以解决人工改编剧本耗时长、场景不一致的问题。

技术实现思路

[0006]本专利技术是为了克服现有技术中,现有的场景文本人工编辑方式,存在人工改编剧本耗时长、场景不一致,且改编工作量大的问题,提供了一种能够解决人工改编剧本耗时长、场景不一致的问题,且大幅降低进一步改编工作量的用于小说场景文本的分割方法及系统。
[0007]为了达到上述专利技术目的,本专利技术采用以下技术方案:
[0008]用于小说场景文本的分割方法,包括如下步骤:
[0009]S1,场景实体提取模型训练:
[0010]获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;
[0011]S2,场景分割策略配置:
[0012]配置场景分割策略,获取对应的分割依据特征值;
[0013]S3,段落对象集合初始化:
[0014]遍历小说文本,初始化段落对象集合;
[0015]S4,场景实体提取:
[0016]遍历小说文本,提取小说的场景实体集合,更新段落对象集合;
[0017]S5,场景边界确定:
[0018]根据段落对象集合确定场景的边界,得到边界点索引值;
[0019]S6,场景抽取:
[0020]根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;
[0021]S7,剧幕生成:
[0022]将场景原文进行结构化,生成剧幕场景脚本;
[0023]S8,结束判定:
[0024]判断是否完成全部场景抽取,若是,则输出全部剧幕场景脚本,否则返回步骤S4。
[0025]作为优选,步骤S1包括如下步骤:
[0026]S11,获取不同类别小说文本,制作训练数据集,对小说中的对象进行BIO标注,其中B代表场景实体的开头字符,I代表场景实体的中间或结尾字符,O代表不属于场景实体的字符;
[0027]S12,根据训练数据集,训练基于机器学习的场景实体提取模型,用于自动识别输入文本中的场景实体。
[0028]作为优选,步骤S2包括如下步骤:
[0029]S21,配置场景分隔策略规则为对白;
[0030]所述对白为小说文本中包含双引号或冒号的完整句子;
[0031]S22,设置分割依据特征值为双引号和冒号。
[0032]作为优选,步骤S2包括如下步骤:
[0033]S21,配置场景分隔策略规则为人物;
[0034]S22,设置分割依据特征值为小说中人物,即检测文本段落中是否含有人物及关联特征信息。
[0035]作为优选,步骤S2包括如下步骤:
[0036]S21,配置场景分隔策略规则为地点;
[0037]S22,设置分割依据特征值为小说中地点信息,即检测文本段落中是否含有地点及关联特征信息。
[0038]作为优选,步骤S3包括如下步骤:
[0039]S31,小说文本预处理:
[0040]所述预处理包括索引标注、符号处理、分词、去停用词、场次计数器初始化;
[0041]S32,段落对象初始化:
[0042]初始化段落对象集合,将预处理里后的文本段落及对应的全文段落索引值存储到段落对象;
[0043]S33,分割依据特征值检测:
[0044]判断小说文本中是否含有分割依据特征值,并更新段落对象中对应的分割特征标志;
[0045]所述分割特征标志为根据对应原始段落文本是否含有分割依据特征值而设置的状态标志值。
[0046]作为优选,步骤S5包括如下步骤:
[0047]S51,场景相似度计算:
[0048]根据分割依据特征值选取段落对象,并依次计算各个段落对象的场景实体集合相似度;
[0049]S52,场景边界判定:
[0050]通过比较步骤S51中获得的相似度值与设定阈值的大小,判定是否为场景边界;若判断结果为是,记录边界点索引值。
[0051]作为优选,步骤S5中所述场景边界包括场景起点和场景终点。
[0052]作为优选,步骤S7中所述剧幕场景脚本包括场次、场景实体以及场景原文。
[0053]本专利技术还提供了用于小说场景文本的分割系统,包括:
[0054]场景实体提取模型训练模块,用于获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;
[0055]策略配置模块,用于配置场景分割策略,获取对应的分割依据特征值;
[0056]段落对象初始化模块,用于遍历小说文本,初始化段落对象集合;
[0057]场景实体提取模块,用于遍历小说文本,提取小说的场景实体集合,更新段落对象集合;
[0058]场景边界确定模块,用于根据段落对象集合确定场景的边界,得到边界点索引值;
[0059]场景抽取模块,用于根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;
[0060]剧幕生成模块,用于将场景原文进行结构化,生成剧幕场景脚本;
[0061]数据库模块,用于存储小说文本训练数据集和拟改编小说文本数据。
[0062]本专利技术与现有技术相比,有益效果是:(1)本专利技术提出一种以机器学习技术辅助进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于小说场景文本的分割方法,其特征在于,包括如下步骤:S1,场景实体提取模型训练:获取不同类别小说文本,制作训练数据集,训练场景实体提取模型;S2,场景分割策略配置:配置场景分割策略,获取对应的分割依据特征值;S3,段落对象集合初始化:遍历小说文本,初始化段落对象集合;S4,场景实体提取:遍历小说文本,提取小说的场景实体集合,更新段落对象集合;S5,场景边界确定:根据段落对象集合确定场景的边界,得到边界点索引值;S6,场景抽取:根据边界点索引值以及段落对象集合,抽取对应的原始段落文本与全文段落索引,生成场景原文,并更新段落对象集合;S7,剧幕生成:将场景原文进行结构化,生成剧幕场景脚本;S8,结束判定:判断是否完成全部场景抽取,若是,则输出全部剧幕场景脚本,否则返回步骤S4。2.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S1包括如下步骤:S11,获取不同类别小说文本,制作训练数据集,对小说中的对象进行BIO标注,其中B代表场景实体的开头字符,I代表场景实体的中间或结尾字符,O代表不属于场景实体的字符;S12,根据训练数据集,训练基于机器学习的场景实体提取模型,用于自动识别输入文本中的场景实体。3.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S2包括如下步骤:S21,配置场景分隔策略规则为对白;所述对白为小说文本中包含双引号或冒号的完整句子;S22,设置分割依据特征值为双引号和冒号。4.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S2包括如下步骤:S21,配置场景分隔策略规则为人物;S22,设置分割依据特征值为小说中人物,即检测文本段落中是否含有人物及关联特征信息。5.根据权利要求1所述的用于小说场景文本的分割方法,其特征在于,步骤S2包括如下步骤:S21,配置场景分隔策略规则为地点;S22,设置分割依据特征值为小说中地点信息,即检测文本段落中是否含有地点及关联特征信息。
...

【专利技术属性】
技术研发人员:吴国华王冲王玉娟张祯袁理锋王秋华毛宗庆
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1