当前位置: 首页 > 专利查询>清华大学专利>正文

基于剧本的字幕场景和说话人信息自动标注方法和系统技术方案

技术编号:21361282 阅读:29 留言:0更新日期:2019-06-15 09:19
本发明专利技术实施例提供了一种基于剧本的字幕场景和说话人信息自动标注方法和系统,方法包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐。本发明专利技术实施例利用uid序列的特点,通过神经网络和启发式算法对错误对齐的uid进行检测和修正;根据修正后的uid,将对应的说话人标注到所述字幕行中。相关技术可以自动从字幕文件中抽取不同场景下的对话片段的技术,用以构建高质量的中文对话语料库。

Subtitle Scene and Speaker Information Automatic Annotation Method and System Based on Playbook

The embodiment of the present invention provides a method and system for automatically annotating subtitle scenes and speaker information based on scripts. The method includes: parsing the original script, acquiring all dialogue contents in the original script, and recording each dialogue content as a document into a search engine; querying the line of subtitle in the search engine for each subtitle line corresponding to the original script. The document with the highest similarity is returned with the corresponding number uid of the document, and the uid of the document is tagged into the subtitle line to align the subtitle line with the sentence level of the play. The embodiment of the present invention uses the characteristics of uid sequence to detect and correct the misaligned uid by means of neural network and heuristic algorithm; according to the revised uid, the corresponding speaker is tagged into the subtitle line. Relevant technologies can automatically extract dialogue fragments from subtitle files in different scenarios to build a high-quality Chinese dialogue corpus.

【技术实现步骤摘要】
基于剧本的字幕场景和说话人信息自动标注方法和系统
本专利技术实施例涉及计算机及信息服务
,尤其涉及一种基于剧本的字幕场景和说话人信息自动标注方法和系统。
技术介绍
对话是社会活动中的重要组成部分,对于构建各类对话生成系统(如聊天机器人)而言,大规模的对话语料数据是必不可少的要素。但现阶段关于多轮次对话的研究仍相对较少,高质量的中文聊天语料库尤其匮乏。另一方面,开放领域的对话生成研究亟需大量高质量对话语料作为训练数据,而影视字幕具有数量巨大、贴近真实的人类日常对话的优点,对于构建对话语料具有巨大的潜在价值。然而,因为缺少场景和说话人信息,字幕文件不能直接用作对话语料。图1是现有技术提供的一个常见的中英双语字幕文件片段示意图,如图1所示,如果没有添加标记,难以区分前后相连的两行字幕是否发生在同一场景下,是否为同一说话人所说,也就很难分辨后一行字幕是否是对前一行字幕的回应。对于训练聊天机器人这样的对话生成系统而言,所需要的训练数据通常需要为一对(消息,回复),字幕文件的这个特点导致难以从其中直接抽取对话数据。因此,现在亟需一种基于剧本的字幕场景和说话人信息自动标注方法来解决上述问题。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的一种基于剧本的字幕场景和说话人信息自动标注方法和系统。第一方面本专利技术实施例提供一种基于剧本的字幕场景和说话人信息自动标注方法,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐;其中,所述文档对应的编号uid为场景编号和对话编号的组合。第二方面本专利技术实施例提供了一种基于剧本的字幕场景和说话人信息自动标注系统,包括:剧本解析模块,用于解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;文档查询模块,用于对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;标注模块,用于将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐。第三方面本专利技术实施例提供了一种电子设备,包括:处理器、存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行上述基于剧本的字幕场景和说话人信息自动标注方法。第四方面本专利技术实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述的基于剧本的字幕场景和说话人信息自动标注方法。本专利技术实施例利用uid序列的特点,通过神经网络和启发式算法对错误对齐的uid进行检测和修正;根据修正后的uid,将对应的说话人标注到所述字幕行中,可以自动从字幕文件中抽取不同场景下的对话片段的技术,用以构建高质量的中文对话语料库。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是现有技术提供的一个常见的中英双语字幕文件片段示意图;图2是本专利技术实施例提供的一种基于字幕的对话语料自动标注方法流程示意图;图3是本专利技术实施例提供的初步对齐后的字幕片段示意图;图4是本专利技术实施例提供的最终标注完成的字幕片段示意图;图5是本专利技术实施例提供的原始剧本示意图;图6是本专利技术实施例提供的解析后剧本示意图;图7是本专利技术实施例提供的一种基于字幕的对话语料自动标注系统结构示意图;图8是本专利技术实施例提供的电子设备的结构框图;图9是本专利技术的总体处理流程框图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图2是本专利技术实施例提供的一种基于字幕的对话语料自动标注方法流程示意图,如图2所示,包括:201、解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;202、对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;203、将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐。其中,所述文档对应的编号uid为场景编号和对话编号的组合。需要说明的是,本专利技术实施例提供的方法主要的思路是利用字幕对应的剧本(英文)作为标注的依据。剧本中标明了一个场景的开始和场景之间的转换,也标明了对话内容的说话人。同时,剧本和字幕在对话内容上有较高的相似度,因而,如果能建立剧本中对话内容和字幕行之间的对应关系,就能明确字幕行所属的场景和说话人,也就能实现对字幕进行标注。具体的,在步骤201中,每个原始剧本都具有对话内容,通过对原始剧本的解析能够获取该剧本所发生的全部对话内容,并将每个对话内容作为一个文档进行存储,存储之后录入预设的搜索引擎之中,本专利技术实施例不对搜索引擎的类型作任何限定。进一步的,在步骤202中,本专利技术实施例采用了字幕查询的形式,具体的,将剧本对应的字幕文件中的每个字幕行都被视作一条查询,该查询提交给搜索引擎后,搜索引擎从文档集中选择与其内容相似度最高的文档,并返回该文档的对话内容编号,对话内容编号用uid(utteranceid)表示,uid为场景编号和对话编号的组合,以短横线分割,如“2-3”,表示第2个场景下的第3个对话。其中,相似度计算优选的可采用BM25指标来衡量。最后,在步骤203中,可以理解的是,在一个剧本中,每一个对话内容编号uid都唯一的标明了一次对话,即给定uid之后就能够确定说话人和说话内容,从而剧本中的uid标注到对应的字幕行上实际上就实现了剧本和字幕的对齐,从而就能得到标注有场景和说话人标签的对话语料。在上述实施例的基础上,在所述将所述文档的uid标注到所述字幕行中之后,所述方法还包括:根据预设的神经网络,检测并修正标注错误的字幕行。可以理解的是,受字幕行长度的限制,剧本对话和字幕行之间存在着一对多、多对一、一对一的对应关系,且从剧本的创作到最终的字幕的形成,存在着内容的替换、增添或缺失,因此,简单地按顺序对应难以实现对齐的目标,字幕中的广告、歌词等剧本中没有的内容也为实现这种对齐增添了难度。并且由于字幕行和剧本对话内容上并不能完全匹配,可能出现词语的替换、增添或缺失等变化,而搜索引擎是基于文档中的词语进行相似度计算,这就导致在初步对齐的过程中可能出现错误,即搜索引擎找到的相似度最高的文档并非实际与字幕行对应的对话,返回的是错误的uid。经抽样检测,这样的对齐错误在一篇字幕中约占10%~1本文档来自技高网...

【技术保护点】
1.一种基于剧本的字幕场景和说话人信息自动标注方法,其特征在于,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐;其中,所述文档对应的编号uid为场景编号和对话编号的组合。

【技术特征摘要】
1.一种基于剧本的字幕场景和说话人信息自动标注方法,其特征在于,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐;其中,所述文档对应的编号uid为场景编号和对话编号的组合。2.根据权利要求1所述的方法,其特征在于,在所述将所述文档的uid标注到所述字幕行中之后,所述方法还包括:根据预设的神经网络,检测并修正标注错误的字幕行。3.根据权利要求2所述的方法,其特征在于,所述根据预设的神经网络,检测并修正标注错误的字幕行,包括:基于时间卷积神经网络,检测字幕标记序列中是否存在异常点;若存在异常点,则基于预设的修复算法对所述异常点进行修复。4.根据权利要求3所述的方法,其特征在于,所述若存在异常点,则基于预设的修复算法对所述异常点进行修复,包括:检测所述异常点是否跨越了场景边界;若所述异常点未跨越场景边界,则将所述异常点前后的正常点作为参考进行线性插值。5.根据权利要求4所述的方法,其特征在于,所述若存在异常点,则基于预设的修复算法对...

【专利技术属性】
技术研发人员:周强张镭镧
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1