The embodiment of the present invention provides a method and system for automatically annotating subtitle scenes and speaker information based on scripts. The method includes: parsing the original script, acquiring all dialogue contents in the original script, and recording each dialogue content as a document into a search engine; querying the line of subtitle in the search engine for each subtitle line corresponding to the original script. The document with the highest similarity is returned with the corresponding number uid of the document, and the uid of the document is tagged into the subtitle line to align the subtitle line with the sentence level of the play. The embodiment of the present invention uses the characteristics of uid sequence to detect and correct the misaligned uid by means of neural network and heuristic algorithm; according to the revised uid, the corresponding speaker is tagged into the subtitle line. Relevant technologies can automatically extract dialogue fragments from subtitle files in different scenarios to build a high-quality Chinese dialogue corpus.
【技术实现步骤摘要】
基于剧本的字幕场景和说话人信息自动标注方法和系统
本专利技术实施例涉及计算机及信息服务
,尤其涉及一种基于剧本的字幕场景和说话人信息自动标注方法和系统。
技术介绍
对话是社会活动中的重要组成部分,对于构建各类对话生成系统(如聊天机器人)而言,大规模的对话语料数据是必不可少的要素。但现阶段关于多轮次对话的研究仍相对较少,高质量的中文聊天语料库尤其匮乏。另一方面,开放领域的对话生成研究亟需大量高质量对话语料作为训练数据,而影视字幕具有数量巨大、贴近真实的人类日常对话的优点,对于构建对话语料具有巨大的潜在价值。然而,因为缺少场景和说话人信息,字幕文件不能直接用作对话语料。图1是现有技术提供的一个常见的中英双语字幕文件片段示意图,如图1所示,如果没有添加标记,难以区分前后相连的两行字幕是否发生在同一场景下,是否为同一说话人所说,也就很难分辨后一行字幕是否是对前一行字幕的回应。对于训练聊天机器人这样的对话生成系统而言,所需要的训练数据通常需要为一对(消息,回复),字幕文件的这个特点导致难以从其中直接抽取对话数据。因此,现在亟需一种基于剧本的字幕场景和说话人信息自动标注方法来解决上述问题。
技术实现思路
为了解决上述问题,本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的一种基于剧本的字幕场景和说话人信息自动标注方法和系统。第一方面本专利技术实施例提供一种基于剧本的字幕场景和说话人信息自动标注方法,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相 ...
【技术保护点】
1.一种基于剧本的字幕场景和说话人信息自动标注方法,其特征在于,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐;其中,所述文档对应的编号uid为场景编号和对话编号的组合。
【技术特征摘要】
1.一种基于剧本的字幕场景和说话人信息自动标注方法,其特征在于,包括:解析原始剧本,获取所述原始剧本中的所有对话内容,并将每个对话内容作为一篇文档录入搜索引擎;对于原始剧本对应的每个字幕行,在所述搜索引擎中查询与字幕行相似度最高的文档,并返回所述文档对应的编号uid;将所述文档的uid标注到所述字幕行中,以实现字幕行与剧本句子级的对齐;其中,所述文档对应的编号uid为场景编号和对话编号的组合。2.根据权利要求1所述的方法,其特征在于,在所述将所述文档的uid标注到所述字幕行中之后,所述方法还包括:根据预设的神经网络,检测并修正标注错误的字幕行。3.根据权利要求2所述的方法,其特征在于,所述根据预设的神经网络,检测并修正标注错误的字幕行,包括:基于时间卷积神经网络,检测字幕标记序列中是否存在异常点;若存在异常点,则基于预设的修复算法对所述异常点进行修复。4.根据权利要求3所述的方法,其特征在于,所述若存在异常点,则基于预设的修复算法对所述异常点进行修复,包括:检测所述异常点是否跨越了场景边界;若所述异常点未跨越场景边界,则将所述异常点前后的正常点作为参考进行线性插值。5.根据权利要求4所述的方法,其特征在于,所述若存在异常点,则基于预设的修复算法对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。