基于剧本的字幕场景和说话人信息自动标注方法和系统技术方案

技术编号：21361282 阅读：30 留言：0更新日期：2019-06-15 09:19

本发明专利技术实施例提供了一种基于剧本的字幕场景和说话人信息自动标注方法和系统，方法包括：解析原始剧本，获取所述原始剧本中的所有对话内容，并将每个对话内容作为一篇文档录入搜索引擎；对于原始剧本对应的每个字幕行，在所述搜索引擎中查询与字幕行相似度最高的文档，并返回所述文档对应的编号uid；将所述文档的uid标注到所述字幕行中，以实现字幕行与剧本句子级的对齐。本发明专利技术实施例利用uid序列的特点，通过神经网络和启发式算法对错误对齐的uid进行检测和修正；根据修正后的uid，将对应的说话人标注到所述字幕行中。相关技术可以自动从字幕文件中抽取不同场景下的对话片段的技术，用以构建高质量的中文对话语料库。

Subtitle Scene and Speaker Information Automatic Annotation Method and System Based on Playbook

The embodiment of the present invention provides a method and system for automatically annotating subtitle scenes and speaker information based on scripts. The method includes: parsing the original script, acquiring all dialogue contents in the original script, and recording each dialogue content as a document into a search engine; querying the line of subtitle in the search engine for each subtitle line corresponding to the original script. The document with the highest similarity is returned with the corresponding number uid of the document, and the uid of the document is tagged into the subtitle line to align the subtitle line with the sentence level of the play. The embodiment of the present invention uses the characteristics of uid sequence to detect and correct the misaligned uid by means of neural network and heuristic algorithm; according to the revised uid, the corresponding speaker is tagged into the subtitle line. Relevant technologies can automatically extract dialogue fragments from subtitle files in different scenarios to build a high-quality Chinese dialogue corpus.

全部详细技术资料下载

【技术实现步骤摘要】
基于剧本的字幕场景和说话人信息自动标注方法和系统
本专利技术实施例涉及计算机及信息服务
，尤其涉及一种基于剧本的字幕场景和说话人信息自动标注方法和系统。
技术介绍
对话是社会活动中的重要组成部分，对于构建各类对话生成系统(如聊天机器人)而言，大规模的对话语料数据是必不可少的要素。但现阶段关于多轮次对话的研究仍相对较少，高质量的中文聊天语料库尤其匮乏。另一方面，开放领域的对话生成研究亟需大量高质量对话语料作为训练数据，而影视字幕具有数量巨大、贴近真实的人类日常对话的优点，对于构建对话语料具有巨大的潜在价值。然而，因为缺少场景和说话人信息，字幕文件不能直接用作对话语料。图1是现有技术提供的一个常见的中英双语字幕文件片段示意图，如图1所示，如果没有添加标记，难以区分前后相连的两行字幕是否发生在同一场景下，是否为同一说话人所说，也就很难分辨后一行字幕是否是对前一行字幕的回应。对于训练聊天机器人这样的对话生成系统而言，所需要的训练数据通常需要为一对(消息，回复)，字幕文件的这个特点导致难以从其中直接抽取对话数据。因此，现在亟需一种基于剧本的字幕场景和说话人信息自动标注方法来解决上述问题。
技术实现思路
为了解决上述问题，本专利技术实施例提供一种克服上述问题或者至少部分地解决上述问题的一种基于剧本的字幕场景和说话人信息自动标注方法和系统。第一方面本专利技术实施例提供一种基于剧本的字幕场景和说话人信息自动标注方法，包括：解析原始剧本，获取所述原始剧本中的所有对话内容，并将每个对话内容作为一篇文档录入搜索引擎；对于原始剧本对应的每个字幕行，在所述搜索引擎中查询与字幕行相...

【技术保护点】
1.一种基于剧本的字幕场景和说话人信息自动标注方法，其特征在于，包括：解析原始剧本，获取所述原始剧本中的所有对话内容，并将每个对话内容作为一篇文档录入搜索引擎；对于原始剧本对应的每个字幕行，在所述搜索引擎中查询与字幕行相似度最高的文档，并返回所述文档对应的编号uid；将所述文档的uid标注到所述字幕行中，以实现字幕行与剧本句子级的对齐；其中，所述文档对应的编号uid为场景编号和对话编号的组合。

【技术特征摘要】
1.一种基于剧本的字幕场景和说话人信息自动标注方法，其特征在于，包括：解析原始剧本，获取所述原始剧本中的所有对话内容，并将每个对话内容作为一篇文档录入搜索引擎；对于原始剧本对应的每个字幕行，在所述搜索引擎中查询与字幕行相似度最高的文档，并返回所述文档对应的编号uid；将所述文档的uid标注到所述字幕行中，以实现字幕行与剧本句子级的对齐；其中，所述文档对应的编号uid为场景编号和对话编号的组合。2.根据权利要求1所述的方法，其特征在于，在所述将所述文档的uid标注到所述字幕行中之后，所述方法还包括：根据预设的神经网络，检测并修正标注错误的字幕行。3.根据权利要求2所述的方法，其特征在于，所述根据预设的神经网络，检测并修正标注错误的字幕行，包括：基于时间卷积神经网络，检测字幕标记序列中是否存在异常点；若存在异常点，则基于预设的修复算法对所述异常点进行修复。4.根据权利要求3所述的方法，其特征在于，所述若存在异常点，则基于预设的修复算法对所述异常点进行修复，包括：检测所述异常点是否跨越了场景边界；若所述异常点未跨越场景边界，则将所述异常点前后的正常点作为参考进行线性插值。5.根据权利要求4所述的方法，其特征在于，所述若存在异常点，则基于预设的修复算法对...

【专利技术属性】
技术研发人员：周强，张镭镧，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人