【技术实现步骤摘要】
字幕对话流的主题分割方法及装置
本专利技术属于文本流的主题分割
,尤其涉及一种字幕对话流的主题分割方法及装置。
技术介绍
主题分割技术,是指将文本根据主题划分为多个片段,每个片段内保持主题的连续性,而分割点前后则存在主题的转换。图1展示了这一过程,图1的左边是分割之前的原始对话流,其中的对话包含多个主题,在对话的过程中可能会从一个主题转移到另一个新的主题,此时不同主题所覆盖的对话之间的边界没有显式地标明;图1的右边是切分后的对话片段,每一个小方块表示一个对话片段,对话片段中的话语指涉同一个主题,不同的对话片段通常拥有不同的主题,用不同的填充表示,此时对话片段之间的边界会显式标明。主题分割可以为诸如文本摘要、信息抽取、对话分析、问答等任务提供支持。例如,一段长文本流例如会议记录或字幕等,通常会包含不同主题的片段。如果不进行主题分割,当需要查找特定部分时,尽管可以通过搜索关键词的方式找到其所在的语句,但很难定位到该主题片段的开头。而将文本流按照主题切分后进行组织,对于主题片段的摘要和检索都会更加容易。 >互联网上数量巨大的本文档来自技高网...
【技术保护点】
1.一种字幕对话流的主题分割方法,其特征在于,包括:/n基于BERT提取字幕对话流的句子序列中每个句子的语义特征,并根据每个句子的语义特征将每个句子表示为向量;/n将所有所述句子的向量输入至TCN,输出所述句子序列对应的标签序列;其中,所述句子序列中的句子与所述标签序列中的标签一一对应;/n根据所述标签序列,对所述字幕对话流进行主题分割。/n
【技术特征摘要】
1.一种字幕对话流的主题分割方法,其特征在于,包括:
基于BERT提取字幕对话流的句子序列中每个句子的语义特征,并根据每个句子的语义特征将每个句子表示为向量;
将所有所述句子的向量输入至TCN,输出所述句子序列对应的标签序列;其中,所述句子序列中的句子与所述标签序列中的标签一一对应;
根据所述标签序列,对所述字幕对话流进行主题分割。
2.根据权利要求1所述的字幕对话流的主题分割方法,其特征在于,基于BERT提取字幕对话流的句子序列中每个句子的语义特征的步骤具体包括:
当所述字幕对话流为中文时,将每个句子划分为N个字;
基于所述BERT对每个字进行处理,获取每个字对应的大小为H的特征向量;
将每个句子表示为N*H的矩阵。
3.根据权利要求1所述的字幕对话流的主题分割方法,其特征在于,基于BERT提取字幕对话流的句子序列中每个句子的语义特征的步骤具体包括:
将所述BERT的每一层在其前一层的输出上加上自注意力,输出N*H的矩阵;其中,N为输入所述BERT中的句子的长度,H为所述BERT中隐含层的大小;
将所述BERT的倒数第二层输出的矩阵作为每个句子的语义特征。
4.根据权利要求2所述的字幕对话流的主题分割方法,其特征在于,根据每个句子的语义特征将每个句子表示为向量的步骤具体包括:
对每个句子的语义特征进行平均池化,将每个句子的语义特征平均池化为大小为H的特征向量。
5.根据权利要求1-4任一所述的字幕对话流的主题分割方法,其特征在于,所述标签序列中包括标签0和标签1;
其中,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。