文本划分方法、装置、设备和计算机可读介质制造方法及图纸

技术编号:25599875 阅读:17 留言:0更新日期:2020-09-11 23:57
本公开的实施例公开了文本划分方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:确定目标文本中每个字的语义停顿置信度;基于目标文本对应的语音,确定目标文本中每个字的时间停顿置信度;基于语义停顿置信度和时间停顿置信度,确定目标文本中每个字的停顿置信度;在基于停顿置信度确定的文本划分位置处划分目标文本,得到第一文本片段集合。该实施方式通过考虑目标文本的语义信息解决了目标文本对应的语音中说话语音片段过长的问题。以及,通过综合考虑目标文本的语义信息和目标文本对应的语音,提高了文本划分的合理性。

【技术实现步骤摘要】
文本划分方法、装置、设备和计算机可读介质
本公开的实施例涉及计算机
,具体涉及文本划分方法、装置、设备和计算机可读介质。
技术介绍
在现阶段,人们通常需要为一些视频添加字幕,即在显示屏上显示视频中语音对应的文本。但是因为显示屏的尺寸有限,需要将文本分段,进一步将不同的文本段在不同的时间显示在显示屏上。然而现有的文本分段技术往往是借助文本对应的语音中静默语音片段的时长信息进行的。这样的技术很难应对语音片段中说话语音片段过长,即说话人说话不间断的情况。并且,不能保证文本划分结果的合理性。
技术实现思路
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了文本划分的方法、装置、设备和计算机可读介质,来解决以上
技术介绍
部分提到的技术问题。第一方面,本公开的一些实施例提供了一种文本划分的方法,该方法包括:确定目标文本中每个字的语义停顿置信度;基于上述目标文本对应的语音,确定上述目标文本中每个字的时间停顿置信度;基于上述语义停顿置信度和上述时间停顿置信度,确定上述目标文本中每个字的停顿置信度;在基于上述停顿置信度确定的文本划分位置处划分上述目标文本,得到第一文本片段集合。第二方面,本公开的一些实施例提供了一种文本划分装置,装置包括:第一确定单元,被配置成确定目标文本中每个字的语义停顿置信度;第二确定单元,被配置成基于目标文本对应的语音,确定目标文本中每个字的时间停顿置信度;第三确定单元,被配置成基于上述语义停顿置信度和上述时间停顿置信度,确定上述目标文本中每个字的停顿置信度;第一划分单元,被配置成在基于上述停顿置信度确定的文本划分位置处划分上述目标文本,得到第一文本片段集合。第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开的上述各个实施例中的一个实施例具有如下有益效果:通过考虑目标文本的语义信息解决了目标文本对应的语音中说话语音片段过长的问题。以及,通过综合考虑目标文本的语义信息和目标文本对应的语音,提高了文本划分的合理性。附图说明结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。图1是根据本公开的一些实施例的文本划分方法的一个应用场景的示意图;图2是根据本公开的文本划分方法的一些实施例的流程图;图3是根据本公开的一些实施例的文本划分方法的一个应用场景的示意图;图4是根据本公开的文本划分方法的另一些实施例的流程图;图5是根据本公开的文本划分装置的一些实施例的结构示意图;图6是适于用来实现本公开的一些实施例的电子设备的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的一些实施例的文本划分方法的一个应用场景的示意图。在图1所示的应用场景中,首先,计算设备101可以首先基于目标文本102“你好我叫张三”的语义信息,确定上述目标文本102“你好我叫张三”中每个字“你”、“好”、“我”、“叫”、“张”、“三”的语义停顿置信度104。例如,“你”字的语义停顿置信度为“0.1”。之后,计算设备101可以基于上述目标文本对应的语音103,确定上述目标文本中每个字“你”、“好”、“我”、“叫”、“张”、“三”的时间停顿置信度105。例如,“你”字的时间停顿置信度为“0.1”。再之后,计算设备101可以基于上述语义停顿置信度104和上述时间停顿置信度105,确定上述目标文本中每个字的停顿置信度106。例如,将每个字的上述语义停顿置信度和上述时间停顿置信度中的较大者确定为上述停顿置信度。最后,计算设备101在基于上述停顿置信度确定的文本划分位置107出划分上述目标文本102“你好我叫张三”,得到第一文本片段集合108“你好”、“我叫张三”。需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备为硬件时,可以实现成多个服务器或电子设备组成的分布式集群,也可以实现成单个服务器或单个电子设备。当计算设备体现为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。应该理解,图1中的计算设备101的数目仅仅是示意性的。根据实现需要,可以具有任意数目的计算设备101。继续参考图2,示出了根据本公开的文本划分方法的一些实施例的流程200。该文本划分方法,包括以下步骤:步骤201,确定目标文本中每个字的语义停顿置信度。在一些实施例中,上述执行主体可以将上述目标文本中每个字的预设停顿置信度确定为语义停顿置信度。例如,预设“好”字的停顿置信度为0.8。在此基础上,上述执行主体将“好”字的语义停顿置信度确定为0.8。在一些实施例的一些可选的实现方式中,上述执行主体还可以将上述目标文本中每个字之后出现标点符号的概率确定为语义停顿执行度。例如,“好”字之后出现标点符号的概率为0.8。在此基础上,上述执行主体将“好”字的语义停顿置信度确定为0.8。在一些实施例中,上述执行主体可以通过统计的方式,确定上述目标文本中每个字后出现标点符号的概率,得到每个字的语义停顿置信度。在一些实施例中,上述执行主体可以通过预先训练好的标点符号概率估计网络,确定上述目标文本文档来自技高网...

【技术保护点】
1.一种文本划分方法,包括:/n确定目标文本中每个字的语义停顿置信度;/n基于所述目标文本对应的语音,确定所述目标文本中每个字的时间停顿置信度;/n基于所述语义停顿置信度和所述时间停顿置信度,确定所述目标文本中每个字的停顿置信度;/n在基于所述停顿置信度确定的文本划分位置处划分所述目标文本,得到第一文本片段集合。/n

【技术特征摘要】
1.一种文本划分方法,包括:
确定目标文本中每个字的语义停顿置信度;
基于所述目标文本对应的语音,确定所述目标文本中每个字的时间停顿置信度;
基于所述语义停顿置信度和所述时间停顿置信度,确定所述目标文本中每个字的停顿置信度;
在基于所述停顿置信度确定的文本划分位置处划分所述目标文本,得到第一文本片段集合。


2.根据权利要求1所述的方法,其中,所述确定目标文本中每个字的语义停顿置信度,包括:
确定所述目标文本中每个字后出现标点符号的概率,得到每个字的语义停顿置信度。


3.根据权利要求1所述的方法,其中,所述基于所述语义停顿置信度和所述时间停顿置信度,确定所述目标文本中每个字的停顿置信度,包括:
响应于所述语义停顿置信度小于等于第一预设阈值,将所述语义停顿置信度与所述时间停顿置信度之差确定为所述停顿置信度。


4.根据权利要求3所述的方法,其中,所述方法还包括:
响应于所述语义停顿置信度大于所述第一预设阈值,将所述语义停顿置信度与所述时间停顿置信度之和确定为所述停顿置信度。


5.根据权利要求1所述的方法,其中,所述在基于停顿置信度确定的文本划分位置处划分所述目标文本,包括:
确定所述目标文本中停顿置信度超过停顿置信度阈值的字;
将所述停顿置信度超过停顿置信度阈值的字之后确定为文本划分位置;
在所述文本划分位置处划分所述目标文本。


6.根据权利要求5所述的方法,其中,所述停顿置信度阈值是通过以下步骤确定的:
响应于所述文本的长度小于等于第一预设文本长度阈值,将第一预设停顿置信度阈值确定为停顿置信度阈值。

【专利技术属性】
技术研发人员:姚佳立蔡猛
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1