【技术实现步骤摘要】
一种段落分割方法和装置
本申请涉及文本内容处理
,具体而言,涉及一种段落分割方法和装置。
技术介绍
目前,随着计算机技术的不断发展,越来越多的信息通过音视频形式进行呈现,在一段音视频中,包含的信息多种多样。有时需要将其中的文本内容提取出来,分割为大大小小的段落,用于后续的处理或使用。当前的段落分割主要是基于文本语义的规则,或是以大量数据的统计化分割。基于大量数据的统计化分割,难以满足特定场景,例如教学场景;基于文本语义的规则的段落分割方法,单纯借助文本的内容会使得分割的段落显得杂乱无章。因此采用现有技术对文本内容进行段落分割难以满足要求。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种段落分割方法和装置,在该段落分割过程中结合了文本的内容相关特征和语速特征进行段落分割,充分利用音视频中发言者的语速对段落分割的影响,解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题,使得段落分割结果更加准确。第一方面,本申请实施例提供了一种段落分割方法,包括:获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量;根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息;针对除最末的一个句子以外的其它每个句子,根据该句子的语速信息,以及与该句子相邻的下一个句子的语速信息,计算该句子在至少一个相关性特征下的语速相关性系数;根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素;将所述拼接元素以及所述该句子的句子向量中的元素进行拼 ...
【技术保护点】
1.一种段落分割方法,其特征在于,包括:获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量;根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息;针对除最末的一个句子以外的其它每个句子,根据该句子的语速信息,以及与该句子相邻的下一个句子的语速信息,计算该句子在至少一个相关性特征下的语速相关性系数;根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素;将所述拼接元素以及所述该句子的句子向量中的元素进行拼接,生成该句子的语速上下文向量;基于每个句子的语速上下文向量之间的距离对所述句子进行分类,得到待分割音视频文件的段落分割结果。
【技术特征摘要】
1.一种段落分割方法,其特征在于,包括:获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量;根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息;针对除最末的一个句子以外的其它每个句子,根据该句子的语速信息,以及与该句子相邻的下一个句子的语速信息,计算该句子在至少一个相关性特征下的语速相关性系数;根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素;将所述拼接元素以及所述该句子的句子向量中的元素进行拼接,生成该句子的语速上下文向量;基于每个句子的语速上下文向量之间的距离对所述句子进行分类,得到待分割音视频文件的段落分割结果。2.根据权利要求1所述的方法,其特征在于,所述获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量,具体包括:针对除最末的一个句子以外的其它每个句子,获取该句子所包括的所有词语;针对每个词语,根据该词语在所述文本内容中出现的频率,以及该词语在预设语料集合中出现的频率,计算该词语的权重;基于该句子包括的所有词语的权重,组成该句子的句子向量。3.根据权利要求1所述的方法,其特征在于,所述各个句子的时间序列,包括该句子的开始时间节点和结束时间节点;所述根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息,具体包括:针对每个句子,根据该句子的开始时间节点和结束时间节点,计算该句子对应的时间长度;根据时间长度以及该句子的字数,计算该句子的平均语速;以及,根据该句子的结束时间节点,以及与该句子相邻的下一个句子的开始时间节点,计算该句子和与该句子相邻的下一个句子之间的停顿时间间隔;将所述平均语速以及所述停顿时间间隔作为该句子的语速信息。4.根据权利要求1所述的方法,其特征在于,所述相关性特征包括:平均语速相关性特征、停顿时间间隔相关性特征、平均语速皮尔逊相关性特征、停顿时间间隔皮尔逊相关性特征、平均语速复相关性特征以及停顿时间间隔复相关性特征中的一种或多种。5.根据权利要求4所述的方法,其特征在于,针对所述语速相关性系数包括平均语速相关性特征的情况,根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;将该句子的平均语速,以及与该句子相邻的下一个句子的平均语速之间的比值,作为该句子在平均语速相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔相关性特征的情况,根据下述方式计算该句子在停顿时间间隔相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;计算第一停顿时间间隔和所述第二停顿时间间隔之间的比值;将得到的比值作为该句子在停顿时间间隔相关性特征下的语速相关性系数;针对所述语速相关性系数包括平均语速皮尔逊相关性特征的情况,根据下述方式计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;根据该句子的平均语速,与该句子相邻的下一个句子的平均语速,以及预设的皮尔逊相关系数计算公式,计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔皮尔逊相关性特征的情况,根据下述方式计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;根据所述第一停顿时间间隔、所述第二停顿时间间隔,以及预设的皮尔逊相关系数计算公式,计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数;针对所述语速相关性系数包括平均语速复相关性特征的情况,根据下述方式计算该句子在平均语速复相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;根据该句子的平均语速、与该句子相邻的下一个句子的平均语速,以及预设的复相关系数计算公式,计算该句子在平均语速复相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔复相关性特征的情况,根据下述方式计算该句子在停顿时间间隔复相关性特征下的语速相关性系数:获取该句子和与...
【专利技术属性】
技术研发人员:任灿,
申请(专利权)人:北京慕华信息科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。