一种段落分割方法和装置制造方法及图纸

技术编号:20160716 阅读:70 留言:0更新日期:2019-01-19 00:13
本申请提供了一种段落分割方法和装置,其中,段落分割方法包括:获取待分割音视频文件的文本内容中包括各个句子的句子向量;根据各个句子的时间序列,获取各个句子的语速信息;根据该句子的语速信息,以及与其相邻的下个句子的语速信息,计算该句子的语速相关性系数;根据目标特征权重和语速相关性系数,计算拼接元素;将拼接元素和该句子的句子向量中的元素进行拼接,生成该句子的语速上下文向量;基于各个语速上下文向量之间的距离对句子进行分类,得到段落分割结果。该段落分割方法,能够充分利用音视频中发言者的语速对段落分割的影响,解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题,使得段落分割结果更加准确。

【技术实现步骤摘要】
一种段落分割方法和装置
本申请涉及文本内容处理
,具体而言,涉及一种段落分割方法和装置。
技术介绍
目前,随着计算机技术的不断发展,越来越多的信息通过音视频形式进行呈现,在一段音视频中,包含的信息多种多样。有时需要将其中的文本内容提取出来,分割为大大小小的段落,用于后续的处理或使用。当前的段落分割主要是基于文本语义的规则,或是以大量数据的统计化分割。基于大量数据的统计化分割,难以满足特定场景,例如教学场景;基于文本语义的规则的段落分割方法,单纯借助文本的内容会使得分割的段落显得杂乱无章。因此采用现有技术对文本内容进行段落分割难以满足要求。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种段落分割方法和装置,在该段落分割过程中结合了文本的内容相关特征和语速特征进行段落分割,充分利用音视频中发言者的语速对段落分割的影响,解决了现有技术中单纯借助文本的内容使得段落分割结果杂乱无章的问题,使得段落分割结果更加准确。第一方面,本申请实施例提供了一种段落分割方法,包括:获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量;根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息;针对除最末的一个句子以外的其它每个句子,根据该句子的语速信息,以及与该句子相邻的下一个句子的语速信息,计算该句子在至少一个相关性特征下的语速相关性系数;根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素;将所述拼接元素以及所述该句子的句子向量中的元素进行拼接,生成该句子的语速上下文向量;基于每个句子的语速上下文向量之间的距离对所述句子进行分类,得到待分割音视频文件的段落分割结果。结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量,具体包括:针对除最末的一个句子以外的其它每个句子,获取该句子所包括的所有词语;针对每个词语,根据该词语在所述文本内容中出现的频率,以及该词语在预设语料集合中出现的频率,计算该词语的权重;基于该句子包括的所有词语的权重,组成该句子的句子向量。结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述各个句子的时间序列,包括该句子的开始时间节点和结束时间节点;所述根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息,具体包括:针对每个句子,根据该句子的开始时间节点和结束时间节点,计算该句子对应的时间长度;根据时间长度以及该句子的字数,计算该句子的平均语速;以及,根据该句子的结束时间节点,以及与该句子相邻的下一个句子的开始时间节点,计算该句子和与该句子相邻的下一个句子之间的停顿时间间隔;将所述平均语速以及所述停顿时间间隔作为该句子的语速信息。结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述相关性特征包括:平均语速相关性特征、停顿时间间隔相关性特征、平均语速皮尔逊相关性特征、停顿时间间隔皮尔逊相关性特征、平均语速复相关性特征以及停顿时间间隔复相关性特征中的一种或多种。结合第一方面的第三种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,针对所述语速相关性系数包括平均语速相关性特征的情况,根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;将该句子的平均语速,以及与该句子相邻的下一个句子的平均语速之间的比值,作为该句子在平均语速相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔相关性特征的情况,根据下述方式计算该句子在停顿时间间隔相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;计算第一停顿时间间隔和所述第二停顿时间间隔之间的比值;将得到的比值作为该句子在停顿时间间隔相关性特征下的语速相关性系数;针对所述语速相关性系数包括平均语速皮尔逊相关性特征的情况,根据下述方式计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;根据该句子的平均语速,与该句子相邻的下一个句子的平均语速,以及预设的皮尔逊相关系数计算公式,计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔皮尔逊相关性特征的情况,根据下述方式计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;根据所述第一停顿时间间隔、所述第二停顿时间间隔,以及预设的皮尔逊相关系数计算公式,计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数;针对所述语速相关性系数包括平均语速复相关性特征的情况,根据下述方式计算该句子在平均语速复相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;根据该句子的平均语速、与该句子相邻的下一个句子的平均语速,以及预设的复相关系数计算公式,计算该句子在平均语速复相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔复相关性特征的情况,根据下述方式计算该句子在停顿时间间隔复相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;根据所述第一时间间隔、所述第二时间间隔,以及预设的复相关系数计算公式,计算该句子在停顿时间间隔复相关性特征下的语速相关性系数。结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素,具体包括:将每个相关性特征对应的目标特征权重以及与该相关性特征对应的语速相关性系数的乘积,作为该相关性特征对应的拼接元素。结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述基于每个句子的语速上下文向量之间的距离对所述句子进行分类,具体包括:基于每个句子的语速上下文向量之间的距离对所述句子进行聚类,得到两个类,其中一个类中的句子为段落内句子,另一个类中的句子为段落尾句子。结合第一方面的第六种可能的实施方式,本申请实施例提供了第一方面的第七种可能的实施方式,其中,所述基于每个句子的语速上下文向量之间的距离对所述句子进行聚类,具体包括:从所有所述语速上下文向量中随机选择两个语速上下文向量作为初始的两个聚类中心;依次计算每个语速上下文向量与两个聚类中心之间的距离;针对每个语速上下文向量,将该语速上下文向量划分到与该语速上下文向量距离较小的聚类中心对应的分类中;针对每个分类,将划分到该分类中的各个语速上下文向量组成簇,并计算该簇的簇心,所述簇心所对应的语速上下文向量为所述簇中各语速上下文向量的平均值;将与所述簇的簇心距离最近的语速上下文向量作为新的聚类中心,并返回依次计算本文档来自技高网...

【技术保护点】
1.一种段落分割方法,其特征在于,包括:获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量;根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息;针对除最末的一个句子以外的其它每个句子,根据该句子的语速信息,以及与该句子相邻的下一个句子的语速信息,计算该句子在至少一个相关性特征下的语速相关性系数;根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素;将所述拼接元素以及所述该句子的句子向量中的元素进行拼接,生成该句子的语速上下文向量;基于每个句子的语速上下文向量之间的距离对所述句子进行分类,得到待分割音视频文件的段落分割结果。

【技术特征摘要】
1.一种段落分割方法,其特征在于,包括:获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量;根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息;针对除最末的一个句子以外的其它每个句子,根据该句子的语速信息,以及与该句子相邻的下一个句子的语速信息,计算该句子在至少一个相关性特征下的语速相关性系数;根据与每个相关性特征对应的目标特征权重,以及与该相关性特征对应的语速相关性系数,计算与每个相关性特征对应的拼接元素;将所述拼接元素以及所述该句子的句子向量中的元素进行拼接,生成该句子的语速上下文向量;基于每个句子的语速上下文向量之间的距离对所述句子进行分类,得到待分割音视频文件的段落分割结果。2.根据权利要求1所述的方法,其特征在于,所述获取待分割音视频文件的文本内容中包括的除最末的一个句子以外的其它各个句子分别对应的句子向量,具体包括:针对除最末的一个句子以外的其它每个句子,获取该句子所包括的所有词语;针对每个词语,根据该词语在所述文本内容中出现的频率,以及该词语在预设语料集合中出现的频率,计算该词语的权重;基于该句子包括的所有词语的权重,组成该句子的句子向量。3.根据权利要求1所述的方法,其特征在于,所述各个句子的时间序列,包括该句子的开始时间节点和结束时间节点;所述根据所述待分割音视频文件的文本内容中各个句子的时间序列,获取各个句子分别对应的语速信息,具体包括:针对每个句子,根据该句子的开始时间节点和结束时间节点,计算该句子对应的时间长度;根据时间长度以及该句子的字数,计算该句子的平均语速;以及,根据该句子的结束时间节点,以及与该句子相邻的下一个句子的开始时间节点,计算该句子和与该句子相邻的下一个句子之间的停顿时间间隔;将所述平均语速以及所述停顿时间间隔作为该句子的语速信息。4.根据权利要求1所述的方法,其特征在于,所述相关性特征包括:平均语速相关性特征、停顿时间间隔相关性特征、平均语速皮尔逊相关性特征、停顿时间间隔皮尔逊相关性特征、平均语速复相关性特征以及停顿时间间隔复相关性特征中的一种或多种。5.根据权利要求4所述的方法,其特征在于,针对所述语速相关性系数包括平均语速相关性特征的情况,根据下述方式计算该句子在平均语速相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;将该句子的平均语速,以及与该句子相邻的下一个句子的平均语速之间的比值,作为该句子在平均语速相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔相关性特征的情况,根据下述方式计算该句子在停顿时间间隔相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;计算第一停顿时间间隔和所述第二停顿时间间隔之间的比值;将得到的比值作为该句子在停顿时间间隔相关性特征下的语速相关性系数;针对所述语速相关性系数包括平均语速皮尔逊相关性特征的情况,根据下述方式计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;根据该句子的平均语速,与该句子相邻的下一个句子的平均语速,以及预设的皮尔逊相关系数计算公式,计算该句子在平均语速皮尔逊相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔皮尔逊相关性特征的情况,根据下述方式计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数:获取该句子和与其相邻的上一个句子之间的第一停顿时间间隔,以及该句子和与其相邻的下一个句子之间的第二停顿时间间隔;根据所述第一停顿时间间隔、所述第二停顿时间间隔,以及预设的皮尔逊相关系数计算公式,计算该句子在停顿时间间隔皮尔逊相关性特征下的语速相关性系数;针对所述语速相关性系数包括平均语速复相关性特征的情况,根据下述方式计算该句子在平均语速复相关性特征下的语速相关性系数:根据该句子的语速信息计算该句子的平均语速;根据该句子的平均语速、与该句子相邻的下一个句子的平均语速,以及预设的复相关系数计算公式,计算该句子在平均语速复相关性特征下的语速相关性系数;针对所述语速相关性系数包括停顿时间间隔复相关性特征的情况,根据下述方式计算该句子在停顿时间间隔复相关性特征下的语速相关性系数:获取该句子和与...

【专利技术属性】
技术研发人员:任灿
申请(专利权)人:北京慕华信息科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1