数据处理方法、装置及电子设备制造方法及图纸

技术编号:33463317 阅读:20 留言:0更新日期:2022-05-19 00:43
本申请提供了一种数据处理方法、装置及电子设备,涉及数据处理技术领域。该方法包括:获得目标文本;将目标文本中的每个句子转换成向量,得到每个句子的句向量;根据每个句子的句向量,计算得到目标文本中各第一分割点的深度得分,其中,深度得分用于表示第一分割点前后的语义差别,深度得分根据第一分割点前后的两个句子集合计算得到,两个句子集合中分别包括多个句子;根据各第一分割点的深度得分,确定出目标分割点;根据目标分割点对目标文本进行段落分割。如此,可自动对文本进行分段,无需耗费大量人力手动分段。费大量人力手动分段。费大量人力手动分段。

【技术实现步骤摘要】
数据处理方法、装置及电子设备


[0001]本申请涉及数据处理
,具体而言,涉及一种数据处理方法、装置及电子设备。

技术介绍

[0002]在很多场景中,都需要对文本进行段落分割。比如,在从播客中进行片段抽取时,就需要先进行段落分割。若采用人工方式进行段落分割,则时间成本大,因此如何对文本进行自动分割已成为本领域技术人员亟需解决的技术问题。

技术实现思路

[0003]本申请实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,其能够自动进行文本分段,无需耗费大量人力手动分段。
[0004]本申请的实施例可以这样实现:
[0005]第一方面,本申请实施例提供一种数据处理方法,所述方法包括:
[0006]获得目标文本;
[0007]将所述目标文本中的每个句子转换成向量,得到每个句子的句向量;
[0008]根据每个句子的句向量,计算得到所述目标文本中各第一分割点的深度得分,其中,所述深度得分用于表示第一分割点前后的语义差别,所述深度得分根据第一分割点前后的两个句子集合计算得到,两个句子集合中分别包括多个句子;
[0009]根据各第一分割点的深度得分,确定出目标分割点;
[0010]根据所述目标分割点对所述目标文本进行段落分割。
[0011]第二方面,本申请实施例提供一种数据处理装置,所述装置包括:
[0012]文本获得模块,用于获得目标文本;
[0013]向量表示模块,用于将所述目标文本中的每个句子转换成向量,得到每个句子的句向量;
[0014]计算模块,用于根据每个句子的句向量,计算得到所述目标文本中各第一分割点的深度得分,其中,所述深度得分用于表示第一分割点前后的语义差别,所述深度得分根据第一分割点前后的两个句子集合计算得到,两个句子集合中分别包括多个句子;
[0015]确定模块,用于根据各第一分割点的深度得分,确定出目标分割点;
[0016]分割模块,用于根据所述目标分割点对所述目标文本进行段落分割。
[0017]第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式中所述的数据处理方法。
[0018]第四方面,本申请实施例提供的一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施方式中所述的数据处理方法。
[0019]本申请实施例提供的数据处理方法、装置、电子设备及可读存储介质,在获得目标
文本的情况下,获得该目标文本中每个句子的句向量,然后根据每个句子的句向量计算得到该目标文本中各第一分割点的深度得分,进而根据各第一分割点的深度得分确定出目标分割点,最后根据确定出的目标分割点对目标文本进行段落分割。其中,所述深度得分用于表示第一分割点前后的语义差别,所述深度得分根据第一分割点前后的两个句子集合计算得到,两个句子集合中分别包括多个句子。如此,可自动将相似的句子划分到一个段落中,无需采用人工方式进行段落分割,可节省大量人力。
附图说明
[0020]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0021]图1为本申请实施例提供的电子设备的方框示意图;
[0022]图2为本申请实施例提供的数据处理方法的流程示意图之一;
[0023]图3为图2中步骤S110包括的子步骤的流程示意图;
[0024]图4为图3中子步骤S111包括的子步骤的流程示意图;
[0025]图5为图2中步骤S130包括的子步骤的流程示意图;
[0026]图6为图5中子步骤S133包括的子步骤的流程示意图;
[0027]图7为图2中步骤S140包括的子步骤的流程示意图;
[0028]图8为本申请实施例提供的数据处理方法的流程示意图之二;
[0029]图9为本申请实施例提供的数据处理方法的流程示意图之三;
[0030]图10为本申请实施例提供的数据处理装置的方框示意图之一;
[0031]图11为本申请实施例提供的数据处理装置的方框示意图之二。
[0032]图标:100

电子设备;110

存储器;120

处理器;130

通信单元;200

数据处理装置;210

文本获得模块;220

向量表示模块;230

计算模块;240

确定模块;250

分割模块;260

抽取模块。
具体实施方式
[0033]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
[0034]因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0035]需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且
还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0036]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0037]请参照图1,图1为本申请实施例提供的电子设备100的方框示意图。所述电子设备100可以是,但不限于,智能手机、电脑、服务器等。所述电子设备100包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
[0038]其中,存储器110用于存储程序或者数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获得目标文本;将所述目标文本中的每个句子转换成向量,得到每个句子的句向量;根据每个句子的句向量,计算得到所述目标文本中各第一分割点的深度得分,其中,所述深度得分用于表示第一分割点前后的语义差别,所述深度得分根据第一分割点前后的两个句子集合计算得到,两个句子集合中分别包括多个句子;根据各第一分割点的深度得分,确定出目标分割点;根据所述目标分割点对所述目标文本进行段落分割。2.根据权利要求1所述的方法,其特征在于,所述根据每个句子的句向量,计算得到所述目标文本中各第一分割点的深度得分,包括:针对各第一分割点,根据每个句子的句向量及第一预设数量,确定出该第一分割点对应的第一句子集合及第二句子集合,其中,所述第一句子集合及第二句子集合中的句子数量均为所述第一预设数量;根据该第一分割点对应的第一句子集合及第二句子集合,计算得到各第一分割点的第一句子集合与第二句子集合的相似度;根据该第一分割点对应的相似度,计算得到该第一分割点的深度得分。3.根据权利要求2所述的方法,其特征在于,所述根据该第一分割点对应的相似度,计算得到该第一分割点的深度得分,包括:从各第一分割点对应的相似度中,确定出查找位于该第一分割点两侧的首个最大相似度;根据该第一分割点两侧的首个最大相似度及该第一分割点的相似度,计算得到该第一分割点的深度得分。4.根据权利要求1所述的方法,其特征在于,所述根据各第一分割点的深度得分,确定出目标分割点,包括:选出深度得分大于第一预设值的第一分割点,作为初始目标分割点;针对每个初始目标分割点,获得该初始目标分割点对应的各第二分割点的置信度,其中,一个初始目标分割点对应的第二分割点包括所述目标文本中位于该初始目标分割点之前的第一分割点和/或位于该初始目标分割点之后的第一分割点,所述置信度通过分类模型基于所述目标文本得到,所述分类模型根据分段文本训练得到;在该初始目标分割点对应的各第二分割点的置信度中存在大于第二预设值的置信度的情况下,将置信度大于所述第二预设值的第二分割点作为该初始目标分割点对应的目标分割点;在该初始目标分割点对应的各...

【专利技术属性】
技术研发人员:鲁俊
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1