文本规整方法、相关设备及可读存储介质技术

技术编号:31507454 阅读:21 留言:0更新日期:2021-12-22 23:40
本申请公开了一种文本规整方法、相关设备及可读存储介质。对于待规整的文本,确定用于表征该文本中各个句子的关联关系的全局特征,基于该文本的全局特征对该文本进行规整,得到规整后的文本。该方案在对文本规整时,考虑了文本中各个句子之间的关联关系,因此,可以提升文本的规整效果。升文本的规整效果。升文本的规整效果。

【技术实现步骤摘要】
文本规整方法、相关设备及可读存储介质


[0001]本申请涉及自然语言处理
,更具体的说,是涉及一种文本规整方法、相关设备及可读存储介质。

技术介绍

[0002]随着互联网技术的迅速发展,人们面对越来越多的文本,如各种网页中的文本、语音识别后得到的文本等,这些文本中通常会存在大量口语化描述。比如,语音识别后得到的文本中常存在用户自身在说话时由于说话不流畅或其他因素导致的重复内容,以及,用户自身在说话时由于日常讲话方式存在口语化(如,语气词、应答语、口头禅等)导致的无意义内容。由于口语化描述的存在,导致文本不够书面化。
[0003]因此,如何对文本进行规整,以去除文本中的口语化描述,使规整后的文本更书面化,成为本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]鉴于上述问题,本申请提出了一种文本规整方法、相关设备及可读存储介质。具体方案如下:
[0005]一种文本规整方法,所述方法包括:
[0006]获取待规整的文本;
[0007]确定所述文本的全局特征;所述全局特征用于表征所述文本中各个句子之间的关联关系;
[0008]基于所述文本的全局特征,对所述文本进行规整,得到规整后的文本。
[0009]可选地,所述确定所述文本的全局特征,包括:
[0010]确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,所述文本中每个句子的句子级特征用于表征所述句子与所述文本中除所述句子之外的其他句子之间的关联关系;
[0011]将所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征按照句子对应关系进行拼接,得到所述文本的全局特征。
[0012]可选地,所述确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,包括:
[0013]将所述文本输入到文本句子分类模型,所述文本句子分类模型对所述文本进行特征提取,得到所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征;
[0014]其中,所述文本句子分类模型是以规整前训练文本为训练样本,以规整前训练文本中每个句子的句子标签为样本标签,训练得到的,句子标签用于表征句子的语义类型。
[0015]可选地,所述将所述文本输入到文本句子分类模型,所述文本句子分类模型对所
述文本进行特征提取,得到所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,包括:
[0016]所述文本句子分类模型中的词编码网络,对所述文本中每个句子进行词级编码,得到所述文本中每个句子的词级特征;
[0017]所述文本句子分类模型中的文本句子特征提取模块,基于所述文本中每个句子的词级特征对所述文本中每个句子进行句子级特征提取,得到所述文本中每个句子的句子级特征;
[0018]所述文本句子分类模型中的文本句子分类模块,对所述文本中每个句子的句子级特征进行识别,得到所述文本中每个句子的语义类型特征。
[0019]可选地,所述文本句子分类模型中的文本句子特征提取模块,基于所述文本中每个句子的词级特征对所述文本中每个句子进行句子级特征提取,得到所述文本中每个句子的句子级特征,包括:
[0020]对所述文本中每个句子的词级特征进行压缩,得到所述文本中每个句子的第一特征;
[0021]采用注意力机制对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第二特征;
[0022]基于所述文本中各个句子间的交互信息,对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第三特征;
[0023]对所述文本中每个句子的第一特征、所述文本中每个句子的第二特征以及所述文本中每个句子的第三特征按照句子对应关系进行拼接,得到所述文本中每个句子的句子级特征。
[0024]可选地,所述采用注意力机制对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第二特征,包括:
[0025]将所述文本中每个句子的第一特征作为一个节点构建文本句子间图注意力网络;
[0026]针对所述文本句子间图注意力网络中的每个节点,以所述节点为注意力机制中的query,以所述文本句子间图注意力网络中除所述节点之外的其他节点作为注意力机制中的key,计算所述节点在所述其他节点上的注意力系数;以所述节点在所述其他节点上的注意力系数加权其他节点,得到所述节点的新特征;
[0027]所述文本句子间图注意力网络中各个节点的新特征即为所述文本中每个句子的第二特征。
[0028]可选地,所述基于所述文本中各个句子的交互信息,对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第三特征,包括:
[0029]将所述文本中每个句子的第一特征作为一个节点构建文本句子间图交互网络;
[0030]针对所述文本句子间图交互网络中的每个节点,计算所述节点与所述文本句子间图交互网络中除所述节点之外的其他节点的交互信息;将所述节点与所述文本句子间图交互网络中除所述节点之外的其他节点的交互信息进行压缩,得到所述节点的新特征;
[0031]所述文本句子间图交互网络中各个节点的新特征即为所述文本中每个句子的第三特征。
[0032]可选地,所述基于所述文本的全局特征,对所述文本进行规整,得到规整后的文
本,包括:
[0033]将所述文本的全局特征输入文本规整模型,所述文本规整模型对所述文本的全局特征进行编码及解码,得到规整后的文本;
[0034]其中,所述文本规整模型是以规整前训练文本的全局特征为训练样本,以模型输出趋近于与所述规整前训练文本对应的规整后训练文本为训练目标,训练得到的。
[0035]一种文本规整装置,所述装置包括:
[0036]获取单元,用于获取待规整的文本;
[0037]确定单元,用于确定所述文本的全局特征;所述全局特征用于表征所述文本中各个句子之间的关联关系;
[0038]规整单元,用于基于所述文本的全局特征,对所述文本进行规整,得到规整后的文本。
[0039]可选地,所述确定单元,包括:
[0040]多级特征确定单元,用于确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,所述文本中每个句子的句子级特征用于表征所述句子与所述文本中除所述句子之外的其他句子之间的关联关系;
[0041]第一拼接单元,用于将所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征按照句子对应关系进行拼接,得到所述文本的全局特征。
[0042]可选地,所述多级特征确定单元,包括:
[0043]文本句子分类模型处理单元,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本规整方法,其特征在于,所述方法包括:获取待规整的文本;确定所述文本的全局特征;所述全局特征用于表征所述文本中各个句子之间的关联关系;基于所述文本的全局特征,对所述文本进行规整,得到规整后的文本。2.根据权利要求1所述的方法,其特征在于,所述确定所述文本的全局特征,包括:确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,所述文本中每个句子的句子级特征用于表征所述句子与所述文本中除所述句子之外的其他句子之间的关联关系;将所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征按照句子对应关系进行拼接,得到所述文本的全局特征。3.根据权利要求2所述的方法,其特征在于,所述确定所述文本中每个句子的词级特征,所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,包括:将所述文本输入到文本句子分类模型,所述文本句子分类模型对所述文本进行特征提取,得到所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征;其中,所述文本句子分类模型是以规整前训练文本为训练样本,以规整前训练文本中每个句子的句子标签为样本标签,训练得到的,句子标签用于表征句子的语义类型。4.根据权利要求3所述的方法,其特征在于,所述将所述文本输入到文本句子分类模型,所述文本句子分类模型对所述文本进行特征提取,得到所述文本中每个句子的词级特征、所述文本中每个句子的句子级特征,以及,所述文本中每个句子的语义类型特征,包括:所述文本句子分类模型中的词编码网络,对所述文本中每个句子进行词级编码,得到所述文本中每个句子的词级特征;所述文本句子分类模型中的文本句子特征提取模块,基于所述文本中每个句子的词级特征对所述文本中每个句子进行句子级特征提取,得到所述文本中每个句子的句子级特征;所述文本句子分类模型中的文本句子分类模块,对所述文本中每个句子的句子级特征进行识别,得到所述文本中每个句子的语义类型特征。5.根据权利要求4所述的方法,其特征在于,所述文本句子分类模型中的文本句子特征提取模块,基于所述文本中每个句子的词级特征对所述文本中每个句子进行句子级特征提取,得到所述文本中每个句子的句子级特征,包括:对所述文本中每个句子的词级特征进行压缩,得到所述文本中每个句子的第一特征;采用注意力机制对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第二特征;基于所述文本中各个句子间的交互信息,对所述文本中各个句子的第一特征进行聚合,得到所述文本中每个句子的第...

【专利技术属性】
技术研发人员:戚婷万根顺高建清王智国刘聪胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1