一种文本处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:29971514 阅读:51 留言:0更新日期:2021-09-08 09:48
本公开提供了一种文本处理方法、装置、设备以及存储介质,通过从待处理文本中选取的被段落分割符分割的语句中划分出的多个目标词和多个目标词的数量进行编码处理得到语句向量,以及根据与所述语句向量的对应的语句合并识别结果,判断两个语句是否能够合并为同一语句,可以学习两个语句之间的关系,从而学习被段落分割符分割的两个段落之间的联系,以此判定两个段落是否可以合并,可以提高语句合并识别结果的准确性,从而提高段落合并的效率和准确度,可以减小因大量段落分割符产生的过多段落对文本分析产生的影响,有利于提高文本分析的运行速度。的运行速度。的运行速度。

【技术实现步骤摘要】
一种文本处理方法、装置、设备以及存储介质


[0001]本公开涉及自然语言处理领域,具体而言,涉及一种文本处理方法、装置、设备以及存储介质。

技术介绍

[0002]在自然语言处理领域,在获取文本进行分析时,经常会遇到因系统差异,文章转码后的格式差异,以及书写者为使文章内容更加具有层次性和美观性,在文章中添加大量段落分割符作为段落划分的依据等原因使得文本中段落过多的问题。
[0003]文本分析模型经常会根据文本中的段落分割符作为段落分割的依据来对文本数据进行分析,因此,过多的段落分割符会导致产生过多的段落,同时也会增加文本分析模型的计算量,并降低文本分析模型的运行速度和处理文本的效率。

技术实现思路

[0004]本公开实施例至少提供一种文本处理方法及装置、设备以及存储介质,可以解决以上问题中的至少一种。
[0005]本公开实施例提供了一种文本处理方法,所述方法包括:
[0006]确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于待处理文本的不本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,所述方法包括:确定待处理文本中的至少一组待合并语句,其中,所述待合并语句包括相邻的第一语句和第二语句,所述第一语句与所述第二语句位于所述待处理文本的不同段落;确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量;将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果;若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。2.根据权利要求1所述的方法,其特征在于,所述确定待处理文本中的至少一组待合并语句,包括:获取待处理文本的文本数据;根据从所述文本数据中识别出的段落分割符,确定所述待处理文本中与所述段落分割符相邻,并且位于所述段落分割符之前的第一段落和位于所述段落分割符之后的第二段落;按照预设语句认定规则,确定所述第一段落中位于最后语句位置的第一语句,和所述第二段落中位于首句语句位置的第二语句,其中,所述第一语句和所述第二语句分别包括至少一个自然语句;将所述第一语句和所述第二语句确定为至少一组待合并语句中的一组待合并语句。3.根据权利要求1所述的方法,其特征在于,所述确定所述第一语句对应的第一语句向量和所述第二语句对应的第二语句向量,包括:获取针对所述待处理文本的分词方式;按照所述分词方式,对所述第一语句和所述第二语句分别进行分词处理,得到所述第一语句对应的多个第一目标词和所述多个第一目标词的数量,以及所述第二语句对应的多个第二目标词和所述多个第二目标词的数量;根据所述多个第一目标词和所述多个第一目标词的数量,对所述第一语句进行编码处理,得到所述第一语句对应的第一语句向量;根据所述多个第二目标词和所述多个第二目标词的数量,对所述第二语句进行编码处理,得到所述第二语句对应的第二语句向量。4.根据权利要求1所述的方法,其特征在于,所述将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中,得到语句合并识别结果,包括:将所述第一语句向量和所述第二语句向量输入至训练好的段落合并识别模型中的语义识别层,得到所述第一语句向量和所述第二语句向量之间的语义距离向量;将所述语义距离向量输入至所述段落合并识别模型中的合并识别层中,得到针对所述第一语句和所述第二语句的语句合并识别结果,其中,所述语句合并识别结果包括语句合并概率。5.根据权利要求4所述的方法,其特征在于,所述若所述语句合并识别结果指示所述第一语句和所述第二语句满足合并条件,将所述第一语句所在的段落与所述第二语句所在的段落进行合并,包括:若所述语句合并概率大于预设概率阈值,确定所述第一语句和所述第二语句满足合并
条件;在所述第一语句和所述第二语句满足合并条件的情况下,将所述第一语句所在的段落与所述第二语句所在的段落进行合并。6.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:李近朱陈维识
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1