文本处理方法及装置制造方法及图纸

技术编号:37290161 阅读:36 留言:0更新日期:2023-04-21 01:32
本申请实施例提供一种文本处理方法,方法包括:获取第一训练样本,以第一训练样本训练第一掩码语言模型,得到预训练的第一模型,其中,第一训练样本为至少缺失部分标点符号的文本片段;构建原始语句分割模型,获取第一模型的模型参数,以第一模型的模型参数初始化原始语句分割模型,得到初始化后的语句分割模型;获取第二训练样本,以第二训练样本训练初始化后的语句分割模型,得到训练好的语句分割模型,其中,第二训练样本为至少缺失部分标点符号的文本片段;获取待处理文本,根据训练好的语句分割模型对待处理文本进行分句。本申请实施例提供的文本处理方法,可以对缺少标点符号的文本进行自动分句。的文本进行自动分句。的文本进行自动分句。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本申请涉及计算机
,特别涉及一种文本处理方法、装置、计算机设备及存储介质。

技术介绍

[0002]文本是由字符这一基本单位构成的,通过字符的有序组合而成,是带有层次结构的一种信息表示方式。基本的字符可以组成词语或短语,然后由字符和词语或短语组合成句子,再由句子组成段落或篇章等。从文本的层次结构来看,底层文本结构(如字符、词语)的边界比较明确,但是,越往上层(如句子、段落)的文本结构,则边界越模糊。因此,上层的文本结构需要显式分割符(各种标点符号)来确认边界,才能使文本的意义明确。
[0003]目前,虽然有一些方法可以对文本进行自动分割,但是其要求输入文本带有完整的标点符号。但是实际场景中会出现诸如用户输入不规范、文本为语音识别的结果的情况导致文本缺少标点符号,对于缺少标点符号的文本,目前暂无一种有效的方法可以自动将文本分割为句子。

技术实现思路

[0004]本申请的目的在于提供一种文本处理方法、装置、计算机设备及存储介质,用于解决目前不能将缺少标点符号的文本分割为句子的技术问题。...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取第一训练样本,以所述第一训练样本训练第一掩码语言模型,得到预训练的第一模型,其中,所述第一训练样本为至少缺失部分标点符号的文本片段;构建原始语句分割模型,获取所述第一模型的模型参数,以所述第一模型的模型参数初始化所述原始语句分割模型,得到初始化后的语句分割模型;获取第二训练样本,以所述第二训练样本训练所述初始化后的语句分割模型,得到训练好的语句分割模型,其中,所述第二训练样本为至少缺失部分标点符号的文本片段;获取待处理文本,根据所述训练好的语句分割模型对所述待处理文本进行分句。2.根据权利要求1所述的文本处理方法,其特征在于,在所述获取第一训练样本之前,还包括:从第一语料库中获取第一文本,根据丢弃第一预设比例的标点符号后的所述第一文本构建所述第一训练样本。3.根据权利要求1所述的文本处理方法,其特征在于,在所述获取第二训练样本之前,还包括:从第二语料库中获取第二文本,根据丢弃第二预设比例的标点符号后的所述第二文本构建所述第二训练样本。4.根据权利要求3所述的文本处理方法,其特征在于,所述根据丢弃第二预设比例的标点符号后的所述第二文本构建所述第二训练样本,包括:标记所述第二文本中的断句处和所述断句处标点符号的类型;以所述第二预设比例丢弃所述第二文本中的标点符号,并在丢弃标点符号的前一个文字字符处标记当前丢弃的标点符号的类型;将所述第二文本中的文字字符标记为预设符号,得到所述第二训练样本。5.根据权利要求1所述的文本处理方法,其特征在于,还包括:构建原始段落分割模型,以所述第一模型的模型参数初始化所述原始段落分割模型,得到初始化后的段落分割模型;获取第三训练样本,以所述第三训练样本训练所述初始化后的段落分割模型,得到训练好的段落分割模型,其中,第三训练样本至少包括两个连续语句;获取所述训练好的语句分割模型对所述待处理文本进行分句的结果,根据所述结果和所述训练好的段落分割模型对所述待处理文本进行分段。6.根据权利要求5所述的文本处理方法,其特征在于,在所述获取第三训练样本之前,还包括:从第三语料库中获取第三文本,确定所述第三文本中的分段信息;根据所述第三文本和所述训练好的语句分割模型得到所述第三文本分句后的语句;根据所述分句后的语句中的两个连续语句和所述分段信息构建所述第三训练样本。7.根据权利要求6所述的文本处理方法,其特征在于,所述根据所述分句后的语句中的两个连续语句和所述分段信息构建所述第三训练样本,包括:获取所述分句后的语句中的第一语句和所述第一语句后的第二语句,并获取所述第一语句的上文和所述第二语句的下文,所述第一语句为所述分句后...

【专利技术属性】
技术研发人员:谢畅
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1