文本处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号:29704112 阅读:16 留言:0更新日期:2021-08-17 14:32
本申请公开了一种文本处理方法、装置、存储介质及电子设备,该方法包括获取初始文本数据,并确定与初始文本数据对应的至少两个初始分词序列;将至少两个初始分词序列输入至语言处理模型中得到每一个初始分词序列的至少两个包含标签类型的分词子序列;基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,并根据目标标签类型确定初始文本数据的标点类型。可基于语言处理模型对文本数据进行处理,不仅可准确的获取上下文的数据信息,还可利用语言处理模型降低数据集的数量,以便于提升文本的处理效率。

【技术实现步骤摘要】
文本处理方法、装置、存储介质及电子设备
本申请涉及自然语言处理
,特别的涉及一种文本处理方法、装置、存储介质及电子设备。
技术介绍
自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术,可通过人为的对自然语言的处理,使得计算机对其能够可读并理解。文本处理作为自然语言处理的一种,可在多种
中实现对文本的自动校对、文章的自动生成乃至合成语音时的输入文本等功能。以对文本添加标点符号为例,现有技术通常以n-gram模型对输入的文本进行自动添加标点符号处理,但该模型运用的数据集过大,不仅增加了文本处理的时间成本,还影响了文本处理的精确度。
技术实现思路
本申请实施例提供了一种文本处理方法、装置、存储介质及电子设备,可基于语言处理模型降低预测标点符号所需要的训练集,进而在保障标注精确度的同时提高处理效率。第一方面,本申请实施例提供了一种文本处理方法,包括:获取初始文本数据,并确定与初始文本数据对应的至少两个初始分词序列;至少两个初始分词序列包括初始文本数据以及标注字符,标注字符用于划分初始文本数据;将至少两个初始分词序列输入至语言处理模型中得到每一个初始分词序列的至少两个包含标签类型的分词子序列,语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到;基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,并根据目标标签类型确定初始文本数据的标点类型。在第一方面的一种可选方案中,确定与初始文本数据对应的至少两个初始分词序列,包括:对初始文本数据进行文本归一化处理,并确定与处理后的初始文本数据对应的至少两个初始分词序列。在第一方面的又一种可选方案中,语言处理模型包括预设第一阈值的字符类型以及预设第二预设阈值的标签类型,语言处理模型基于字符类型、标签类型以及多个已知分词序列的包含标签类型的样本分词子序列训练得到。在第一方面的又一种可选方案中,基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,包括:按照至少两个初始分词序列的排列顺序依次将每一个初始分词序列的至少两个包含标签类型的分词子序列输入至前馈神经网络得到每一个初始分词序列的包含目标标签类型的分词子序列;对每一个初始分词序列的包含目标标签类型的分词子序列进行整合,得到对应于初始文本数据的包含目标标签类型的分词子序列。在第一方面的又一种可选方案中,对每一个初始分词序列的包含目标标签类型的分词子序列进行整合,包括:对任意相邻的两个包含目标标签类型的分词子序列进行拼接;在任意相邻的分词子序列中前一个分词子序列的末端目标标签类型与后一个分词子序列拼接存在语法错误的情况下,将与前一个分词子序列对应的初始分词序列以及与后一个分词子序列对应的初始分词序列拼接;将拼接的初始分词序列输入至语言处理模型中得到拼接的初始分词序列的至少两个包含标签类型的分词子序列,并基于至少两个包含标签类型的分词子序列以及前馈神经网络得到拼接的初始分词序列的包含目标标签类型的分词子序列。在第一方面的又一种可选方案中,基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,包括:将至少两个初始分词序列的至少两个包含标签类型的分词子序列全部输入至前馈神经网络得到对应于初始文本数据的包含目标标签类型的分词子序列。在第一方面的又一种可选方案中,获取初始文本数据之后,确定与初始文本数据对应的至少两个初始分词序列之前,还包括:提取初始文本数据的关键词;将初始文本数据的关键词与预设文本数据库中的预设关键词进行相似性比较,并得到初始文本数据的检测结果;预设文本数据库包括多个预设关键词以及对应于各个预设关键词的预设文本;在初始文本数据的检测结果满足预设条件的情况下,基于预设文本数据库中预设关键词所对应的预设文本的标点类型确定初始文本数据的标点类型。第二方面,本申请实施例提供了一种文本处理装置,包括:第一处理模块,用于获取初始文本数据,并确定与初始文本数据对应的至少两个初始分词序列;至少两个初始分词序列包括初始文本数据以及标注字符,标注字符用于划分初始文本数据;第二处理模块,用于将至少两个初始分词序列输入至语言处理模型中得到每一个初始分词序列的至少两个包含标签类型的分词子序列,语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到;第三处理模块,用于基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,并根据目标标签类型确定初始文本数据的标点类型。在第二方面的一种可选方案中,第一处理模块具体用于:对初始文本数据进行文本归一化处理,并确定与处理后的初始文本数据对应的至少两个初始分词序列。在第二方面的又一种可选方案中,语言处理模型包括预设第一阈值的字符类型以及预设第二预设阈值的标签类型,语言处理模型基于字符类型、标签类型以及多个已知分词序列的包含标签类型的样本分词子序列训练得到。在第二方面的又一种可选方案中,第三处理模块具体包括:第一处理单元,用于按照至少两个初始分词序列的排列顺序依次将每一个初始分词序列的至少两个包含标签类型的分词子序列输入至前馈神经网络得到每一个初始分词序列的包含目标标签类型的分词子序列;第二处理单元,用于对每一个初始分词序列的包含目标标签类型的分词子序列进行整合,得到对应于初始文本数据的包含目标标签类型的分词子序列。在第二方面的又一种可选方案中,第二处理单元具体用于:对任意相邻的两个包含目标标签类型的分词子序列进行拼接;在任意相邻的分词子序列中前一个分词子序列的末端目标标签类型与后一个分词子序列拼接存在语法错误的情况下,将与前一个分词子序列对应的初始分词序列以及与后一个分词子序列对应的初始分词序列拼接;将拼接的初始分词序列输入至语言处理模型中得到拼接的初始分词序列的至少两个包含标签类型的分词子序列,并基于至少两个包含标签类型的分词子序列以及前馈神经网络得到拼接的初始分词序列的包含目标标签类型的分词子序列。在第二方面的又一种可选方案中,第三处理模块具体用于:将至少两个初始分词序列的至少两个包含标签类型的分词子序列全部输入至前馈神经网络得到对应于初始文本数据的包含目标标签类型的分词子序列。在第二方面的又一种可选方案中,装置还包括:提取模块,用于在第一处理模块之前,提取初始文本数据的关键词;第四处理模块,用于将初始文本数据的关键词与预设文本数据库中的预设关键词进行相似性比较,并得到初始文本数据的检测结果;预设文本数据库包括多个预设关键词以及对应于各个预设关键词的预设文本;第五处理模块,用于在初始文本数据的检测结果满足预设条件的情况下,基于预设文本数据本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n获取初始文本数据,并确定与所述初始文本数据对应的至少两个初始分词序列;至少两个所述初始分词序列包括所述初始文本数据以及标注字符,所述标注字符用于划分所述初始文本数据;/n将至少两个所述初始分词序列输入至语言处理模型中得到每一个所述初始分词序列的至少两个包含标签类型的分词子序列,所述语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到;/n基于至少两个所述初始分词序列的至少两个所述包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,并根据所述目标标签类型确定所述初始文本数据的标点类型。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
获取初始文本数据,并确定与所述初始文本数据对应的至少两个初始分词序列;至少两个所述初始分词序列包括所述初始文本数据以及标注字符,所述标注字符用于划分所述初始文本数据;
将至少两个所述初始分词序列输入至语言处理模型中得到每一个所述初始分词序列的至少两个包含标签类型的分词子序列,所述语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到;
基于至少两个所述初始分词序列的至少两个所述包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,并根据所述目标标签类型确定所述初始文本数据的标点类型。


2.根据权利要求1所述的方法,其特征在于,所述确定与所述初始文本数据对应的至少两个初始分词序列,包括:
对所述初始文本数据进行文本归一化处理,并确定与处理后的所述初始文本数据对应的至少两个初始分词序列。


3.根据权利要求1所述的方法,其特征在于,所述语言处理模型包括预设第一阈值的字符类型以及预设第二预设阈值的所述标签类型,所述语言处理模型基于所述字符类型、所述标签类型以及多个已知分词序列的包含标签类型的样本分词子序列训练得到。


4.根据权利要求1所述的方法,其特征在于,所述基于至少两个所述初始分词序列的至少两个所述包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列,包括:
按照至少两个初始分词序列的排列顺序依次将每一个所述初始分词序列的至少两个所述包含标签类型的分词子序列输入至所述前馈神经网络得到每一个所述初始分词序列的所述包含目标标签类型的分词子序列;
对每一个所述初始分词序列的所述包含目标标签类型的分词子序列进行整合,得到对应于所述初始文本数据的所述包含目标标签类型的分词子序列。


5.根据权利要求4所述的方法,其特征在于,所述对每一个所述初始分词序列的所述包含目标标签类型的分词子序列进行整合,包括:
对任意相邻的两个所述包含目标标签类型的分词子序列进行拼接;
在任意相邻的所述分词子序列中前一个所述分词子序列的末端目标标签类型与后一个所述分词子序列拼接存在语法错误的情况下,将与前一个所述分词子序列对应的所述初始分词序列以及与后一个所述分词子序列对应的所述初始分词序列拼接;
将拼接的所述初始分词序列输入至所述语言处理模型中得到拼接的所述初始分词序列的至少两个所述包含标签类型的...

【专利技术属性】
技术研发人员:周鼎皓吴雨璇舒景辰梁光杨惠
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1