文本处理方法、装置、存储介质及电子设备制造方法及图纸

技术编号：29704112 阅读：16 留言：0更新日期：2021-08-17 14:32

本申请公开了一种文本处理方法、装置、存储介质及电子设备，该方法包括获取初始文本数据，并确定与初始文本数据对应的至少两个初始分词序列；将至少两个初始分词序列输入至语言处理模型中得到每一个初始分词序列的至少两个包含标签类型的分词子序列；基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列，并根据目标标签类型确定初始文本数据的标点类型。可基于语言处理模型对文本数据进行处理，不仅可准确的获取上下文的数据信息，还可利用语言处理模型降低数据集的数量，以便于提升文本的处理效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、存储介质及电子设备
本申请涉及自然语言处理
，特别的涉及一种文本处理方法、装置、存储介质及电子设备。
技术介绍
自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术，可通过人为的对自然语言的处理，使得计算机对其能够可读并理解。文本处理作为自然语言处理的一种，可在多种
中实现对文本的自动校对、文章的自动生成乃至合成语音时的输入文本等功能。以对文本添加标点符号为例，现有技术通常以n-gram模型对输入的文本进行自动添加标点符号处理，但该模型运用的数据集过大，不仅增加了文本处理的时间成本，还影响了文本处理的精确度。
技术实现思路
本申请实施例提供了一种文本处理方法、装置、存储介质及电子设备，可基于语言处理模型降低预测标点符号所需要的训练集，进而在保障标注精确度的同时提高处理效率。第一方面，本申请实施例提供了一种文本处理方法，包括：获取初始文本数据，并确定与初始文本数据对应的至少两个初始分词序列；至少两个初始分词序列包括初始文本数据以及标注字符，标注字符用于划分初始文本数据；将至少两个初始分词序列输入至语言处理模型中得到每一个初始分词序列的至少两个包含标签类型的分词子序列，语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到；基于至少两个初始分词序列的至少两个包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列，并根据目标标签类型确定初始文本数据的标点类型。在第一方面的一种可...

【技术保护点】
1.一种文本处理方法，其特征在于，包括：/n获取初始文本数据，并确定与所述初始文本数据对应的至少两个初始分词序列；至少两个所述初始分词序列包括所述初始文本数据以及标注字符，所述标注字符用于划分所述初始文本数据；/n将至少两个所述初始分词序列输入至语言处理模型中得到每一个所述初始分词序列的至少两个包含标签类型的分词子序列，所述语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到；/n基于至少两个所述初始分词序列的至少两个所述包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列，并根据所述目标标签类型确定所述初始文本数据的标点类型。/n

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：
获取初始文本数据，并确定与所述初始文本数据对应的至少两个初始分词序列；至少两个所述初始分词序列包括所述初始文本数据以及标注字符，所述标注字符用于划分所述初始文本数据；
将至少两个所述初始分词序列输入至语言处理模型中得到每一个所述初始分词序列的至少两个包含标签类型的分词子序列，所述语言处理模型由多个已知分词序列的包含标签类型的样本分词子序列训练得到；
基于至少两个所述初始分词序列的至少两个所述包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列，并根据所述目标标签类型确定所述初始文本数据的标点类型。

2.根据权利要求1所述的方法，其特征在于，所述确定与所述初始文本数据对应的至少两个初始分词序列，包括：
对所述初始文本数据进行文本归一化处理，并确定与处理后的所述初始文本数据对应的至少两个初始分词序列。

3.根据权利要求1所述的方法，其特征在于，所述语言处理模型包括预设第一阈值的字符类型以及预设第二预设阈值的所述标签类型，所述语言处理模型基于所述字符类型、所述标签类型以及多个已知分词序列的包含标签类型的样本分词子序列训练得到。

4.根据权利要求1所述的方法，其特征在于，所述基于至少两个所述初始分词序列的至少两个所述包含标签类型的分词子序列以及前馈神经网络得到包含目标标签类型的分词子序列，包括：
按照至少两个初始分词序列的排列顺序依次将每一个所述初始分词序列的至少两个所述包含标签类型的分词子序列输入至所述前馈神经网络得到每一个所述初始分词序列的所述包含目标标签类型的分词子序列；
对每一个所述初始分词序列的所述包含目标标签类型的分词子序列进行整合，得到对应于所述初始文本数据的所述包含目标标签类型的分词子序列。

5.根据权利要求4所述的方法，其特征在于，所述对每一个所述初始分词序列的所述包含目标标签类型的分词子序列进行整合，包括：
对任意相邻的两个所述包含目标标签类型的分词子序列进行拼接；
在任意相邻的所述分词子序列中前一个所述分词子序列的末端目标标签类型与后一个所述分词子序列拼接存在语法错误的情况下，将与前一个所述分词子序列对应的所述初始分词序列以及与后一个所述分词子序列对应的所述初始分词序列拼接；
将拼接的所述初始分词序列输入至所述语言处理模型中得到拼接的所述初始分词序列的至少两个所述包含标签类型的...

【专利技术属性】
技术研发人员：周鼎皓，吴雨璇，舒景辰，梁光，杨惠，
申请(专利权)人：北京大米科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人