文本处理方法及装置制造方法及图纸

技术编号：37346688 阅读：10 留言：0更新日期：2023-04-22 21:41

本申请提供文本处理方法及装置，其中所述文本处理方法包括：提取待处理文本中的目标文本段；基于目标文本段的字符顺序，对目标文本段进行分词，获得初始文本段和预设数量的初始分词，其中，初始文本段为目标文本段中除初始分词外剩余的文本段；将初始分词中的指定分词与初始文本段进行合并，获得更新后的目标文本段，并返回执行基于目标文本段的字符顺序，对目标文本段进行分词的步骤；在达到预设分词停止条件的情况下，获得待处理文本对应的分词集合。通过对目标文本段进行分词，获得初始文本段和预设数量的初始分词，将初始分词中的指定分词与初始文本段进行合并，对目标文本段进行更新，仅关注文本的局部语义，实现了高效、准确的文本处理。的文本处理。的文本处理。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法及装置

[0001]本申请涉及计算机
，特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备，以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展，自然语言处理(NLP，Natural Language Processing)的文本处理任务中，由于文本的内容通常较多、篇幅较长，为了方便用户获取文本中的有效信息，在处理文本之前，可以对文本进行分词，因此，文本分词逐渐成为自然语言处理任务中的研究重点。
[0003]现有技术中，通常采用深度学习的方法，将分词问题转化为一个序列标注问题，对文本中的每个字标注其属性，获得分词结果。
[0004]然而，上述深度学习的方案速度较慢，过于耗费算力和内存，导致文本处理的效率低且准确性不高。

技术实现思路

[0005]有鉴于此，本申请实施例提供了一种文本处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置，一种计算设备，以及一种计算机可读存储介质。
[0006]根据本申请实施例的第一方面，提供了一种文本处理方法，包括：
[0007]提取待处理文本中的目标文本段；
[0008]基于目标文本段的字符顺序，对目标文本段进行分词，获得初始文本段和预设数量的初始分词，其中，初始文本段为目标文本段中除初始分词外剩余的文本段；
[0009]将初始分词中的指定分词与初始文本段进行合并，获得更新后的目标文本段，并返回执行基于目标文本段的字符顺序，对目标文本段进...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：提取待处理文本中的目标文本段；基于所述目标文本段的字符顺序，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词，其中，所述初始文本段为所述目标文本段中除所述初始分词外剩余的文本段；将所述初始分词中的指定分词与所述初始文本段进行合并，获得更新后的目标文本段，并返回执行所述基于所述目标文本段的字符顺序，对所述目标文本段进行分词的步骤；在达到预设分词停止条件的情况下，获得所述待处理文本对应的分词集合。2.根据权利要求1所述的方法，其特征在于，所述提取待处理文本中的目标文本段，包括：根据所述待处理文本的字符顺序，将所述待处理文本和特定领域词库进行匹配，确定所述待处理文本中的目标分词，其中，所述特定领域词库包括多个特定领域词语；以所述目标分词为分割点，对所述待处理文本进行分割，获得所述目标文本段。3.根据权利要求2所述的方法，其特征在于，所述以所述目标分词为分割点，对所述待处理文本进行分割，获得所述目标文本段，包括：以所述目标分词为分割点，对所述待处理文本进行分割，获得候选文本段；对所述候选文本段进行字符识别，确定所述候选文本段中指定类型的字符；将所述指定类型的字符从所述候选文本段中删除，获得所述目标文本段，其中，所述指定类型包括字母、数字、符号中的至少一种。4.根据权利要求3所述的方法，其特征在于，所述在达到预设分词停止条件的情况下，获得所述待处理文本对应的分词集合之后，还包括：基于所述待处理文本的字符顺序，对所述目标分词、所述指定类型的字符和所述分词集合进行排序，获得文本处理结果。5.根据权利要求1所述的方法，其特征在于，所述基于所述目标文本段的字符顺序，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词，包括：基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词。6.根据权利要求5所述的方法，其特征在于，所述基于所述目标文本段的字符顺序和词特征库中各词语的特征信息，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词之前，还包括：获取多个样本词语，其中，所述样本词语携带词特征信息；将所述多个样本词语处理为线性数组的形式，并根据处理后的多个样本词语构建词特征库。7.根据权利要求5所述的方法，其特征在于，所述基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息，对所述目标文本段进行分词，获得初始文本段和预设数量的初始分词，包括：基于所述目标文本段的字符顺序，将所述目标文本段和...

【专利技术属性】
技术研发人员：王焜，余赢超，王景峰，
申请(专利权)人：珠海金山数字网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人