文本处理方法及装置制造方法及图纸

技术编号:37346688 阅读:10 留言:0更新日期:2023-04-22 21:41
本申请提供文本处理方法及装置,其中所述文本处理方法包括:提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。的文本处理。的文本处理。

【技术实现步骤摘要】
文本处理方法及装置


[0001]本申请涉及计算机
,特别涉及一种文本处理方法。本申请同时涉及一种文本处理装置、一种计算设备,以及一种计算机可读存储介质。

技术介绍

[0002]随着互联网技术的发展,自然语言处理(NLP,Natural Language Processing)的文本处理任务中,由于文本的内容通常较多、篇幅较长,为了方便用户获取文本中的有效信息,在处理文本之前,可以对文本进行分词,因此,文本分词逐渐成为自然语言处理任务中的研究重点。
[0003]现有技术中,通常采用深度学习的方法,将分词问题转化为一个序列标注问题,对文本中的每个字标注其属性,获得分词结果。
[0004]然而,上述深度学习的方案速度较慢,过于耗费算力和内存,导致文本处理的效率低且准确性不高。

技术实现思路

[0005]有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
[0006]根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
[0007]提取待处理文本中的目标文本段;
[0008]基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
[0009]将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
[0010]在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
[0011]根据本申请实施例的第二方面,提供了一种文本处理装置,包括:
[0012]提取模块,被配置为提取待处理文本中的目标文本段;
[0013]分词模块,被配置为基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;
[0014]合并模块,被配置为将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;
[0015]获得模块,被配置为在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。
[0016]根据本申请实施例的第三方面,提供了一种计算设备,包括:
[0017]存储器和处理器;
[0018]所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述文本处理方法的步骤。
[0019]根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述文本处理方法的步骤。
[0020]根据本申请实施例的第五方面,提供了一种芯片,其存储有计算机程序,该计算机程序被芯片执行时实现所述文本处理方法的步骤。
[0021]本申请提供的文本处理方法,提取待处理文本中的目标文本段;基于目标文本段的字符顺序,对目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,初始文本段为目标文本段中除初始分词外剩余的文本段;将初始分词中的指定分词与初始文本段进行合并,获得更新后的目标文本段,并返回执行基于目标文本段的字符顺序,对目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得待处理文本对应的分词集合。通过对目标文本段进行分词,获得初始文本段和预设数量的初始分词,将初始分词中的指定分词与初始文本段进行合并,对目标文本段进行更新,仅关注文本的局部语义,实现了高效、准确的文本处理。
附图说明
[0022]图1是本申请一实施例提供的一种文本处理系统的框架图;
[0023]图2是本申请一实施例提供的一种文本处理方法的流程图;
[0024]图3是本申请一实施例提供的一种应用于游戏领域的文本处理方法的处理流程图;
[0025]图4是本申请一实施例提供的一种文本处理界面的界面示意图;
[0026]图5是本申请一实施例提供的一种文本处理装置的结构示意图;
[0027]图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
[0028]在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
[0029]在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0030]应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
[0031]首先,对本专利技术一个或多个实施例涉及的名词术语进行解释。
[0032]词频:词频(TF,Term Frequency)指的是某一个给定的词语在某一文件中出现的
次数。
[0033]光学字符识别:光学字符识别(OCR,Optical Character Recognition)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
[0034]双数组线索(Trie)树:双数组Trie树(DoubleArray Trie)是一种空间复杂度低的Trie树,应用于字符区间大的语言(如中文、日文等)分词领域。双数组的原理是,将原来需要多个数组才能表示的Trie树,使用两个数据就可以存储下来,可以极大地减小空间复杂度。
[0035]AC自动机:AC自动机(Aho

Corasick automaton)是对字典树算法的一种延伸,是字符串中运用非常广泛的一种算法。
[0036]词云分析:词云分析是通过对一个文本库做词频统计后,生成一张可视化的词云图,相比于单纯的词频信息,更适合给非专业数据人员使用和展示。
[0037]随着互联网与智能手机的迅速普及,网络上可采集到的信息量呈爆炸性增长,传统的信息处理与分析手段已经越来越力不从心,因此,有必要引入基于数据挖掘、机器学习甚至深度学习相关的智能信息处理分析方式。
[0038]以中文文本为例,要使用计算机算法对其进行处理,通常第一步骤就是要对其进行分词。分词的结果不仅是后续各种算法的基础,其本身也可以直接处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:提取待处理文本中的目标文本段;基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,其中,所述初始文本段为所述目标文本段中除所述初始分词外剩余的文本段;将所述初始分词中的指定分词与所述初始文本段进行合并,获得更新后的目标文本段,并返回执行所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词的步骤;在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合。2.根据权利要求1所述的方法,其特征在于,所述提取待处理文本中的目标文本段,包括:根据所述待处理文本的字符顺序,将所述待处理文本和特定领域词库进行匹配,确定所述待处理文本中的目标分词,其中,所述特定领域词库包括多个特定领域词语;以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段。3.根据权利要求2所述的方法,其特征在于,所述以所述目标分词为分割点,对所述待处理文本进行分割,获得所述目标文本段,包括:以所述目标分词为分割点,对所述待处理文本进行分割,获得候选文本段;对所述候选文本段进行字符识别,确定所述候选文本段中指定类型的字符;将所述指定类型的字符从所述候选文本段中删除,获得所述目标文本段,其中,所述指定类型包括字母、数字、符号中的至少一种。4.根据权利要求3所述的方法,其特征在于,所述在达到预设分词停止条件的情况下,获得所述待处理文本对应的分词集合之后,还包括:基于所述待处理文本的字符顺序,对所述目标分词、所述指定类型的字符和所述分词集合进行排序,获得文本处理结果。5.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本段的字符顺序,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词。6.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词之前,还包括:获取多个样本词语,其中,所述样本词语携带词特征信息;将所述多个样本词语处理为线性数组的形式,并根据处理后的多个样本词语构建词特征库。7.根据权利要求5所述的方法,其特征在于,所述基于所述目标文本段的字符顺序和词特征库中各词语的词特征信息,对所述目标文本段进行分词,获得初始文本段和预设数量的初始分词,包括:基于所述目标文本段的字符顺序,将所述目标文本段和...

【专利技术属性】
技术研发人员:王焜余赢超王景峰
申请(专利权)人:珠海金山数字网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1