【技术实现步骤摘要】
文本处理方法及装置、电子设备、计算机可读存储介质
[0001]本公开涉及自然语言处理
,特别涉及一种文本处理方法及装置、电子设备、计算机可读存储介质。
技术介绍
[0002]自然语言处理过程要求计算机能准确地提炼出文本句子所表达的含义,处理过程涉及句法、语义成分、语义结构、语境等方面,这一切的基础都是基于将一个文本句子准确地切分为多个词语的组合,简单来说,就是对一个文本句子进行分词。在更深层的自然语言处理过程中,譬如个性化推荐、情感分析、主题分类、舆情分析等,都需要准确率较高的分词效果作为前提保证,而新词的出现往往会对现有分词软件造成干扰,导致分词效果不理想,进而影响了后续对文本的处理。
技术实现思路
[0003]本公开提供一种文本处理方法及装置、电子设备、计算机可读存储介质。
[0004]第一方面,本公开提供了一种文本处理方法,该文本处理方法包括:
[0005]获取待处理文本,并确定所述待处理文本所属的知识领域;
[0006]获取所述待处理文本所属的知识领域对应的有向无环图;< ...
【技术保护点】
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理文本,并确定所述待处理文本所属的知识领域;获取所述待处理文本所属的知识领域对应的有向无环图;基于所述有向无环图和所述待处理文本的文本长度,对所述待处理文本进行分词处理,得到所述待处理文本对应的分词结果;其中,所述待处理文本所属的知识领域对应的有向无环图,是预先根据所述待处理文本所属的知识领域对应的领域文本语料中每个字、每个字与相邻字组成的词组分别在所述领域文本语料中出现的次数创建的。2.根据权利要求1所述的方法,其特征在于,在获取待处理文本之前,所述方法还包括:获取所述待处理文本所属的知识领域所对应的领域文本语料,所述领域文本语料包括所述知识领域的多个领域文本,每个领域文本中包括多个字;确定所述多个领域文本中的每个字在所述领域文本语料中出现的第一次数,以及所述多个领域文本中每个字与相邻字组成的词组在所述领域文本语料出现的第二次数;基于所述第一次数和所述第二次数创建每个字对应的有向无环图;根据所述每个字对应的有向无环图,得到所述知识领域对应的有向无环图。3.根据权利要求1所述的方法,其特征在于,所述基于所述有向无环图和所述待处理文本的文本长度,对所述待处理文本进行分词处理,得到所述待处理文本对应的分词结果,包括:当所述待处理文本的文本长度为2时,从所述有向无环图中获取所述待处理文本中两个字组成的词组出现的次数,以及所述待处理文本的两个字中每个字出现的次数;根据所述待处理文本中每个字出现的次数,以及所述待处理文本中两个字组成的词组出现的次数,对所述待处理文本进行分词处理以获得所述待处理文本对应的分词结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述待处理文本中每个字出现的次数,以及所述待处理文本中两个字组成的词组出现的次数,对所述待处理文本进行分词处理以获得所述待处理文本对应的分词结果,包括:利用预设算法基于所述待处理文本中每个字出现的次数,以及所述待处理文本中两个字组成的词组出现的次数进行运算,得到所述待处理文本中两个字对应的成词概率;基于所述成词概率对所述待处理文本进行分词处理,以获得所述待处理文本对应的分词结果。5.根据权利要求4所述的方法,其特征在于,所述基于所述成词概率对所述待处理文本进行分词处理,以获得所述待处理文本对应的分词结果,包括:当所述成词概率大于预设阈值时,则将所述待处理文本中两个字组成的词组作为一个分词,添加到分词结果中;当所述成词概率小于或等于预设阈值时,则将所述待处理文本中两个字中的每个字分别作为一个分词,添加到分词结果中。6.根据权利要求5所述的方法,其特征在于,所述预设算法包括对数函数,所述利用预设算法基于所述待处理文本中每个字出现的次数,以及所述待处理文本中两个字组成的词组出现的次数进行运算,得到所述待处理文本中两个字对应的成词概率,包括:将所述待处理文本中每个字出现的次数进行相乘运算,并将相乘运算的结果与所述待
处理文本中两个字组成的词组出现的次数进行求比值运算,得到比值;利用所述对数函数对所述比值进行对数运算得到对数值,并将计算得到的对数值作为所述待处理文本中两个字对应的成词概率。7.根据权利要求1所述的方法,其特征在于,所述基于所述有向无环图和所述待处理文本的文本长度,对所述待处理文本进行分词处理,得到所述待处理文本对应的分词结果,包括:当所述待处理文本的文本长度为3时,从所述有向无环图中获取所述待处理文本的三个字中每相邻两个字组成的词组分别出现的次数;根据所述待处理文本的三个字中每相邻两个字组成的词组分别出现的次数,对所述待处理文本进行分词处理,以获得所述待处理文本对应的分词结果。8.根据权利要求7所述的方法,其特征在于,所述根据所述待处理文本的三个字中每相邻两个字组成的词组分别出现的次数,对所述待处理文本进行分词处理,以获得所述待处理文本对应的分词结果,包括:当所述待处理文本的三个字中每相邻两个字中前一组相邻的两个字组成的词组出现的次数,等于后一组相邻的两个字组成的词组出现的次数时,将所述待处理文本中三个字组成一个分词,添加到分词结果中;当前一组相邻的两个字组成的词组出现的次数,小于后一组相邻的两个字组成的词组出现的次数时,则将所述待处理文本中第1个字作为一个分词,并将后一组相邻的两个字组成一个分词,添加到分词结果中;当前一组相邻的两个字组成的词组出现的次数,大于后一组相邻的两个字组成的词组出现的次数时,则将所述待处理文本中前一组相邻的两个字组成一个分词,并将最后1个字作为一个分词,添加到分词结果中。9.根据权利要求1所述的方法,其特征在于,所述基于所述有向无环图和所述待处理文本的文本长度,对所述待处理文本进行分词处理,得到所述待处理文本对应的分词结果,包括:当所述待处理文本的文本长度大于或等于4时,开始分词遍历;从所述待处理文本中当前剩余待分词的字中获取连续相邻的四个字,将这四个字组成的文本作为当前遍历的文本片段;从所述有向无环图中获取所述当前遍历的文本片段的四个字中每相邻两个字组成的词组分别出现的次数;根据所述当前遍历的...
【专利技术属性】
技术研发人员:李长林,肖冰,曹磊,罗奇帅,陈美金,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。