分词方法及装置制造方法及图纸

技术编号:33950914 阅读:13 留言:0更新日期:2022-06-29 22:24
本公开提供一种分词方法及装置,该方法:按照预设粒度将待处理语料划分为多个语料片段;在多个语料片段之间插入遮罩片段,并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中;通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息;基于多个语料片段以及语料信息对待处理语料进行分词处理,得到目标分词结果。该方法通过预训练语言模型能够预测出遮罩片段的语料信息,从而通过预测得到的语料信息完成分词处理,无需借助词典或分词文本即可完成分词,避免人工构建词典或分词文本带来的效率下降,提升分词效率。升分词效率。升分词效率。

【技术实现步骤摘要】
分词方法及装置


[0001]本公开涉及数据处理
,尤其涉及一种分词方法及装置。

技术介绍

[0002]随着人工智能技术的发展,自然语言处理(Natural Language Processing,NLP)成为重要分支之一。在自然语言处理中,需要对语料数据进行切分,以便为后续语义识别提供基础。
[0003]目前,中文分词方法主要有两种方式:一种是基于词典分词算法,即,将待匹配的字符串和人工构建的词典进行匹配,若在词典中查询到与字符串对应的词,说明匹配成功,可识别到该词。例如,正向最大匹配法、逆向最大匹配法、双向匹配分词法等。另外一种方式是,基于统计的分词方法,即基于人工构建的大规模分词文本,利用统计机器学习模型对汉字进行标注训练,从而实现对未知文本的切分。例如,HMM、CRF、SVM、深度学习等算法。在上述方法中,词典或者分词文本通常都是人工建立的,由于词典以及分词文本的规模较大,需要消耗较多人力,效率低,建立维护成本较高。
[0004]综上,如何提升分词效率,成为亟待解决的技术问题。

技术实现思路

[0005]本公开提供一种分词方法及装置,用以避免人工构建词典或分词文本带来的效率下降以及成本过高的问题,降低分词方案构建成成本,提升分词效率。
[0006]根据本公开实施例的第一方面,本公开提供一种分词方法,包括:
[0007]按照预设粒度将待处理语料划分为多个语料片段;
[0008]在多个语料片段之间插入遮罩片段,并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中;
[0009]通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息;
[0010]基于多个语料片段以及语料信息对待处理语料进行分词处理,得到目标分词结果。
[0011]根据本公开实施例的第二方面,本公开提供一种分词装置,包括:
[0012]划分模块,被配置为按照预设粒度将待处理语料划分为多个语料片段;
[0013]预测模块,被配置为在多个语料片段之间插入遮罩片段,并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中;通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息;
[0014]切分模块,被配置为基于多个语料片段以及语料信息对待处理语料进行分词处理,得到目标分词结果。
[0015]根据本公开实施例的第三方面,提供一种电子设备,其中包括处理器和存储器,其中,存储器上存储有可执行代码,当可执行代码被处理器执行时,使处理器至少可以实现第一方面中的分词方法。
[0016]根据本公开实施例的第四方面,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备执行时,使得电子设备能够执行至少可以实现第一方面中的分词方法。
[0017]根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现第一方面中的分词方法。
[0018]本公开的实施例提供的技术方案至少带来以下有益效果:
[0019]本公开中,按照预设粒度将待处理语料划分为多个语料片段;在多个语料片段之间插入遮罩片段,并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中;通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息;基于多个语料片段以及语料信息对待处理语料进行分词处理,得到目标分词结果。本公开中,通过预训练语言模型能够预测出遮罩片段的语料信息,从而通过预测得到的语料信息以及多个语料片段完成对待处理语料的分词处理,无需借助词典或分词文本即可完成分词,避免相关技术中人工构建词典或分词文本带来的效率下降以及成本过高的问题,大大降低分词方案构建成成本,提升分词效率。
附图说明
[0020]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0021]图1是根据一示例性实施例示出的一种分词场景的示意图。
[0022]图2是根据一示例性实施例示出的一种分词方法的流程示意图。
[0023]图3是根据一示例性实施例示出的一种分词装置的结构示意图。
[0024]图4是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
[0025]为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0026]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0027]如前文所述,自然语言处理是人工智能领域的重要分支之一。
[0028]自然语言处理,是指计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。
[0029]分词是自然语言处理的基础任务之一,简单来说,分词就是将句子、文本段落分解为以字或词为单位的语料数据,以便后续对字词进行处理分析。
[0030]目前,中文分词方法主要有两种方式:一种是基于词典分词算法,即,将待匹配的
字符串和人工构建的词典进行匹配,若在词典中查询到与字符串对应的词,说明匹配成功,可识别到该词。例如,正向最大匹配法、逆向最大匹配法、双向匹配分词法等。另外一种方式是,基于统计的分词方法,即基于人工构建的大规模分词文本,利用统计机器学习模型对汉字进行标注训练,从而实现对未知文本的切分。例如,HMM、CRF、SVM、深度学习等算法。在上述方法中,词典或者分词文本通常都是人工建立的,由于词典以及分词文本的规模较大,需要消耗较多人力,效率低,建立维护成本较高。综上,如何提升分词效率,成为亟待解决的技术问题。
[0031]为解决相关技术中存在的至少一个技术问题,本公开提供了一种分词方法及装置。
[0032]上述技术方案的核心思想是:按照预设粒度将待处理语料划分为多个语料片段;在多个语料片段之间插入遮罩片段,并将包含多个语料片段以及遮罩片段的待预测语料输入预训练语言模型中;通过预训练语言模型预测多个语料片段各自相邻的遮罩片段中的语料信息;基于多个语料片段以及语料信息对待处理语料进行分词处理,得到目标分词结果。本方案中,通过预训练语言模型能够预测出遮罩片段的语料信息,从而通过预测得到的语料信息以及多个语料片段完成对待处理语料的分词处理,无需借助词典或分词文本即可完成分词,避免相关技术中人工构建词典或分词文本带来的效率下降以及成本过高的问题,大大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,包括:按照预设粒度将待处理语料划分为多个语料片段;在所述多个语料片段之间插入遮罩片段,并将包含所述多个语料片段以及所述遮罩片段的待预测语料输入预训练语言模型中;通过所述预训练语言模型预测多个语料片段各自相邻的所述遮罩片段中的语料信息;基于所述多个语料片段以及所述语料信息对所述待处理语料进行分词处理,得到目标分词结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个语料片段以及所述语料信息对所述待处理语料进行分词处理,得到目标分词结果,包括:将各个遮罩片段中的语料信息与相邻的语料片段进行对比;从各个遮罩片段中确定语料信息与相邻语料片段均不匹配的第一遮罩片段,并在第一遮罩片段处标注切分标识;基于所述切分标识对所述待处理语料中的多个语料片段进行切分,得到所述目标分词结果。3.根据权利要求2所述的方法,其特征在于,所述预设粒度为字;所述通过所述预训练语言模型预测多个语料片段各自相邻的所述遮罩片段中的语料信息,包括:通过所述预训练语言模型输出多个语料片段各自相邻的遮罩片段对应的待选字集合,所述待选字集合包括多个字。4.根据权利要求2所述的方法,其特征在于,所述从各个遮罩片段中确定语料信息与相邻语料片段均不匹配的第一遮罩片段,包括:在各个遮罩片段对应的待选字集合中,查询是否存在与各个遮罩片段相邻的语料片段中一致的字;若待选字集合中不存在与相邻语料片段中一致的字,则确定当前遮罩片段的语料信息与相邻语料片段均不匹配,并以当前遮罩片段作为第一遮罩片段。5.根据权...

【专利技术属性】
技术研发人员:罗镇权
申请(专利权)人:达闼机器人股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1