中文分词方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:35785157 阅读:23 留言:0更新日期:2022-12-01 14:32
本公开涉及一种中文分词方法、装置、电子设备及可读存储介质,该方法包括:能够获取中文句子及中文句子的译文,将中文句子与中文句子的译文进行拼接,得到拼接后的句子,将拼接后的句子输入中文分词模型,利用中文分词模型识别拼接后的句子,得到中文句子的中文分词结果;能够根据文句子的译文的语义信息对中文分词模型的识别结果进行筛选,过滤掉错误的分词结果,提升了对中文进行分词的准确度,尤其是对歧义词分隔的准确度,进而提高了其他基于中文分词的中文自然语言处理任务的准确度。文分词的中文自然语言处理任务的准确度。文分词的中文自然语言处理任务的准确度。

【技术实现步骤摘要】
中文分词方法、装置、电子设备及可读存储介质


[0001]本公开涉及自然语言处理,尤其涉及一种中文分词方法、装置、电子设备及可读存储介质。

技术介绍

[0002]中文分词(Chinese Word Segmentation,CWS)指的是将一个汉字序列(即句子)切分成一个一个单独的词。中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但让计算机也能理解分词,其处理过程就是分词。
[0003]相关技术中提出了采用神经网络来处理中文分词任务,目前主流的基于神经网络的中文分词普遍将中文分词视为序列中的词语标注问题。中文分词的第一步便是标注字,字标注是通过给句子中每个字打上标签的思路来进行分词。但这类方法往往存在诸多缺陷,一方面训练数据稀缺,人工标注过于费时,另一方面,对单个的中文句子进行分词,导致对于歧义词的分隔准确度不够高。

技术实现思路

[0004]为克服相关技术中存在的问题,本公开提供一种中文分词方法、装置、电子设备及可读存储介质。
[0005]根据本公开实施例的第一方面,提供一种中文分词方法,包括获取中文句子及所述中文句子的译文;将所述中文句子与所述中文句子的译文进行拼接,得到拼接后的句子;将所述拼接后的句子输入中文分词模型,利用所述中文分词模型识别所述拼接后的句子,得到所述中文句子的中文分词结果。
[0006]可选的,所述利用所述中文分词模型识别所述拼接后的句子,得到所述中文句子的中文分词结果的步骤包括:获取所述中文句子的译文的语义信息;利用所述中文分词模型识别所述中文句子得到候选中文分词结果;根据所述中文句子的译文的语义信息,从所述候选中文分词结果筛选出目标中文分词结果,作为所述中文分词结果。
[0007]根据本公开实施例的第二方面,提供一种中文分词的训练方法,包括:获取中文句子样本及所述中文句子样本的译文;将所述中文句子样本与所述中文句子样本的译文进行拼接,得到拼接后的样本句子;根据所述拼接后的样本句子训练预定模型,得到所述中文分词模型。
[0008]可选的,所述获取中文句子样本及所述中文句子样本的译文的步骤包括:获取所述中文句子样本后,将所述中文句子样本按照字序列进行翻译,得到所述中文句子样本的译文。
[0009]可选的,所述获取中文句子样本及所述中文句子样本的译文的步骤之后包括:获取所述中文句子样本的候选中文分词标注;根据所述中文句子样本的译文从所述候选中文分词标注中筛选出目标中文分词标注。
[0010]可选的,所述将所述中文句子样本与所述中文句子样本的译文进行拼接,得到拼接后的样本句子的步骤包括:将带有所述目标中文分词标注的中文句子样本与所述中文句子样本的译文进行拼接,得到所述拼接后的样本句子。
[0011]可选的,所述根据所述中文句子样本的译文从所述候选中文分词标注中筛选出目标中文分词标注的步骤包括:根据所述中文句子样本的译文的语义信息从所述候选中文分词标注中筛选出目标中文分词标注。
[0012]根据本公开实施例的第三方面,提供一种中文分词装置,包括:第一获取模块,被配置为获取中文句子及所述中文句子的译文;第一处理模块,被配置为将所述中文句子与所述中文句子的译文进行拼接,得到拼接后的句子;识别模块,被配置为将所述拼接后的句子输入中文分词模型,利用所述中文分词模型识别所述拼接后的句子,得到所述中文句子的中文分词结果。
[0013]根据本公开实施例的第四方面,提供一种中文分词的训练装置,包括:第二获取模块,被配置为获取所述中文句子的译文的语义信息;第二处理模块,被配置为利用所述中文分词模型识别所述中文句子得到候选中文分词结果;第二处理模块,还被配置为根据所述中文句子的译文的语义信息,从所述候选中文分词结果筛选出目标中文分词结果,作为所述中文分词结果。
[0014]根据本公开实施例的第五方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令实现前述的中文分词方法或中文分词的训练方法的步骤。
[0015]根据本公开实施例的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现本公开第一方面所提供的中文分词方法或中文分词的训练方法的步骤。
[0016]本公开的实施例提供的技术方案可以包括以下有益效果:能够获取中文句子及中文句子的译文,将中文句子与中文句子的译文进行拼接,得到拼接后的句子,将拼接后的句子输入中文分词模型,利用中文分词模型识别拼接后的句子,得到中文句子的中文分词结果;能够根据文句子的译文的语义信息对中文分词模型的识别结果进行筛选,过滤掉错误的分词结果,提升了对中文进行分词的准确度,尤其是对歧义词分隔的准确度,进而提高了其他基于中文分词的中文自然语言处理任务的准确度。
[0017]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
[0019]图1是本公开示例性实施例示出的计算机系统的结构示意图。
[0020]图2是本公开示例性实施例示出的一种中文分词方法的流程图。
[0021]图3是本公开示例性实施例示出的一种中文分词的训练方法的流程图。
[0022]图4是本公开示例性实施例示出的一种中文分词模型的结构示意图。
[0023]图5是根据一示例性实施例示出的一种中文分词装置的框图。
[0024]图6是根据一示例性实施例示出的一种中文分词的训练装置的框图。
[0025]图7是根据一示例性实施例示出的一种装置的框图。
[0026]图8是根据一示例性实施例示出的一种装置的框图。
具体实施方式
[0027]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0028]需要说明的是,本公开中所有获取信号、信息或数据的动作都是在遵照所在地国家相应的数据保护法规政策的前提下,并获得由相应装置所有者给予授权的情况下进行的。
[0029]图1示出了本公开一个示例性实施例提供的计算机系统的结构示意图,该计算机系统包括终端120和服务器140。
[0030]终端120与服务器140之间通过有线或者无线网络相互连接。
[0031]终端120可以包括智能手机、笔记本电脑、台式电脑、平板电脑、智能音箱、智能机器人中的至少一种。
[0032]终端120包括显示器;显示器用于显示中文分词结果。
[0033]终端120包括第一存储器和第一处理器。第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括:获取中文句子及所述中文句子的译文;将所述中文句子与所述中文句子的译文进行拼接,得到拼接后的句子;将所述拼接后的句子输入中文分词模型,利用所述中文分词模型识别所述拼接后的句子,得到所述中文句子的中文分词结果。2.根据权利要求1所述的方法,其特征在于,所述利用所述中文分词模型识别所述拼接后的句子,得到所述中文句子的中文分词结果的步骤包括:获取所述中文句子的译文的语义信息;利用所述中文分词模型识别所述中文句子得到候选中文分词结果;根据所述中文句子的译文的语义信息,从所述候选中文分词结果筛选出目标中文分词结果,作为所述中文分词结果。3.根据权利要求1所述的方法,其特征在于,获取中文句子及所述中文句子的译文包括:获取所述中文句子后,将所述中文句子按照字序列进行翻译,得到所述中文句子的译文。4.根据权利要求3所述的方法,其特征在于,将所述中文句子与所述中文句子的译文进行拼接,得到拼接后的句子包括:将按照字序列进行翻译得到的所述中文句子的译文与所述中文句子进行拼接,得到所述拼接后的句子。5.根据权利要求1所述的方法,其特征在于,所述中文分词模型是通过预定训练集训练得到的,其中,所述预定训练集包括多组训练样本,每组所述训练样本包括:多个样本句子;所述样本句子是由中文句子样本与所述中文句子样本的译文进行拼接得到的。6.一种中文分词的训练方法,其特征在于,包括:获取中文句子样本及所述中文句子样本的译文;将所述中文句子样本与所述中文句子样本的译文进行拼接,得到拼接后的样本句子;根据所述拼接后的样本句子训练预定模型,得到所述中文分词模型。7.根据权利要求6所述的方法,其特征在于,所述获取中文句子样本及所述中文句子样本的译文的步骤包括:获取所述中文句子样本后,将所述中文句子样本按照字序列进行翻译,得到所述中...

【专利技术属性】
技术研发人员:李响徐哲哲
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1