分词方法以及装置、电子设备及存储介质制造方法及图纸

技术编号:35782118 阅读:20 留言:0更新日期:2022-12-01 14:28
本公开是关于一种分词方法及装置、电子设备以及存储介质。所述分词方法包括:在使用第一分词方式对目标文本进行分词时,确定所述目标文本的N种分词组合;其中,所述N为正整数;基于分词字典,确定第m种所述分词组合中每个词的词信息;其中,所述m为小于或等于所述N的正整数;根据所述词信息,确定第m种分词组合的分词分数;根据N种所述分词组合的分词分数,确定所述目标文本的第一分词结果。所述目标文本的第一分词结果。所述目标文本的第一分词结果。

【技术实现步骤摘要】
分词方法以及装置、电子设备及存储介质


[0001]本公开涉及信息
,尤其涉及一种分词方法及装置、电子设备及存储介质。

技术介绍

[0002]在语义识别的过程中,语句的分词是非常重要的。精确的分词结果,电子设备才能提炼出精确的语义。尤其是在智能语音系统中,电子设备需要参与对话,输出足够人性化的对话之前是需要提炼出对话对方输出语句的精确语义。
[0003]相关技术中提供了多种分词方式,但是这些分词方式都或多或少具有分词精确度或者准确性进一步提升的问题。

技术实现思路

[0004]本公开实施例提供一种分词方法及装置、电子设备及存储介质。
[0005]本公开实施例第一方面提供一种分词方法,所述方法包括:
[0006]在使用第一分词方式对目标文本进行分词时,确定所述目标文本的N种分词组合;其中,所述N为正整数;
[0007]基于分词字典,确定第m种所述分词组合中每个词的词信息;其中,所述n为小于或等于所述N的正整数;
[0008]根据所述词信息,确定第m种分词组合的分词分数;
[0009]根据N种所述分词组合的分词分数,确定所述目标文本的第一分词结果。
[0010]基于上述方案,所述基于分词字典,确定第m种所述分词组合中每个词的词信息,包括:
[0011]确定第m种所述分词组合中每个词的词性和词频;
[0012]所述根据所述词信息,确定第m种分词组合的分词分数,包括:
[0013]根据所述第m种所述分词组合中每个词的词性和词频,确定第m种所述分词组合的分词分数。
[0014]基于上述方案,所述基于分词字典,确定第m种所述分词组合中每个词的词信息,还包括:
[0015]当第m种所述分词组合种存在至少一个词具有多种词性时,根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
[0016]基于上述方案,所述当第m种所述分词组合种存在至少一个词具有多种词性时,根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性,包括:
[0017]当第m种所述分词组合种存在至少一个词具有多种词性时,将第m种所述分词组合输入基于语境确定词性的深度学习模型,得到所述深度学习模型输出的词性。
[0018]基于上述方案,所述方法还包括:
[0019]确定第m种所述分词组合包含的词个数;
[0020]确定N种所述分词组合各分词组合包含的词个数总和;
[0021]根据所述第m种分词组合包含的词个数和所述词个数总和,确定第m种所述分词组合的词长度分数;
[0022]所述根据所述词信息,确定第m种分词组合的分词分数,包括:
[0023]根据所述词信息以及所述词长度分数,确定第m种分词组合的分词分数。
[0024]基于上述方案,所述方法还包括:
[0025]采用第二分词方式进行目标文本的分词,得到第二分词结果;
[0026]采用第三分词方式进行所述目标文本的分词,得到第三分词结果;
[0027]当所述第二分词结果和所述第三分词结果不一致时,确定采用所述第一分词方式对所述目标文本进行分词。
[0028]基于上述方案,所述方法还包括:
[0029]当所述第二分词结果和所述第三分词结果一致时,将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
[0030]基于上述方案,所述分词词典包括:预设类别名称词、口语化词以及标准词典词。
[0031]基于上述方案,所述方法还包括:
[0032]根据所述目标文本的应用场景,确定所述预设类别名称词。
[0033]基于上述方案,所述方法还包括:
[0034]收集所述目标文本的应用场景的历史语句;
[0035]根据所述历史语句,获取所述口语化词。
[0036]本公开实施例第二方面提供一种分词装置,所述装置包括:
[0037]第一分词模块,用于在使用第一分词方式对目标文本进行分词时,确定所述目标文本的N种分词组合;其中,所述N为正整数;
[0038]词信息模块,用于基于分词字典,确定第m种所述分词组合中每个词的词信息;其中,所述n为小于或等于所述N的正整数;
[0039]分词分数模块,用于根据所述词信息,确定第m种分词组合的分词分数;
[0040]分词结果模块,用于根据N种所述分词组合的分词分数,确定所述目标文本的第一分词结果。
[0041]基于上述方案,所述词信息模块,具体用于确定第m种所述分词组合中每个词的词性和词频;
[0042]所述分词分数模块,用于根据所述第m种所述分词组合中每个词的词性和词频,确定第m种所述分词组合的分词分数。
[0043]基于上述方案,所述词信息模块,具体用于当第m种所述分词组合种存在至少一个词具有多种词性时,根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。
[0044]基于上述方案,所述词信息模块,具体用于当第m种所述分词组合种存在至少一个词具有多种词性时,将第m种所述分词组合输入基于语境确定词性的深度学习模型,得到所述深度学习模型输出的词性。
[0045]基于上述方案,所述装置还包括:
[0046]第一确定模块,用于确定第m种所述分词组合包含的词个数;
[0047]第二确定模块,用于确定N种所述分词组合各分词组合包含的词个数总和;
[0048]第三确定模块,用于根据所述第m种分词组合包含的词个数和所述词个数总和,确定第m种所述分词组合的词长度分数;
[0049]所述分词分数模块,具体用于根据所述词信息以及所述词长度分数,确定第m种分词组合的分词分数。
[0050]基于上述方案,所述装置还包括:
[0051]第二分词模块,用于采用第二分词方式进行目标文本的分词,得到第二分词结果;
[0052]第三分词模块,用于采用第三分词方式进行所述目标文本的分词,得到第三分词结果;
[0053]第四确定模块,用于当所述第二分词结果和所述第三分词结果不一致时,确定采用所述第一分词方式对所述目标文本进行分词。
[0054]基于上述方案,所述装置还包括:
[0055]第五确定模块,用于当所述第二分词结果和所述第三分词结果一致时,将所述第二分词结果或所述第三分词结果确定为所述目标文本的分词结果。
[0056]基于上述方案,所述分词词典包括:预设类别名称词、口语化词以及标准词典词。
[0057]基于上述方案,所述装置还包括:
[0058]第六确定模块,用于根据所述目标文本的应用场景,确定所述预设类别名称词。
[0059]基于上述方案,所述装置还包括:
[0060]收集模块,用于收集所述目标文本的应用场景的历史语句;
[0061]第二获取模块,用于根据所述历史语句,获取所述口语化词。
[0062]本公开实施例第三方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,所述方法包括:在使用第一分词方式对目标文本进行分词时,确定所述目标文本的N种分词组合;其中,所述N为正整数;基于分词字典,确定第m种所述分词组合中每个词的词信息;其中,所述m为小于或等于所述N的正整数;根据所述词信息,确定第m种分词组合的分词分数;根据N种所述分词组合的分词分数,确定所述目标文本的第一分词结果。2.根据权利要求1所述的方法,其特征在于,所述基于分词字典,确定第m种所述分词组合中每个词的词信息,包括:确定第m种所述分词组合中每个词的词性和词频;所述根据所述词信息,确定第m种分词组合的分词分数,包括:根据所述第m种所述分词组合中每个词的词性和词频,确定第m种所述分词组合的分词分数。3.根据权利要求1或2所述的方法,其特征在于,所述基于分词字典,确定第m种所述分词组合中每个词的词信息,还包括:当第m种所述分词组合种存在至少一个词具有多种词性时,根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性。4.根据权利要求3所述的方法,其特征在于,所述当第m种所述分词组合种存在至少一个词具有多种词性时,根据具有多种词性的词所在语境确定所述第m种所述分词组合中每个词的词性,包括:当第m种所述分词组合种存在至少一个词具有多种词性时,将第m种所述分词组合输入基于语境确定词性的深度学习模型,得到所述深度学习模型输出的词性。5.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:确定第m种所述分词组合包含的词个数;确定N种所述分词组合各分词组合包含的词个数总和;根据所述第m种分词组合包含的词个数和所述词个数总和,确定第m种所述分词组合的词长度分数;所述根据所述词信息,确定第m种分词组合的分词分数,包括:根据所述词信息以及所述词长度分数,确定第m种分词组合的分词分数。6...

【专利技术属性】
技术研发人员:刘继忠王军伟
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1