本发明专利技术实施例提供一种分词方法、装置、电子设备和存储介质,该方法包括:确定待分词字符串的多个初步分词结果;基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果。本发明专利技术实施例提供的方法、装置、电子设备和存储介质,基于待分词字符串的每个初步分词结果的分词颗粒度参数,对待分词字符串进行分词,保证字符串分词结果中单词拆分颗粒度较粗,从而降低将完整的单词错误拆分开的概率,以避免由于错误拆分导致的分词歧义的问题,提高分词结果的正确率。
【技术实现步骤摘要】
分词方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理
,尤其涉及一种分词方法、装置、电子设备和存储介质。
技术介绍
随着计算机科学的发展,分词技术作为自然语言处理领域中一项重要的基础技术,被广泛应用在机器翻译、文本摘要、文本检索等场景。目前的分词是基于词典实现的,具体是将待分词的字符串与预先构建的词典中的词条进行匹配,若匹配到某个词条,即可将字符串中该词条对应的字符划分为单个分词。然而当待分词的字符串中涉及到可能存在会引发歧义的分词组合时,上述方法并不能保证分词结果的正确性。
技术实现思路
本专利技术实施例提供一种分词方法、装置、电子设备和存储介质,用以解决现有技术中针对可能存在歧义的分词组合,词典匹配所得的分词结果正确性低的缺陷。第一方面,本专利技术实施例提供一种分词方法,包括:确定待分词字符串的多个初步分词结果;基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果。可选地,所述分词颗粒度参数包括对应初步分词结果中包含的字符总数、单词数量以及最大单词字符数中的至少一种;所述分词通用性参数包括对应初步分词结果的单词字符数离散程度,和/或单词通用程度。可选地,所述基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果,具体包括:基于每个初步分词结果的分词颗粒度参数,从所有初步分词结果中选取出若干个候选分词结果;若候选分词结果的数量大于预设分词结果数量,则基于每个候选分词结果的分词通用性参数,从所有候选分词结果中选取所述字符串分词结果;否则将所述若干个候选分词结果作为所述字符串分词结果。可选地,所述基于每个初步分词结果的分词颗粒度参数,从所有初步分词结果中选取出若干个候选分词结果,具体包括:若字符总数最大的初步分词结果的数量小于等于所述预设分词结果数量,则将所述字符总数最大的初步分词结果作为所述字符串分词结果,否则从所述字符总数最大的初步分词结果中选取单词数量最少的初步分词结果;若所述单词数量最少的初步分词结果的数量小于等于所述预设分词结果数量,则将所述单词数量最少的初步分词结果作为所述字符串分词结果,否则从所述单词数量最少的初步分词结果中选取最大单词字符数最大的初步分词结果作为所述候选分词结果。可选地,所述基于每个候选分词结果的分词通用性参数,从所有候选分词结果中选取所述字符串分词结果,具体包括:若所述单词字符数离散程度最高的候选分词结果的数量小于所述预设分词结果数量,则将所述单词字符数离散程度最高的候选分词结果作为所述字符串分词结果;否则,从所述单词字符数离散程度最高的候选分词结果中选取单词通用程度最高的候选分词结果作为所述字符串分词结果。可选地,所述从所有初步分词结果中选取所述待分词字符串的字符串分词结果,之后还包括:基于所述待分词字符串中包含的自定义词,对所述字符串分词结果进行修正;其中,所述待分词字符串中包含的自定义词是将所述待分词字符串与自定义词典进行单词匹配得到的。可选地,所述从所有初步分词结果中选取所述待分词字符串的字符串分词结果,之后还包括:显示所述字符串分词结果;若接收到用户触发的候选切换请求,则显示所述多个初步分词结果以供用户选择;若接收到所述用户基于所述多个初步分词结果确定的分词更新请求,则将所述字符串分词结果替换为所述分词更新请求中指示的初步分词结果。第二方面,本专利技术实施例提供一种分词装置,包括:初步分词单元,用于确定待分词字符串的多个初步分词结果;结果选取单元,用于基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果。第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面提供的分词方法的步骤。第四方面,本专利技术实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面提供的分词方法的步骤。本专利技术实施例提供的分词方法、装置、电子设备和存储介质,基于待分词字符串的每个初步分词结果的分词颗粒度参数,对待分词字符串进行分词,保证字符串分词结果中单词拆分颗粒度较粗,从而降低将完整的单词错误拆分开的概率,以避免由于错误拆分导致的分词歧义的问题,提高分词结果的正确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的分词方法的流程示意图;图2为本专利技术实施例提供的字符串分词结果确定方法的流程示意图;图3为本专利技术实施例提供的候选分词结果筛选方法的流程示意图;图4为本专利技术实施例提供的字符串分词结果筛选方法的流程示意图;图5为本专利技术实施例提供的字符串分词结果的显示示意图;图6为本专利技术实施例提供的字符串分词结果的更新示意图;图7为本专利技术另一实施例提供的分词方法的流程示意图;图8为本专利技术实施例提供的分词装置的结构示意图;图9为本专利技术实施例提供的电子设备的结构示意图;附图说明:510-功能选择键;520-请求触发按键;530-字符串分词结果显示组件;540-分词切换选择箭头;550-候选展示框;560-初步分词结果显示组件;570-分词结果滑动滚轮。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。语言本身即存在歧义,因此机器很难正确判断如何切分。例如待分词的字符串“ABC”中,如果“AB”、“BC”分别属于两个不同的单词,则“ABC”既可以切分为“A\BC”,也可切分成“AB\C”。如何对可能存在歧义的待分词字符串进行正确分词,一直都是自然语言处理
亟待解决的问题。图1为本专利技术实施例提供的分词方法的流程示意图,如图1所示,该方法包括:步骤110,确定待分词字符串的多个初步分词结果。具体地,待分词字符串即需要进行分词的字符串,待分词字符串的初步分词结果可以是通过常规的词典匹配方式得到的分词结果。考虑本文档来自技高网...
【技术保护点】
1.一种分词方法,其特征在于,包括:/n确定待分词字符串的多个初步分词结果;/n基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果。/n
【技术特征摘要】
1.一种分词方法,其特征在于,包括:
确定待分词字符串的多个初步分词结果;
基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果。
2.根据权利要求1所述的分词方法,其特征在于,所述分词颗粒度参数包括对应初步分词结果中包含的字符总数、单词数量以及最大单词字符数中的至少一种;
所述分词通用性参数包括对应初步分词结果的单词字符数离散程度和/或单词通用程度。
3.根据权利要求2所述的分词方法,其特征在于,所述基于每个初步分词结果的分词颗粒度参数,或基于每个初步分词结果的分词颗粒度参数和分词通用性参数,从所有初步分词结果中选取所述待分词字符串的字符串分词结果,具体包括:
基于每个初步分词结果的分词颗粒度参数,从所有初步分词结果中选取出若干个候选分词结果;
若候选分词结果的数量大于预设分词结果数量,则基于每个候选分词结果的分词通用性参数,从所有候选分词结果中选取所述字符串分词结果;
否则将所述若干个候选分词结果作为所述字符串分词结果。
4.根据权利要求3所述的分词方法,其特征在于,所述基于每个初步分词结果的分词颗粒度参数,从所有初步分词结果中选取出若干个候选分词结果,具体包括:
若字符总数最大的初步分词结果的数量小于等于所述预设分词结果数量,则将所述字符总数最大的初步分词结果作为所述字符串分词结果,否则从所述字符总数最大的初步分词结果中选取单词数量最少的初步分词结果;
若所述单词数量最少的初步分词结果的数量小于等于所述预设分词结果数量,则将所述单词数量最少的初步分词结果作为所述字符串分词结果,否则从所述单词数量最少的初步分词结果中选取最大单词字符数最大的初步分词结果作为所述候选分词结果。
5.根据权利要求3所述的分词方法,其特征在于,所述基于每个候选分词结果的分词通...
【专利技术属性】
技术研发人员:王忍宝,王晓斐,高群,
申请(专利权)人:安徽淘云科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。