可变长度分词方法、装置和电子设备制造方法及图纸

技术编号:33394547 阅读:14 留言:0更新日期:2022-05-11 23:13
本申请提供一种可变长度分词方法、装置和电子设备,在获取待处理文本后,对待处理文本进行分词处理得到对应的有向无环图,该有向无环图包含多条路径,各路径包含多个节点,各节点对应一分词。针对每条路径,基于设置的长度参数以及路径包含的各个节点对应的分词,得到路径的路径分值。再基于各路径的路径分值,确定最优路径,基于最优路径得到分词结果。该方案,采用生成包含多条路径的有向无环图的方式,并在设置的长度参数的指导下得到分词结果,可在满足所需的分词颗粒度的基础上,得到优化的分词结果。优化的分词结果。优化的分词结果。

【技术实现步骤摘要】
可变长度分词方法、装置和电子设备


[0001]本申请涉及自然语言处理
,具体而言,涉及一种可变长度分词方法、装置和电子设备。

技术介绍

[0002]中文自然语言处理涉及到多个层面的信息处理,包括字词处理、短语处理、句子处理等,而这些处理均需涉及到文本的分词处理。中文的分词处理通常存在颗粒度、场景、文体等不同的适应度。在现有常规的分词处理方式中,一般是追求分词结果能够尽可能贴合实际用语习惯。
[0003]但是,在一些特殊应用场景下,可能对于分词的颗粒度的关注程度更高,以便于可以利用颗粒度满足需求的分词结果进行例如比对等用途。现有常规的分词处理方式中,将分词目的设定为贴合实际用语习惯,则难以使得分词结果的颗粒度满足需求。

技术实现思路

[0004]本申请的目的包括,例如,提供了一种可变长度分词方法、装置和电子设备,其能够在满足所需的分词粒度的基础上,得到优化的分词结果。
[0005]本申请的实施例可以这样实现:
[0006]第一方面,本申请提供一种可变长度分词方法,所述方法包括:
[0007]获取待处理文本,所述待处理文本包含多个字;
[0008]对所述待处理文本进行分词处理,得到对应的有向无环图,所述有向无环图包含多条路径,各所述路径包含多个节点,各所述节点对应一分词;
[0009]针对每条路径,基于设置的长度参数以及所述路径包含的各个节点对应的分词,得到所述路径的路径分值;
[0010]基于各所述路径的路径分值,确定最优路径,并基于所述最优路径得到分词结果。
[0011]在可选的实施方式中,所述基于设置的长度参数以及所述路径包含的各个节点对应的分词,得到所述路径的路径分值的步骤,包括:
[0012]确定所述路径包含的各个节点对应的分词的词长度;
[0013]比对各所述节点的词长度与设置的长度参数的大小,得到各所述节点对应的节点分值;
[0014]将所述路径包含的各个节点对应的节点分值进行累加,得到所述路径的路径分值。
[0015]在可选的实施方式中,所述比对各所述节点的词长度与设置的长度参数的大小,得到各所述节点对应的节点分值的步骤,包括:
[0016]在节点的词长度与设置的长度参数相等时,将节点对应的节点分值设置为0;
[0017]在节点的词长度大于设置的长度参数时,将节点对应的节点分值设置为预设正数;
[0018]在节点的词长度小于设置的长度参数时,将所述词长度与所述长度参数之间的差值作为所述节点对应的节点分值。
[0019]在可选的实施方式中,所述基于各所述路径的路径分值,确定最优路径的步骤,包括:
[0020]比对各所述路径的路径分值,将路径分值最大的路径作为最优路径。
[0021]在可选的实施方式中,所述比对各所述路径的路径分值,将路径分值最大的路径作为最优路径的步骤,包括:
[0022]比对各所述路径的路径分值,若路径分值最大的路径为一条,则将该条路径作为最优路径;
[0023]若路径分值最大的路径为多条,则针对该多条路径中的每条路径,获得所述路径中包含的各个节点对应的分词在预设词典中的词频,根据各条路径包含的节点的词频从该多条路径中确定最优路径。
[0024]在可选的实施方式中,所述根据各条路径包含的节点的词频从该多条路径中确定最优路径的步骤,包括:
[0025]针对各条路径,计算路径包含的所有节点的词频之和,若词频之和最大的路径为一条,则将该条路径作为最优路径;
[0026]若词频之和最大的路径为多条,则基于各词频之和最大的路径包含的节点对应的词频计算得到词频方差,将词频方差最小的路径作为最优路径。
[0027]在可选的实施方式中,所述基于各词频之和最大的路径包含的节点对应的词频计算得到词频方差的步骤,包括:
[0028]针对各条词频之和最大的路径,获得所述路径包含的各个节点对应的分词的词频;
[0029]根据所述路径包含的节点的数量、所有节点对应的分词的词频的平均值以及各所述节点对应的分词的词频,计算得到所述路径对应的词频方差。
[0030]在可选的实施方式中,所述对所述待处理文本进行分词处理的步骤,包括:
[0031]获取参考词典,所述参考词典包含多个参考词;
[0032]基于所述参考词典中的多个参考词对所述待处理文本进行分词处理。
[0033]第二方面,本申请提供一种可变长度分词装置,所述装置包括:
[0034]获取模块,用于获取待处理文本,所述待处理文本包含多个字;
[0035]分词模块,用于对所述待处理文本进行分词处理,得到对应的有向无环图,所述有向无环图包含多条路径,各所述路径包含多个节点,各所述节点对应一分词;
[0036]获得模块,用于针对每条路径,基于设置的长度参数以及所述路径包含的各个节点对应的分词,得到所述路径的路径分值;
[0037]确定模块,用于基于各所述路径的路径分值,确定最优路径,并基于所述最优路径得到分词结果。
[0038]第三方面,本申请提供一种电子设备,包括一个或多个存储介质和一个或多个与存储介质通信的处理器,一个或多个存储介质存储有处理器可执行的机器可执行指令,当电子设备运行时,处理器执行所述机器可执行指令,以执行前述实施方式中任意一项所述的方法步骤。
[0039]本申请实施例的有益效果包括,例如:
[0040]本申请提供一种可变长度分词方法、装置和电子设备,在获取待处理文本后,对待处理文本进行分词处理得到对应的有向无环图,该有向无环图包含多条路径,各路径包含多个节点,各节点对应一分词。针对每条路径,基于设置的长度参数以及路径包含的各个节点对应的分词,得到路径的路径分值。再基于各路径的路径分值,确定最优路径,基于最优路径得到分词结果。该方案,采用生成包含多条路径的有向无环图的方式,并在设置的长度参数的指导下得到分词结果,可在满足所需的分词颗粒度的基础上,得到优化的分词结果。
附图说明
[0041]为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0042]图1为本申请实施例提供的可变长度分词方法的流程图;
[0043]图2为图1中步骤S102包含的子步骤的流程图;
[0044]图3为图1中步骤S103包含的子步骤的流程图;
[0045]图4为图1中步骤S104包含的子步骤的流程图;
[0046]图5为图4中步骤S1043包含的子步骤的流程图;
[0047]图6为图5中步骤S10433包含的子步骤的流程图;
[0048]图7为本申请实施例提供的电子设备的结构框图;
[0049]图8为本申请实施例提供的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可变长度分词方法,其特征在于,所述方法包括:获取待处理文本,所述待处理文本包含多个字;对所述待处理文本进行分词处理,得到对应的有向无环图,所述有向无环图包含多条路径,各所述路径包含多个节点,各所述节点对应一分词;针对每条路径,基于设置的长度参数以及所述路径包含的各个节点对应的分词,得到所述路径的路径分值;基于各所述路径的路径分值,确定最优路径,并基于所述最优路径得到分词结果。2.根据权利要求1所述的可变长度分词方法,其特征在于,所述基于设置的长度参数以及所述路径包含的各个节点对应的分词,得到所述路径的路径分值的步骤,包括:确定所述路径包含的各个节点对应的分词的词长度;比对各所述节点的词长度与设置的长度参数的大小,得到各所述节点对应的节点分值;将所述路径包含的各个节点对应的节点分值进行累加,得到所述路径的路径分值。3.根据权利要求2所述的可变长度分词方法,其特征在于,所述比对各所述节点的词长度与设置的长度参数的大小,得到各所述节点对应的节点分值的步骤,包括:在节点的词长度与设置的长度参数相等时,将节点对应的节点分值设置为0;在节点的词长度大于设置的长度参数时,将节点对应的节点分值设置为预设正数;在节点的词长度小于设置的长度参数时,将所述词长度与所述长度参数之间的差值作为所述节点对应的节点分值。4.根据权利要求1所述的可变长度分词方法,其特征在于,所述基于各所述路径的路径分值,确定最优路径的步骤,包括:比对各所述路径的路径分值,将路径分值最大的路径作为最优路径。5.根据权利要求4所述的可变长度分词方法,其特征在于,所述比对各所述路径的路径分值,将路径分值最大的路径作为最优路径的步骤,包括:比对各所述路径的路径分值,若路径分值最大的路径为一条,则将该条路径作为最优路径;若路径分值最大的路径为多条,则针对该多条路径中的每条路径,获得所述路径中包含的各个节点对应的分词在预设词典中的词频,根据各条路径包含的节点的词频从该多条路径中确定最优路...

【专利技术属性】
技术研发人员:钟剑哲张炫颜杰未波波姚晓远罗欢
申请(专利权)人:上海喜马拉雅科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1