基于未登录词的分词方法、装置、电子设备及介质制造方法及图纸

技术编号:29976595 阅读:71 留言:0更新日期:2021-09-08 10:02
本发明专利技术涉及人工智能的语音语义技术,揭露了一种基于未登录词的分词方法,包括:对初始分词结果进行特征分析,得到统计信息矩阵,构建训练模型的目标函数,将目标函数值收敛时训练模型产生参数作为分词向量集,计算分词向量集中任意连续至少两个分词向量之间夹角余弦值,当夹角余弦值大于余弦阈值,确定连续至少两个分词向量对应至少两个目标分词组成未登录词,并对初始分词结果进行分词修正,得到标准分词结果。此外,本发明专利技术还涉及区块链技术,所述分词向量集可存储于区块链的节点。本发明专利技术还提出一种基于未登录词的分词装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决对含有未登录词的文本进行准确分词效率较低的问题。未登录词的文本进行准确分词效率较低的问题。未登录词的文本进行准确分词效率较低的问题。

【技术实现步骤摘要】
基于未登录词的分词方法、装置、电子设备及介质


[0001]本专利技术涉及人工智能的语音语义
,尤其涉及一种基于未登录词的分词方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着社会的进步和发展,互联网上生成了越来越多的未登录词,这些未登录词对于分词结果的影响非常大,传统的分词器对于新出现的关键词不能进行很好的识别,针对未登录词给分词带来的挑战,目前针对未登陆词进行分词处理主要有两种解决方法。第一种为在互联网语料上重新训练分词器;第二种为引入额外的词库。第一种方法需要人工标注大量语料,而第二种方法也需要对词库进行人工的维护。考虑到互联网语料的时效性与数据规模,这两种均不是很好的解决方法。因此,现有技术中,对含有未登录词的文本进行准确分词的效率不高。

技术实现思路

[0003]本专利技术提供一种基于未登录词的分词方法、装置及计算机可读存储介质,其主要目的在于解决对含有未登录词的文本进行准确分词的效率较低的问题。
[0004]为实现上述目的,本专利技术提供的一种基于未登录词的分词方法,包括:
[0005]获取原始语料集,对所述原始语料集进行分词处理,得到初始分词结果,所述初始分词结果中包括多个分词;
[0006]对所述初始分词结果中的多个分词进行特征分析,得到统计信息矩阵;
[0007]基于所述统计信息矩阵构建预设的训练模型的目标函数;
[0008]将所述初始分词结果输入至所述训练模型,将所述训练模型对应的目标函数值收敛时所述训练模型产生的参数作为所述初始分词结果对应的分词向量集;
[0009]计算所述分词向量集中任意连续的至少两个分词向量之间的夹角余弦值;
[0010]当所述夹角余弦值大于预设余弦阈值时,确定所述连续的至少两个分词向量对应的至少两个目标分词组成未登录词;
[0011]利用所述未登录词对所述初始分词结果进行分词修正,得到标准分词结果。
[0012]可选地,所述对所述初始分词结果中的多个分词进行特征分析,得到统计信息矩阵,包括:
[0013]获取任意选择的第一分词和第二分词;
[0014]将所述第一分词和所述第二分词填入以所述第一分词与所述第二分词之间的共同出现次数作为行数和列数的矩阵中,得到统计信息矩阵。
[0015]可选地,所述利用所述未登录词对所述初始分词结果进行分词修正,得到标准分词结果,包括:
[0016]识别所述初始分词结果中与所述未登录词对应的一个或者多个初始分词;
[0017]利用所述未登录词代替所述一个或者多个初始分词,得到标准分词结果。
[0018]可选地,所述利用所述未登录词对所述初始分词结果进行分词修正,得到标准分词结果之后,所述方法还包括:
[0019]获取推送队列任务,所述推送队列任务中包含推送顺序;
[0020]按照所述推送顺序将所述标准分词结果推送至用户端。
[0021]可选地,所述目标函数为:
[0022][0023][0024]其中,J(W)为目标函数值,X
ij
为所述统计信息矩阵,f(X
ij
)为预设权重项,用于去除一些低频项噪声,α为预设的固定参数,X
max
为预设的最大统计信息矩阵,W
i
和W
j
为所述第一分词和所述第二分词对应的词向量矩阵,且存在W∈R
|V|*d
,|V|表示词的数量,d表示词向量维数。
[0025]可选地,所述计算所述分词向量集中任意连续的至少两个分词向量之间的夹角余弦值,包括:
[0026]利用如下计算公式计算所述分词向量集中任意连续的至少两个分词向量之间的夹角余弦值:
[0027][0028]其中,W
j

1;j
为任意连续的至少两个分词向量之间之间的夹角余弦值,W
j
为任意的一个分词向量,W
j
‑1为与任意的一个分词向量连续的分词向量。
[0029]可选地,所述对所述原始语料集进行分词处理,得到初始分词结果,包括:
[0030]删除所述原始语料集中的停用词和特殊词,得到初始语料集;
[0031]将所述初始语料集输入预获取的基准分词器,得到初始分词结果。
[0032]为了解决上述问题,本专利技术还提供一种基于未登录词的分词装置,所述装置包括:
[0033]初始分词模块,用于获取原始语料集,对所述原始语料集进行分词处理,得到初始分词结果,所述初始分词结果中包括多个分词;
[0034]特征分析模块,用于对所述初始分词结果中的多个分词进行特征分析,得到统计信息矩阵;
[0035]函数构建模块,用于基于所述统计信息矩阵构建预设的训练模型的目标函数;
[0036]向量生成模块,用于将所述初始分词结果输入至所述训练模型,将所述训练模型对应的目标函数值收敛时所述训练模型产生的参数作为所述初始分词结果对应的分词向量集;
[0037]未登录词生成模块,用于计算所述分词向量集中任意连续的至少两个分词向量之间的夹角余弦值,当所述夹角余弦值大于预设余弦阈值时,确定所述连续的至少两个分词向量对应的至少两个目标分词组成未登录词;
[0038]分词修正模块,用于利用所述未登录词对所述初始分词结果进行分词修正,得到
标准分词结果。
[0039]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0040]存储器,存储至少一个指令;及
[0041]处理器,执行所述存储器中存储的指令以实现上述所述的基于未登录词的分词方法。
[0042]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于未登录词的分词方法。
[0043]本专利技术实施例中,通过对原始语料集进行分词处理,得到初始分词结果,所述初始分词结果中包括多个分词,基于所述初始分词结果进行特征分析和目标函数的构建,将所述训练模型对应的目标函数值收敛时所述训练模型产生的参数作为所述初始分词结果对应的分词向量集,使用原始语料集进行分词后的结果训练词向量,并根据计算词向量之间的夹角余弦值确定未登录词,利用未登录词对初始分词结果进行修正,得到标准分词结果,无需进行人工标注和一个一个修正,提高了分词修正的效率。因此本专利技术提出的基于未登录词的分词方法、装置、电子设备及计算机可读存储介质,可以解决对含有未登录词的文本进行准确分词的效率较低的问题。
附图说明
[0044]图1为本专利技术一实施例提供的基于未登录词的分词方法的流程示意图;
[0045]图2为本专利技术一实施例提供的基于未登录词的分词装置的功能模块图;
[0046]图3为本专利技术一实施例提供的实现所述基于未登录词的分词方法的电子设备的结构示意图。
[0047]本专利技术目的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于未登录词的分词方法,其特征在于,所述方法包括:获取原始语料集,对所述原始语料集进行分词处理,得到初始分词结果,所述初始分词结果中包括多个分词;对所述初始分词结果中的多个分词进行特征分析,得到统计信息矩阵;基于所述统计信息矩阵构建预设的训练模型的目标函数;将所述初始分词结果输入至所述训练模型,将所述训练模型对应的目标函数值收敛时所述训练模型产生的参数作为所述初始分词结果对应的分词向量集;计算所述分词向量集中任意连续的至少两个分词向量之间的夹角余弦值;当所述夹角余弦值大于预设余弦阈值时,确定所述连续的至少两个分词向量对应的至少两个目标分词组成未登录词;利用所述未登录词对所述初始分词结果进行分词修正,得到标准分词结果。2.如权利要求1所述的基于未登录词的分词方法,其特征在于,所述对所述初始分词结果中的多个分词进行特征分析,得到统计信息矩阵,包括:获取任意选择的第一分词和第二分词;将所述第一分词和所述第二分词填入以所述第一分词与所述第二分词之间的共同出现次数作为行数和列数的矩阵中,得到统计信息矩阵。3.如权利要求1所述的基于未登录词的分词方法,其特征在于,所述利用所述未登录词对所述初始分词结果进行分词修正,得到标准分词结果,包括:识别所述初始分词结果中与所述未登录词对应的一个或者多个初始分词;利用所述未登录词代替所述一个或者多个初始分词,得到标准分词结果。4.如权利要求1所述的基于未登录词的分词方法,其特征在于,所述利用所述未登录词对所述初始分词结果进行分词修正,得到标准分词结果之后,所述方法还包括:获取推送队列任务,所述推送队列任务中包含推送顺序;按照所述推送顺序将所述标准分词结果推送至用户端。5.如权利要求2所述的基于未登录词的分词方法,其特征在于,所述目标函数为:所述目标函数为:其中,J(W)为目标函数值,X
ij
为所述统计信息矩阵,f(X
ij
)为预设权重项,用于去除一些低频项噪声,α为预设的固定参数,X
max
为预设的最大统计信息矩阵,W
i
和W
j
为所述第一分词和所述第二分词对应的词向量矩阵,且存在W∈R
|V|*d
,|V|表示词...

【专利技术属性】
技术研发人员:沈翔翔
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1