基于未登录词的分词方法、装置、电子设备及介质制造方法及图纸

技术编号：29976595 阅读：71 留言：0更新日期：2021-09-08 10:02

本发明专利技术涉及人工智能的语音语义技术，揭露了一种基于未登录词的分词方法，包括：对初始分词结果进行特征分析，得到统计信息矩阵，构建训练模型的目标函数，将目标函数值收敛时训练模型产生参数作为分词向量集，计算分词向量集中任意连续至少两个分词向量之间夹角余弦值，当夹角余弦值大于余弦阈值，确定连续至少两个分词向量对应至少两个目标分词组成未登录词，并对初始分词结果进行分词修正，得到标准分词结果。此外，本发明专利技术还涉及区块链技术，所述分词向量集可存储于区块链的节点。本发明专利技术还提出一种基于未登录词的分词装置、电子设备以及计算机可读存储介质。本发明专利技术可以解决对含有未登录词的文本进行准确分词效率较低的问题。未登录词的文本进行准确分词效率较低的问题。未登录词的文本进行准确分词效率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于未登录词的分词方法、装置、电子设备及介质

[0001]本专利技术涉及人工智能的语音语义
，尤其涉及一种基于未登录词的分词方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着社会的进步和发展，互联网上生成了越来越多的未登录词，这些未登录词对于分词结果的影响非常大，传统的分词器对于新出现的关键词不能进行很好的识别，针对未登录词给分词带来的挑战，目前针对未登陆词进行分词处理主要有两种解决方法。第一种为在互联网语料上重新训练分词器；第二种为引入额外的词库。第一种方法需要人工标注大量语料，而第二种方法也需要对词库进行人工的维护。考虑到互联网语料的时效性与数据规模，这两种均不是很好的解决方法。因此，现有技术中，对含有未登录词的文本进行准确分词的效率不高。

技术实现思路

[0003]本专利技术提供一种基于未登录词的分词方法、装置及计算机可读存储介质，其主要目的在于解决对含有未登录词的文本进行准确分词的效率较低的问题。
[0004]为实现上述目的，本专利技术提供的一种基于未登录词的分词方法，包括：
[0005]获取原始语料集，对所述原始语料集进行分词处理，得到初始分词结果，所述初始分词结果中包括多个分词；
[0006]对所述初始分词结果中的多个分词进行特征分析，得到统计信息矩阵；
[0007]基于所述统计信息矩阵构建预设的训练模型的目标函数；
[0008]将所述初始分词结果输入至所述训练模型，将所述训练模型对应的目标函数值收敛时所述训练模型产生的参数...

【技术保护点】

【技术特征摘要】
1.一种基于未登录词的分词方法，其特征在于，所述方法包括：获取原始语料集，对所述原始语料集进行分词处理，得到初始分词结果，所述初始分词结果中包括多个分词；对所述初始分词结果中的多个分词进行特征分析，得到统计信息矩阵；基于所述统计信息矩阵构建预设的训练模型的目标函数；将所述初始分词结果输入至所述训练模型，将所述训练模型对应的目标函数值收敛时所述训练模型产生的参数作为所述初始分词结果对应的分词向量集；计算所述分词向量集中任意连续的至少两个分词向量之间的夹角余弦值；当所述夹角余弦值大于预设余弦阈值时，确定所述连续的至少两个分词向量对应的至少两个目标分词组成未登录词；利用所述未登录词对所述初始分词结果进行分词修正，得到标准分词结果。2.如权利要求1所述的基于未登录词的分词方法，其特征在于，所述对所述初始分词结果中的多个分词进行特征分析，得到统计信息矩阵，包括：获取任意选择的第一分词和第二分词；将所述第一分词和所述第二分词填入以所述第一分词与所述第二分词之间的共同出现次数作为行数和列数的矩阵中，得到统计信息矩阵。3.如权利要求1所述的基于未登录词的分词方法，其特征在于，所述利用所述未登录词对所述初始分词结果进行分词修正，得到标准分词结果，包括：识别所述初始分词结果中与所述未登录词对应的一个或者多个初始分词；利用所述未登录词代替所述一个或者多个初始分词，得到标准分词结果。4.如权利要求1所述的基于未登录词的分词方法，其特征在于，所述利用所述未登录词对所述初始分词结果进行分词修正，得到标准分词结果之后，所述方法还包括：获取推送队列任务，所述推送队列任务中包含推送顺序；按照所述推送顺序将所述标准分词结果推送至用户端。5.如权利要求2所述的基于未登录词的分词方法，其特征在于，所述目标函数为：所述目标函数为：其中，J(W)为目标函数值，X
ij
为所述统计信息矩阵，f(X
ij
)为预设权重项，用于去除一些低频项噪声，α为预设的固定参数，X
max
为预设的最大统计信息矩阵，W
i
和W
j
为所述第一分词和所述第二分词对应的词向量矩阵，且存在W∈R
|V|*d
，|V|表示词...

【专利技术属性】
技术研发人员：沈翔翔，
申请(专利权)人：平安普惠企业管理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人