文本分词的方法及装置制造方法及图纸

技术编号:37434138 阅读:7 留言:0更新日期:2023-05-06 09:06
本发明专利技术涉及一种文本分词的方法及装置,方法包括:获取目标语料;基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性;其中,所述预训练好的文本分词模型基于目标词库中词的随机组合合成的训练语料训练得到,所述目标词库基于最大连接分词和回溯过滤法确定;基于所述目标位置的文本成词的可能性对目标语料进行分词。基于此,实现无需人工标注数据,且能够有效的切分行业领域新词。词。词。

【技术实现步骤摘要】
文本分词的方法及装置


[0001]本专利技术涉及人工智能领域,特别是涉及文本分词的方法及装置。

技术介绍

[0002]分词模型是自然语言处理领域中最基础的模型之一,对于后续的应用和任务处理非常重要。在工业场景中,对中文的分词有着非常直接的诉求,企业通过对行业领域的文本进行分词并应用TF

IDF等技术获取领域内的高影响力词,可以实现无监督文本分类、重要性分析、词向量生成等多种下游任务;企业对当日行业新闻分词并进行词频统计可以获得当日高频词分析行业热点。传统的分词工具如jieba等采用如下分词方法:1、根据已有字典构建前缀词典。2、根据前缀词典构建有向无环图。3、通过动态规划的解码方式计算最大概率路径,实现对输入文本分词。然而这种方法依赖人工构建的词典,无法准确切分行业领域中出现的专有词等不存在于词典中的新词。针对新词问题,传统方法采用HMM策略对新词进行了挖掘,但是其准确率低,无法满足实际的应用需求。另一种传统解决方案是人工加入新词到词典中,使得模型可以切分添加的新词,然而人工添加新词需要消耗大量的时间与人力资源。现有基于LSTM,GRU等深度学习的分词模型将分词任务视为序列标注任务进行学习,然而其需要人工标注大量的标注语料,并且同样无法处理标注数据外的新词。
[0003]因此,针对传统与现有技术需要人工准备词典或大量标注数据,无法切分行业领域的专有词等,影响下游任务的问题,如何实现无需人工标注数据,且能够有效的切分行业领域新词,是目前的一个研究方向。

技术实现思路

[0004]本专利技术提供一种文本分词的方法及装置,用以解决现有技术中需要人工准备词典或大量标注数据,无法切分行业领域的专有词的问题,实现无需人工标注数据,且能够有效的切分行业领域新词。
[0005]一种文本分词的方法,所述方法包括:获取目标语料;基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性;其中,所述预训练好的文本分词模型基于目标词库中词的随机组合合成的训练语料训练得到,所述目标词库基于最大连接分词和回溯过滤法确定;基于所述目标位置的文本成词的可能性对目标语料进行分词。
[0006]在其中一个实施例中,所述预训练好的文本分词模型中包括预训练好的词义表示模型、键值对记忆网络以及全局指针网络,相应的,所述基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性,包括:基于预训练好的词义表示模型,确定所述目标语料中的每个字或者词组的第一表示向量;基于预训练好的键值对记忆网络以及所述每个字或者词组的第一表示向量,确定所述目标语料中每个字或者词组的第二表示向量;所述第二表示向量为融合了位置信息的表示向量;基于预训练好的全局指针网络和所述第二表示向量,确定目标位置的字或词组成词的可能性。
[0007]在其中一个实施例中,所述目标词库的确认过程,包括:按照预设n

gram模型对目
标行业语料进行词划分,并按照词间信息熵确定初始词库;基于最大连接分词和所述初始词库确定第一分词集合,并基于回溯过滤法过滤所述第一分词集合中意义模糊的词,并将过滤后的第一分词集合作为目标词库。
[0008]在其中一个实施例中,所述基于回溯过滤法过滤所述第一分词集合中意义模糊的词,包括:在确定所述第一分词集合中长度小于或者等于预设阈值的第一目标分词在所述初始词库中存在,或者第一分词集合中长度大于预设阈值的第二目标分词对应的第二分词集合中任意一个分词在所述初始词库中存在的情况下,则将所述第一目标分词或所述第二目标分词保留;否则,将所述第一目标分词或者所述第二目标分词过滤。
[0009]在其中一个实施例中,所述预训练好的键值对记忆网络用于确定关键字嵌入向量以及值嵌入向量,所述关键字嵌入向量表示每个字或者词组的词义信息,所述值嵌入向量用于表示所述每个字或者词组的位置信息,相应地,所述基于预训练好的键值对记忆网络以及所述每个字或者词组的第一表示向量,确定所述目标语料中每个字或者词组的第二表示向量;包括:通过所述关键字嵌入向量对所述每个字或者词组的第一表示向量进行映射,确定每个字或者词组的第三表示向量;其中,第三表示向量p
i,j
的关系式为:其中,h
i
为每个字或者词组的第一表示向量,h
i
∈R
d
,d为每个字或者词组的第一表示向量的维度,k
i,j
为每个字或者词组的关键字嵌入向量;基于所述值嵌入向量v
i,j
以及所述第三表示向量p
i,j
确定所述每个字或者词组的第二表示向量o
i
;其中,所述每个字或者词组的第二表示向量o
i
的表达式为:o
i
=∑
j=1
p
i,j
v
i,j

[0010]在其中一个实施例中,所述目标位置的字以及词组成词的可能性S的表达式为:其中,Q=f(α
q
·
O+b
q
),K=f(α
k
·
O+b
k
),K
T
表示K的转置,其中,α
q

k
均为增益,b
q
,b
k
均为偏置项;Q表示所述每个字或者词组的第二表示向量o
i
输入全局指针网络中进行旋转位置编码后的Query值矩阵,K表示所述每个字或者词组的第二表示向量o
i
输入全局指针网络中进行旋转位置编码后的Key值矩阵,O表示所述每个字或者词组的第二表示向量o
i
组成的矩阵,f(
·
)表示旋转位置编码计算函数。
[0011]在其中一个实施例中,所述基于最大连接分词和所述初始词库确定第一分词集合,包括:a、确定目标行业语料s的当前指针、初始指针和结束指针,并将所述当前指针current、初始指针start和结束指针end的初始值设为0;b、基于当前指针所指位置以及所述初始词库,确定当前指针所指位置对应的词在初始词库中对应的最长词;在确定current+L

1>end时,令end=current+L

1;否则,end不变;其中,L为所述最长词的词长度;c、令current=current+1,并确定当前指针是否大于结束指针,在确定当前指针大于结束指针的情况下,将初始指针至结束指针的分词s[start:end]切换出来加入所述第一分词集合,并返回上述步骤b;或者,在确定当前指针小于或者等于结束指针的情况下,返回上述步骤b;或者,在确定当前指针大于目标行业语料s的总长度的情况下,切分终止。
[0012]本专利技术还提供一种文本分词的装置,所述装置包括:获取模块,用于获取目标语料;确定模块,用于基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性;其中,所述预训练好本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分词的方法,其特征在于,所述方法包括:获取目标语料;基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性;其中,所述预训练好的文本分词模型基于目标词库中词的随机组合合成的训练语料训练得到,所述目标词库基于最大连接分词和回溯过滤法确定;基于所述目标位置的文本成词的可能性对目标语料进行分词。2.如权利要求1所述的文本分词的方法,其特征在于,所述预训练好的文本分词模型中包括预训练好的词义表示模型、键值对记忆网络以及全局指针网络,相应的,所述基于预训练好的文本分词模型确定所述目标语料中目标位置的文本成词的可能性,包括:基于预训练好的词义表示模型,确定所述目标语料中的每个字或者词组的第一表示向量;基于预训练好的键值对记忆网络以及所述每个字或者词组的第一表示向量,确定所述目标语料中每个字或者词组的第二表示向量;所述第二表示向量为融合了位置信息的表示向量;基于预训练好的全局指针网络和所述第二表示向量,确定目标位置的字或词组成词的可能性。3.如权利要求2所述的文本分词的方法,其特征在于,所述目标词库的确认过程,包括:按照预设n

gram模型对目标行业语料进行词划分,并按照词间信息熵确定初始词库;基于最大连接分词和所述初始词库确定第一分词集合,并基于回溯过滤法过滤所述第一分词集合中意义模糊的词,并将过滤后的第一分词集合作为目标词库。4.如权利要求3所述的文本分词的方法,其特征在于,所述基于回溯过滤法过滤所述第一分词集合中意义模糊的词,包括:在确定所述第一分词集合中长度小于或者等于预设阈值的第一目标分词在所述初始词库中存在,或者第一分词集合中长度大于预设阈值的第二目标分词对应的第二分词集合中任意一个分词在所述初始词库中存在的情况下,则将所述第一目标分词或所述第二目标分词保留;否则,将所述第一目标分词或者所述第二目标分词过滤。5.如权利要求4所述的文本分词的方法,其特征在于,所述预训练好的键值对记忆网络用于确定关键字嵌入向量以及值嵌入向量,所述关键字嵌入向量表示每个字或者词组的词义信息,所述值嵌入向量用于表示所述每个字或者词组的位置信息,相应地,所述基于预训练好的键值对记忆网络以及所述每个字或者词组的第一表示向量,确定所述目标语料中每个字或者词组的第二表示向量;包括:通过所述关键字嵌入向量对所述每个字或者词组的第一表示向量进行映射,确定每个字或者词组的第三表示向量;其中,第三表示向量p
i,
的关系式为:其中,h
i
为每个字或者词组的第一表示向量,h
i
∈R
d
,d为每个字或者词组的第一表示向量的维度,k
i,j
为每个字或者词组的关键字嵌入向量;基于所述值嵌入向量v
i,
以及所述第三表示向量p
i,
确定所述每个字或者词组的第二表
示向量o
i
;其中,所述每个字或者词组的第二表示向量o
i
的表达式为:o
i
=∑...

【专利技术属性】
技术研发人员:潘帅张伟陈曦麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院杭州未名信科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1