【技术实现步骤摘要】
一种分词方法、电子设备及存储介质
[0001]本专利技术涉及分词算法模型领域,特别是涉及一种分词方法
、
电子设备及存储介质
。
技术介绍
[0002]目前,分词器的目标是将输入的文本流,切分成一个个子串,使得每个子串具有相对完整的语义,便于学习
embedding
表达和后续模型的使用,分词器包括三种粒度:词
、
字符
、
子词级别,如果使用字符级别做编码,比如“我爱中国”就会拆分为“我 爱 中 国”,使用字符级别的拆分太细,在拆分后直接丢弃了所有的词语信息;如果使用词级别做编码,比如“我爱中国”就会拆分为“我 爱 中国”,使用词级别做编码的缺点如下:
①
不可能收录所有词语,当出现新词语时由于没有见过该词语,那么只能使用统一的特殊字符 [KNOWN] 来表示,这种方式也会导致语义的丢失
。
②
词级别做编码有非常多的词语,汉字可能只有几千个,而词语可能有几十万个,因此,如何有一种同时解决上述两种分词级别的缺点的分词方法尤为重要
。
技术实现思路
[0003]针对上述技术问题,本专利技术采用的技术方案为:一种分词方法,所述方法包括如下步骤:
S010
,获取预设领域训练文本集和基础词列表
Q={Q1,
Q2,
…
,
Q
d
,
…
,
Q
d0
}
,
...
【技术保护点】
【技术特征摘要】
1.
一种分词方法,其特征在于,所述方法包括如下步骤:
S010
,获取预设领域训练文本集和基础词列表
Q={Q1,
Q2,
…
,
Q
d
,
…
,
Q
d0
}
,
Q
d
是第
d
个基础词,
d
的取值范围是1到
d0
,
d0
是基础词的数量,所述基础词列表
Q
初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符;
S020
,按照任一预设领域训练文本
V
N
中的字符从前到后的顺序,对预设领域训练文本
V
N
中的字符
V
Na
,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表;
S030
,按照中间词的字符数量从大到小的顺序,使用中间词和
V
N
中的字符
V
Na
及字符
V
Na
的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本
V
N
进行拆分,从而获取拆分词列表
L={L1,
L2,
…
,
L
M
,
…
,
L
M1
}
,
L
M
是预设领域训练文本集中第
M
个拆分词,
M
的取值范围是1到
M1
,
M1
是预设领域训练文本集中拆分词的数量;
S040
,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表
QA={QA1,
QA2,
…
,
QA
ε
,
…
,
QA
β
}
,并获取对应的相邻次数列表
QB={QB1,
QB2,
…
,
QB
ε
,
…
,
QB
β
}
,
QA
ε
是预设领域训练文本集中的第
ε
个相邻字符组,
QB
ε
是第
ε
个相邻字符组
QA
ε
在预设领域训练文本集中的出现次数,
ε
的取值范围是1到
β...
【专利技术属性】
技术研发人员:王全修,靳雯,石江枫,赵洲洋,于伟,王明超,
申请(专利权)人:日照睿安信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。