一种分词方法技术

技术编号:39398183 阅读:13 留言:0更新日期:2023-11-19 15:51
本发明专利技术提供了一种分词方法

【技术实现步骤摘要】
一种分词方法、电子设备及存储介质


[0001]本专利技术涉及分词算法模型领域,特别是涉及一种分词方法

电子设备及存储介质


技术介绍

[0002]目前,分词器的目标是将输入的文本流,切分成一个个子串,使得每个子串具有相对完整的语义,便于学习
embedding
表达和后续模型的使用,分词器包括三种粒度:词

字符

子词级别,如果使用字符级别做编码,比如“我爱中国”就会拆分为“我 爱 中 国”,使用字符级别的拆分太细,在拆分后直接丢弃了所有的词语信息;如果使用词级别做编码,比如“我爱中国”就会拆分为“我 爱 中国”,使用词级别做编码的缺点如下:

不可能收录所有词语,当出现新词语时由于没有见过该词语,那么只能使用统一的特殊字符 [KNOWN] 来表示,这种方式也会导致语义的丢失


词级别做编码有非常多的词语,汉字可能只有几千个,而词语可能有几十万个,因此,如何有一种同时解决上述两种分词级别的缺点的分词方法尤为重要


技术实现思路

[0003]针对上述技术问题,本专利技术采用的技术方案为:一种分词方法,所述方法包括如下步骤:
S010
,获取预设领域训练文本集和基础词列表
Q={Q1,
Q2,


Q
d



Q
d0
}

Q
d
是第
d
个基础词,
d
的取值范围是1到
d0

d0
是基础词的数量,所述基础词初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符;
S020
,按照任一预设领域训练文本
V
N
中的字符从前到后的顺序,对预设领域训练文本
V
N
中的字符
V
Na
,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表;
S030
,按照中间词的字符数量从大到小的顺序,使用中间词和
V
N
中的字符
V
Na
及字符
V
Na
的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本
V
N
进行拆分,从而获取拆分词列表
L={L1,
L2,


L
M



L
M1
}

L
M
是预设领域训练文本集中第
M
个拆分词,
M
的取值范围是1到
M1

M1
是预设领域训练文本集中拆分词的数量;
S040
,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表
QA={QA1,
QA2,


QA
ε



QA
β
}
,并获取对应的相邻次数列表
QB={QB1,
QB2,


QB
ε



QB
β
}

QA
ε
是预设领域训练文本中的第
ε
个相邻字符组,
QB
ε
是第
ε
个相邻字符组
QA
ε
在预设领域训练文本中的出现次数,
ε
的取值范围是1到
β

β
是预设领域训练文本中的相邻字符组的数量;其中,不同顺序的相邻的拆分词为不同的相邻字符组;
S050
,获取
QB0=max{QB1,
QB2,


QB
ε



QB
β
}

QB0对应的相邻字符组
QA0,并将
QA0记为待添加词语;
S060
,获取基础词列表
Q
中的基础词的当前数量
d
01
,若
d
01
>预设词表数量阈值
d
02
,将基础词列表作为最终词列表,流程结束;否则,将待添加词语作为基础词添加到基础词列

Q
中,从而进行更新基础词列表
Q
,执行
S020
;其中,
d
02

1。
[0004]一种非瞬时性计算机可读存储介质,所述非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的分词方法

[0005]一种电子设备,包括处理器和上述的非瞬时性计算机可读存储介质

[0006]本专利技术至少具有以下有益效果:综上,获取预设领域训练文本集和基础词列表,按照任一预设领域训练文本中的字符从前到后的顺序,对预设领域训练文本中的字符,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表,按照中间词的字符数量从大到小的顺序,使用中间词和字符及字符所在的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本进行拆分,从而获取拆分词列表,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表,并获取对应的相邻次数列表,获取相邻次数最大的相邻字符组记为待添加词语,获取基础词列表中的基础词的数量,若基础词的数量大于预设词表数量阈值,将基础词列表作为最终词列表,否则,将待添加词语作为基础词添加到基础词列表中,直到基础词列表中的基础词的数量大于预设词表数量阈值,通过训练一个变长的分词方式,解决直接使用字符拆分导致的丢弃了所有的词语信息的问题,也解决了使用词级别进行拆分无法收录所有词语或者收录词语太多的问题

附图说明
[0007]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图

[0008]图1为本专利技术实施例提供的一种分词方法的流程图

具体实施方式
[0009]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚

完整地描述,显然,所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种分词方法,其特征在于,所述方法包括如下步骤:
S010
,获取预设领域训练文本集和基础词列表
Q={Q1,
Q2,


Q
d



Q
d0
}

Q
d
是第
d
个基础词,
d
的取值范围是1到
d0

d0
是基础词的数量,所述基础词列表
Q
初始化为预设领域训练文本集中每一预设领域训练文本按照单个字符进行拆分后得到的所有字符;
S020
,按照任一预设领域训练文本
V
N
中的字符从前到后的顺序,对预设领域训练文本
V
N
中的字符
V
Na
,和基础词列表进行匹配,获取匹配成功的基础词作为中间词,获取中间词列表;
S030
,按照中间词的字符数量从大到小的顺序,使用中间词和
V
N
中的字符
V
Na
及字符
V
Na
的后续字符进行匹配,获取匹配成功的中间词作为拆分词,基于拆分词对预设领域训练文本
V
N
进行拆分,从而获取拆分词列表
L={L1,
L2,


L
M



L
M1
}

L
M
是预设领域训练文本集中第
M
个拆分词,
M
的取值范围是1到
M1

M1
是预设领域训练文本集中拆分词的数量;
S040
,获取相邻的拆分词作为相邻字符组,从而获取相邻字符组列表
QA={QA1,
QA2,


QA
ε



QA
β
}
,并获取对应的相邻次数列表
QB={QB1,
QB2,


QB
ε



QB
β
}

QA
ε
是预设领域训练文本集中的第
ε
个相邻字符组,
QB
ε
是第
ε
个相邻字符组
QA
ε
在预设领域训练文本集中的出现次数,
ε
的取值范围是1到
β...

【专利技术属性】
技术研发人员:王全修靳雯石江枫赵洲洋于伟王明超
申请(专利权)人:日照睿安信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1