一种分词的方法、装置及存储介质制造方法及图纸

技术编号:24011231 阅读:70 留言:0更新日期:2020-05-02 01:48
本申请公开了一种分词的方法、装置及存储介质,对于待分词的文本中的任意一个待分词的字,首先获得该字所在的模型训练字组,其后利用该模型训练字组对应的分词模型对所述待分词的字进行分词。分词模型是一个字组对应一个,不是一个字对应一个,因此,对于具有共性的字归为一个字组,该字组对应同一个分词模型。这样分词模型的数量就会大大降低,因此,训练分词模型的过程就会简单,耗时较少,对于训练分词模型的机器性能要求较低。

A word segmentation method, device and storage medium

【技术实现步骤摘要】
一种分词的方法、装置及存储介质
本申请涉及自然语言处理
,特别是涉及一种分词的方法、装置及存储介质。
技术介绍
分词技术是自然语言处理领域中的一项重要技术。所谓分词,就是将句子切分为一个一个的单独的词。以中文分词为例,分词的目的就是将文本中每一句话切分为一个一个单独的中文词语。目前,分词技术已经被广泛应用于机器翻译、语音识别、文本摘要、文本检索等自然语言处理的应用分支中。分词的质量直接影响以上各项应用的结果的准确性。以语音识别为例,分词的质量越高,则应用分词技术进行语音识别的准确性越高。现有的一种分词方法是一个字对应一个分词模型,对于分词模型的训练量特别巨大,训练过程耗时比较久,对于机器性能要求较高。
技术实现思路
本申请提供了一种分词的方法、装置及存储介质,利用较少的分词模型便可以准确分词,分词模型训练过程简单,耗时较少。本申请第一方面,提供一种分词的方法,包括:获得待分词的字所在的模型训练字组,各个模型训练字组通过预先对样本中的任意字进行分析获得,每个模型训练字组对应一个分词模型;利本文档来自技高网...

【技术保护点】
1.一种分词的方法,其特征在于,包括:/n获得待分词的字所在的模型训练字组,各个模型训练字组通过预先对样本中的任意字进行分析获得,每个模型训练字组对应一个分词模型;/n利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。/n

【技术特征摘要】
1.一种分词的方法,其特征在于,包括:
获得待分词的字所在的模型训练字组,各个模型训练字组通过预先对样本中的任意字进行分析获得,每个模型训练字组对应一个分词模型;
利用所述待分词的字所在的模型训练字组对应的分词模型对所述待分词的字进行分词。


2.根据权利要求1所述的方法,其特征在于,所述各个模型训练字组通过预先对样本中的任意字进行训练获得,具体包括:
根据字与相邻字的相关性获得任意两个字的特征分布相关性;根据字向量获得所述任意两个字的语义相似度;根据字的权重参数向量获得所述任意两个字的构词规律相似性;
根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性;
根据所述综合相关性确定所述任意两个字的模型训练字组,每个所述模型训练字组对应一个分词模型。


3.根据权利要求2所述的方法,其特征在于,所述根据字与相邻字的相关性获得任意两个字的特征分布相关性,包括:
获得所述任意两个字中第一个字A的i个相邻字,获得所述任意两个字中第二个字B的j个相邻字;
获得所述A的i个相邻字和所述B的j个相邻字中的相同相邻字的个数;
获得所述相同相邻字的个数与i和j中的较大值的比值作为所述任意两个字的特征分布相关性。


4.根据权利要求3所述的方法,其特征在于,在所述根据所述任意两个字的特征分布相关性、语义相似度和构词规律相似性获得综合相关性,之前还包括:
确定所述任意两个字的特征分布相关性小于预设值时,赋值所述任意两个字的特征分布相关性为0。


5.根据权利要求2所述的方法,其特征在于,所述根据字向量获得所述任意两个字的语义相似度,具体包括:
获得所述任意两个字中的第一个字A的字向量和所述任意两个字中第二个字B的字向量的余弦相似度作为所述任意两个字的语义相似度。


6.根据权利要求2所述的方法,其特征在于,所述根据字的权重参数向量获得所述任意两个字的构词规律相似性,具体包括...

【专利技术属性】
技术研发人员:张少阳
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1