一种分词方法及装置制造方法及图纸

技术编号:31707456 阅读:22 留言:0更新日期:2022-01-01 11:10
本发明专利技术提供一种分词方法及装置,所述方法包括:对输入文本进行数据预处理,得到所述输入文本对应的词向量;利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;依据所述词向量的特征增强处理后的语义表示,进行分词处理。应用本发明专利技术实施例可以优化分词效果。用本发明专利技术实施例可以优化分词效果。用本发明专利技术实施例可以优化分词效果。

【技术实现步骤摘要】
一种分词方法及装置


[0001]本专利技术涉及数据处理
,尤其涉及一种分词方法及装置。

技术介绍

[0002]分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
[0003]中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
[0004]对于搜索引擎而言,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
[0005]目前,主流的分词方案是依据jieba分词工具实现,其采用字典和HMM(Hidden Markov Model,隐马尔可夫模型)的算法来实现分词。
[0006]实践发现,jieba分词工具的分词效果很大程度上会依赖词库的完整性,而中文词汇量非常的大,很难做到词库的完备性,且新词收录的及时性也较差,导致中文分词效果较差。

技术实现思路

[0007]本专利技术提供一种分词方法及装置,以优化分词效果。
[0008]根据本专利技术的第一方本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种分词方法,其特征在于,包括:对输入文本进行数据预处理,得到所述输入文本对应的词向量;利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;依据所述词向量的特征增强处理后的语义表示,进行分词处理。2.根据权利要求1所述的方法,其特征在于,所述利用语义表示提取模型对所述词向量进行语义表示提取,包括:利用双向编码表征模型BERT模型或XLNET模型对所述词向量进行语义表示提取。3.根据权利要求1所述的方法,其特征在于,所述利用特征增强模型对所述词向量的语义表示进行特征增强处理,包括:利用多层感知器MLP模型对所述词向量的语义表示进行特征增强处理。4.根据权利要求3所述的方法,其特征在于,所述MLP模型包括的隐层数为三层。5.根据权利要求3所述的方法,其特征在于,所述MLP模型的激活函数为leakyrelu函数。6.根据权利要求1所述的方法,其特征在于,所述依据所述词向量的特征增强处理后的语义表示,进行分词处理,包括:依据所述词向量的特征增强处理后的语义表示,利用随机场CRF模型,确定所述词向量对应各标签的分数;依据所述词向量对应各标签的分数,利用归一化指...

【专利技术属性】
技术研发人员:刘万青
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1