【技术实现步骤摘要】
一种分词方法及装置
[0001]本专利技术涉及数据处理
,尤其涉及一种分词方法及装置。
技术介绍
[0002]分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
[0003]中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。
[0004]对于搜索引擎而言,中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,搜索引擎的分词算法不同,词库的不同都会影响页面的返回结果。
[0005]目前,主流的分词方案是依据jieba分词工具实现,其采用字典和HMM(Hidden Markov Model,隐马尔可夫模型)的算法来实现分词。
[0006]实践发现,jieba分词工具的分词效果很大程度上会依赖词库的完整性,而中文词汇量非常的大,很难做到词库的完备性,且新词收录的及时性也较差,导致中文分词效果较差。
技术实现思路
[0007]本专利技术提供一种分词方法及装置,以优化分词效果。
[0008]根 ...
【技术保护点】
【技术特征摘要】
1.一种分词方法,其特征在于,包括:对输入文本进行数据预处理,得到所述输入文本对应的词向量;利用语义表示提取模型对所述词向量进行语义表示提取,得到所述词向量的语义表示;利用特征增强模型对所述词向量的语义表示进行特征增强处理,得到所述词向量的特征增强处理后的语义表示;依据所述词向量的特征增强处理后的语义表示,进行分词处理。2.根据权利要求1所述的方法,其特征在于,所述利用语义表示提取模型对所述词向量进行语义表示提取,包括:利用双向编码表征模型BERT模型或XLNET模型对所述词向量进行语义表示提取。3.根据权利要求1所述的方法,其特征在于,所述利用特征增强模型对所述词向量的语义表示进行特征增强处理,包括:利用多层感知器MLP模型对所述词向量的语义表示进行特征增强处理。4.根据权利要求3所述的方法,其特征在于,所述MLP模型包括的隐层数为三层。5.根据权利要求3所述的方法,其特征在于,所述MLP模型的激活函数为leakyrelu函数。6.根据权利要求1所述的方法,其特征在于,所述依据所述词向量的特征增强处理后的语义表示,进行分词处理,包括:依据所述词向量的特征增强处理后的语义表示,利用随机场CRF模型,确定所述词向量对应各标签的分数;依据所述词向量对应各标签的分数,利用归一化指...
【专利技术属性】
技术研发人员:刘万青,
申请(专利权)人:新华三大数据技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。