分词方法及装置制造方法及图纸

技术编号:24498742 阅读:40 留言:0更新日期:2020-06-13 04:07
本申请公开了一种分词方法及装置。其中,该方法包括:依据预设词表对待分词语句进行分词处理,得到待分词语句的词图,其中,词图由多条词路径组成,每条词路径由待分词语句包含的词按照预设逻辑关系组合而成;将词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,评分结果用于表征对待分词语句进行分词处理的准确度;将多个评分结果中评分最高的词路径作为待分词语句的分词结果;输出分词结果。本申请解决了由于现有的分词方法仅仅通过简单的词频计算分词路径得分,不能把握整个句子表达的含义造成的分词效果差,而且需要人工标注大量数据,难度较大的技术问题。

Segmentation methods and devices

【技术实现步骤摘要】
分词方法及装置
本申请涉及中文分词领域,具体而言,涉及一种分词方法及装置。
技术介绍
移动互联网发展迅速,自然语言处理越来越重要,文本中可以挖掘出很多有商业价值的信息。汉语词语之间没有间隔,汉语分词是把一段连续的词语序列分割成一个一个词语。例如一句话“人人参与环境保护活动”,可以被切分成“人人参与环境保护活动”。对于计算机处理汉语而言,分词往往是第一步,精确的分词有助于算法对语义的理解。汉语分词除了挖掘信息外,还常常用于语音合成。目前常见的分词方法有:正向最大匹配法、逆向最大匹配法、最少切分法、双向最大匹配法。这些只使用词表的切词方法效果不是很理想,后来基于词图扫描,再通过词频运算选择出一个分词方案。这种改进的方法效果要比前面几种效果好很多。图1是根据本申请实施例的一种基于词图扫描的分词方法的流程图,如图1所示,该分词方法分为两个阶段,第一阶段为训练阶段,根据分词语料,统计出词,以及词频。第二阶段为分词阶段,利用第一阶段产生的所有词,把待分词句子的可行路径全部找出,这些路径构成了词图。根据词频计算出最大得分的路径,输出最大得分路本文档来自技高网...

【技术保护点】
1.一种分词方法,其特征在于,包括:/n依据预设词表对待分词语句进行分词处理,得到所述待分词语句的词图,其中,所述词图由多条词路径组成,每条所述词路径由所述待分词语句包含的词按照预设逻辑关系组合而成;/n将所述词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,所述评分结果用于表征对所述待分词语句进行分词处理的准确度;/n将所述多个评分结果中评分最高的词路径作为所述待分词语句的分词结果;/n输出所述分词结果。/n

【技术特征摘要】
1.一种分词方法,其特征在于,包括:
依据预设词表对待分词语句进行分词处理,得到所述待分词语句的词图,其中,所述词图由多条词路径组成,每条所述词路径由所述待分词语句包含的词按照预设逻辑关系组合而成;
将所述词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,所述评分结果用于表征对所述待分词语句进行分词处理的准确度;
将所述多个评分结果中评分最高的词路径作为所述待分词语句的分词结果;
输出所述分词结果。


2.根据权利要求1所述的方法,其特征在于,将所述词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果之前,所述方法还包括:
对所述分词评分模型进行训练。


3.根据权利要求2所述的方法,其特征在于,对所述分词评分模型进行训练,包括:
获取第一样本数据以及第二样本数据,其中,所述第一样本数据由未进行所述分词处理的语料中获取,所述第二样本数据由进行了所述分词处理的语料中获取;
基于所述第一样本数据对预设神经网络模型进行训练,得到语义模型;
基于所述第二样本数据对所述语义模型进行迁移学习,得到所述分词评分模型。


4.根据权利要求3所述的方法,其特征在于,所述预设神经网络模型包括如下至少之一:
深度神经网络、全连接神经网络、卷积神经网络以及循环神经网络。


5.根据权利要求1所述的方法,其特征在于,输出所述分词结果之后,所述方法还包括:
将所述分词处理中得到的新词添加至所述预设词表。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述词图包含的全部词路径中获取预设数量的词路径;
将所述预设数量的词路径分别输入至所述分词评分模型,得到与所述预设数量的词路径对应的预设数量的评分结果;
将所述...

【专利技术属性】
技术研发人员:周慧超王风雷李东军
申请(专利权)人:苏州跃盟信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1