分词方法及装置制造方法及图纸

技术编号:24498742 阅读:38 留言:0更新日期:2020-06-13 04:07
本申请公开了一种分词方法及装置。其中,该方法包括:依据预设词表对待分词语句进行分词处理,得到待分词语句的词图,其中,词图由多条词路径组成,每条词路径由待分词语句包含的词按照预设逻辑关系组合而成;将词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,评分结果用于表征对待分词语句进行分词处理的准确度;将多个评分结果中评分最高的词路径作为待分词语句的分词结果;输出分词结果。本申请解决了由于现有的分词方法仅仅通过简单的词频计算分词路径得分,不能把握整个句子表达的含义造成的分词效果差,而且需要人工标注大量数据,难度较大的技术问题。

Segmentation methods and devices

【技术实现步骤摘要】
分词方法及装置
本申请涉及中文分词领域,具体而言,涉及一种分词方法及装置。
技术介绍
移动互联网发展迅速,自然语言处理越来越重要,文本中可以挖掘出很多有商业价值的信息。汉语词语之间没有间隔,汉语分词是把一段连续的词语序列分割成一个一个词语。例如一句话“人人参与环境保护活动”,可以被切分成“人人参与环境保护活动”。对于计算机处理汉语而言,分词往往是第一步,精确的分词有助于算法对语义的理解。汉语分词除了挖掘信息外,还常常用于语音合成。目前常见的分词方法有:正向最大匹配法、逆向最大匹配法、最少切分法、双向最大匹配法。这些只使用词表的切词方法效果不是很理想,后来基于词图扫描,再通过词频运算选择出一个分词方案。这种改进的方法效果要比前面几种效果好很多。图1是根据本申请实施例的一种基于词图扫描的分词方法的流程图,如图1所示,该分词方法分为两个阶段,第一阶段为训练阶段,根据分词语料,统计出词,以及词频。第二阶段为分词阶段,利用第一阶段产生的所有词,把待分词句子的可行路径全部找出,这些路径构成了词图。根据词频计算出最大得分的路径,输出最大得分路径。例如“在这些人中华人数量比较多”可以构成的路径有:“在,这些,人,中华,人数,量,比较,多”,“在,这些,人,中华,人,数量,比较,多”,“在,这些,人,中华人,数量,比较,多”,“在,这些,人,中,华人,数量,比较,多”,“在,这些,人中,华人,数量,比较,多”。计算把这些路径存储成有向无环图的形式,如图2所示,这个图就是这句话的词图。然后使用式子Σln(f/n)计算每条路径分数。其中f是词频,n是第一阶段得到的词表中所有的词的频率之和。Σln(f/n)=Σln(f)-Σln(n),从这个式子中可以看出该路径词越少得分越高,分出的词词频越大得分越高。最后选取最大得分路径,作为分词结果。该分词方法仅仅通过简单的词频计算分词路径得分,不能把握整个句子表达的含义,会出现比较多的错误,分词效果差,而且需要人工标注大量数据,难度较大。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种分词方法及装置,以至少解决由于现有的分词方法仅仅通过简单的词频计算分词路径得分,不能把握整个句子表达的含义造成的分词效果差,而且需要人工标注大量数据,难度较大的技术问题。根据本申请实施例的一个方面,提供了一种分词方法,包括:依据预设词表对待分词语句进行分词处理,得到待分词语句的词图,其中,词图由多条词路径组成,每条词路径由待分词语句包含的词按照预设逻辑关系组合而成;将词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,评分结果用于表征对待分词语句进行分词处理的准确度;将多个评分结果中评分最高的词路径作为待分词语句的分词结果;输出分词结果。可选地,将词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果之前,上述方法还包括:对分词评分模型进行训练。可选地,对分词评分模型进行训练,包括:获取第一样本数据以及第二样本数据,其中,第一样本数据由未进行分词处理的语料中获取,第二样本数据由进行了分词处理的语料中获取;基于第一样本数据对预设神经网络模型进行训练,得到语义模型;基于第二样本数据对语义模型进行迁移学习,得到分词评分模型。可选地,预设神经网络模型包括如下至少之一:深度神经网络、全连接神经网络、卷积神经网络以及循环神经网络。可选地,输出分词结果之后,上述方法还包括:将分词处理中得到的新词添加至预设词表。可选地,上述方法还包括:从词图包含的全部词路径中获取预设数量的词路径;将预设数量的词路径分别输入至分词评分模型,得到与预设数量的词路径对应的预设数量的评分结果;将预设数量的评分结果中评分最高的词路径作为待分词语句的分词结果。可选地,如果预设数量的评分结果中全部评分都低于预设阈值,将扩展的词路径分别输入至分词评分模型进行评分,其中扩展后的词路径为词图包含的除预设数量的词路径以外的词路径;从预设数量的评分结果和扩展的词路径对应的评分结果中选择评分最高的词路径作为待分词语句的分词结果。根据本申请实施例的另一方面,还提供了一种分词方法,包括:依据预设词表对待分词语句进行分词处理,得到待分词语句的词图,其中,词图由多条词路径组成,每条词路径由待分词语句包含的词按照预设逻辑关系组合而成;将词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,评分结果用于表征对待分词语句进行分词处理的准确度;从多个评分结果中选择目标词路径,并将目标词路径对应的分词结果作为待分词语句的分词结果;输出分词结果。根据本申请实施例的另一方面,还提供了一种分词装置,包括:分词模块,用于依据预设词表对待分词语句进行分词处理,得到待分词语句的词图,其中,词图由多条词路径组成,每条词路径由待分词语句包含的词按照预设逻辑关系组合而成;评分模块,用于将词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,评分结果用于表征对待分词语句进行分词处理的准确度;设置模块,用于将多个评分结果中评分最高的词路径作为待分词语句的分词结果;输出模块,用于输出分词结果。根据本申请实施例的再一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以上的分词方法。根据本申请实施例的再一方面,还提供了一种处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行以上的分词方法。在本申请实施例中,采用依据预设词表对待分词语句进行分词处理,得到待分词语句的词图,其中,词图由多条词路径组成,每条词路径由待分词语句包含的词按照预设逻辑关系组合而成;将词图的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,评分结果用于表征对待分词语句进行分词处理的准确度;将多个评分结果中评分最高的词路径作为待分词语句的分词结果;输出分词结果的方式,通过使用深度神经网络评分代替原有的基于词频进行评分,达到了神经网络计算最佳分词路径时可以考虑整个句子,整篇文章表达的含义,相对于基于计算词频的分词方法效果更好的目的,从而实现了提高分词的准确率,减少人工标注数据的数量,降低人工标注数据的难度的技术效果,进而解决了由于现有的分词方法仅仅通过简单的词频计算分词路径得分,不能把握整个句子表达的含义造成的分词效果差,而且需要人工标注大量数据,难度较大技术问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的一种基于词图扫描的分词方法的流程图;图2是根据本申请实施例的一种文本的词图的示意图;图3是根据本申请实施例的一种分词方法的流程图;图4是根据本申请实施例的一种训练分词模型的流程示意图;图5是根据本申请实施例的一种基于神经网络模型进行分词的方法流程图;图6是根据本申请实施例的另一种分词本文档来自技高网
...

【技术保护点】
1.一种分词方法,其特征在于,包括:/n依据预设词表对待分词语句进行分词处理,得到所述待分词语句的词图,其中,所述词图由多条词路径组成,每条所述词路径由所述待分词语句包含的词按照预设逻辑关系组合而成;/n将所述词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,所述评分结果用于表征对所述待分词语句进行分词处理的准确度;/n将所述多个评分结果中评分最高的词路径作为所述待分词语句的分词结果;/n输出所述分词结果。/n

【技术特征摘要】
1.一种分词方法,其特征在于,包括:
依据预设词表对待分词语句进行分词处理,得到所述待分词语句的词图,其中,所述词图由多条词路径组成,每条所述词路径由所述待分词语句包含的词按照预设逻辑关系组合而成;
将所述词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果,所述评分结果用于表征对所述待分词语句进行分词处理的准确度;
将所述多个评分结果中评分最高的词路径作为所述待分词语句的分词结果;
输出所述分词结果。


2.根据权利要求1所述的方法,其特征在于,将所述词图中的每条词路径分别输入至分词评分模型进行评分,得到多个评分结果之前,所述方法还包括:
对所述分词评分模型进行训练。


3.根据权利要求2所述的方法,其特征在于,对所述分词评分模型进行训练,包括:
获取第一样本数据以及第二样本数据,其中,所述第一样本数据由未进行所述分词处理的语料中获取,所述第二样本数据由进行了所述分词处理的语料中获取;
基于所述第一样本数据对预设神经网络模型进行训练,得到语义模型;
基于所述第二样本数据对所述语义模型进行迁移学习,得到所述分词评分模型。


4.根据权利要求3所述的方法,其特征在于,所述预设神经网络模型包括如下至少之一:
深度神经网络、全连接神经网络、卷积神经网络以及循环神经网络。


5.根据权利要求1所述的方法,其特征在于,输出所述分词结果之后,所述方法还包括:
将所述分词处理中得到的新词添加至所述预设词表。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述词图包含的全部词路径中获取预设数量的词路径;
将所述预设数量的词路径分别输入至所述分词评分模型,得到与所述预设数量的词路径对应的预设数量的评分结果;
将所述...

【专利技术属性】
技术研发人员:周慧超王风雷李东军
申请(专利权)人:苏州跃盟信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1