一种分词方法和装置制造方法及图纸

技术编号:24576474 阅读:74 留言:0更新日期:2020-06-21 00:27
本申请提供了一种分词方法和装置,该方法包括:对待切分语句进行格式标准化处理;提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;针对第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;将第一集合和第三集合合并作为待切分语句的分词结果。该方法能够提高分词的准确性。

A word segmentation method and device

【技术实现步骤摘要】
一种分词方法和装置
本专利技术涉及自然语言处理
,特别涉及一种分词方法和装置。
技术介绍
随着互联网的快速发展,电子商务已经越来越多的走进每个人的生活,特别是近几年人工智能也变得异常火爆。因此现在很多电商公司都把人工智能看作未来发展的一个重要方向,其中智能客服更是各电商公司必争之地,如京东JIMI、阿里小蜜等。智能客服的核心就是自然语言处理,而要做好自然语言处理,分词是最基础也是最重要的前提,可以说一套好的分词系统是自然语言处理成功与否的必要前提。目前,电商领域智能客服的分词系统都是用的市场上的通用分词系统,如结巴分词、ANSJ、ICTCLAS等,这些分词系统都具有通用性,并不针对某个具体的领域,特别是对于智能客服这种对分词要求比较高的领域,这就会造成分词结果并不适用于一些特殊领域,如电子商务智能客服的分词。在电商领域中,如“我的订单编号:1234567890”,通用分词系统可能会将“1234567890”切分开,但是电商领域就不期望被分开。再如“U盘”,通用分词系统可能会分成{“U”,“盘”},但是在电商中“U盘”是一个商品名,所以不希望被分开。
技术实现思路
有鉴于此,本申请提供一种分词方法和装置,能够提高分词的准确性。为解决上述技术问题,本申请的技术方案是这样实现的:一种分词方法,该方法包括:对待切分语句进行格式标准化处理;提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;针对第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;将第一集合和第三集合合并作为待切分语句的分词结果。一种分词装置,该装置包括:预处理单元、提取单元、切分单元、第一合并单元和第二合并单元;所述预处理单元,用于对待切分语句进行格式标准化处理;所述提取单元,用于提取所述预处理单元格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;所述切分单元,用于针对所述提取单元提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;所述第一合并单元,用于针对所述切分单元确定的第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;所述第二合并单元。用于将所述提取单元获得的第一集合和所述第一合并单元获得的第三集合合并作为待切分语句的分词结果。一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述分词方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述分词方法的步骤。由上面的技术方案可知,本申请中通过引入第一词库来提取一些应用领域内不希望被切分的词,作为第一集合,再将剩余的词进行切分作为第二集合,根据第二词库确定第二集合中是否存在需要合并的词,若存在,则合并,将这部分分词结果作为第三集合,并将第一集合和第三集合合并作为待切分语句的分词结果。该方案能够提高分词的准确性。附图说明图1为本申请实施例中分词流程示意图;图2为本申请实施例中应用于上述技术的装置结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,下面结合附图并举实施例,对本专利技术的技术方案进行详细说明。本申请实施例中提供一种分词方法,通过引入第一词库来提取一些应用领域内不希望被切分的词,作为第一集合,再将剩余的词进行切分作为第二集合,根据第二词库确定第二集合中是否存在需要合并的词,若存在,则合并,将这部分分词结果作为第三集合,并将第一集合和第三集合合并作为待切分语句的分词结果。该方案能够提高分词的准确性。下面结合附图,详细说明本申请实施例中分词过程。下文为了描述方便,将执行分词处理的设备称为分词设备。参见图1,图1为本申请实施例中分词流程示意图。具体步骤为:步骤101,分词设备对待切分语句进行格式标准化处理。本步骤对待切分语句进行预处理,为后续切分做准备。具体的格式标准化处理,包括:繁简体转换、英文大小写转换、特殊符号转换等。步骤102,该分词设备提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合。所述第一词库为预先配置的词的集合,或者,采用正则表达式的方式配置。第一词库根据所述待切分语句所处领域设置,如电商领域等。在电商领域中,订单编号和日期是不希望被拆分的,则在第一词库中存储相关订单号和日期;或使用正则表达式是订单编号和日期不被拆分。如经过格式标准化处理后的语句为:hello!我在2018年6月27日买了一个IPhone6S,订单编号是1234567890,能帮我查一下什么时候能送到吗?则上述语句中的“1234567890”,以及“2018年6月27日”在第一词库中存在对应的匹配词,则将上述语句中的“1234567890”,以及“2018年6月27日”提取出来,作为第一集合{“1234567890”,“2018年6月27日”}。步骤103,该分词设备针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合。本步骤中该分词设备针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合,具体包括如下步骤:第一步、按照数字、汉字、英文字母、字符连续不拆分的方式进行初步切分;即连续的数字不进行切分,连续的英文字母不进行切分,如果在对应的语句中存在其他国家的语言,如日语、法语,按照对应国家语言中的数字、文字、字母、字符等连续不拆分的方式进行初步切分。以上述语句提取第一集合中的词之后的语句为例:hello!我在买了一个IPhone6S,订单编号是,能帮我查一下什么时候能送到吗?执行第一步中的初步切分后生成的词集合为{“hello”,“!”,“我在”,“买了一个”,“IPhone”,“6”,“S”,“,”,“订单编号是”,“,”,“能帮我查一下什么时候能送到吗”,“?”}。第二步、针对初步切分后的词采用通用分词方式进一步进行切分,将切分后的词的集合作为第二集合。本步骤中采用的通用分词方式,即现有的一个常用分词方式,如结巴分词、ANSJ、ICTCLAS等均可。本申请实施例中在使用通用分词方式分词之前,先进行了粗切分,即按照数字、汉字、英文字母、字符的方式拆分,这样可以针对不同的词组合使用不同的拆分方式,如针对数字使用适宜数字的分词方法,针对汉字使用适宜汉字的分词方法等,进一步提高分词的效率和效果。经过第二步分词后,得到的第二集合为:{“hello”,“!”,“我在”,“买了”“一个”,“IPhone”,“6”,“S”,“,”,“订单”,“本文档来自技高网...

【技术保护点】
1.一种分词方法,其特征在于,该方法包括:/n对待切分语句进行格式标准化处理;/n提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;/n针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;/n针对第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;/n将第一集合和第三集合合并作为待切分语句的分词结果。/n

【技术特征摘要】
1.一种分词方法,其特征在于,该方法包括:
对待切分语句进行格式标准化处理;
提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;
针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;
针对第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;
将第一集合和第三集合合并作为待切分语句的分词结果。


2.根据权利要求1所述的方法,其特征在于,所述格式标准化处理,包括:
繁简体转换、英文大小写转换、特殊符号转换。


3.根据权利要求1所述的方法,其特征在于,所述第一词库为预先配置的词的集合,或者,采用正则表达式的方式配置。


4.根据权利要求1所述的方法,其特征在于,所述针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合,包括:
针对提取第一集合中的词之后的语句按照数字、汉字、英文字母、字符连续不拆分的方式进行初步切分;
针对初步切分后的词采用通用分词方式进一步进行切分,将切分后的词的集合作为第二集合。


5.根据权利要求1所述的方法,其特征在于,采用前后词组合的方式时,向前的词跨度为第一预设值,向后的词跨度为第二预设值,第一预设值与第二预设值相同或不相同。


6.根据权利要求1-5任一项所述方法,其特征在于,每个集合中的词按照该次在待切分语句中的位置顺序排列。


7.一种分词装置,其特征在于,该装置包括:预处理单元、提取单元、切分单元、第一合并单元和第二合并单元;
所述预处理单元,用于对待切分语句进行格式标准化处理;
所述提取单元,用于提取所述预处理单元格式标准化处理后的语句中与第一词库中匹配的词作为第...

【专利技术属性】
技术研发人员:冯明超俞晓光
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1