【技术实现步骤摘要】
一种分词方法和装置
本专利技术涉及自然语言处理
,特别涉及一种分词方法和装置。
技术介绍
随着互联网的快速发展,电子商务已经越来越多的走进每个人的生活,特别是近几年人工智能也变得异常火爆。因此现在很多电商公司都把人工智能看作未来发展的一个重要方向,其中智能客服更是各电商公司必争之地,如京东JIMI、阿里小蜜等。智能客服的核心就是自然语言处理,而要做好自然语言处理,分词是最基础也是最重要的前提,可以说一套好的分词系统是自然语言处理成功与否的必要前提。目前,电商领域智能客服的分词系统都是用的市场上的通用分词系统,如结巴分词、ANSJ、ICTCLAS等,这些分词系统都具有通用性,并不针对某个具体的领域,特别是对于智能客服这种对分词要求比较高的领域,这就会造成分词结果并不适用于一些特殊领域,如电子商务智能客服的分词。在电商领域中,如“我的订单编号:1234567890”,通用分词系统可能会将“1234567890”切分开,但是电商领域就不期望被分开。再如“U盘”,通用分词系统可能会分成{“U”,“盘”},但是在 ...
【技术保护点】
1.一种分词方法,其特征在于,该方法包括:/n对待切分语句进行格式标准化处理;/n提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;/n针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;/n针对第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;/n将第一集合和第三集合合并作为待切分语句的分词结果。/n
【技术特征摘要】
1.一种分词方法,其特征在于,该方法包括:
对待切分语句进行格式标准化处理;
提取格式标准化处理后的语句中与第一词库中匹配的词作为第一集合;
针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合;
针对第二集合中每个词采用前后词组合的方式确定组合后的词中在第二词库中是否存在,如果是,将第二集合中对应的词组合后作为第三集合;否则,将第二集合作为第三集合;
将第一集合和第三集合合并作为待切分语句的分词结果。
2.根据权利要求1所述的方法,其特征在于,所述格式标准化处理,包括:
繁简体转换、英文大小写转换、特殊符号转换。
3.根据权利要求1所述的方法,其特征在于,所述第一词库为预先配置的词的集合,或者,采用正则表达式的方式配置。
4.根据权利要求1所述的方法,其特征在于,所述针对提取第一集合中的词之后的语句进行分词,并将分词结果作为第二集合,包括:
针对提取第一集合中的词之后的语句按照数字、汉字、英文字母、字符连续不拆分的方式进行初步切分;
针对初步切分后的词采用通用分词方式进一步进行切分,将切分后的词的集合作为第二集合。
5.根据权利要求1所述的方法,其特征在于,采用前后词组合的方式时,向前的词跨度为第一预设值,向后的词跨度为第二预设值,第一预设值与第二预设值相同或不相同。
6.根据权利要求1-5任一项所述方法,其特征在于,每个集合中的词按照该次在待切分语句中的位置顺序排列。
7.一种分词装置,其特征在于,该装置包括:预处理单元、提取单元、切分单元、第一合并单元和第二合并单元;
所述预处理单元,用于对待切分语句进行格式标准化处理;
所述提取单元,用于提取所述预处理单元格式标准化处理后的语句中与第一词库中匹配的词作为第...
【专利技术属性】
技术研发人员:冯明超,俞晓光,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。