【技术实现步骤摘要】
一种分词方法及系统
本说明书一个或多个实施例涉及信息
,特别涉及一种分词方法及系统。
技术介绍
随着计算机技术的快速发展,计算机对自然语言的处理更加趋于智能化,自然语言处理在多个领域应用广泛。目前的自然语言处理场景中,计算机处理的语句内容多样化、领域交叉,可能包括一些陌生或非常见的词语,这对计算机准确理解词语的意义提出了较大的挑战。因此,需要一种优化的分词方法,可以实现对语料准确快速的分词,帮助计算机充分理解语句内容的含义,进一步优化计算机的分析能力,提升用户体验。
技术实现思路
本说明书实施例之一提供一种分词方法,所述方法包括:候选词获取:基于第一位置从单句语料中获取预设字数的候选词;候选词截断:将所述候选词从一个或多个拆分位置处拆分,至少基于所述候选词中各拆分后子词的统计特征,从所述一个或多个拆分位置中确定所述候选词的截断位置,所述一个或多个拆分位置包括候选词的结束位置;当所述截断位置位于所述候选词的结束位置时,将所述候选词确定为一个独立的分词;当所述截断位置位于所述候选词内部时,基于所 ...
【技术保护点】
1.一种分词方法,包括:/n候选词获取:基于第一位置从单句语料中获取预设字数的候选词;/n候选词截断:/n将所述候选词从一个或多个拆分位置处拆分,至少基于所述候选词中各拆分后子词的统计特征,从所述一个或多个拆分位置中确定所述候选词的截断位置,所述一个或多个拆分位置包括候选词的结束位置;/n当所述截断位置位于所述候选词的结束位置时,将所述候选词确定为一个独立的分词;/n当所述截断位置位于所述候选词内部时,基于所述截断位置获取所述候选词的部分,将所述部分作为新的候选词进行至少一轮“候选词截断”处理,直至将所述部分拆分为一个或多个独立的分词;/n将所述截断位置作为第一位置从“候选 ...
【技术特征摘要】
1.一种分词方法,包括:
候选词获取:基于第一位置从单句语料中获取预设字数的候选词;
候选词截断:
将所述候选词从一个或多个拆分位置处拆分,至少基于所述候选词中各拆分后子词的统计特征,从所述一个或多个拆分位置中确定所述候选词的截断位置,所述一个或多个拆分位置包括候选词的结束位置;
当所述截断位置位于所述候选词的结束位置时,将所述候选词确定为一个独立的分词;
当所述截断位置位于所述候选词内部时,基于所述截断位置获取所述候选词的部分,将所述部分作为新的候选词进行至少一轮“候选词截断”处理,直至将所述部分拆分为一个或多个独立的分词;
将所述截断位置作为第一位置从“候选词获取”开始进行下一轮循环;依此,将所述单句语料拆分为一个或多个独立的分词。
2.如权利要求1所述的方法,所述一个或多个拆分位置还包括候选词中每个字与其后面相邻字之间的位置。
3.如权利要求1所述的方法,所述将所述候选词从一个或多个拆分位置处拆分,至少基于所述候选词中各拆分后子词的统计特征,从所述一个或多个拆分位置中确定所述候选词的截断位置包括:
对于每个拆分位置:
获取拆分后各子词的统计特征;
基于各子词的统计特征确定各子词的统计分值;
基于各子词的统计分值确定该拆分位置对应的统计分值,拆分位置对应的统计分值反映该拆分位置前后两个子词之间的独立性;
将统计分值最大的拆分位置作为所述截断位置。
4.如权利要求3所述的方法,所述统计特征包括以下中的至少一种:子词的字数、子词在历史语料库中的左邻熵、右邻熵、左关联度、右关联度以及词频;
其中,所述左邻熵和/或右邻熵反映子词与其他词语之间的可分离程度,所述左关联度和/或右关联度反映子词内部,字和/或词之间的关联紧密程度。
5.如权利要求4所述的方法,各子词的统计分值与其统计特征正相关;
所述基于各子词的统计分值确定该拆分位置对应的统计分值包括:将各子词的统计分值的最小值确定为该拆分位置对应的统计分值。
6.如权利要求1所述的方法,所述基于所述截断位置获取所述候选词的部分包括:将候选词中截断位置的前部确定为所述部分;
所述将所述部分作为新的候选词进行至少一轮“候选词截断”处理,直至将所述部分拆分为一个或多个独立的分词包括:
将所述部分作为新的候选词进行第一轮“候选词截断”处理,获得新截断位置;
当所述新截断位置位于所述新的候选词的结束位置时,将所述新的候选词确定为一个独立的分词;
当所述新截断位置位于所述新的候选词内部时,基于所述新截断位置获取所述新的候选词的至少两个子部分,将各子部分分别作为新的候选词进行至少一轮“候选词截断”处理,直至将所述部分拆分为一个或多个独立的分词。
7.一种分词系统,包括候选词获取模块、候选词截断模块和循环分词模块;
所述候选词获取模块用于基于第一位置从单句语料中获取预设字数的候选词;
所述候选词截断模块用于:
将所述候选词从一个或多个拆分位置处拆分,至少基于所述候选词中各拆分后子词的统计特征,从所述一个或多个拆分位置中确定所述候选词的截断位置,所述一个或多个拆分位置包括候选词的结束位置;
当所述截断位置位于所述候选词的结束位置时,将所述候选词确定为一个独立的分词;
当所述截断位置位于所述候选词内部时,基于所述截断位置获取所述候选词的部分,将所述部分作为新的候选词重新调用至少一轮本候选词截断模块,直至将所述部分拆分为一个或多个独立的分词;
所述循环分词模块用于将所述截断位置作为第一位置进行下一轮候选词获取模块以及候选词截断模块的循环调用;依次,将所述单句语料拆分为一个或多个独立的分词。
8.如权利要求7所述的系统,所述一个或多个拆分位置还包括候选词中每个字与其后面相邻字之间的位置。
9.如权利要求7所述的系统,所述候选词截断模块还用于:
对于每个拆分位置:
获取拆分后各子词的统计特征;
基于各子词的统计特征确定各子词的统计分值;
基于各子词的统计分值确定该拆分位置对应的统计分值,拆分位置对应的统计分值反映该拆分位置前后两个子词之间的独立性;将统计分值最大的拆分位置作为所述截断位置。
10.如权利要求9所述的系统,所述统计特征包括以下中的至少一种:子词的字数、子词在历史语料库中的左邻熵、右邻熵、左关联度、右关联度以及词频;
其中,所述左邻熵和/或右邻熵反映子词与其他词语之间的可分离程度,所述左关联度和/或右关联度反映子词内部,字和/或词之间的关联紧密程度...
【专利技术属性】
技术研发人员:陈显玲,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。