一种分词方法及装置制造方法及图纸

技术编号:13899978 阅读:71 留言:0更新日期:2016-10-25 14:10
本发明专利技术公开了一种分词方法及装置,涉及数据挖掘技术领域。该方法包括:将待处理文档中相邻的文字进行任意组合,获得候选短语;分别计算所有候选短语的左熵和右熵;根据所述候选短语的左熵和右熵确定所述候选短语为词的概率,根据所述概率对所述待处理文档进行分词。本发明专利技术可以在没有词库的前提下对文档进行分词,对非常见词、新词进行更好的处理,从而更加精准的进行分词。

【技术实现步骤摘要】

本专利技术涉及数据挖掘
,特别涉及一种分词方法及装置
技术介绍
传统的分词方法是基于词库的,大概思路是用词库中的词和文档进行最大匹配(正向最大匹配法、逆向最大匹配法、双向最大匹配法)。然而,传统的分词方法适合对传统的文档进行分词,对于电商平台来说,商品描述之中存在大量的品牌词,功能词,新词等非常见词,对于这样的词汇,传统的分词方法无法处理。另外,传统的分词方法仅仅使用贪心的想法,进行正向或者逆向的最大匹配,匹配结果并非全局最优。虽然速度快,但是效果并不好。对于部分应用领域,并不需要太快的分词速度,反而对分词的效果有较高的要求。再者,传统的基于信息熵的词库建设方法效果有限,单纯的“信息熵”并不能代表词的概率。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种分词方法及装置。本专利技术提供一种分词方法,包括:将待处理文档中相邻的文字进行任意组合,获得候选短语;分别计算所有候选短语的左熵和右熵;根据所述候选短语的左熵和右熵确定所述候选短语为词的概率,根据所述概率对所述待处理文档进行分词。在一个实施例中,在分别计算所有候选短语的左熵和右熵之后,所述方法还可包括:对所述所有候选短语的左熵和右熵进行修正操作。在一个实施例中,所述对所述所有候选短语的左熵和右熵进行修正操作,可包括:对所述所有候选短语的左熵和右熵进行字串偏移修正;对所有候选短语修正后的左熵和右熵按照候选短语的长度进行数据标准化。在一个实施例中,所述根据所述概率对所述待处理文档进行分词,可包括:根据所述概率利用动态规划算法对所述待处理文档进行分词。在一个实施例中,根据下列公式对候选短语的左熵和右熵进行字串偏移修正:VRE(x1..n)=RE(x1..n)-RE(x1..n-1)VLE(x1..n)=LE(x1..n)-LE(x2..n)其中,RE(x1..n)为长度为n个文字的候选短语的右熵,RE(x1..n-1)为长度为n-1个文字的候选短语的右熵,VRE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果;LE(x1..n)为长度为n个文字的候选短语的左熵,LE(x2..n)为长度为n-1个文字的候选短语的左熵,VLE(x1..n)为长度为n个文字的候选短语左熵进行平滑后的结果。在一个实施例中,根据下列公式对候选短语修正后的左熵和右熵进行数据标准化:nVRE(x1..n)=(VRE(x1..n)-RV(x1..n))/标准差nVLE(x1..n)=(VLE(x1..n)-LV(x1..n))/标准差其中,VRE(x1..n)为长度为n个文字的候选短语的右熵进行平滑后的结果,RV(x1..n)为长度为n个文字的所有候选短语右熵的平均值,nVRE(x1..n)为将VRE(x1..n)进行数据标准化后得到的新数据;VLE(x1..n)为长度为n个文字的候
选短语右熵进行平滑后的结果,LV(x1..n)为长度为n个文字的所有候选短语左熵的平均值,nVLE(x1..n)为将VLE(x1..n)进行数据标准化后得到的新数据。本专利技术还提供一种分词装置,包括:组合模块,用于将待处理文档中相邻的文字进行任意组合,获得候选短语;计算模块,用于分别计算所有候选短语的左熵和右熵;分词模块,用于根据所述候选短语的左熵和右熵确定所述候选短语为词的概率,根据所述概率对所述待处理文档进行分词。在一个实施例中,所述装置还可包括:修正模块,用于对所述所有候选短语的左熵和右熵进行修正操作。在一个实施例中,所述修正模块,可包括:第一修正子模块,用于对所述所有候选短语的左熵和右熵进行字串偏移修正;第二修正子模块,用于对所有候选短语修正后的左熵和右熵按照候选短语的长度进行数据标准化。在一个实施例中,所述分词模块,可包括:分词子模块,用于根据所述候选短语的左熵和右熵利用动态规划算法对所述待处理文档进行分词。在一个实施例中,根据下列公式对候选短语的左熵和右熵进行字串偏移修正:VRE(x1..n)=RE(x1..n)-RE(x1..n-1)VLE(x1..n)=LE(x1..n)-LE(x2..n)其中,RE(x1..n)为长度为n个文字的候选短语的右熵,RE(x1..n-1)为长度为n-1个文字的候选短语的右熵,VRE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果;LE(x1..n)为长度为n个文字的候选短语的左熵,LE(x2..n)为长度为n-1个文字的候选短语的左熵,VLE(x1..n)为长度为n个文字的候选短语左熵进行平滑后的结果。在一个实施例中,根据下列公式对候选短语修正后的左熵和右熵进行数据标准化:nVRE(x1..n)=(VRE(x1..n)-RV(x1..n))/标准差nVLE(x1..n)=(VLE(x1..n)-LV(x1..n))/标准差其中,VRE(x1..n)为长度为n个文字的候选短语的右熵进行平滑后的结果,RV(x1..n)为长度为n个文字的所有候选短语右熵的平均值,nVRE(x1..n)为将VRE(x1..n)进行数据标准化后得到的新数据;VLE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果,LV(x1..n)为长度为n个文字的所有候选短语左熵的平均值,nVLE(x1..n)为将VLE(x1..n)进行数据标准化后得到的新数据。本专利技术的实施例提供的技术方案可以包括以下有益效果:本专利技术实施例的上述技术方案,通过将待处理文档中相邻的文字进行任意组合,获得候选短语,分别计算所有候选短语的左熵和右熵,根据候选短语的左熵和右熵对待处理文档进行分词。从而可以在没有词库的前提下对文档进行分词,对非常见词、新词进行更好的处理,从而更加精准的进行分词。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种分词方法的流程图;图2为本专利技术实施例中另一种分词方法的流程图;图3为本专利技术实施例中一种分词方法中步骤S14的流程图;图4为本专利技术实施例中另一种分词方法的流程图;图5为本专利技术实施例中一种分词装置的框图;图6为本专利技术实施例中另一种分词装置的框图;图7为本专利技术实施例中一种分词装置中修正模块54的框图;图8为本专利技术实施例中一种分词装置中分词模块53的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。现有技术中,传统的分词方法无法处理电商平台的各种商品描述之中存在的品牌词、功能词、新词等非常见词,比如商品描述“外贸原单POLLIWALKS宝利沃青蛙洞洞鞋童鞋花园鞋儿童凉鞋拖鞋正品”中的“洞洞鞋”在常见词库中均未被包含。图1所示为本专利技术实施例中一种分词方法的流程图,如图1所示,包括以下步骤S11-S13:步骤S11,将待处理文档中相邻的文本文档来自技高网
...

【技术保护点】
一种分词方法,其特征在于,包括:将待处理文档中相邻的文字进行任意组合,获得候选短语;分别计算所有候选短语的左熵和右熵;根据所述候选短语的左熵和右熵确定所述候选短语为词的概率,根据所述概率对所述待处理文档进行分词。

【技术特征摘要】
1.一种分词方法,其特征在于,包括:将待处理文档中相邻的文字进行任意组合,获得候选短语;分别计算所有候选短语的左熵和右熵;根据所述候选短语的左熵和右熵确定所述候选短语为词的概率,根据所述概率对所述待处理文档进行分词。2.如权利要求1所述的方法,其特征在于,在分别计算所有候选短语的左熵和右熵之后,所述方法还包括:对所述所有候选短语的左熵和右熵进行修正操作。3.如权利要求2所述的方法,其特征在于,所述对所述所有候选短语的左熵和右熵进行修正操作,包括:对所述所有候选短语的左熵和右熵进行字串偏移修正;对所有候选短语修正后的左熵和右熵按照候选短语的长度进行数据标准化。4.如权利要求1-3中任一项所述的方法,其特征在于,所述根据所述概率对所述待处理文档进行分词,包括:根据所述概率利用动态规划算法对所述待处理文档进行分词。5.如权利要求3所述的方法,其特征在于,根据下列公式对候选短语的左熵和右熵进行字串偏移修正:VRE(x1..n)=RE(x1..n)-RE(x1..n-1)VLE(x1..n)=LE(x1..n)-LE(x2..n)其中,RE(x1..n)为长度为n个文字的候选短语的右熵,RE(x1..n-1)为长度为n-1个文字的候选短语的右熵,VRE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果;LE(x1..n)为长度为n个文字的候选短语的左熵,LE(x2..n)为长度为n-1个文字的候选短语的左熵,VLE(x1..n)为长度为n个文字的候选短语左熵进行平滑后的结果。6.如权利要求3所述的方法,其特征在于,根据下列公式对候选短语修正后的左熵和右熵进行数据标准化:nVRE(x1..n)=(VRE(x1..n)-RV(x1..n))/标准差nVLE(x1..n)=(VLE(x1..n)-LV(x1..n))/标准差其中,VRE(x1..n)为长度为n个文字的候选短语的右熵进行平滑后的结果,RV(x1..n)为长度为n个文字的所有候选短语右熵的平均值,nVRE(x1..n)为将VRE(x1..n)进行数据标准化后得到的新数据;VLE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果,LV(x1..n)为长度为n个文字的所有候选短语左熵的平均值,nVLE(x1..n)为将VLE(x1..n)进行数据标准化后得到的新数据。7.一种分词装置,其特...

【专利技术属性】
技术研发人员:高云翔
申请(专利权)人:无线生活杭州信息科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1