一种分词方法及装置制造方法及图纸

技术编号：13899978 阅读：71 留言：0更新日期：2016-10-25 14:10

本发明专利技术公开了一种分词方法及装置，涉及数据挖掘技术领域。该方法包括：将待处理文档中相邻的文字进行任意组合，获得候选短语；分别计算所有候选短语的左熵和右熵；根据所述候选短语的左熵和右熵确定所述候选短语为词的概率，根据所述概率对所述待处理文档进行分词。本发明专利技术可以在没有词库的前提下对文档进行分词，对非常见词、新词进行更好的处理，从而更加精准的进行分词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据挖掘
，特别涉及一种分词方法及装置。
技术介绍
传统的分词方法是基于词库的，大概思路是用词库中的词和文档进行最大匹配(正向最大匹配法、逆向最大匹配法、双向最大匹配法)。然而，传统的分词方法适合对传统的文档进行分词，对于电商平台来说，商品描述之中存在大量的品牌词，功能词，新词等非常见词，对于这样的词汇，传统的分词方法无法处理。另外，传统的分词方法仅仅使用贪心的想法，进行正向或者逆向的最大匹配，匹配结果并非全局最优。虽然速度快，但是效果并不好。对于部分应用领域，并不需要太快的分词速度，反而对分词的效果有较高的要求。再者，传统的基于信息熵的词库建设方法效果有限，单纯的“信息熵”并不能代表词的概率。
技术实现思路
鉴于上述问题，提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种分词方法及装置。本专利技术提供一种分词方法，包括：将待处理文档中相邻的文字进行任意组合，获得候选短语；分别计算所有候选短语的左熵和右熵；根据所述候选短语的左熵和右熵确定所述候选短语为词的概率，根据所述概率对所述待处理文档进行分词。在一个实施例中，在分别计算所有候选短语的左熵和右熵之后，所述方法还可包括：对所述所有候选短语的左熵和右熵进行修正操作。在一个实施例中，所述对所述所有候选短语的左熵和右熵进行修正操作，可包括：对所述所有候选短语的左熵和右熵进行字串偏移修正；对所有候选短语修正后的左熵和右熵按照候选短语的长度进行数据标准化。在一个实施例中，所述根据所述概率对所述待处理文档进行分词，可包括：根据所述概率利用动态规划算法对所述待处理文档进行分词。在...

【技术保护点】
一种分词方法，其特征在于，包括：将待处理文档中相邻的文字进行任意组合，获得候选短语；分别计算所有候选短语的左熵和右熵；根据所述候选短语的左熵和右熵确定所述候选短语为词的概率，根据所述概率对所述待处理文档进行分词。

【技术特征摘要】
1.一种分词方法，其特征在于，包括：将待处理文档中相邻的文字进行任意组合，获得候选短语；分别计算所有候选短语的左熵和右熵；根据所述候选短语的左熵和右熵确定所述候选短语为词的概率，根据所述概率对所述待处理文档进行分词。2.如权利要求1所述的方法，其特征在于，在分别计算所有候选短语的左熵和右熵之后，所述方法还包括：对所述所有候选短语的左熵和右熵进行修正操作。3.如权利要求2所述的方法，其特征在于，所述对所述所有候选短语的左熵和右熵进行修正操作，包括：对所述所有候选短语的左熵和右熵进行字串偏移修正；对所有候选短语修正后的左熵和右熵按照候选短语的长度进行数据标准化。4.如权利要求1-3中任一项所述的方法，其特征在于，所述根据所述概率对所述待处理文档进行分词，包括：根据所述概率利用动态规划算法对所述待处理文档进行分词。5.如权利要求3所述的方法，其特征在于，根据下列公式对候选短语的左熵和右熵进行字串偏移修正：VRE(x1..n)＝RE(x1..n)-RE(x1..n-1)VLE(x1..n)＝LE(x1..n)-LE(x2..n)其中，RE(x1..n)为长度为n个文字的候选短语的右熵，RE(x1..n-1)为长度为n-1个文字的候选短语的右熵，VRE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果；LE(x1..n)为长度为n个文字的候选短语的左熵，LE(x2..n)为长度为n-1个文字的候选短语的左熵，VLE(x1..n)为长度为n个文字的候选短语左熵进行平滑后的结果。6.如权利要求3所述的方法，其特征在于，根据下列公式对候选短语修正后的左熵和右熵进行数据标准化：nVRE(x1..n)＝(VRE(x1..n)-RV(x1..n))/标准差nVLE(x1..n)＝(VLE(x1..n)-LV(x1..n))/标准差其中，VRE(x1..n)为长度为n个文字的候选短语的右熵进行平滑后的结果，RV(x1..n)为长度为n个文字的所有候选短语右熵的平均值，nVRE(x1..n)为将VRE(x1..n)进行数据标准化后得到的新数据；VLE(x1..n)为长度为n个文字的候选短语右熵进行平滑后的结果，LV(x1..n)为长度为n个文字的所有候选短语左熵的平均值，nVLE(x1..n)为将VLE(x1..n)进行数据标准化后得到的新数据。7.一种分词装置，其特...

【专利技术属性】
技术研发人员：高云翔，
申请(专利权)人：无线生活杭州信息科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人