一种基于统计机器学习方法的分词字典数据采集方法技术

技术编号：13913543 阅读：57 留言：0更新日期：2016-10-27 09:45

本发明专利技术涉及数据处理基础领域，具体来说是一种基于统计机器学习方法的分词字典数据采集方法，利用机器学习的方法，采用分类思想获取领域概念，把领域概念获取问题看成是一个二值分类问题，进行概念的获取及处理，从而对采集信息或数据进行加工，建立信息数据库和索引数据库，形成用户想要的数据内容，对用户提出的各种检索做出响应，为提供用户所需的信息或相关指针，从而提高了信息检索的准确率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
[
]本专利技术涉及数据处理
，具体来说是一种基于统计机器学习方法的分词字典数据采集方法。[
技术介绍
]随着互联网的迅猛发展、WEB信息的增加，用户要在信息海洋里查找自己所需的信息，就像大海捞针一样，信息检索的实现是将信息进行分词算法，以便查找。现有的分词算法可分为三大类：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。基于字符串匹配的分词方法又叫做机械分词方法，是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；常用的几种机械分词方法如下：1)正向最大匹配法(由左到右的方向)；2)逆向最大匹配法(由右到左的方向)；3)最少切分(使每一句中切出的词数最小)；4)双向最大匹配法(进行由左到右、由右到左两次扫描)还可以将上述各种方法相互组合，例如，可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点，正向最小匹配和逆向最小匹配一般很少使用。一般说来，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少。统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245，但这种精度还远远不能满足实际的需要，实际使用的分词系统，都是把机械分词作为一种初分手段，还需通过利用各种其它的语言...

【技术保护点】
一种基于统计机器学习方法的分词字典数据采集方法，其特征在于方法具体如下：a.概念的自动获取：利用机器学习的方法，采用分类思想获取领域概念，把领域概念获取问题看成是一个二值分类问题，处理流程包括三个步骤：(1).预处理：预处理输入的是训练文本，输出是带标记的候选领域概念集；(2).训练：输入是带标记的候选领域概念集，输出是一个训练好的预测模型，在获得候选概念集后，需要将这些候选概念表示成计算机可以识别的格式，以便训练分类模型，首先，选用频度特征、词特征、邻居词特征这三类特征，为每一个候选领域概念构造一个带有类别标记的特征向量，由此得到一组训练数据样本，然而这样的样本向量空间维数非常高，给计算带来巨大压力，可针对邻居词特征的特点，筛选出最有代表意义的邻居词特征，降低特征向量的维数，其次，需要计算不同特征的权重，从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用；在文本分类中，有单边统计量特征选择方法和双边统计量特征选择方法两种方法，最后，运用分类算法从标注的训练数据中，学习一个推广性能最好的分类模型；(3).分类：利用训练好的分类预测模型预测新文本中的候选领...

【技术特征摘要】
1.一种基于统计机器学习方法的分词字典数据采集方法，其特征在于方法具体如下：a.概念的自动获取：利用机器学习的方法，采用分类思想获取领域概念，把领域概念获取问题看成是一个二值分类问题，处理流程包括三个步骤：(1).预处理：预处理输入的是训练文本，输出是带标记的候选领域概念集；(2).训练：输入是带标记的候选领域概念集，输出是一个训练好的预测模型，在获得候选概念集后，需要将这些候选概念表示成计算机可以识别的格式，以便训练分类模型，首先，选用频度特征、词特征、邻居词特征这三类特征，为每一个候选领域概念构造一个带有类别标记的特征向量，由此得到一组训练数据样本，然而这样的样本向量空间维数非常高，给计算带来巨大压力，可针对邻居词特征的特点，筛选出最有代表意义的邻居词特征，降低特征向量的维数，其次，需要计算不同特征的权重，从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用；在文本分类中，有单边统计量特征选择方法和双边统计量特征选择方法两种方法，最后，运用分类算法从标注的训练数据中，学习一个推广性能最好的分类模型；(3).分类：利用训练好的分类预测模型预测新文本中的候选领域概念，得到真实的专业术语；b.概念关系获取：领域概念关系获取问题可转换成一个多类分类问题，要求一个多类分类器能够正确区分同义关系、上下位关系、整体－部分关系三类词对，多类分类问题的求解是将其分解...

【专利技术属性】
技术研发人员：姬江涛，闵新力，薛君志，马伟华，秦玉林，张小坤，张国军，施俊士，张余，程洁羚，周江，张达宁，
申请(专利权)人：上海申腾信息技术有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人