一种基于统计机器学习方法的分词字典数据采集方法技术

技术编号:13913543 阅读:57 留言:0更新日期:2016-10-27 09:45
本发明专利技术涉及数据处理基础领域,具体来说是一种基于统计机器学习方法的分词字典数据采集方法,利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,进行概念的获取及处理,从而对采集信息或数据进行加工,建立信息数据库和索引数据库,形成用户想要的数据内容,对用户提出的各种检索做出响应,为提供用户所需的信息或相关指针,从而提高了信息检索的准确率和准确率。

【技术实现步骤摘要】
[
]本专利技术涉及数据处理
,具体来说是一种基于统计机器学习方法的分词字典数据采集方法。[
技术介绍
]随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就像大海捞针一样,信息检索的实现是将信息进行分词算法,以便查找。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。基于字符串匹配的分词方法又叫做机械分词方法,是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;常用的几种机械分词方法如下:1)正向最大匹配法(由左到右的方向);2)逆向最大匹配法(由右到左的方向);3)最少切分(使每一句中切出的词数最小);4)双向最大匹配法(进行由左到右、由右到左两次扫描)还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,但这种精度还远远不能满足实际的需要,实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。理解分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象,通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。基于统计的分词方法一种是较为原始的方法:字从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,因此字与字相邻共现的频率或概率能够较好的反映成词的可信度,可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率,互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法,但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分,由于汉语中各个字单独作词语的能力是不同的,此外有的字常常作为前缀出现,有的字却常常作为后缀(“者”“性”),结合两个字相临时是否成词的信息,这样就得到了许多与分词有关的知识。这种方法就是充分利用汉语组词的规律来分词,最大缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。在实现的过程中,中文分词有两大基本问题,也是中文分词的难点,一是歧义识别问题,二是未登录词问题,本节简要介绍下这两类问题:第一个问题是歧义识别的问题,由于中文自身的特点,对于中文中的一句话不同的划分可能有不同的意思,例如,“乒乓球拍卖完了”,这句话可以划分成“乒乓球/拍卖完了”,也可以划分成“乒乓球拍/卖完了”。虽然到现在为止没有出线一个百分百的消除歧义的算法,但是已经出现了许多比较好的,且具有实际应用价值的算法。第二个是未登录词的问题,未登录词又称为新词,因为语言在不断的发展和变化导致新词的不断出现,同时词的衍生现象非常普遍,所以词表中不能囊括所有的词。最典型的是人名,例如在句子“李军虎去上海”中,人可以很容易理解“李军虎”作为一个人名是个词,但计算机识别就困难了。如果把“李军虎”作为一个词收录到字典中去,全世界有那么多名字,而且时时都有新增的人名,如此一项巨大的工程即使可以完成,问题仍旧存在。例如:在句子“李军虎背熊腰的”中,“李军虎”又算词吗?新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等这些人们经常使用的词都是很难处理的问题,因此在信息搜索中,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。[
技术实现思路
]本专利技术是将网站、系统或平台的数据,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。为了实现上述目的,设计一种基于统计机器学习方法的分词字典数据采集方法,具体如下:a.概念的自动获取:利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤:(1).预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集;(2).训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型,在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型,首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数,其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用;在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法,最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型;(3).分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语;b.概念关系获取:领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体-部分关系三类词对,多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解,具体处理流程包括三个步骤:(1).预处理:利用前文方法中获得的领域概念集,检索领域语料,查找同时含有两个或两个以上领域概念的句子,然后将句子中的领域概念两两组对,形成候选关系词对集;(2).训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型,本文档来自技高网
...

【技术保护点】
一种基于统计机器学习方法的分词字典数据采集方法,其特征在于方法具体如下:a.概念的自动获取:利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤:(1).预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集;(2).训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型,在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型,首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数,其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用;在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法,最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型;(3).分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语;b.概念关系获取:领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体-部分关系三类词对,多类分类问题的求解是将其分解成一系列两类分类问题的组合来求解,具体处理流程包括三个步骤:(1).预处理:利用前文方法中获得的领域概念集,检索领域语料,查找同时含有两个或两个以上领域概念的句子,然后将句子中的领域概念两两组对,形成候选关系词对集;(2).训练:输入是每一个候选词对和每一个候选词对所在的句子,输出是一个训练好的分类模型,在获得候选领域概念关系词对集后也需要将这些特征词对表示成计算机可以识别的格式,以训练分类模型,得到分类器,通过对标注语料的分析,选用词序特征、词形特征和上下文特征这三类特征,采用相关标引方法,组成特征向量表示每一个候选词对,在将候选概念关系表示成特征向量之后,使用分类算法,从标注的训练数据中,学习一个推广性能最好的分类模型,项目结合朴素贝叶斯和感知器两种分类算法的优点,提出混合分类算法,用以训练领域概念关系分类模型,取得较好的效果;(3).分类:将新文本中的所有可能关系词对分别对应于同义关系分类器、上下文关系分类器、整体一部分分类器,经过归一化处理后,选择分值最高所对应的类别作为该词对的最终类别。...

【技术特征摘要】
1.一种基于统计机器学习方法的分词字典数据采集方法,其特征在于方法具体如下:a.概念的自动获取:利用机器学习的方法,采用分类思想获取领域概念,把领域概念获取问题看成是一个二值分类问题,处理流程包括三个步骤:(1).预处理:预处理输入的是训练文本,输出是带标记的候选领域概念集;(2).训练:输入是带标记的候选领域概念集,输出是一个训练好的预测模型,在获得候选概念集后,需要将这些候选概念表示成计算机可以识别的格式,以便训练分类模型,首先,选用频度特征、词特征、邻居词特征这三类特征,为每一个候选领域概念构造一个带有类别标记的特征向量,由此得到一组训练数据样本,然而这样的样本向量空间维数非常高,给计算带来巨大压力,可针对邻居词特征的特点,筛选出最有代表意义的邻居词特征,降低特征向量的维数,其次,需要计算不同特征的权重,从而能够更加准确地描述特征项在领域概念中的重要性以及不同特征项对分类所起的不同作用;在文本分类中,有单边统计量特征选择方法和双边统计量特征选择方法两种方法,最后,运用分类算法从标注的训练数据中,学习一个推广性能最好的分类模型;(3).分类:利用训练好的分类预测模型预测新文本中的候选领域概念,得到真实的专业术语;b.概念关系获取:领域概念关系获取问题可转换成一个多类分类问题,要求一个多类分类器能够正确区分同义关系、上下位关系、整体-部分关系三类词对,多类分类问题的求解是将其分解...

【专利技术属性】
技术研发人员:姬江涛闵新力薛君志马伟华秦玉林张小坤张国军施俊士张余程洁羚周江张达宁
申请(专利权)人:上海申腾信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1