一种特征对齐中文分词方法技术

技术编号:20589131 阅读:49 留言:0更新日期:2019-03-16 07:14
本发明专利技术请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明专利技术主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。

【技术实现步骤摘要】
一种特征对齐中文分词方法
本专利技术属于自然语言处理领域,具体涉及一种特征对齐中文分词方法。
技术介绍
作为语言最基本的单元,单词在文本分析任务中扮演着十分重要的角色。中文分词作为自然语言处理不可缺少的一部分,近年来取得了巨大的发展,并被广泛应用于信息检索、知识抽取和问题回答等各种汉语自然语言处理任务当中。由于标注数据的昂贵成本、单词使用的演变以及不同场景下的不同需求,现有的中文分词方法在实际任务中依旧存在着一些问题。尽管它在规则文本上具有较高的准确率,但在很多情况下,低频词的分割仍然是一个挑战。比如,在没有预定义字典的情况下,地域词“高唐”会被分割成单个字符序列。另外,在没有足够的上下文信息情况下,句子“这次研讨会很成功。”,无论是分成“这次/研讨会/很/成功/。”还是“这次/研讨/会/很/成功/。”都是正确的。因此,汉语分词不仅要考虑句子本身,还要考虑句子所处的语境,包括句子所处的段落、文档甚至语料库。近年来,更多的研究者更倾向于深度学习去挖掘更多的文本信息。当然,基于条件随机场的序列标注方法也是处理中文分词常用到的方法,通过利用足够多的上下文特征,虽然取得了比较好的结果,但是由于条件随机场的性质,参数会呈指数增长,所以直接训练多特征的条件随机场是不明智的。本专利提出了一种特征对齐中文分词方法对无标记数据进行序列标注分词,在不增加条件随机场特征的基础上,将分类器和基于条件随机场的打标器相结合,同时充分利用了标记数据和未标记数据的丰富特征,并通过EMD将两者之间的特征进行对齐。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种在不增加条件随机场特征的基础之上,堆叠了分类器和基于条件随机场的打标器,同时充分利用了标记数据和未标记数据的丰富特征,并通过EMD对齐两者之间的特征,大大缓解了标记数据和无标记数据之间的特征分布差异的特征对齐中文分词方法。本专利技术的技术方案如下:一种特征对齐中文分词方法,其包括以下步骤:101、从标记数据和无标记数据中抽取二元词的特征;102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐;103、通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105、通过条件随机场构建分词模型,对无标记数据进行序列标注分词。进一步的,所述步骤101从标记数据和无标记数据中抽取二元词的特征,具体为:S1011、首先对抽取的二元词进行预处理,在标记数据和无标注数据中的二元词中,将频数为1或者带有标点符号的二元词去掉;S1012、统计当前二元词在文档中出现的次数;S1013、计算当前二元词的左字和右字的单字相乘概率,公式为:P单字相乘=P(A)*P(B),其中P(A)表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;S1014、计算当前二元词的左字和右字之间的互信息,公式为:MI(AB)表示当前二元词的互信息,P(AB)表示当前二元词出现的概率,P(A).表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;S1015、计算当前二元词和它前面的字之间的信息熵,公式为:P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率,C表示所有出现在当前二元词AB前面的字的集合;S1016、计算当前二元词和它后面的字之间的信息熵,公式为:P(ABC|AB)表示在当前二元词AB的情况下C出现在AB后面的概率,C表示所有出现在当前二元词AB后面的字的集合;S1017、统计当前二元词前面出现标点符号的次数;S1018、统计当前二元词后面出现标点符号的次数;S1019、统计当前二元词前面出现数字的次数;S10110、统计当前二元词后面出现数字的次数;S10111、判断当前二元词左字是否为数字;S10112、判断当前二元词右字是否为数字;S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;S10119、统计当前二元词出现在句首的次数;S10120、统计当前二元词出现在句末的次数。进一步的,所述步骤102需要进行特征对齐的13项特征为:统计当前二元词在文档中出现的次数;统计当前二元词前面出现标点符号的次数;统计当前二元词后面出现标点符号的次数;统计当前二元词前面出现数字的次数;统计当前二元词后面出现数字的次数;统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词出现在句首的次数;统计当前二元词出现在句末的次数进一步的,所述步骤102通过EMD(地球移动距离)方法将标记数据和无标记数据进行特征对齐,具体为:S1021、假设来自训练集P的特征有m个,其中pi代表了训练集值,代表训练集值的权重,测试集有n个特征,qn代表测试集的值,表示测试集的权重,用D=[di,j]表示簇pi和qj之间的地表距离,目的是为了找到一个从pi到qj的流量F=[fi,j],使得总成本最小S1022、将成本距离定义为欧氏距离的平方,这样的最小成本策略更加符合预期的效果。进一步的,所述步骤103通过分类器训练标记数据的特征,并预测无标记数据中二元词成词的概率,具体为:S1031、特征对齐之后,标注集和无标注数据集中的二元词都可以用19维的向量表示,如果标注集的二元词在标注集的字典中出现,就将它的y标记为1,否则标记为0。利用xgboost分类器对标注集训练并对未标记数据的二元词进行成词概率的预测;S1032、得到无标记数据集二元词的成词概率后,将概率进行降序排列,通过交叉验证的方法设定阈值从中提取出一定的二元词作为分类的结果,即分类得到的无标记二元新词。进一步的,所述步骤S1032取前15%将序排列的二元词作为分类的结果,即需要从无标记数据中得到的二元新词。进一步的,所述步骤104从分类器的结果中抽取一部分二元词与标记数据的二元词整合作为条件随机场的特征并进行训练,具体为:S1041、将分类器得到的二元新词和标记数据中的二元词融合成新的词典;S1042、对处理成序列标注的标记数据和未标记数据进行打标,如果当前字和下本文档来自技高网...

【技术保护点】
1.一种特征对齐中文分词方法,其特征在于,包括以下步骤:101、从标记数据和无标记数据中抽取二元词的特征;102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐;103、通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105、通过条件随机场构建分词模型,对无标记数据进行序列标注分词。

【技术特征摘要】
1.一种特征对齐中文分词方法,其特征在于,包括以下步骤:101、从标记数据和无标记数据中抽取二元词的特征;102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐;103、通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105、通过条件随机场构建分词模型,对无标记数据进行序列标注分词。2.根据权利要求1所述的一种特征对齐中文分词方法,其特征在于,所述步骤101从标记数据和无标记数据中抽取二元词的特征,具体为:S1011、首先对抽取的二元词进行预处理,在标记数据和无标注数据中的二元词中,将频数为1或者带有标点符号的二元词去掉;S1012、统计当前二元词在文档中出现的次数;S1013、计算当前二元词的左字和右字的单字相乘概率,公式为:P单字相乘=P(A)*P(B),其中P(A)表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;S1014、计算当前二元词的左字和右字之间的互信息,公式为:MI(AB)表示当前二元词的互信息,P(AB)表示当前二元词出现的概率,P(A).表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;S1015、计算当前二元词和它前面的字之间的信息熵,公式为:P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率,C表示所有出现在当前二元词AB前面的字的集合;S1016、计算当前二元词和它后面的字之间的信息熵,公式为:P(ABC|AB)表示在当前二元词AB的情况下C出现在AB后面的概率,C表示所有出现在当前二元词AB后面的字的集合;S1017、统计当前二元词前面出现标点符号的次数;S1018、统计当前二元词后面出现标点符号的次数;S1019、统计当前二元词前面出现数字的次数;S10110、统计当前二元词后面出现数字的次数;S10111、判断当前二元词左字是否为数字;S10112、判断当前二元词右字是否为数字;S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;S10119、统计当前二元词出现在句首的次数;S10120、统计当前二元词出现在句末的次数。3.根据权利要求2所述的一种特征对齐中文分词方法,其特征在于,所述步骤102需要进行特征对齐的13项特征为:统计当前二元词在文档中出现的次数;统计当前二元词前面出现标点符号的次数;统计...

【专利技术属性】
技术研发人员:李智星冯开来沈柯任诗雅王化明李苑孙柱袁龙
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1