一种特征对齐中文分词方法技术

技术编号：20589131 阅读：49 留言：0更新日期：2019-03-16 07:14

本发明专利技术请求保护一种特征对齐中文分词方法，包括：101从标记数据和无标记数据中抽取二元词的特征；102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐；103通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；105通过建立的模型，对无标记数据进行序列标注分词。本发明专利技术主要是通过EMD对标记数据和无标记数据进行特征对齐，并通过分类器学习来预测二元词的成词概率，然后以堆叠的方式整合了条件随机场形成新的分词器。

全部详细技术资料下载

【技术实现步骤摘要】
一种特征对齐中文分词方法
本专利技术属于自然语言处理领域，具体涉及一种特征对齐中文分词方法。
技术介绍
作为语言最基本的单元，单词在文本分析任务中扮演着十分重要的角色。中文分词作为自然语言处理不可缺少的一部分，近年来取得了巨大的发展，并被广泛应用于信息检索、知识抽取和问题回答等各种汉语自然语言处理任务当中。由于标注数据的昂贵成本、单词使用的演变以及不同场景下的不同需求，现有的中文分词方法在实际任务中依旧存在着一些问题。尽管它在规则文本上具有较高的准确率，但在很多情况下，低频词的分割仍然是一个挑战。比如，在没有预定义字典的情况下，地域词“高唐”会被分割成单个字符序列。另外，在没有足够的上下文信息情况下，句子“这次研讨会很成功。”，无论是分成“这次/研讨会/很/成功/。”还是“这次/研讨/会/很/成功/。”都是正确的。因此，汉语分词不仅要考虑句子本身，还要考虑句子所处的语境，包括句子所处的段落、文档甚至语料库。近年来，更多的研究者更倾向于深度学习去挖掘更多的文本信息。当然，基于条件随机场的序列标注方法也是处理中文分词常用到的方法，通过利用足够多的上下文特征，虽然取得了比较好的结果，但是由于条件随机场的性质，参数会呈指数增长，所以直接训练多特征的条件随机场是不明智的。本专利提出了一种特征对齐中文分词方法对无标记数据进行序列标注分词，在不增加条件随机场特征的基础上，将分类器和基于条件随机场的打标器相结合，同时充分利用了标记数据和未标记数据的丰富特征，并通过EMD将两者之间的特征进行对齐。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种在不增加条件随机场...

【技术保护点】
1.一种特征对齐中文分词方法，其特征在于，包括以下步骤：101、从标记数据和无标记数据中抽取二元词的特征；102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐；103、通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；105、通过条件随机场构建分词模型，对无标记数据进行序列标注分词。

【技术特征摘要】
1.一种特征对齐中文分词方法，其特征在于，包括以下步骤：101、从标记数据和无标记数据中抽取二元词的特征；102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐；103、通过分类器xgboost训练经过特征对齐后的标记数据的特征，从而预测无标记数据中二元词成词的概率；104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练；105、通过条件随机场构建分词模型，对无标记数据进行序列标注分词。2.根据权利要求1所述的一种特征对齐中文分词方法，其特征在于，所述步骤101从标记数据和无标记数据中抽取二元词的特征，具体为：S1011、首先对抽取的二元词进行预处理，在标记数据和无标注数据中的二元词中，将频数为1或者带有标点符号的二元词去掉；S1012、统计当前二元词在文档中出现的次数；S1013、计算当前二元词的左字和右字的单字相乘概率，公式为：P单字相乘＝P(A)*P(B)，其中P(A)表示二元词左字出现的概率，P(B)表示二元词右字出现的概率；S1014、计算当前二元词的左字和右字之间的互信息，公式为：MI(AB)表示当前二元词的互信息，P(AB)表示当前二元词出现的概率，P(A).表示二元词左字出现的概率，P(B)表示二元词右字出现的概率；S1015、计算当前二元词和它前面的字之间的信息熵，公式为：P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率，C表示所有出现在当前二元词AB前面的字的集合；S1016、计算当前二元词和它后面的字之间的信息熵，公式为：P(ABC|AB)表示在当前二元词AB的情况下C出现在AB后面的概率，C表示所有出现在当前二元词AB后面的字的集合；S1017、统计当前二元词前面出现标点符号的次数；S1018、统计当前二元词后面出现标点符号的次数；S1019、统计当前二元词前面出现数字的次数；S10110、统计当前二元词后面出现数字的次数；S10111、判断当前二元词左字是否为数字；S10112、判断当前二元词右字是否为数字；S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数；S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数；S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数；S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数；S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数；S10119、统计当前二元词出现在句首的次数；S10120、统计当前二元词出现在句末的次数。3.根据权利要求2所述的一种特征对齐中文分词方法，其特征在于，所述步骤102需要进行特征对齐的13项特征为：统计当前二元词在文档中出现的次数；统计当前二元词前面出现标点符号的次数；统计...

【专利技术属性】
技术研发人员：李智星，冯开来，沈柯，任诗雅，王化明，李苑，孙柱，袁龙，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人