一种基于部分监督学习的中文概括性文本切分方法技术

技术编号:17912352 阅读:71 留言:0更新日期:2018-05-10 18:14
本发明专利技术属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明专利技术通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。

【技术实现步骤摘要】
一种基于部分监督学习的中文概括性文本切分方法
本专利技术属于语言处理
,尤其涉及一种基于部分监督学习的中文概括性文本切分方法。
技术介绍
在自然语言处理任务中,最基础的任务是将一段文本包含最基础语义的块切分出来。而单词恰恰最能符合本专利技术这一任务的要求,在类似英语这一类单词间自带分隔符的语言本专利技术可以通过空格将单词很容易的分割提取出来,但是在中文这种不带分隔符的语言中本专利技术就需要单独进行一项分词任务。目前比较传统的常规做法有两种,其一是基于匹配的方法,即:利用人工构建的词典进行逐字比对的方法进行校验当前比对对象是否成词,当发现当前长度对象已是能够成词的最大长度时,停止比对,将这个对象划分出来后继续下一轮匹配。根据匹配的方向不同又分为前向和后向最大匹配法,其本质方法都是相同的。和这种方法相似的是一种全切分路径选择方法,同样要依靠人工构建的词典,通过词典匹配找出所有可能的切分路径最后通过权值找出一条最优路径。以上介绍的方法最大的缺陷在于对词典的依赖非常严重,也就是说必须需要大量的人工对词典进行不断的更新,并且由于词典的分词粒度不同,对特殊文体的分词效果(例如概括性文本)还深受影响。基于统计的方法,随着计算机计算能力的提升基于统计的方法有了较好的发展例如将每个字进行标注:{B,I,E,S}分别表示词头、词中、词尾、单字词。然后采用隐马尔可夫或条件随机场训练模型,通过训练好的模型对未标注的新句子进行分词。以上统计方法最大缺陷同样是依赖一个大型的语料库,语料库的构建也是由人工手动完成,是十分耗时耗力的工作。综上所述,现有技术存在的问题:依赖大规模的人工数据集,需要大量的人力和时间的耗费;词语认同率低;不能精确的将文本切分成粒度大小合适的单词。
技术实现思路
针对现有技术存在的问题,本专利技术提供了一种基于部分监督学习的中文概括性文本切分方法,在切分效果相同的情况下较传统方法可以节省10%~50%的人工标注数据。本专利技术是这样实现的,一种基于部分监督学习的中文概括性文本切分方法,所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词;所述短文本的特征包括:二元前后文信息,用于贴合短文本分词;三元混合前后文,用于表达出每个空的信息;所述部分监督学习用于在短文本分词中补齐参数。进一步,所述基于部分监督学习的中文概括性文本切分方法具体包括:步骤一,进行特征选择,窗口大小设置为1到3,添加*和&作为开始与结束符:“***自然语言处理&&&”;提取“自然”之间空的窗口大小为o_p1_自,大小为二的后文表示为o_n2_然语;步骤二,得到一个已标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M,M中包含了“分词”和“不分词”两个类别的所有数据;并引入部分监督学习。进一步,所述朴素贝叶斯的分类方法包括:一个Blank集合B={b1,...,bl},每个“空”拥有前后文等特征信息用fn表示,fn来自与训练集中提取的所有特征集合F={f1,f2,...,fn},对于二分类定义一个类别集合C={c1,c2}其中c1表示“分词”类别,相对应c1表示“不分词”类别;为获得某个“空”最可能的分类结果需计算后验概率,根据贝叶斯定理有根据条件独立假设式(1)变形为:选择拉普拉斯平滑公式变形为:其中表示特征f在“空”b中出现的次数除以类别c中特征的总次数;分母中的|V|表示特征的总数量。进一步,部分监督学习方法包括:每两个字之间的空格都看作是一个单独的文档,将所有文档提前定义为两类:“分词”与“不分词”;只标注一小部分的“分词”类别数据然后通过朴素贝叶斯方法进行似然估计和EM算法相结合不断迭代,直至最后训练出一个最优的分类器。进一步,所述EM算法具体包括:首先将p中所有数据赋予c1类别并且在后来的迭代过程中P中数据标签永不改变;然后将M数据集中所有“空”赋予c1类别,此数据的类别将在迭代过程中不断改变;然后利用朴素贝叶斯训练一个初始的分类器initial-classifier,使用这个分类器对M数据集中数据进行分类将结果为c1的数据加入“分词”类别数据集seg中去,反之将c2结果加入“不分词”类别数据集non-seg中;接下来进入EM算法迭代过程,使用朴素贝叶斯算法通过P,seg,non-seg数据集重新建立一个新的分类器再对seg和non-seg进行分类直至收敛得到最终分类器。本专利技术针对中文短文本分词任务主要选取的算法有:朴素贝叶斯和期望最大化算法将中文分词任务转化为文本分类任务,并且长期的实践证明朴素贝叶斯在文本分类任务中有着优秀的效果;并且部分监督学习本身就是一个约束优化问题EM算法正好契合了这一特点。本专利技术为分析中文短文本的分词任务将中文计算机和医学相关论文标题作为实验语料库,其中,a)中文论文标题符合短文本特征并且用词非常准确、正式、减少了数据噪声。b)这类短文本本身十分精炼后期可以做迁移学习。本专利技术通过五组“常规”外加一组“困难”数据集的对照实验证明本专利技术的性能和发现概括性文本的相关特征规律,相同比例(10%-50%)的标注数据情况下(例如共10000条训练数据,其中已标注数据比例为10%即只有1000条需要人工标注而额外9000条不需要任何人工参与)本专利技术较传统方法的精确度提高了平均17%-27%,而通过F值度量的性能平衡度也提升了接近5%-8%的性能,其中最值得提及的在于本专利技术仅使用50%的标注数据即可达到传统的监督学习方法使用100%标注数据的性能。由以上实验结果可见,本专利技术在数据集构建的人力耗费上可以节约大量的资源和时间。此外,总结出概括性文本的特征提取规律如下:二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀。根据实验结果可以看出,二、三元前后文信息混合特征在相同比例标注数据下性能较单独的一元或者三元特征精确度提高了4%-8%不等,单独的二元前后文信息也比单独的一、三元前后文信息提高了平均8%左右的性能。附图说明图1是本专利技术实施提供的基于部分监督学习的中文概括性文本切分方法流程图。图2是本专利技术实施提供的一元前后文(精度)图。图3是本专利技术实施提供的一元前后文(F-score)图。图4是本专利技术实施提供的二元前后文(精度)图。图5是本专利技术实施提供的二元前后文(F-score)图。图6是本专利技术实施提供的三元前后文(精度)图。图7是本专利技术实施提供的三元前后文(F-score)图。图8是本专利技术实施提供的二、三元混合前后文(精度)图。图9是本专利技术实施提供的二、三元混合前后文(F-score)图。图10是本专利技术实施提供的一、二、三元混合前后文(精度)图。图11是本专利技术实施提供的一、二、三元混合前后文(F-score)图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图对本专利技术的应用原理作详细的描述。本专利技术实施例提供的基于部分监督学习的中文概括性文本切分方法,所述基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任本文档来自技高网
...
一种基于部分监督学习的中文概括性文本切分方法

【技术保护点】
一种基于部分监督学习的中文概括性文本切分方法,其特征在于,所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词;所述短文本的特征包括:二元前后文信息,用于贴合短文本分词;三元混合前后文,用于表达出每个空的信息;所述部分监督学习用于在短文本分词中补齐参数。

【技术特征摘要】
1.一种基于部分监督学习的中文概括性文本切分方法,其特征在于,所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词;所述短文本的特征包括:二元前后文信息,用于贴合短文本分词;三元混合前后文,用于表达出每个空的信息;所述部分监督学习用于在短文本分词中补齐参数。2.如权利要求1所述的基于部分监督学习的中文概括性文本切分方法,其特征在于,所述基于部分监督学习的中文概括性文本切分方法具体包括:步骤一,进行特征选择,窗口大小设置为1到3,添加*和&作为开始与结束符:“***自然语言处理&&&”;提取“自然”之间空的窗口大小为o_p1_自,大小为二的后文表示为o_n2_然语;步骤二,得到一个已标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M,M中包含了“分词”和“不分词”两个类别的所有数据;并引入部分监督学习。3.如权利要求2所述的基于部分监督学习的中文概括性文本切分方法,其特征在于,所述朴素贝叶斯的分类方法包括:一个Blank集合B={b1,...,b2},每个“空”拥有前后文等特征信息用fn表示,fn来自与训练集中提取的所有特征集合F={f1,f2,...,fn},对于二分类定义一个类别集合C={c1,c2}其中c1表示“分词”类别,相对应c2表示“不分词”类别;为获得某个“空”最可能的分类结果需计算后验概率,根据贝叶斯定理有根据条件独立假设式(1)变形为:

【专利技术属性】
技术研发人员:王亚强何思佑唐聃舒红平
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1