一种基于部分监督学习的中文概括性文本切分方法技术

技术编号：17912352 阅读：71 留言：0更新日期：2018-05-10 18:14

本发明专利技术属于语言处理技术领域，公开了一种基于部分监督学习的中文概括性文本切分方法，将中文短文本分词任务看作二分类或者三分类问题，并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明专利技术通过五组外加一组“困难”数据集的对照实验，不难发现短文本分词的结果深受前后文信息长度的影响，其中二元前后文信息最能贴合短文本分词的特征，能够有效提高分词性能；二、三元混合特征更能表达出每个“空”的信息其性能最优秀，再多或者再少就会损失性能了；部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力，能够大大的减少人工标注的工作并且获得更加优秀的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于部分监督学习的中文概括性文本切分方法
本专利技术属于语言处理
，尤其涉及一种基于部分监督学习的中文概括性文本切分方法。
技术介绍
在自然语言处理任务中，最基础的任务是将一段文本包含最基础语义的块切分出来。而单词恰恰最能符合本专利技术这一任务的要求，在类似英语这一类单词间自带分隔符的语言本专利技术可以通过空格将单词很容易的分割提取出来，但是在中文这种不带分隔符的语言中本专利技术就需要单独进行一项分词任务。目前比较传统的常规做法有两种，其一是基于匹配的方法，即：利用人工构建的词典进行逐字比对的方法进行校验当前比对对象是否成词，当发现当前长度对象已是能够成词的最大长度时，停止比对，将这个对象划分出来后继续下一轮匹配。根据匹配的方向不同又分为前向和后向最大匹配法，其本质方法都是相同的。和这种方法相似的是一种全切分路径选择方法，同样要依靠人工构建的词典，通过词典匹配找出所有可能的切分路径最后通过权值找出一条最优路径。以上介绍的方法最大的缺陷在于对词典的依赖非常严重，也就是说必须需要大量的人工对词典进行不断的更新，并且由于词典的分词粒度不同，对特殊文体的分词效果(例如概括性文本)还深受影响。基于统计的方法，随着计算机计算能力的提升基于统计的方法有了较好的发展例如将每个字进行标注：{B，I，E，S}分别表示词头、词中、词尾、单字词。然后采用隐马尔可夫或条件随机场训练模型，通过训练好的模型对未标注的新句子进行分词。以上统计方法最大缺陷同样是依赖一个大型的语料库，语料库的构建也是由人工手动完成，是十分耗时耗力的工作。综上所述，现有技术存在的问题：依赖大规模的人...
一种基于部分监督学习的中文概括性文本切分方法

【技术保护点】
一种基于部分监督学习的中文概括性文本切分方法，其特征在于，所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词；所述短文本的特征包括：二元前后文信息，用于贴合短文本分词；三元混合前后文，用于表达出每个空的信息；所述部分监督学习用于在短文本分词中补齐参数。

【技术特征摘要】
1.一种基于部分监督学习的中文概括性文本切分方法，其特征在于，所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词；所述短文本的特征包括：二元前后文信息，用于贴合短文本分词；三元混合前后文，用于表达出每个空的信息；所述部分监督学习用于在短文本分词中补齐参数。2.如权利要求1所述的基于部分监督学习的中文概括性文本切分方法，其特征在于，所述基于部分监督学习的中文概括性文本切分方法具体包括：步骤一，进行特征选择，窗口大小设置为1到3，添加*和&作为开始与结束符：“***自然语言处理&&&”；提取“自然”之间空的窗口大小为o_p1_自，大小为二的后文表示为o_n2_然语；步骤二，得到一个已标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M，M中包含了“分词”和“不分词”两个类别的所有数据；并引入部分监督学习。3.如权利要求2所述的基于部分监督学习的中文概括性文本切分方法，其特征在于，所述朴素贝叶斯的分类方法包括：一个Blank集合B＝{b1，...，b2}，每个“空”拥有前后文等特征信息用fn表示，fn来自与训练集中提取的所有特征集合F＝{f1，f2，...，fn}，对于二分类定义一个类别集合C＝{c1，c2}其中c1表示“分词”类别，相对应c2表示“不分词”类别；为获得某个“空”最可能的分类结果需计算后验概率，根据贝叶斯定理有根据条件独立假设式(1)变形为：

【专利技术属性】
技术研发人员：王亚强，何思佑，唐聃，舒红平，
申请(专利权)人：成都信息工程大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人