【技术实现步骤摘要】
一种基于半监督学习的汉语并列结构自动识别方法
[0001]本专利技术涉及一种基于半监督学习的汉语并列结构自动识别方法,语料识别
技术介绍
[0002]并列结构的识别问题可转化为序列标注问题,因而目前主流的识别方法是基于统计的有监督学习方法,利用机器学习模型与语言学特征的有机结合来选取最佳标注序列,完全依赖于标注语料进行研究。另外,还有基于规则和规则与统计相融合的方法。基于规则即由人为制定符合并列结构形式的规则,根据一系列规则“套出”句子中的并列短语。以往研究表明基于统计较基于规则的方法效果相对较优,原因主要是规则的建立具有较强的主观性,“机动性”较差,且规则之间易产生互斥,并列短语除单层短语外还存在着复杂多变的嵌套结构,这使规则无法完全覆盖。
[0003]基于统计的方法取得的效果相对较好,但其对标注语料的依赖难以适应小语料研究,从语料中获取的有监督特征涵盖面狭隘,无法有效利用未标注语料信息补足特征单一的缺陷,而人工扩大标注语料库则需要付出大量的人力、时间成本。因此并列结构研究语料不足也成为其自动识别的一道障 ...
【技术保护点】
【技术特征摘要】
1.一种基于半监督学习的汉语并列结构自动识别方法,其特征在于:Step1:将有标注语料按比例划分成测试集与训练集两部分;Step2:基于有标注语料提取并列结构的语言学特征;Step3:基于未标注语料,选取语言模型,训练词向量,从词向量中提取无监督特征;Step4:将语言学特征和无监督特征分别作为测试集和数据集的特征进行考察;Step5:将语言学特征和无监督特征的不同组合特征作为测试集和数据集的特征进行考察;Step6:根据不同的特征制定相对适宜的特征模板;Step7:利用训练数据训练CRF模型,接着将带标签测试数据作为待识别文本数据输入训练完成的CRF模型中进行预测识别,输出有自带标签和预测标签的文本。2.根据权利要求1所述的基于半监督学习的汉语并列结构自动识别方法,其特征在于所...
【专利技术属性】
技术研发人员:邵玉,杨丹,龙华,杜庆治,张海玲,杨陈菊,
申请(专利权)人:昆明理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。