一种基于半监督学习的汉语并列结构自动识别方法技术

技术编号：28060643 阅读：26 留言：0更新日期：2021-04-14 13:38

本发明专利技术涉及一种基于半监督学习的汉语并列结构自动识别方法，语料识别技术领域。首先，根据并列结构的外部特征和内部成分的语义相似性，在CRF模型中融入词语长度、是否连接词、同义词编码三个语言学特征，考察不同语言学特征及其组合对并列结构的识别效果的影响；其次，利用大量未标注语料训练词向量，再将训练出的连续的词向量转化为离散高维的适合线性CRF的表达，此种表达即作为无监督特征融入到CRF模型中，考察不同无监督特征及其组合的识别效果。最后，将语言学特征与无监督特征作不同的组合实验，考察两种类型特征的共同作用是否会对识别效果产生更大的影响。本发明专利技术提取的无监督特征能有效应用于并列结构的识别中，提高了模型识别的F值。高了模型识别的F值。高了模型识别的F值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于半监督学习的汉语并列结构自动识别方法

[0001]本专利技术涉及一种基于半监督学习的汉语并列结构自动识别方法，语料识别

技术介绍

[0002]并列结构的识别问题可转化为序列标注问题，因而目前主流的识别方法是基于统计的有监督学习方法，利用机器学习模型与语言学特征的有机结合来选取最佳标注序列，完全依赖于标注语料进行研究。另外，还有基于规则和规则与统计相融合的方法。基于规则即由人为制定符合并列结构形式的规则，根据一系列规则“套出”句子中的并列短语。以往研究表明基于统计较基于规则的方法效果相对较优，原因主要是规则的建立具有较强的主观性，“机动性”较差，且规则之间易产生互斥，并列短语除单层短语外还存在着复杂多变的嵌套结构，这使规则无法完全覆盖。
[0003]基于统计的方法取得的效果相对较好，但其对标注语料的依赖难以适应小语料研究，从语料中获取的有监督特征涵盖面狭隘，无法有效利用未标注语料信息补足特征单一的缺陷，而人工扩大标注语料库则需要付出大量的人力、时间成本。因此并列结构研究语料不足也成为其自动识别的一道障碍。
[00本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于半监督学习的汉语并列结构自动识别方法，其特征在于：Step1：将有标注语料按比例划分成测试集与训练集两部分；Step2：基于有标注语料提取并列结构的语言学特征；Step3：基于未标注语料，选取语言模型，训练词向量，从词向量中提取无监督特征；Step4：将语言学特征和无监督特征分别作为测试集和数据集的特征进行考察；Step5：将语言学特征和无监督特征的不同组合特征作为测试集和数据集的特征进行考察；Step6：根据不同的特征制定相对适宜的特征模板；Step7：利用训练数据训练CRF模型，接着将带标签测试数据作为待识别文本数据输入训练完成的CRF模型中进行预测识别，输出有自带标签和预测标签的文本。2.根据权利要求1所述的基于半监督学习的汉语并列结构自动识别方法，其特征在于所...

【专利技术属性】
技术研发人员：邵玉，杨丹，龙华，杜庆治，张海玲，杨陈菊，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人