一种基于聚类算法的小样本事件要素智能抽取方法技术

技术编号:41739077 阅读:22 留言:0更新日期:2024-06-19 12:58
本发明专利技术公开了一种基于聚类算法的小样本事件要素智能抽取方法,采用Word2Vec模型对文本数据进行向量化处理,所述文本数据包含已标注的文本数据和未标注的文本数据;利用K‑means算法对向量化后的样本进行聚类,依据文本向量之间的相似度将样本划分为K个类簇,以每个簇的中心作为该簇的代表;利用信息熵计算每个类簇中的每个样本在该类簇中的相似度权重,选取信息熵相似度权重最高的多个样本作为该类簇的代表性样本,每个类簇的代表性样本构成一个初始训练样本集;构建训练各初始训练样本集对应的子分类器UIE‑F,在每轮迭代中,根据分类器的预测结果和选定样本进行标注,以增量学习的方式不断优化分类器。本发明专利技术提高了事件抽取方法在小样本条件下的性能,也提高了事件要素抽取的泛用性和准确性。

【技术实现步骤摘要】

本专利技术专利涉及自然语言处理中信息抽取技术,具体涉及一种基于聚类算法的小样本事件要素智能抽取方法


技术介绍

1、在大数据时代下,随着信息爆炸式增长,如何从海量文本数据中抽取事件要素成为自然语言处理领域的一个关键问题。传统的事件要素抽取方法依赖于大量已标注的高质量数据来进行训练,然而这种方法存在一定的局限性。

2、首先,传统事件要素抽取方法通常依赖于大规模已标注的数据集。然而在数据标注成果受限程度较高、数据获取难度大的垂直细分领域,可搜集到的已标注的数据集非常有限,这使得模型难以获得足够的训练信息,难以应用传统的事件要素抽取方法。

3、其次,在涉及专业术语、领域特有事件描述时,传统的事件要素抽取方法存在领域适应性差的问题,无法感知特殊语境和术语,导致抽取性能下降。


技术实现思路

1、本专利技术的目的在于提出一种基于聚类算法的小样本下条件事件要素智能抽取方法,解决因缺乏足量的标注数据,导致事件要素抽取精度低的问题。

2、实现本专利技术目的的技术解决方案为:一种基于聚类算法的本文档来自技高网...

【技术保护点】

1.一种基于聚类算法的小样本事件要素智能抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽取方法,其特征在于,步骤1,采用Word2Vec模型对文本数据进行向量化处理,具体方法为:

3.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽取方法,其特征在于,步骤2,利用K-means算法对向量化后的样本进行聚类,依据文本向量之间的相似度将样本划分为K个类簇,以每个簇的中心作为该簇的代表,具体方法为:

4.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽取方法,其特征在于,步骤3,利用信息熵计算每个类...

【技术特征摘要】

1.一种基于聚类算法的小样本事件要素智能抽取方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽取方法,其特征在于,步骤1,采用word2vec模型对文本数据进行向量化处理,具体方法为:

3.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽取方法,其特征在于,步骤2,利用k-means算法对向量化后的样本进行聚类,依据文本向量之间的相似度将样本划分为k个类簇,以每个簇的中心作为该簇的代表,具体方法为:

4.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽取方法,其特征在于,步骤3,利用信息熵计算每个类簇中的每个样本在该类簇中的相似度权重,选取信息熵相似度权重最高的多个样本作为该类簇的代表性样本,每个类簇的代表性样本构成一个初始训练样本集,具体方法为:

5.根据权利要求1所述的基于聚类算法的小样本事件要素智能抽...

【专利技术属性】
技术研发人员:顾爽胡惊涛任岩印涌强杨婷蒙森荣韩云飞昝骁毓
申请(专利权)人:苏州空天信息研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1