System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于结构化数据的自适应实体识别分类方法及系统技术方案_技高网

基于结构化数据的自适应实体识别分类方法及系统技术方案

技术编号:39945589 阅读:6 留言:0更新日期:2024-01-08 22:54
本申请涉及一种基于结构化数据的自适应实体识别分类方法及系统,该方法包括:获取初始化数据计算特征,训练若干个分类模型;获取测试数据输入训练后的分类模型,得到相应的预测概率,将预测概率均与预设预测概率阈值比较;在预测概率均小于预测概率阈值时,调用预设聚类模型对测试数据的聚类特征进行第一层聚类和第二层聚类,获得合并后的聚类结果并判断;若聚类结果为聚类成功,则按照预设打标方式批量打标,得到新的训练数据,并重新计算特征更新分类模型识别实体。通过自训练、自聚类和批量标注相结合的方式循环迭代更新模型和知识库,保障了分类模型强大的自学习能力,并由高效聚类方法结合人工批量标注极大地减少了人工介入的程度。

【技术实现步骤摘要】

本公开涉及数据处理,尤其涉及一种基于结构化数据的自适应实体识别分类方法及系统


技术介绍

1、近年来,随着互联网和人工智能技术的迅猛发展,大量的数据被产生和积累,数据的来源广泛、标签多样,且杂化冗余,给企业间和部门间数据的流通带来了巨大的挑战。需要说明的是,对批量数据进行快速地识别和及时有效地归类,不仅能够帮助企业从宏观上对批量数据的构成有整体的认识,还能够帮助企业发现不规范的数据,从而使得企业的数据管理和维护更加高效。

2、目前,市面上的分类系统需要大量的数据进行训练,模型需要占用大量的存储资源,同时一旦出现新类别的数据,就需要找到大量数据进行人工打标,导致模型迭代的周期和成本过大。


技术实现思路

1、有鉴于此,本申请提出一种基于结构化数据的自适应实体识别分类方法及系统,以解决上述问题。

2、本申请第一方面,提出一种基于结构化数据的自适应实体识别分类方法,包括如下步骤:

3、获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型;

4、获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较;

5、在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断;

6、若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体;

7、其中,所述第一层聚类采用dbscan聚类,所述第二次聚类采用fcm和pca相结合聚类,并采用bisecting-kmeans选择所述fcm的参数c。

8、作为本申请的一可选实施方案,可选地,获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型,包括:

9、获取初始化数据;

10、分别计算所述初始化数据的固定特征、动态特征以及余弦距离特征;

11、根据所述固定特征、所述动态特征和所述余弦距离特征训练若干个分类模型,并保存训练后的分类模型以及关键字提取结果。

12、作为本申请的一可选实施方案,可选地,获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率与预设的预测概率阈值相比较,包括:

13、获取测试数据;

14、计算所述测试数据的聚类特征和分类特征;

15、将所述分类特征分别输入训练后的若干个所述分类模型进行预测,相对获得若干个预测概率,均与预设的预测概率阈值进行比较。

16、作为本申请的一可选实施方案,可选地,所述预测概率阈值的取值范围为[0,1]。

17、作为本申请的一可选实施方案,可选地,调用预先设置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断,包括:

18、设定所述dbscan的参数后,将所述测试数据的聚类特征输入所述dbscan进行第一层聚类,获得第一层聚类结果;

19、在所述第一层聚类结果为-1时,对相应的所述第一层聚类结果采用所述fcm进行10次聚类后,由所述pca降维,并对降维后的第二层聚类特征进行第二层dbscan聚类,获得第二次聚类结果,按照预设规则与所述第一层聚类结果合并,得到聚类结果;

20、在所述第一层聚类结果不为-1时,保存相应的所述第一层聚类结果。

21、作为本申请的一可选实施方案,可选地,还包括:

22、在至少一个所述预测概率大于所述预测概率阈值时,选择符合预设标准的所述预测概率,并保存相应的实体预测结果。

23、作为本申请的一可选实施方案,可选地,还包括:

24、若所述聚类结果为聚类失败,则将相应的所述测试数据加入新的所述测试数据中预测。

25、本申请第二方面,提供一种系统,用于实现上述任一项所述的基于结构化数据的自适应实体识别分类方法,包括:

26、初始化训练模块,被配置为获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型;

27、分类模块,被配置为获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率均与预设的预测概率阈值相比较;

28、聚类模块,被配置为在所述预测概率均小于所述预测概率阈值时,调用预先配置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断;

29、打标模块,被配置为若所述聚类结果为聚类成功,则按照预设的打标方式进行批量打标,得到新的训练数据,通过新的所述训练数据重新计算特征更新所述分类模型,并利用更新后的所述分类模型识别实体。

30、本申请第三方面,提供一种电子设备,包括:

31、处理器;

32、用于存储处理器可执行指令的存储器;

33、其中,所述处理器被配置为执行所述可执行指令时实现上述任一项所述的基于结构化数据的自适应实体识别分类方法。

34、本申请第四方面,非易失性计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任意一项所述的基于结构化数据的自适应实体识别分类方法。

35、本专利技术的技术效果:

36、本申请通过自训练、自聚类和批量标注相结合的方式循环迭代更新模型和知识库,保障了分类模型强大的自学习能力,同时,通过高效的聚类方法结合人工批量标注极大地减少了人工介入的程度。具体而言,通过双层聚类为分类模型提供种类多、高纯度的训练数据,不仅层与层之间采用不同特征,并且后一层特征是基于前一层特征的聚类结果进行构建的,能够保障聚类速度相对较快的同时,是实现高纯度的聚类效果,待用户对聚类后的每一数据堆批量打标后,即可加入到训练数据中迭代分类模型,自适应识别不同场景下的实体,有效的减少了大量人工打标的时间,同时还能更快的实现模型迭代,从而适应不同垂直领域的需求。

37、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

本文档来自技高网...

【技术保护点】

1.一种基于结构化数据的自适应实体识别分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于结构化数据的自适应实体识别分类方法,其特征在于,获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型,包括:

3.根据权利要求1所述的基于结构化数据的自适应实体识别分类方法,其特征在于,获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率与预设的预测概率阈值相比较,包括:

4.根据权利要求3所述的基于结构化数据的自适应实体识别分类方法,其特征在于,所述预测概率阈值的取值范围为[0,1]。

5.根据权利要求1所述的基于结构化数据的自适应实体识别分类方法,其特征在于,调用预先设置的聚类模型对所述测试数据的聚类特征依次进行第一层聚类和第二层聚类,获得合并后的聚类结果,并对所述聚类结果进行判断,包括:

6.根据权利要求1-5中任一项所述的基于结构化数据的自适应实体识别分类方法,其特征在于,还包括:

7.根据权利要求6所述的基于结构化数据的自适应实体识别分类方法,其特征在于,还包括:

8.一种系统,用于实现权利要求1-7中任一项所述的基于结构化数据的自适应实体识别分类方法,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的基于结构化数据的自适应实体识别分类方法。

...

【技术特征摘要】

1.一种基于结构化数据的自适应实体识别分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于结构化数据的自适应实体识别分类方法,其特征在于,获取初始化数据,根据所述初始化数据计算特征,训练若干个分类模型,并保存训练后的分类模型,包括:

3.根据权利要求1所述的基于结构化数据的自适应实体识别分类方法,其特征在于,获取测试数据输入训练后的若干个所述分类模型,分别得到相应的预测概率,将所述预测概率与预设的预测概率阈值相比较,包括:

4.根据权利要求3所述的基于结构化数据的自适应实体识别分类方法,其特征在于,所述预测概率阈值的取值范围为[0,1]。

5.根据权利要求1所述的基于结构化数据的自适应实体识别分类方法,其特征在于,调用预先设置...

【专利技术属性】
技术研发人员:张蕾徐健荣周赛吴旦萍杨文志徐刚
申请(专利权)人:数安云智杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1