System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据分类标签识别的方法、装置、存储介质及电子设备制造方法及图纸_技高网

数据分类标签识别的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:40529456 阅读:6 留言:0更新日期:2024-03-01 13:49
本申请提供了一种数据分类标签识别的方法、装置、存储介质及电子设备,该方法包括:对招标文件进行划分,得到文本区域,其中,所述文本区域包括以下中的至少一种:标题区域、正文区域、附件区域和设定标签相关信息区域;基于设定标签,对所述文本区域中的每个文本区域进行加权计算,获取每个文本区域的每个区域权重值,其中,所述每个区域权重值与所述每个文本区域对于所述设定标签的重要程度成正比;根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果,其中,所述目标标签为多个。本申请的一些实施例可以提升数据分类标签识别的准确度。

【技术实现步骤摘要】

本申请涉及数据分类,具体而言,涉及一种数据分类标签识别的方法、装置、存储介质及电子设备


技术介绍

1、随着自然语言处理领域的不断发展,数据分类称为数据分析中的重要环节。

2、目前,通过构建好标签对应的词库,之后利用正则匹配的方式对输入的文本内容进行匹配,确认文本内容中是否存在相关词语对应的标签,最后通过词语和标签的相关性,得到文本内容所属的标签。然而,通过上述直接匹配的方式可能会存在将文本内容中的无关特征与标签进行匹配的问题,影响最终分类标签识别的准确度。

3、因此,如何提供一种准确度较高的数据分类标签识别的方法的技术方案成为亟需解决的技术问题。


技术实现思路

1、本申请的一些实施例的目的在于提供一种数据分类标签识别的方法、装置、存储介质及电子设备,通过本申请的实施例的技术方案可以提升分类标签识别的准确度,成本较低。

2、第一方面,本申请的一些实施例提供了一种数据分类标签识别的方法,包括:对招标文件进行划分,得到文本区域,其中,所述文本区域包括以下中的至少一种:标题区域、正文区域、附件区域和设定标签相关信息区域;基于设定标签,对所述文本区域中的每个文本区域进行加权计算,获取每个文本区域的每个区域权重值,其中,所述每个区域权重值与所述每个文本区域对于所述设定标签的重要程度成正比;根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果,其中,所述目标标签为多个。

3、本申请的一些实施例通过对招标文件进行划分得到文本区域后,可以基于设定标签,为每个文本区域进行加权计算,得到每个区域权重值,最后结合每个文本区域中基于目标标签的预测值,得到最终的目标标签的排序结果。本申请的一些实施例通过获取每个区域权重值和每个文本区域所属的目标标签的预测值,综合得到排序结果,可以提升数据分类的准确度,提升了对招标文件进行分类标签识别的精准度,且降低了人力和研发成本。

4、在一些实施例,所述对招标文件进行划分,得到文本区域,包括:利用预先训练好的标题处理模型对所述招标文件的原始标题进行分类,得到所述原始标题的分类结果,其中,所述分类结果包括:招标机构、标的和公告类型;按照预设条件对所述分类结果进行筛选,得到所述标题区域。

5、本申请的一些实施例通过标题处理模型可以对招标文件的原始标题进行分类后筛选出所需的满足预设条件的标题区域,可以得到准确、完整且可靠的数据。

6、在一些实施例,所述基于设定标签,对所述文本区域中的每个文本区域进行加权计算,获取每个文本区域的每个区域权重值,包括:获取所述每个文本区域基于所述设定标签预设的每个权重;对所述每个文本区域和所述每个权重进行加权求和,得到所述每个区域权重值。

7、本申请的一些实施例通过对每个文本区域设定不同的权重,采用加权求和的方式得到每个区域权重值,可以通过权重区分不同文本区域的重要程度,提升后续数据分类标签识别的准确度。

8、在一些实施例,在所述根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果之前,所述方法还包括:对所述招标文件中含有的所述目标标签进行赋值,得到关键词系数,其中,所述关键词系数为至少一个,所述关键词系数是通过对所述目标标签中每个目标标签相关的关键词相关度进行分析得到的;其中,所述目标标签包括以下中的至少两种:项目申报标签、项目复批标签、环境影响评价标签、项目可研标签、项目立项标签、审批设计标签、工程规划标签、施工许可标签和竣工验收标签。

9、本申请的一些实施例通过对招标文件中含有的目标标签基于关键词相关度进行赋值得到关键词系数,以此区分目标标签的重要程度,提升后续数据分类标签识别的准确度。

10、在一些实施例,所述每个文本区域中的目标标签的预测值是通过如下方法获取的:获取所述每个文本区域中含有的区域关键词,通过所述区域关键词确认属于所述目标标签相关的关键词集合,得到所述关键词集合对应的所述关键词系数;确认所述区域关键词命中项目阶段表格,获取区域系数;将所述关键词系数和所述区域系数相乘,得到所述预测值。

11、本申请的一些实施例通过关键词系数和区域系数得到目标标签的预测值,为后续数据分类标签识别的准确度提升支持。

12、在一些实施例,所述根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果之前,包括:将所述每个区域权重值和所述目标标签的预测值输入到双重赋权预测模型中,输出所述目标标签中每个目标标签对应的相关度值;对所有的每个目标标签对应的相关度值进行排序,得到所述排序结果。

13、本申请的一些实施例通过双重赋权预测模型对每个区域权重值和目标标签的预测值进行融合计算,得到排序结果,以此提升数据分类标签识别的准确度。

14、第二方面,本申请的一些实施例提供了一种数据分类标签识别的装置,包括:划分模块,用于对招标文件进行划分,得到文本区域,其中,所述文本区域包括以下中的至少一种:标题区域、正文区域、附件区域和设定标签相关信息区域;加权模块,用于基于设定标签,对所述文本区域中的每个文本区域进行加权计算,获取每个文本区域的每个区域权重值,其中,所述每个区域权重值与所述每个文本区域对于所述设定标签的重要程度成正比;排序模块,用于根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果,其中,所述目标标签为多个。

15、在一些实施例,所述划分模块,用于:利用预先训练好的标题处理模型对所述招标文件的原始标题进行分类,得到所述原始标题的分类结果,其中,所述分类结果包括:招标机构、标的和公告类型;按照预设条件对所述分类结果进行筛选,得到所述标题区域。

16、第三方面,本申请的一些实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现如第一方面任一实施例所述的方法。

17、第四方面,本申请的一些实施例提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述程序时可实现如第一方面任一实施例所述的方法。

18、第五方面,本申请的一些实施例提供一种计算机程序产品,所述的计算机程序产品包括计算机程序,其中,所述的计算机程序被处理器执行时可实现如第一方面任一实施例所述的方法。

本文档来自技高网...

【技术保护点】

1.一种数据分类标签识别的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述对招标文件进行划分,得到文本区域,包括:

3.如权利要求1或2所述的方法,其特征在于,所述基于设定标签,对所述文本区域中的每个文本区域进行加权计算,获取每个文本区域的每个区域权重值,包括:

4.如权利要求1或2所述的方法,其特征在于,在所述根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果之前,所述方法还包括:

5.如权利要求4所述的方法,其特征在于,所述每个文本区域中的目标标签的预测值是通过如下方法获取的:

6.如权利要求1或2所述的方法,其特征在于,所述根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果之前,包括:

7.一种数据分类标签识别的装置,其特征在于,包括:

8.如权利要求7所述的装置,其特征在于,所述划分模块,用于:

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中,所述计算机程序被处理器运行时执行如权利要求1-6中任意一项权利要求所述的方法。

10.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并在所述处理器上运行的计算机程序,其中,所述计算机程序被所述处理器运行时执行如权利要求1-6中任意一项权利要求所述的方法。

...

【技术特征摘要】

1.一种数据分类标签识别的方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述对招标文件进行划分,得到文本区域,包括:

3.如权利要求1或2所述的方法,其特征在于,所述基于设定标签,对所述文本区域中的每个文本区域进行加权计算,获取每个文本区域的每个区域权重值,包括:

4.如权利要求1或2所述的方法,其特征在于,在所述根据所述每个区域权重值和所述每个文本区域中的目标标签的预测值,获取所述目标标签的排序结果之前,所述方法还包括:

5.如权利要求4所述的方法,其特征在于,所述每个文本区域中的目标标签的预测值是通过如下方法获取的:

6.如权利要求1或2所述的方法,其...

【专利技术属性】
技术研发人员:左云超梁达
申请(专利权)人:北京千里马网信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1