一种识别主题域的方法、系统及电子设备技术方案

技术编号:36905048 阅读:55 留言:0更新日期:2023-03-18 09:24
本申请公开了一种识别主题域的方法、系统及电子设备,该方法包括:获取训练文本、测试文本以及测试文本对应的测试主题域标签真实值;基于训练文本,对第一模型进行训练,得到第二模型;确认第二模型满足预设条件后,将测试文本输入第二模型,得到测试文本对应的测试主题域标签预测值;计算测试主题域标签预测值与测试主题域标签真实值之间的测试检验指标值;若测试检验指标值达到预设阈值,通过第二模型对新文本的主题域进行识别,得到新文本对应的主题域标签。通过本申请实施例提供的技术方案,避免了人工匹配关键词、人工总结主题域规则,从而降低了人工成本,提升了主题域的识别效率以及主题域的识别准确率。以及主题域的识别准确率。以及主题域的识别准确率。

【技术实现步骤摘要】
一种识别主题域的方法、系统及电子设备


[0001]本申请涉及数据智能治理
,尤其涉及一种识别主题域的方法、系统及电子设备。

技术介绍

[0002]随着大数据时代的到来,在各行各业的生产、运营以及管理中,产生了大量数据,而这些数据逐渐成为支撑各业务部门运行的核心资产。因此,通过构建合理、高效的数据管理平台来加强对数据的管理十分重要。
[0003]在数据管理平台中,通过对数据进行分类可以更好的对数据资源进行管理,进而有利于对数据资源的进一步挖掘与使用。因此,对数据进行分类成为数据管理平台中必不可少的一环。其中,对数据进行分类主要是按照业务模块对数据进行分类,即主题域识别。而主题域通常是指联系较为紧密的数据主题集合。
[0004]目前,主题域识别主要通过人工校验或规则匹配来识别主题域。其中,人工校验主要是通过人工制定规则,借助数据表名称中的关键词来识别主题域的类别;规则匹配主要是整理关键词列表,将待匹配数据表的文本信息与关键词列表进行比对,在关键词列表中识别出与待匹配数据表的文本信息最相近的关键词,并将该关键词作为主题域的类别。
[0005]然而,在进行主题域识别时,当数据量增大时,上述人工校验和上述规则匹配均需要耗费大量时间来对关键词进行整理,导致主题域的识别效率低;此外,上述人工校验和上述规则匹配所总结的规则均是针对原有的数据总结的,当数据多样性增加时,现有数据与原有数据差异较大,使得该规则对现有数据的适应性较差,导致人工校验和规则匹配的泛化能力较弱,即人工校验与规则匹配对新型数据表的主题域识别能力较弱,进而导致主题域的识别准确率低。

技术实现思路

[0006]本申请提供了一种识别主题域的方法、系统及电子设备,用以解决主题域识别效率低以及识别准确率低的问题。具体实现方案如下:
[0007]第一方面,本申请提供了一种识别主题域的方法,所述方法包括:
[0008]获取训练文本、测试文本以及所述测试文本对应的测试主题域标签真实值,其中,所述训练文本是在模型训练时使用的输入文本,所述测试文本是在训练后的模型进行测试时使用的输入文本,所述训练文本与所述测试文本是不同的数据表经过相同的数据表处理操作后得到的文本,所述测试主题域标签真实值是所述测试文本中的每一张数据表确定出的真实主题域标签;
[0009]基于所述训练文本,对第一模型进行训练,得到第二模型,其中,所述第一模型是基于深度学习的文本分类模型;
[0010]确认所述第二模型满足预设条件后,将所述测试文本输入所述第二模型,得到所述测试文本对应的测试主题域标签预测值;
[0011]计算所述测试主题域标签预测值与所述测试主题域标签真实值之间的测试检验指标值;
[0012]若所述测试检验指标值达到预设阈值,通过所述第二模型对新文本的主题域进行识别,得到所述新文本对应的主题域标签,其中,所述新文本是新数据表经所述数据表处理操作后得到的文本。
[0013]通过将深度学习文本分类模型应用到主题域识别中,在对N张数据表进行数据表处理操作得到训练文本、测试文本以及测试文本对应的测试主题域标签真实值后,对深度学习文本分类模型进行训练,以此来提取训练文本的深度特征,在训练后的深度学习文本分类模型的测试效果满足预设阈值后,即可将该训练后的深度学习文本分类模型用于识别新数据表的主题域,避免了人工匹配关键词、人工总结主题域规则效率低、泛化能力不够的问题,降低了人工成本,提升了主题域的识别效率以及主题域的识别准确率。
[0014]在一种可能的设计中,所述获取训练文本、测试文本以及所述测试文本对应的测试主题域标签真实值,包括:
[0015]获取N张数据表,其中,N是大于零的整数;
[0016]针对所述N张数据表中的每一张数据表,均执行以下数据表处理操作:
[0017]获取数据表对应的数据表中文名;
[0018]基于文本关键词提取方法,提取所述数据表对应的M个关键词,其中,M是大于零的整数;
[0019]将所述M个关键词与所述数据表中文名进行拼接,得到拼接后的第一文本;
[0020]按照数据处理方式对所述第一文本进行处理,得到处理后的第二文本;
[0021]确定所述数据表对应的主题域标签真实值;
[0022]在对所述N张数据表中的每一张数据表完成所述数据表处理操作后,得到相应的N个第二文本以及相应的N个主题域标签真实值,其中,所述N个第二文本与所述N个主题域标签真实值具有一一对应的关系;
[0023]按照预设比例对所述N个第二文本以及每个第二文本对应的主题域标签真实值进行划分,得到训练文本、测试文本、所述训练文本对应的训练主题域标签真实值、所述测试文本对应的测试主题域标签真实值。
[0024]基于数据表名称信息、数据表中存储的字段信息以及文本关键词提取方法,对数据表进行了数据表处理操作,得到了训练文本、测试文本以及测试文本对应的测试主题域标签真实值,为模型训练以及模型测试提供了各自的输入文本,并且为模型性能的计算提供了真实值;此外,由于训练文本以及测试文本不仅用到了数据表的名称信息,还用到了数据表中存储的字段信息,并且还通过文本关键词提取方法筛选关键词来对训练文本以及测试文本进行了补充,进而提升了主题域的识别准确率。
[0025]在一种可能的设计中,所述基于文本关键词提取方法,提取所述数据表对应的M个关键词,包括:
[0026]获取所述数据表对应的数据表字段;
[0027]通过对所述数据表字段进行清洗、分词,得到由单字或词语组成的字段文本信息列表;
[0028]在所述字段文本信息列表中,基于文本关键词提取的计算公式,计算每一个词的
文本关键词提取值;
[0029]根据所述字段文本信息列表中每一个词对应的文本关键词提取值,将文本关键词提取值最高的前M个词作为所述数据表对应的M个关键词。
[0030]通过清洗、分词处理对数据表对应的数据表字段进行处理后,基于文本关键词提取方法,计算了每一个词的文本关键词提取值,通过比较文本关键词提取值的大小,将文本关键词提取值最高的前M个词作为数据表对应的关键词,以此来提取了数据表对应的M个关键词,进而为得到训练文本以及测试文本提供了基础;同时用到了数据表中存储的字段信息,并通过文本关键词提取方法补充了训练文本以及测试文本的内容,进而提升了主题域的识别准确率。
[0031]在一种可能的设计中,所述按照数据处理方式对所述第一文本进行处理,得到处理后的第二文本,包括:
[0032]基于数据清洗的方式,过滤所述第一文本中的指定数据;
[0033]通过文本分词对清洗后的第一文本进行分词处理,得到由单字或词语组成的文本列表;
[0034]根据文本转化方式,将所述文本列表转化为词向量形式的文本,得到第二文本。
[0035]通过对第一文本进行清洗、分词、词向量转化的处理操作,避免了计算机无法处理人类语言词汇的问题,同时为得到训练文本以及测试文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别主题域的方法,其特征在于,所述方法包括:获取训练文本、测试文本以及所述测试文本对应的测试主题域标签真实值,其中,所述训练文本是在模型训练时使用的输入文本,所述测试文本是在训练后的模型进行测试时使用的输入文本,所述训练文本与所述测试文本是不同的数据表经过相同的数据表处理操作后得到的文本,所述测试主题域标签真实值是所述测试文本中的每一张数据表确定出的真实主题域标签;基于所述训练文本,对第一模型进行训练,得到第二模型,其中,所述第一模型是基于深度学习的文本分类模型;确认所述第二模型满足预设条件后,将所述测试文本输入所述第二模型,得到所述测试文本对应的测试主题域标签预测值;计算所述测试主题域标签预测值与所述测试主题域标签真实值之间的测试检验指标值;若所述测试检验指标值达到预设阈值,通过所述第二模型对新文本的主题域进行识别,得到所述新文本对应的主题域标签,其中,所述新文本是新数据表经所述数据表处理操作后得到的文本。2.如权利要求1所述的方法,其特征在于,所述获取训练文本、测试文本以及所述测试文本对应的测试主题域标签真实值,包括:获取N张数据表,其中,N是大于零的整数;针对所述N张数据表中的每一张数据表,均执行以下数据表处理操作:获取数据表对应的数据表中文名;基于文本关键词提取方法,提取所述数据表对应的M个关键词,其中,M是大于零的整数;将所述M个关键词与所述数据表中文名进行拼接,得到拼接后的第一文本;按照数据处理方式对所述第一文本进行处理,得到处理后的第二文本;确定所述数据表对应的主题域标签真实值;在对所述N张数据表中的每一张数据表完成所述数据表处理操作后,得到相应的N个第二文本以及相应的N个主题域标签真实值,其中,所述N个第二文本与所述N个主题域标签真实值具有一一对应的关系;按照预设比例对所述N个第二文本以及每个第二文本对应的主题域标签真实值进行划分,得到训练文本、测试文本、所述训练文本对应的训练主题域标签真实值、所述测试文本对应的测试主题域标签真实值。3.如权利要求2所述的方法,其特征在于,所述基于文本关键词提取方法,提取所述数据表对应的M个关键词,包括:获取所述数据表对应的数据表字段;通过对所述数据表字段进行清洗、分词,得到由单字或词语组成的字段文本信息列表;在所述字段文本信息列表中,基于文本关键词提取的计算公式,计算每一个词的文本关键词提取值;根据所述字段文本信息列表中每一个词对应的文本关键词提取值,将文本关键词提取值最高的前M个词作为所述数据表对应的M个关键词。
4.如权利要求2所述的方法,其特征在于,所述按照数据处理方式对所述第一文本进行处理,得到处理后的第二文本,包括:基于数据清洗的方式,过滤所述第一文本中的指定数据;通过文本分词对清洗后的第一文本进行分词处理,得到由单字或词语组成的文本列表;根据文本转化方式,将所述文本列表转化为词向量形式的文本,得到第二文本。5.如权利要求2所述的方法,其特征在于,所述确定所述数据表对应的主题域标签真实值,包括:获取主题域标签集合;判断所述数据表中的数据是否包含所述主题域标签集合中的任一主...

【专利技术属性】
技术研发人员:童宇蔚陈立力周明伟
申请(专利权)人:浙江大华技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1