一种识别主题域的方法、系统及电子设备技术方案

技术编号：36905048 阅读：55 留言：0更新日期：2023-03-18 09:24

本申请公开了一种识别主题域的方法、系统及电子设备，该方法包括：获取训练文本、测试文本以及测试文本对应的测试主题域标签真实值；基于训练文本，对第一模型进行训练，得到第二模型；确认第二模型满足预设条件后，将测试文本输入第二模型，得到测试文本对应的测试主题域标签预测值；计算测试主题域标签预测值与测试主题域标签真实值之间的测试检验指标值；若测试检验指标值达到预设阈值，通过第二模型对新文本的主题域进行识别，得到新文本对应的主题域标签。通过本申请实施例提供的技术方案，避免了人工匹配关键词、人工总结主题域规则，从而降低了人工成本，提升了主题域的识别效率以及主题域的识别准确率。以及主题域的识别准确率。以及主题域的识别准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种识别主题域的方法、系统及电子设备

[0001]本申请涉及数据智能治理
，尤其涉及一种识别主题域的方法、系统及电子设备。

技术介绍

[0002]随着大数据时代的到来，在各行各业的生产、运营以及管理中，产生了大量数据，而这些数据逐渐成为支撑各业务部门运行的核心资产。因此，通过构建合理、高效的数据管理平台来加强对数据的管理十分重要。
[0003]在数据管理平台中，通过对数据进行分类可以更好的对数据资源进行管理，进而有利于对数据资源的进一步挖掘与使用。因此，对数据进行分类成为数据管理平台中必不可少的一环。其中，对数据进行分类主要是按照业务模块对数据进行分类，即主题域识别。而主题域通常是指联系较为紧密的数据主题集合。
[0004]目前，主题域识别主要通过人工校验或规则匹配来识别主题域。其中，人工校验主要是通过人工制定规则，借助数据表名称中的关键词来识别主题域的类别；规则匹配主要是整理关键词列表，将待匹配数据表的文本信息与关键词列表进行比对，在关键词列表中识别出与待匹配数据表的文本信息最相近的关键词，并将该关键词作为主题域的类别。
[0005]然而，在进行主题域识别时，当数据量增大时，上述人工校验和上述规则匹配均需要耗费大量时间来对关键词进行整理，导致主题域的识别效率低；此外，上述人工校验和上述规则匹配所总结的规则均是针对原有的数据总结的，当数据多样性增加时，现有数据与原有数据差异较大，使得该规则对现有数据的适应性较差，导致人工校验和规则匹配的泛化能力较弱，即人工校验与规则匹配对新型数据表的主题...

【技术保护点】

【技术特征摘要】
1.一种识别主题域的方法，其特征在于，所述方法包括：获取训练文本、测试文本以及所述测试文本对应的测试主题域标签真实值，其中，所述训练文本是在模型训练时使用的输入文本，所述测试文本是在训练后的模型进行测试时使用的输入文本，所述训练文本与所述测试文本是不同的数据表经过相同的数据表处理操作后得到的文本，所述测试主题域标签真实值是所述测试文本中的每一张数据表确定出的真实主题域标签；基于所述训练文本，对第一模型进行训练，得到第二模型，其中，所述第一模型是基于深度学习的文本分类模型；确认所述第二模型满足预设条件后，将所述测试文本输入所述第二模型，得到所述测试文本对应的测试主题域标签预测值；计算所述测试主题域标签预测值与所述测试主题域标签真实值之间的测试检验指标值；若所述测试检验指标值达到预设阈值，通过所述第二模型对新文本的主题域进行识别，得到所述新文本对应的主题域标签，其中，所述新文本是新数据表经所述数据表处理操作后得到的文本。2.如权利要求1所述的方法，其特征在于，所述获取训练文本、测试文本以及所述测试文本对应的测试主题域标签真实值，包括：获取N张数据表，其中，N是大于零的整数；针对所述N张数据表中的每一张数据表，均执行以下数据表处理操作：获取数据表对应的数据表中文名；基于文本关键词提取方法，提取所述数据表对应的M个关键词，其中，M是大于零的整数；将所述M个关键词与所述数据表中文名进行拼接，得到拼接后的第一文本；按照数据处理方式对所述第一文本进行处理，得到处理后的第二文本；确定所述数据表对应的主题域标签真实值；在对所述N张数据表中的每一张数据表完成所述数据表处理操作后，得到相应的N个第二文本以及相应的N个主题域标签真实值，其中，所述N个第二文本与所述N个主题域标签真实值具有一一对应的关系；按照预设比例对所述N个第二文本以及每个第二文本对应的主题域标签真实值进行划分，得到训练文本、测试文本、所述训练文本对应的训练主题域标签真实值、所述测试文本对应的测试主题域标签真实值。3.如权利要求2所述的方法，其特征在于，所述基于文本关键词提取方法，提取所述数据表对应的M个关键词，包括：获取所述数据表对应的数据表字段；通过对所述数据表字段进行清洗、分词，得到由单字或词语组成的字段文本信息列表；在所述字段文本信息列表中，基于文本关键词提取的计算公式，计算每一个词的文本关键词提取值；根据所述字段文本信息列表中每一个词对应的文本关键词提取值，将文本关键词提取值最高的前M个词作为所述数据表对应的M个关键词。
4.如权利要求2所述的方法，其特征在于，所述按照数据处理方式对所述第一文本进行处理，得到处理后的第二文本，包括：基于数据清洗的方式，过滤所述第一文本中的指定数据；通过文本分词对清洗后的第一文本进行分词处理，得到由单字或词语组成的文本列表；根据文本转化方式，将所述文本列表转化为词向量形式的文本，得到第二文本。5.如权利要求2所述的方法，其特征在于，所述确定所述数据表对应的主题域标签真实值，包括：获取主题域标签集合；判断所述数据表中的数据是否包含所述主题域标签集合中的任一主...

【专利技术属性】
技术研发人员：童宇蔚，陈立力，周明伟，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人