【技术实现步骤摘要】
一种数据处理方法、装置、电子设备和存储介质
[0001]本专利技术涉及网络安全领域,尤其涉及一种数据处理方法、装置、电子设备和存储介质。
技术介绍
[0002]大语言模型是指包括数千亿(或更多)参数的语言模型,针对大语言模型的训练和微调,如果数据集质量越高,训练或微调效果越好,尤其是网络安全领域,对数据集的质量要求更高,但目前数据集主要还是依赖人工构建和网页文本采集,数据质量参差不齐,容易出现毒性数据污染模型。
技术实现思路
[0003]本专利技术提供了一种数据处理方法、装置、电子设备和存储介质。
[0004]根据本专利技术的一方面,提供了一种数据处理方法,包括:
[0005]基于目标领域的全量领域知识构建领域知识图谱;
[0006]获取用于训练或微调所述目标领域的大语言模型所需要的训练数据集或微调数据集;
[0007]基于所述领域知识图谱,确定所述训练数据集或微调数据集中的各数据的数据质量;
[0008]根据所述数据质量,对所述训练数据集或微调数据集中的各数据进行筛选 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:基于目标领域的全量领域知识构建领域知识图谱;获取用于训练或微调所述目标领域的大语言模型所需要的训练数据集或微调数据集;基于所述领域知识图谱,确定所述训练数据集或微调数据集中的各数据的数据质量;根据所述数据质量,对所述训练数据集或微调数据集中的各数据进行筛选。2.根据权利要求1所述的方法,其特征在于,基于所述领域知识图谱,确定所述训练数据集或微调数据集中的各数据的数据质量,包括:对所述训练数据集或微调数据集中的各数据进行分词处理,得到每条数据各自对应的分词列表;其中,所述分词列表中包括至少一个分词;针对任一分词列表,基于所述领域知识图谱,确定所述分词列表的实体匹配度;其中,所述实体匹配度用于衡量所述分词列表中属于目标领域的目标分词在所述分词列表中的占比;根据所述实体匹配度,确定所述训练数据集或微调数据集中的各数据的数据质量。3.根据权利要求2所述的方法,其特征在于,针对任一分词列表,基于所述领域知识图谱,确定所述分词列表的实体匹配度,包括:针对所述分词列表中的每个分词,确定所述分词与所述领域知识图谱中各实体名之间的相似度;选出相似度大于预设相似度阈值的目标分词;将所述目标分词的数量在所述分词列表所包括的总分词数中的占比,作为所述分词列表的实体匹配度。4.根据权利要求2所述的方法,其特征在于,根据所述实体匹配度,确定所述训练数据集或微调数据集中的各数据的数据质量,包括:针对所述训练数据集或微调数据集中的任一数据,若该数据的分词列表的实体匹配度小于第一阈值,则确定该数据为低质量数据;若该数据的分词列表的实体匹配度大于或等于第二阈值,则确定该数据为高质量数据;若该数据的分词列表的实体匹配度大于或等于所述第一阈值,且小于所述第二阈值,则将该数据标记为待划分数据。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:针对所述领域知识图谱中的实体,采用基于模块度算法的社区划分技术...
【专利技术属性】
技术研发人员:孙基栩,司红星,
申请(专利权)人:四维创智北京科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。