一种基于热线数据提取通用知识的方法技术

技术编号:38541736 阅读:24 留言:0更新日期:2023-08-19 17:09
本发明专利技术公开一种基于热线数据提取通用知识的方法,涉及数据处理技术领域,采用技术方案为:S1、获取热线数据,对热线数据进行分类,并提取咨询类和诉求类的热线数据;S2、利用SimCSE模型对提取的热线数据进行排重;S3、从热线数据中提取引用文件型数据,并处理,生成问答对;S4、从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,处理非引用文件型数据,生成问答对;S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。本发明专利技术可以对不断生成的海量热线数据进行高效过滤,有效提取含有有效信息的数据,再应用人工审核,有效提高通用知识生成的质量。用知识生成的质量。用知识生成的质量。

【技术实现步骤摘要】
一种基于热线数据提取通用知识的方法


[0001]本专利技术涉及数据处理
,具体的说是一种基于热线数据提取通用知识的方法。

技术介绍

[0002]针对类型丰富的热线数据,需要采取不同的知识提取方法进行通用知识的提取。
[0003]目前,对热线数据的知识提取更多依赖人工梳理,海量的热线数据通过人工梳理效率非常有限,对人力资源的占用程度较高。在数字化的今天,开始尝试采取人工+智能的方式进行知识梳理,一方面可以对海量数据进行批量化处理,最大限度的采集有价值的热线知识;另一方面可以极大提高知识提取的效率。
[0004]现今采取的人工+智能方式进行热线知识提取,在提高知识处理效率的同时,也存在一些问题,比如对有效知识的判断不够精准,提取的知识价值度可能较低、智能算法的开发时间较长等。但随着提取知识量的增加,模型的不断优化,提取知识的数量与质量也在不断提高。

技术实现思路

[0005]本专利技术针对人工梳理海量热线数据提取热线知识效率低的问题,提供一种基于热线数据提取通用知识的方法,以通过人工+智能方式实现热线知识的快速本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于热线数据提取通用知识的方法,其特征在于,包括如下步骤:S1、获取热线数据,对热线数据进行分类,并提取咨询类和诉求类的热线数据;S2、利用SimCSE模型对提取的热线数据进行排重;S3、从热线数据中提取引用文件型数据,并处理,生成问答对;S4、从热线数据中提取引用文件型数据后,热线数据的剩余数据作为非引用文件型数据,处理非引用文件型数据,生成问答对;S5、将引用文件型数据的问答对、非引用文件型数据的问答对存储于通用知识库。2.根据权利要求1所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S1,将热线数据划分成咨询类、诉求类、投诉类、表扬类、建议类,提取咨询类和诉求类热线数据的同时,保存热线数据的有效字段,该有效字段不限于热线数据的序号、问题及答案。3.根据权利要求2所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S2,利用SimCSE模型对热线数据进行排重,具体操作包括:S2.1、应用SimCSE模型计算两条热线数据的向量A、向量B;S2.2、利用如下公式计算两个向量的夹角余弦值来评估相似度,设向量A=(A1,A2,...,A
n
),B=(B1,B2,...,B
n
),其中,n大于700,cosθ的阈值设定为0.95,当0.95≤cosθ≤1时,认定两条热线数据相似度极高,随机删除其中一条热线数据;S2.3、分别存储cosθ<0.95的热线数据和执行步骤S2.3保留的热线数据。4.根据权利要求2所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S3,从热线数据中提取引用文件型数据,并处理,生成问答对,具体操作包括:S3.1、针对热线数据,提取其答案中包含书名号的数据,形成引用文件型数据,同时提取书名号中的内容,剔除过期政策或非政策数据;S3.2、应用SimCSE模型和K均值聚类算法对引用文件型数据进行聚类;S3.3、人工对聚类结果对应的热线数据问题和答案进行摘要提取,进行问题与答案内容的标准化;S3.4、生成问答对,打标签引用文件型数据。5.根据权利要求4所述的一种基于热线数据提取通用知识的方法,其特征在于,执行步骤S3.2,应用SimCSE模型和K均值聚类算法对引用文件型数据的答案进行聚类,具体操作包括:S3.2.1、应用SimCSE模型计算所有引用文件型数据的向量;S3.2.2、应用K均值聚类算法随机选择K个向量作为初始聚类的中心;S3.2.3、针对选择的聚类中心,计算所有样本到各个中心的欧式距离,将每个样本聚集到与其最近的中心的类中,构成聚类结果;S3.2.4、计算聚类后的中心,计算每个类的质心,即每个类中样本的均值,...

【专利技术属性】
技术研发人员:张兆勇杨春蕾吴俊雄陈兆亮宁方刚迟钰沛
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1