基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质制造方法及图纸

技术编号:27620731 阅读:19 留言:0更新日期:2021-03-10 11:01
本发明专利技术涉及数据处理技术领域,尤其涉及一种基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质,包括如下步骤:步骤S1:获取问答系统中用户询问的第一知识点的文本表示和知识编号;步骤S2:将文本表示转换成向量;步骤S3:将向量与第一知识点一一对应;步骤S4:计算所有向量的向量空间余弦相似度;步骤S5:将向量划分类别;步骤S6:将不同类别的向量对应转换成第二知识点;步骤S7:对第二知识点进行主题分析及主题词展示。识点进行主题分析及主题词展示。识点进行主题分析及主题词展示。

【技术实现步骤摘要】
基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质。

技术介绍

[0002]目前的问答系统同昌是通过检索的方式找出与用户所提出的问题相似度最高的知识点,此方式所达到的效果较依赖于知识库的构建质量,使得对知识库的维护人员具有较高的认知要求,而且需要知识库的维护人员对相关的领域知识具备较为充分的了解。
[0003]因此,现有技术存在不足,需要改进。

技术实现思路

[0004]为克服上述的技术问题,本专利技术提供了一种基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质。
[0005]本专利技术解决技术问题的方案是提供一种基于聚类算法的新知识点发现的处理方法,包括如下步骤:
[0006]步骤S1:获取问答系统中用户询问的第一知识点的文本表示和知识编号;
[0007]步骤S2:将文本表示转换成向量;
[0008]步骤S3:将向量与第一知识点一一对应;
[0009]步骤S4:计算所有向量的向量空间余弦相似度;
[0010]步骤S5:将向量划分类别;
[0011]步骤S6:将不同类别的向量对应转换成第二知识点;
[0012]步骤S7:对第二知识点进行主题分析及主题词展示。
[0013]优选地,还包括如下步骤:步骤S8:对知识库进行优化。
[0014]优选地,在步骤S2中,根据文本语义相似度数据训练的深度神经网络预训练模型对文本表示进行转换。
[0015]优选地,在步骤S3中,将向量与知识编号相关联,并建立索引。
[0016]优选地,根据相似度阈值将位于相似度阈值内的向量聚集为同一类,位于相似度阈值外的向量为不同类别。
[0017]优选地,根据建立的索引将不同类别的向量转换成第二知识点。
[0018]本专利技术还提供一种处理装置,包括:
[0019]获取单元,用于获取问答系统中用户询问的第一知识点的文本表示和知识编号;
[0020]处理单元,用于将第一知识点进行处理、转换成第二知识点及进行分析;
[0021]显示单元:用于第二知识点进行主题词展示。
[0022]本专利技术还提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行上述的基于聚类算法的新知识点发现
的处理方法。
[0023]本专利技术还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被设置为运行时执行上述的基于聚类算法的新知识点发现的处理方法。
[0024]相对于现有技术,通过对问答系统中的知识点自动聚类形成分类,辅助构建知识库,有利于提升问答效果,而且可自动发现新的知识点,有利于降低问答系统的知识库维护人员的认知要求,有利于降低其工作强度。
【附图说明】
[0025]图1是本专利技术基于聚类算法的新知识点发现的处理方法的具体流程示意图。
[0026]图2是本专利技术第二实施例的处理装置的模块示意图。
[0027]图3是本专利技术第三实施例的电子设备的模块示意图。
[0028]附图标记说明:
[0029]10、处理装置;11、获取单元;12、处理单元;13、显示单元;20、电子设备;21、存储器;22、处理器。
【具体实施方式】
[0030]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本专利技术,并不用于限定本专利技术。
[0031]请参阅图1,本专利技术提供一种基于聚类算法的新知识点发现的处理方法,包括如下步骤:
[0032]步骤S1:获取问答系统中用户询问的第一知识点的文本表示和知识编号。
[0033]具体地,问答系统的第一知识点用于对常见问题的解答,其由具体的文本表示和相应的知识编号组成。
[0034]步骤S2:将文本表示转换成向量。
[0035]具体地,在本专利技术中,第一知识点的文本表示是由文本语义相似度数据训练的深度神经网络预训练模型对应转换成的向量,通过将文本表示转换为向量,便于后续通过向量对第一知识点进行聚类。
[0036]步骤S3:将向量与第一知识点一一对应。
[0037]具体地,通过将向量与第一知识点的知识编号相关联,实现与第一知识点的一一对应,并建立向量与知识编号的索引。
[0038]步骤S4:计算所有向量的向量空间余弦相似度。
[0039]具体地,通过利用在向量空间中两个向量夹角的余弦值作为衡量两个向量之间的差异程度,其中余弦值越接近1,说明两个向量夹角越接近0
°
,即两个向量差异越小;反之,说明两个向量差异越大。
[0040]步骤S5:将向量划分类别。
[0041]进一步地,设置有相似度阈值,将位于相似度阈值内的向量聚集为同一类,其中位于相似度阈值外的向量为不同类别。其中,相似度阈值可以由模型在相似度测试集上的召回率确定。
[0042]步骤S6:将不同类别的向量对应转换成第二知识点。
[0043]已划分出类别的向量根据已建立的索引转换成第二知识点。
[0044]步骤S7:对第二知识点进行主题分析及主题词展示;
[0045]步骤S8:对知识库进行优化。
[0046]知识库的优化具体可为知识库的维护人员依据第二知识点进行的优化。
[0047]请参阅图2,本专利技术的第二实施例提供一种处理装置10,其采用上述的方法,该处理装置10包括获取单元11,用于获取问答系统中用户询问的第一知识点的文本表示和知识编号;
[0048]处理单元12,用于将第一知识点进行处理、转换成第二知识点及进行分析,具体对上述方法的步骤S2-S7中对第二知识点进行主题分析进行处理;
[0049]显示单元13:用于第二知识点进行主题词展示。
[0050]请参阅图3,本专利技术的第三实施例提供一种电子设备20,电子设备20用于实施上述基于聚类算法的新知识点发现的处理方法。电子设备20包括存储器21和处理器22。
[0051]具体地,存储器21中存储有计算机程序,处理器22被设置为通过计算机程序执行如上所述的基于聚类算法的新知识点发现的处理方法。
[0052]存储器21可用于存储软件程序以及模块,如本专利技术上述的基于聚类算法的新知识点发现的处理方法和装置对应的程序指令或模块。而处理器22通过运行存储在存储器21内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的基于聚类算法的新知识点发现的处理方法。
[0053]本专利技术的第四实施例还提供一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
[0054]可以理解的是,在本实施例中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类算法的新知识点发现的处理方法,其特征在于:包括如下步骤:步骤S1:获取问答系统中用户询问的第一知识点的文本表示和知识编号;步骤S2:将文本表示转换成向量;步骤S3:将向量与第一知识点一一对应;步骤S4:计算所有向量的向量空间余弦相似度;步骤S5:将向量划分类别;步骤S6:将不同类别的向量对应转换成第二知识点;步骤S7:对第二知识点进行主题分析及主题词展示。2.如权利要求1所述的基于聚类算法的新知识点发现的处理方法,其特征在于:还包括如下步骤:步骤S8:对知识库进行优化。3.如权利要求1所述的基于聚类算法的新知识点发现的处理方法,其特征在于:在步骤S2中,根据文本语义相似度数据训练的深度神经网络预训练模型对文本表示进行转换。4.如权利要求1所述的基于聚类算法的新知识点发现的处理方法,其特征在于:在步骤S3中,将向量与知识编号相关联,并建立索引。5.如权利要求1所述的基于聚类算法的新知识点...

【专利技术属性】
技术研发人员:周柳阳侯克鑫蒋林林
申请(专利权)人:深圳市一号互联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1