文章归类方法和装置、电子设备和存储介质制造方法及图纸

技术编号：38819178 阅读：15 留言：0更新日期：2023-09-15 19:58

本申请实施例提供了一种文章归类方法和装置、电子设备和存储介质，属于人工智能及数字医疗技术领域。该方法包括：获取原始文章数据；对原始文章数据进行分词处理得到文章关键词；对文章关键词进行向量化处理得到关键词向量；其中，关键词向量包括聚类标识信息，聚类标识信息用于表征关键词向量的聚类状态；根据聚类标识信息从关键词向量中筛选出参考词向量；计算关键词向量和参考词向量之间的相似度得到相似度量数据；根据相似度量数据和预设的聚类参数对关键词向量进行聚类处理得到目标向量簇；根据目标向量簇将原始文章数据进行归类处理得到目标文章集。本申请实施例能够实现无标签的医疗文章数据的文章归类。标签的医疗文章数据的文章归类。标签的医疗文章数据的文章归类。

全部详细技术资料下载

【技术实现步骤摘要】
文章归类方法和装置、电子设备和存储介质

[0001]本申请涉及人工智能及数字医疗
，尤其涉及一种文章归类方法和装置、电子设备和存储介质。

技术介绍

[0002]随着数字医疗的发展，越来越多医疗软件开发了的医疗文章推荐功能，通过智能化方式推荐医疗文章给不同的用户，以实现医学知识的普及。但是为了实现智能化推荐，需要对医疗文章进行归类后，基于不同用户类型推荐不同文章类别的医疗文章。
[0003]相关技术中，医疗文章归类主要通过聚类算法实现，但是通过聚类算法进行医疗文章归类需要预先对文章进行标签设置。而对于没有标签的医疗文章，无法确定文章分类的数量，无法实现医疗文章归类。因此，如何实现无标签医疗文章的归类，成为了亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种文章归类方法和装置、电子设备和存储介质，旨在实现无标签医疗文章的自动化归类。
[0005]为实现上述目的，本申请实施例的第一方面提出了一种文章归类方法，所述方法包括：
[0006]获取原始文章数据；
[0007]对所述原始文章数据进行分词处理，得到文章关键词；
[0008]对所述文章关键词进行向量化处理，得到关键词向量；其中，所述关键词向量包括聚类标识信息，所述聚类标识信息用于表征所述关键词向量的聚类状态；
[0009]根据所述聚类标识信息从所述关键词向量中筛选出参考词向量；
[0010]计算所述关键词向量和所述参考词向量之间的相似度，得到相似度量数据；/>[0011]根据所述相似度量数据和预设的聚类参数对所述关键词向量进行聚类处理，得到目标向量簇；
[0012]根据所述目标向量簇将所述原始文章数据进行归类处理，得到目标文章集。
[0013]在一些实施例，所述聚类参数包括：预设相似度范围和预设数量阈值；所述根据所述相似度量数据和预设的聚类参数对所述关键词向量进行聚类处理，得到目标向量簇，包括：
[0014]将所述相似度量数据位于预设相似度范围的所述关键词向量进行聚合，得到候选向量簇；其中，所述参考词向量为所述候选向量簇的聚类中心；
[0015]对所述候选向量簇进行向量数量计算，得到候选向量数量；
[0016]将所述候选向量数量和所述预设数量阈值进行比对；
[0017]若所述候选向量数量大于或等于所述预设数量阈值，更新所述候选向量簇的聚类中心，并对所述候选向量簇进行更新处理，得到所述目标向量簇。
[0018]在一些实施例，在若所述候选向量数量大于或等于所述预设数量阈值，更新所述候选向量簇的聚类中心，并对所述候选向量簇进行更新处理，得到所述目标向量簇，包括：
[0019]若所述候选向量数量大于或等于所述预设数量阈值，从所述候选向量簇中提取出候选词向量；
[0020]对所述候选词向量和所述关键词向量进行相似度量计算，得到候选度量数据；
[0021]根据所述候选词向量对所述候选向量簇的聚类中心进行更新，并将所述候选度量数据位于所述预设相似度范围的所述关键词向量进行聚合，得到选定向量簇；
[0022]将所述选定向量簇和所述候选向量簇进行拼接处理，得到所述目标向量簇。
[0023]在一些实施例，所述根据所述目标向量簇将所述原始文章数据进行归类处理，得到目标文章集，包括：
[0024]对所述目标向量簇中的所述关键词向量进行标识处理，得到簇标识信息；
[0025]根据所述簇标识信息生成文章类别；
[0026]根据所述文章类别对所述原始文章数据进行归类，得到所述目标文章集。
[0027]在一些实施例，在所述将所述候选向量数量和所述预设数量阈值进行比对之后，所述方法还包括：
[0028]若所述候选向量数量小于所述预设数量阈值，将所述参考词向量进行异常标记，得到异常标识信息；
[0029]根据所述异常标识信息将所述参考词向量剔除。
[0030]在一些实施例，所述对所述文章关键词进行向量化处理，得到关键词向量，包括：
[0031]将所述文章关键词输入至预设的词向量生成模型；其中，所述词向量生成模型包括：输入层、映射层和输出层：
[0032]通过输入层对所述文章关键词进行词向量转换，得到词向量；
[0033]通过所述映射层、预设映射关系对所述词向量进行权重计算，得到词权重；
[0034]通过所述输出层将所述词向量和所述词权重进行概率计算，得到所述关键词向量。
[0035]在一些实施例，在将所述文章关键词输入至预设的词向量生成模型之前，所述方法还包括：
[0036]构建所述词向量生成模型，具体包括:
[0037]获取训练词集合；其中，所述训练词集合包括至少两个训练关键词；
[0038]将任意两个所述训练关键词构建成训练关键词对；
[0039]对所述训练关键词对中的所述训练关键词进行相似度计算，得到关键词相似度；
[0040]将所述训练关键词输入至预设的向量生成模型进行向量化处理，得到训练向量；
[0041]获取所述训练关键词对的所述训练向量，得到训练向量对；
[0042]对所述训练向量对的所述训练向量进行相似度计算，得到向量相似度；
[0043]根据所述关键词相似度和所述向量相似度对所述向量生成模型进行参数调整，得到所述词向量生成模型。
[0044]为实现上述目的，本申请实施例的第二方面提出了一种文章归类装置，所述装置包括：
[0045]数据获取模块，用于获取原始文章数据；
[0046]分词处理模块，用于对所述原始文章数据进行分词处理，得到文章关键词；
[0047]向量化模块，用于对所述文章关键词进行向量化处理，得到关键词向量；其中，所述关键词向量包括聚类标识信息，所述聚类标识信息用于表征所述关键词向量的聚类状态；
[0048]向量筛选模块，用于根据所述聚类标识信息从所述关键词向量中筛选出参考词向量；
[0049]相似度量模块，用于计算所述关键词向量和所述参考词向量之间的相似度，得到相似度量数据；
[0050]聚类处理模块，用于根据所述相似度量数据和预设的聚类参数对所述关键词向量进行聚类处理，得到目标向量簇；
[0051]归类模块，用于根据所述目标向量簇将所述原始文章数据进行归类处理，得到目标文章集。
[0052]为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
[0053]为实现上述目的，本申请实施例的第四方面提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的方法。
[0054]本申请提出的文章归类方法和装置、电子设备和存储介质，其通过对原始文章数据进行分词处理得到文章关键词，再本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文章归类方法，其特征在于，所述方法包括：获取原始文章数据；对所述原始文章数据进行分词处理，得到文章关键词；对所述文章关键词进行向量化处理，得到关键词向量；其中，所述关键词向量包括聚类标识信息，所述聚类标识信息用于表征所述关键词向量的聚类状态；根据所述聚类标识信息从所述关键词向量中筛选出参考词向量；计算所述关键词向量和所述参考词向量之间的相似度，得到相似度量数据；根据所述相似度量数据和预设的聚类参数对所述关键词向量进行聚类处理，得到目标向量簇；根据所述目标向量簇将所述原始文章数据进行归类处理，得到目标文章集。2.根据权利要求1所述的方法，其特征在于，所述聚类参数包括：预设相似度范围和预设数量阈值；所述根据所述相似度量数据和预设的聚类参数对所述关键词向量进行聚类处理，得到目标向量簇，包括：将所述相似度量数据位于预设相似度范围的所述关键词向量进行聚合，得到候选向量簇；其中，所述参考词向量为所述候选向量簇的聚类中心；对所述候选向量簇进行向量数量计算，得到候选向量数量；将所述候选向量数量和所述预设数量阈值进行比对；若所述候选向量数量大于或等于所述预设数量阈值，更新所述候选向量簇的聚类中心，并对所述候选向量簇进行更新处理，得到所述目标向量簇。3.根据权利要求2所述的方法，其特征在于，在若所述候选向量数量大于或等于所述预设数量阈值，更新所述候选向量簇的聚类中心，并对所述候选向量簇进行更新处理，得到所述目标向量簇，包括：若所述候选向量数量大于或等于所述预设数量阈值，从所述候选向量簇中提取出候选词向量；对所述候选词向量和所述关键词向量进行相似度量计算，得到候选度量数据；根据所述候选词向量对所述候选向量簇的聚类中心进行更新，并将所述候选度量数据位于所述预设相似度范围的所述关键词向量进行聚合，得到选定向量簇；将所述选定向量簇和所述候选向量簇进行拼接处理，得到所述目标向量簇。4.根据权利要求3所述的方法，其特征在于，所述根据所述目标向量簇将所述原始文章数据进行归类处理，得到目标文章集，包括：对所述目标向量簇中的所述关键词向量进行标识处理，得到簇标识信息；根据所述簇标识信息生成文章类别；根据所述文章类别对所述原始文章数据进行归类，得到所述目标文章集。5.根据权利要求2所述的方法，其特征在于，在所述将所述候选向量数量和所述预设数量阈值进行比对之后，所述方法还包括：若所述候选向量数量小于所述预设数量阈值，将所述参考词向量进行异常标...

【专利技术属性】
技术研发人员：易明，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人