【技术实现步骤摘要】
文本分类方法、装置、设备、存储介质及程序产品
[0001]本申请实施例涉及数据处理
,尤其涉及一种文本分类方法、装置、设备、存储介质及程序产品。
技术介绍
[0002]目前,常根据论文的关键字对论文进行分类,以便于科研人员在研究某类问题时,可以根据该类问题的关键字检索相关论文。
[0003]然而,上述分类方法存在分类精度较低的问题,例如:按照上述分类方法可以根据关键字“胃癌”将《胃癌的临床诊断及治疗的研究进展》、《人工智能在胃癌影像中的应用》和《付费对胃癌住院患者的影响》这三篇论文分为同一类,但是,《胃癌的临床诊断及治疗的研究进展》主要研究的是胃癌治疗问题,《人工智能在胃癌影像中的应用》主要研究的是人工智能在胃癌中的应用问题,《胃癌患者住院费用及影响因素研究》主要研究的是胃癌住院费用问题,显然这三篇论文主要研究的问题不同,即三篇论文间的相关性不高,也就是说,上述分类方法的分类精度较低。
技术实现思路
[0004]本申请提供一种文本分类方法、装置、设备、存储介质及程序产品,可以提高文本分类的精度。
[0005]第一方面,提供一种文本分类方法,该方法包括:获取N个文本各自的文本信息以及N个文本中部分文本的类别,N为大于1的整数;基于N个文本各自的文本信息确定N个文本各自的第一向量,其中,目标文本的第一向量用于表征目标文本与N个文本中除目标文本以外的其他文本之间的相关性,目标文本是N个文本中的任一个文本;基于N个文本各自的第一向量和部分文本的类别,确定N个文本中除部分文本以外的其余文本 ...
【技术保护点】
【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取N个文本各自的文本信息以及所述N个文本中部分文本的类别,N为大于1的整数;基于所述N个文本各自的文本信息确定所述N个文本各自的第一向量,其中,目标文本的第一向量用于表征所述目标文本与所述N个文本中除所述目标文本以外的其他文本之间的相关性,所述目标文本是所述N个文本中的任一个文本;基于所述N个文本各自的第一向量和所述部分文本的类别,确定所述N个文本中除所述部分文本以外的其余文本的类别。2.根据权利要求1所述的方法,其特征在于,所述文本信息包括:引用信息和文本内容,所述基于所述N个文本各自的文本信息确定所述N个文本各自的第一向量,包括:对目标文本对包括的两个文本各自的文本内容分别进行向量化表示,得到所述两个文本各自的第二向量,所述目标文本对是所述N个文本中的任一个文本对;基于所述两个文本各自的第二向量和所述两个文本各自的第一向量对应的初始向量确定所述目标文本对对应的第一概率;基于所述两个文本各自的引用信息确定所述目标文本对的引用权重;基于所述两个文本各自的第二向量确定所述目标文本对的相似度;基于所述目标文本对的引用权重、所述目标文本对的相似度、所述N个文本中全部文本对的引用权重和所述N个文本中全部文本对的相似度确定所述目标文本对对应的第二概率;基于所述N个文本中全部文本对的第一概率和第二概率确定所述N个文本各自的第一向量。3.根据权利要求2所述的方法,其特征在于,所述基于所述两个文本各自的第二向量和所述两个文本各自的第一向量对应的初始向量确定所述目标文本对对应的第一概率,包括:计算所述两个文本各自对应的初始向量的乘积,得到第一乘积;计算所述两个文本各自的第二向量的乘积,得到第二乘积;计算所述两个文本各自的第二向量的模的最大值;基于所述第一乘积、所述第二乘积、所述最大值确定所述目标文本对对应的第一概率。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一乘积、所述第二乘积、所述最大值确定所述目标文本对对应的第一概率,包括:计算所述第一乘积的双曲正切值;计算所述第二乘积与所述最大值的比值,得到第一数值;基于所述双曲正切值和所述第一数值确定所述目标文本对对应的第一概率。5.根据权利要求4所述的方法,其特征在于,所述基于所述双曲正切值和所述第一数值确定所述目标文本对对应的第一概率,包括:对所述双曲正切值进行归一化处理,得到第二数值;基于所述第一数值和所述第二数值确定所述目标文本对对应的第一概率。6.根据权利要求2
‑
5任一项所述的方法,其特征在于,所述基于所述目标文本对的引用权重、所述目标文本对的相似度、所述N个文本中全部文本对的引用权重和所述N个文本中全部文本对的相似度确定所述目标文本对对应的第二概率,包括:
计算所述目标文本对的引用权重与所述目标文本对的相似度之和,得到第三数值;计算所述N个文本中全部文本对的引用权重和所述N个文本中全部文本对的相似度之和,得到第四数值;基于所述第三数值和所述第四数值确定所述目标文本对对应的第二概率。7.根据权利要求2
‑
5任一项所述的方法,其特征在于,所述基于所述N个文本中全部文本对的第一概率和第二概率确定所述N个文本各自的第一向量,包括:确定所述N个文本中全部文本对的第一概率对应的第一概率分布;确定所述N个文本中全部文本对的第二概率对应的第二概率分布;计算所述第一概率分布和所述第二概率分布的差异;若所述第一概率分布和所述第二概率分布的差...
【专利技术属性】
技术研发人员:郑铭鑫,蔡巍,张霞,
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。