文本分类方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:37362946 阅读:26 留言:0更新日期:2023-04-27 07:10
本申请提供了一种文本分类方法、装置、设备、存储介质及程序产品,包括:获取N个文本各自的文本信息以及N个文本中部分文本的类别,N为大于1的整数;基于N个文本各自的文本信息确定N个文本各自的第一向量,其中,目标文本的第一向量用于表征目标文本与N个文本中除目标文本以外的其他文本之间的相关性,目标文本是N个文本中的任一个文本;基于N个文本各自的第一向量和部分文本的类别,确定N个文本中除部分文本以外的其余文本的类别。通过上述技术方案,可以提高文本分类的精度。可以提高文本分类的精度。可以提高文本分类的精度。

【技术实现步骤摘要】
文本分类方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及数据处理
,尤其涉及一种文本分类方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]目前,常根据论文的关键字对论文进行分类,以便于科研人员在研究某类问题时,可以根据该类问题的关键字检索相关论文。
[0003]然而,上述分类方法存在分类精度较低的问题,例如:按照上述分类方法可以根据关键字“胃癌”将《胃癌的临床诊断及治疗的研究进展》、《人工智能在胃癌影像中的应用》和《付费对胃癌住院患者的影响》这三篇论文分为同一类,但是,《胃癌的临床诊断及治疗的研究进展》主要研究的是胃癌治疗问题,《人工智能在胃癌影像中的应用》主要研究的是人工智能在胃癌中的应用问题,《胃癌患者住院费用及影响因素研究》主要研究的是胃癌住院费用问题,显然这三篇论文主要研究的问题不同,即三篇论文间的相关性不高,也就是说,上述分类方法的分类精度较低。

技术实现思路

[0004]本申请提供一种文本分类方法、装置、设备、存储介质及程序产品,可以提高文本分类的精度。
[0005]第一方面,提供一种文本分类方法,该方法包括:获取N个文本各自的文本信息以及N个文本中部分文本的类别,N为大于1的整数;基于N个文本各自的文本信息确定N个文本各自的第一向量,其中,目标文本的第一向量用于表征目标文本与N个文本中除目标文本以外的其他文本之间的相关性,目标文本是N个文本中的任一个文本;基于N个文本各自的第一向量和部分文本的类别,确定N个文本中除部分文本以外的其余文本的类别。
[0006]第二方面,提供一种文本分类装置,包括:获取模块、第一确定模块、第二确定模块,其中,获取模块用于获取N个文本各自的文本信息以及N个文本中部分文本的类别,N为大于1的整数;第一确定模块用于基于N个文本各自的文本信息确定N个文本各自的第一向量,其中,目标文本的第一向量用于表征目标文本与N个文本中除目标文本以外的其他文本之间的相关性,目标文本是N个文本中的任一个文本;第二确定模块用于基于N个文本各自的第一向量和部分文本的类别,确定N个文本中除部分文本以外的其余文本的类别。
[0007]第三方面,提供一种电子设备,包括:处理器和存储器,该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行如第一方面或其各实现方式中的方法。
[0008]第四方面,提供一种计算机可读存储介质,用于存储计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。
[0009]第五方面,提供一种计算机程序产品,包括计算机程序指令,该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。
[0010]第六方面,提供一种计算机程序,计算机程序使得计算机执行如第一方面或其各实现方式中的方法。
[0011]通过本申请技术方案,电子设备可以获取N个文本各自的文本信息以及N个文本中部分文本的类别,N为大于1的整数,然后,电子设备可以基于N个文本各自的文本信息确定N个文本各自的第一向量,其中,目标文本的第一向量用于表征目标文本与N个文本中除目标文本以外的其他文本之间的相关性,目标文本是N个文本中的任一个文本,最后,电子设备可以基于N个文本各自的第一向量和部分文本的类别,确定N个文本中除部分文本以外的其余文本的类别。也就是说,本申请在进行文本分类时,考虑了两个文本间的相关性和已知的部分文本的类别,以将相关性高的两个文本分类为同一类别,即本申请可以保证属于同一类别的两个文本的相关性较高,从而使得确定出的文本类别更准确,可以提高文本分类的精度。
附图说明
[0012]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本申请实施例提供的一种应用场景图;
[0014]图2为本申请实施例提供的一种文本分类方法的流程图;
[0015]图3为本申请实施例提供的另一种文本分类方法的流程图;
[0016]图4为本申请实施例提供的再一种文本分类方法的流程图;
[0017]图5为本申请实施例提供的一种文本分类方法的示意图;
[0018]图6为本申请实施例提供的另一种文本分类方法的示意图;
[0019]图7为本申请实施例提供的再一种文本分类方法的示意图;
[0020]图8为本申请实施例提供的又一种文本分类方法的流程图;
[0021]图9为本申请实施例提供的一种系统构架示意图;
[0022]图10为本申请实施例提供的一种文本分类装置1000的示意图;
[0023]图11是本申请实施例提供的电子设备1100的示意性框图。
具体实施方式
[0024]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0025]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限
于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]如上所述,目前的文本分类方法常根据文本的关键字进行文本分类,这种分类方法可能会使得被分类为同一类别的多个文本间的相关性较低,即该分类方法的分类精度较低。
[0027]为了解决上述技术问题,本申请的专利技术构思是:电子设备可以根据多个文本中部分文本的类别和多个文本中两个文本间的相关性,确定多个文本中除部分文本外其余文本的类别。
[0028]应理解的是,本申请技术方案可以应用于如下场景,但不限于:
[0029]在一些可实现方式中,图1为本申请实施例提供的一种应用场景图,如图1所示,该应用场景中可以包括电子设备110和网络设备120。电子设备110可以通过有线网络或者无线网络与网络设备120建立连接。
[0030]示例性的,电子设备110可以是台式电脑、笔记本电脑、平板电脑等,但不限于此。网络设备120可以是终端设备或者服务器,但不限于此。在本申请实施例中,电子设备110可以向网络设备120发送请求消息,该请求消息用于请求获取N个文本各自的文本信息以及N个文本中部分文本的类别,N为大于1的整数,进一步地,电子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取N个文本各自的文本信息以及所述N个文本中部分文本的类别,N为大于1的整数;基于所述N个文本各自的文本信息确定所述N个文本各自的第一向量,其中,目标文本的第一向量用于表征所述目标文本与所述N个文本中除所述目标文本以外的其他文本之间的相关性,所述目标文本是所述N个文本中的任一个文本;基于所述N个文本各自的第一向量和所述部分文本的类别,确定所述N个文本中除所述部分文本以外的其余文本的类别。2.根据权利要求1所述的方法,其特征在于,所述文本信息包括:引用信息和文本内容,所述基于所述N个文本各自的文本信息确定所述N个文本各自的第一向量,包括:对目标文本对包括的两个文本各自的文本内容分别进行向量化表示,得到所述两个文本各自的第二向量,所述目标文本对是所述N个文本中的任一个文本对;基于所述两个文本各自的第二向量和所述两个文本各自的第一向量对应的初始向量确定所述目标文本对对应的第一概率;基于所述两个文本各自的引用信息确定所述目标文本对的引用权重;基于所述两个文本各自的第二向量确定所述目标文本对的相似度;基于所述目标文本对的引用权重、所述目标文本对的相似度、所述N个文本中全部文本对的引用权重和所述N个文本中全部文本对的相似度确定所述目标文本对对应的第二概率;基于所述N个文本中全部文本对的第一概率和第二概率确定所述N个文本各自的第一向量。3.根据权利要求2所述的方法,其特征在于,所述基于所述两个文本各自的第二向量和所述两个文本各自的第一向量对应的初始向量确定所述目标文本对对应的第一概率,包括:计算所述两个文本各自对应的初始向量的乘积,得到第一乘积;计算所述两个文本各自的第二向量的乘积,得到第二乘积;计算所述两个文本各自的第二向量的模的最大值;基于所述第一乘积、所述第二乘积、所述最大值确定所述目标文本对对应的第一概率。4.根据权利要求3所述的方法,其特征在于,所述基于所述第一乘积、所述第二乘积、所述最大值确定所述目标文本对对应的第一概率,包括:计算所述第一乘积的双曲正切值;计算所述第二乘积与所述最大值的比值,得到第一数值;基于所述双曲正切值和所述第一数值确定所述目标文本对对应的第一概率。5.根据权利要求4所述的方法,其特征在于,所述基于所述双曲正切值和所述第一数值确定所述目标文本对对应的第一概率,包括:对所述双曲正切值进行归一化处理,得到第二数值;基于所述第一数值和所述第二数值确定所述目标文本对对应的第一概率。6.根据权利要求2

5任一项所述的方法,其特征在于,所述基于所述目标文本对的引用权重、所述目标文本对的相似度、所述N个文本中全部文本对的引用权重和所述N个文本中全部文本对的相似度确定所述目标文本对对应的第二概率,包括:
计算所述目标文本对的引用权重与所述目标文本对的相似度之和,得到第三数值;计算所述N个文本中全部文本对的引用权重和所述N个文本中全部文本对的相似度之和,得到第四数值;基于所述第三数值和所述第四数值确定所述目标文本对对应的第二概率。7.根据权利要求2

5任一项所述的方法,其特征在于,所述基于所述N个文本中全部文本对的第一概率和第二概率确定所述N个文本各自的第一向量,包括:确定所述N个文本中全部文本对的第一概率对应的第一概率分布;确定所述N个文本中全部文本对的第二概率对应的第二概率分布;计算所述第一概率分布和所述第二概率分布的差异;若所述第一概率分布和所述第二概率分布的差...

【专利技术属性】
技术研发人员:郑铭鑫蔡巍张霞
申请(专利权)人:沈阳东软智能医疗科技研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1