本申请实施例公开了一种文本主题词确定方法、装置、存储介质及终端,包括:对至少一个输入文本进行预处理,得到至少一个目标文本;根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。运用本申请实施例能够准确挖掘短文本的主题词。
A method, device, storage medium and terminal for determining text subject words
【技术实现步骤摘要】
一种文本主题词确定方法、装置、存储介质及终端
本申请涉及计算机
,尤其涉及一种文本主题词确定方法、装置、存储介质及终端。
技术介绍
主题是文章/作品的中心思想,它体现的是文章/作品内容的主体及核心;而主题词则能通过少量的词语简明扼要地概括出文章/作品的主要内容。主题模型是统计文本主题挖掘的常用方法,能够在无人工参与的前提下发现和归纳文本的主题内容。传统的主题挖掘算法通常是利用长文本对主题模型进行无监督的训练,该方法训练出来的主题模型不适用于短文本,从而使得对短文本进行主题挖掘时,挖掘的主题词准确性不够。
技术实现思路
本申请实施例提供了一种文本主题词确定方法、装置、存储介质及终端,适用于短文本且能够准确地挖掘主题词。所述技术方案如下:第一方面,本申请实施例提供了一种文本主题词确定方法,所述方法包括:对至少一个输入文本进行预处理,得到至少一个目标文本;根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。第二方面,本申请实施例提供了一种文本主题词确定装置,所述装置包括:目标文本获取模块,用于对至少一个输入文本进行预处理,得到至少一个目标文本;第一映射关系构建模块,用于根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;第三映射关系确定模块,用于基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;主题词确定模块,用于根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项方法的步骤。第四方面,本申请实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项方法的步骤。本申请一些实施例提供的技术方案带来的有益效果至少包括:在本申请的一个或多个实施例中,终端首先对至少一个输入文本进行预处理,得到至少一个目标文本;接着根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;再基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;最后根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。本申请提供的实施例是预先利用短文本对主题模型进行训练,保证了模型对短文本的适用性;在线使用时直接使用预先训练过程中生成的词语集合以及第二映射关系来得出输入文本的主题词,保证了在线使用时对短文本主题词的准确挖掘。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种文本主题词确定方法的流程示意图;图2是本申请实施例提供的一种文本主题词确定方法的流程示意图;图3是本申请实施例提供的一种文本主题词确定方法的流程示意图;图4是本申请实施例提供的一种文本主题词挖掘模型的训练过程示意图;图5是本申请实施例提供的一种文本主题词确定方法的离线训练与在线使用过程的完整流程示意图;图6是本申请实施例提供的一种文本主题词确定装置的结构示意图;图7是本申请实施例提供的一种文本主题词确定装置的结构示意图;图8是本申请实施例提供的一种文本主题词确定装置的结构示意图;图9是本申请实施例提供的一种终端结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。下面将结合附图1-附图5,对本申请实施例提供的文本主题词确定方法进行详细介绍。请参见图1,为本申请实施例提供的一种文本主题词确定方法的流程示意图。如图1所示,本申请实施例的所述方法可以包括以下步骤:S101,对至少一个输入文本进行预处理,得到至少一个目标文本;在确定输入文本的主题词之前,终端要先对输入文本进行预处理,预处理能够加速后续对输入文本主题词的挖掘;本申请实施例对主题词的挖掘针对的是短文本,因此,获取的输入文本其文本长度应小于预设阈值,文本长度即文本中所含有的字符数,预设阈值可以设置为120等;所获取的输入文本在条数上不受限制,可以为一条,也可以为至少一条。经过预处理的输入文本其文本长度会存在一定的变化,定义经过预处理的输入文本为目标文本,所述预处理包括错别字纠正、文本语序结构调整以及去表情符等等。例如,对文本1“黄梁一梦”进行错别字纠正,修改为“黄粱一梦”;对文本2“他去图书馆了吧,大概”进行语序结构调整,调整为“他大概去图书馆了吧”;对文本3“这边风景无限好进行去表情符处理,变为“这边风景无限好”等等。其中,所述去表情符包含了去颜文字、去Emoji以及去表情包等处理。一些可行的实施例中,所述预处理还可以包括文本合并处理。S102,根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;文本由词语组合而成,基于预先训练生成的词语集合,可以在目标文本与词语集合中至少一个词语之间构建一种映射关系,称本文档来自技高网...
【技术保护点】
1.一种文本主题词确定方法,其特征在于,所述方法包括:/n对至少一个输入文本进行预处理,得到至少一个目标文本;/n根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;/n基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;/n根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。/n
【技术特征摘要】
1.一种文本主题词确定方法,其特征在于,所述方法包括:
对至少一个输入文本进行预处理,得到至少一个目标文本;
根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;
基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;
根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。
2.根据权利要求1所述的方法,其特征在于,所述第一映射关系包括目标文本-词语频率矩阵,第二映射关系包括主题类型-词语频率矩阵。
3.根据权利要求1所述的方法,其特征在于,所述第三映射关系为目标文本-主题类型矩阵;以及
所述根据所述第三映射关系确定所述至少一个目标文本对应的主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词,包括:
将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引,基于所述主题类型索引以及所述主题类型-词语频率矩阵,确定所述至少一个主题词。
4.根据权利要求2所述的方法,其特征在于,所述主题类型-词语频率矩阵训练过程,包括:
对至少一条第一样本文本进行文本合并处理,生成至少一条第二样本文本,所述第一样本文本的文本长度均小于预设阈值,所述第二样本文本的文本长度均大于等于所述预设阈值;
基于所述至少一条第二样本文本的主题类型、主题词,获取主题先验信息;
基于所述至少一条第二样本文本以及所述主题先验信息,对文本主题挖掘模型进行训练,获取主题类型-词语频率矩阵。
5.根据权利要求4所述的方法,其特征在于,所述主题先验信息包括:所述至少一条第二样本文本隶属于不同主题类型的概率分布。
6.根据权利要求4所述的方法,其特征在于,所述主题类...
【专利技术属性】
技术研发人员:马文康,王鹏,王永会,
申请(专利权)人:北京大米科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。