文本分析方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:20242385 阅读:18 留言:0更新日期:2019-01-29 23:21
本公开实施例公开了一种文本分析方法、装置、电子设备及可读存储介质,所述方法包括:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,可以真实反映文本的观点倾向,提高文本分析的准确率。

【技术实现步骤摘要】
文本分析方法、装置、电子设备及可读存储介质
本公开涉及计算机领域,具体涉及一种文本分析方法、装置、电子设备及可读存储介质。
技术介绍
在互联网平台上,有大量文本信息存在,例如,各种用户发帖、评论信息等。但是,这些文本都是自然语言,比较难以区分其具体的主题倾向。如果可以对这些用户评论进行大数据分析,则对找到具备特定特性的文本,对于发现用户的需求和关注点,从而进行有针对性的运营,具有非常重要的意义。
技术实现思路
为了解决相关技术中的问题,本公开实施例提供一种文本分析方法、装置、电子设备及可读存储介质。第一方面,本公开实施例中提供了一种文本分析方法,包括:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。结合第一方面,本公开在第一方面的第一种实现方式中,所述针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量,包括:根据预设规则增大所述匹配文本中与所述预设关键词相同的分词的向量。结合第一方面,本公开在第一方面的第二种实现方式中,所述文本向量为词频-逆文档频率向量。结合第一方面,本公开在第一方面的第三种实现方式中,所述根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量,包括:通过对属于每一目标类别的全部匹配文本的文本向量求和取平均值来计算每一目标类别的目标文本向量。结合第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,包括:计算每一条非匹配文本的文本向量与所述目标文本向量的相似度作为第一相似度,将所述第一相似度最大的目标文本向量所属的目标类别作为该条非匹配文本的备选类别。结合第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述方法还包括:计算每一条非匹配文本的文本向量与全部非匹配文本的平均文本向量的相似度作为第二相似度;检测所述第一相似度与所述第二相似度的比值是否大于预设阈值;响应于所述第一相似度与所述第二相似度的比值大于预设阈值的检测结果,将所述备选类别作为所述非匹配文本的所属类别。第二方面,本公开实施例中提供了一种文本分析装置,包括:匹配模块,被配置为利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;分词模块,被配置为针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;第一计算模块,被配置为根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;第二计算模块,被配置为计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。第三方面,本公开实施例中提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下步骤:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。结合第三方面,本公开在第三方面的第一种实现方式中,所述针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量,包括:根据预设规则增大所述匹配文本中与所述预设关键词相同的分词的向量。结合第三方面,本公开在第三方面的第二种实现方式中,所述文本向量为词频-逆文档频率向量。结合第三方面,本公开在第三方面的第三种实现方式中,所述根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量,包括:通过对属于每一目标类别的全部匹配文本的文本向量求和取平均值来计算每一目标类别的目标文本向量。结合第三方面的第三种实现方式,本公开在第三方面的第四种实现方式中,所述计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,包括:计算每一条非匹配文本的文本向量与所述目标文本向量的相似度作为第一相似度,将所述第一相似度最大的目标文本向量所属的目标类别作为该条非匹配文本的备选类别。结合第三方面的第四种实现方式,本公开在第三方面的第五种实现方式中,所述方法还包括:计算每一条非匹配文本的文本向量与全部非匹配文本的平均文本向量的相似度作为第二相似度;检测所述第一相似度与所述第二相似度的比值是否大于预设阈值;响应于所述第一相似度与所述第二相似度的比值大于预设阈值的检测结果,将所述备选类别作为所述非匹配文本的所属类别。第四方面,本公开实施例中提供了一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第五种实现方式任一项所述的方法。本公开实施例提供的技术方案可以包括以下有益效果:根据本公开实施例提供的技术方案,通过利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,可以在非匹配文本中没有明显的预设关键词的情况下对与目标类别的文本近似非匹配文本进行分类。因此,对于没有预设关键词的文本也可以识别出观点倾向,避免了基于关键词匹配导致的无法获取文本的语义信息,造成误判的缺陷。而且,根据本公开实施方式的文本分析方案可以真实反映文本的观点倾向,提高文本分析的准确率。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明结合附图,通过以下非限制性实施方式的详细描述,本公开的其它标签、目的和优点将变得更加明显。在附图中:图1示出根据本公开一实施方式的文本分析方法的流程图;图2示出根据本公开另一实施方式的文本分析方法的流程图;图3示出根据本公开一实施方式的文本分析装置的结构框图;图4示出根据本公开一实施方式的文本分析方法的一应用场景示例的示意图;图5示出根据本公开一实施方式的电子设备的结构框图;图6是适于用来实现根据本公开一实施方式的文本分析方法的计算本文档来自技高网...

【技术保护点】
1.一种文本分析方法,其特征在于,包括:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。

【技术特征摘要】
1.一种文本分析方法,其特征在于,包括:利用预设关键词对文本进行匹配,得到与所述预设关键词匹配的匹配文本以及不与所述预设关键词匹配的非匹配文本,其中,所述预设关键词属于多个目标类别,并且与特定预设关键词匹配的匹配文本与所述特定关键词属于同一目标类别;针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量;根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量;计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别。2.根据权利要求1所述的方法,其特征在于,所述针对每一条子文本进行分词,并根据分词结果为每一条文本生成文本向量,包括:根据预设规则增大所述匹配文本中与所述预设关键词相同的分词的向量。3.根据权利要求1所述的方法,其特征在于,所述文本向量为词频-逆文档频率向量。4.根据权利要求1所述的方法,其特征在于,所述根据属于每一目标类别的全部匹配文本的文本向量计算每一目标类别的目标文本向量,包括:通过对属于每一目标类别的全部匹配文本的文本向量求和取平均值来计算每一目标类别的目标文本向量。5.根据权利要求4所述的方法,其特征在于,所述计算每一条非匹配文本的文本向量与所述目标文本向量的相似度以确定所述非匹配文本所属的类别,包括:计算每一条非匹配文本的文本向量与所述目标文本向量的相似度作为第一相似度,将所述第一相似度最大的目标文本向量所属的目标类别作为该条非匹配文本的备选类别。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:计算每一条非匹配文本的文本向量与全部非匹配文本的平均文本向量的相似度作为第二相似度;检测所述第一相似度与所述第二相似度的比值是否大于预设阈值;响应于所述第一相似度与所述第二相似度的比值大于预设阈值的检测结...

【专利技术属性】
技术研发人员:龚建
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1