信息处理方法、装置、服务设备及计算机可读存储介质制造方法及图纸

技术编号:21399045 阅读:22 留言:0更新日期:2019-06-19 07:00
本申请实施例公开了一种信息处理方法、实现该方法的装置、服务设备和计算机可读存储介质。文本信息中的各个词的词权重可以用于评估该词在文本信息中的重要程度,但是采用当前方法计算得到的词的词权重与包含该词的文本信息之间的关联度较低,该词权重并不能准确地反映该词在该文本信息中的重要程度,使得词权重的准确度较低。采用本申请实施例,通过调用文本分析模型对文本信息进行分析识别,可以基于文本分析模型的输出结果确定文本信息的各个特征词的词权重值,即特征词的词权重值与对文本信息进行分析识别得到的输出结果之间的关联度较高,从而可以有效提高特征词的词权重值的准确度。

【技术实现步骤摘要】
信息处理方法、装置、服务设备及计算机可读存储介质
本申请涉及机器学习领域,具体涉及一种信息处理方法、装置、服务设备及计算机可读存储介质。
技术介绍
文本信息中的各个词的词权重可以用于评估该词在文本信息中的重要程度,应用于搜索系统、问答系统或者其他系统时,通过为文本信息中的词设置恰当的词权重,可以获得更加准确的处理结果。目前,主要采用词频-逆文本频率指数(TermFrequency–InverseDocumentFrequency,TF-IDF)计算词权重,TF-IDF算法的主要思想是:若某个词在一篇文档中出现的频率高,并且在其他文档中很少出现,则认为该词具有很好的类别区分能力,即该词的词权重较高。TF-IDF算法的缺陷在于词的词权重主要由文档集合中包含该词的文档数目所决定,该词的词权重与包含该词的文本信息之间的关联度较低,采用当前做法获得的词权重并不能准确地反映该词在该文本信息中的重要程度,使得词权重的准确度较低。因此,如何提高词权重的准确度成为一个亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种信息处理方法、实现该方法的装置、服务设备及计算机可读存储介质,可以基于对文本信息进行分析识别得到的输出结果,确定文本信息中的特征词的词权重值,使得文本信息的特征词的词权重值与对该文本信息进行分析识别得到的输出结果之间的关联度较高,有利于提高特征词的词权重值的准确度。第一方面,本申请实施例提供了一种信息处理方法,该方法包括:获取文本信息;调用文本分析模型对文本信息进行分析识别,并获取文本分析模型的输出结果;根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值;并基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值。在该技术方案中,基于对文本信息进行分析识别得到的输出结果,确定文本信息中的各个特征词的词权重值,可以使得文本信息的各个特征词的词权重值与对该文本信息进行分析识别得到的输出结果之间的关联度较高,即使得文本信息的各个特征词的词权重值与文本信息对应的真实用户意图之间的关联度较高,通过这种方式,可以提高特征词的词权重值的准确度。在一种实现方式中,文本分析模型包括判别器,文本分析模型是通过判别器对文本信息进行分析识别的;根据输出结果,获取文本分析模型在分析识别时针对文本信息中的各个特征词所使用的特征权重值的具体实施方式可以为:根据输出结果从文本分析模型包括的判别器中确定出目标判别器,并获取目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值。在该技术方案中,根据文本分析模型的输出结果从文本分析模型包括的判别器中确定出目标判别器,而非从文本分析模型中随机确定出目标判别器,可以提高根据目标判别器确定出的特征词的词权重值的准确度。在一种实现方式中,前述文本分析模型可以为分类模型,文本分析模型可以包括多个判别器,每一个判别器对应一个分类类别;根据输出结果从文本分析模型包括的判别器中确定出目标判别器的具体实施方式可以为:将与文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,目标分类类别是根据文本分析模型的各个判别器对文本信息进行分析后得到的识别结果确定的。在该技术方案中,目标分类类别可以用于表征文本信息的真实用户意图,通过将目标分类类别对应的判别器确定为目标判别器,进而基于目标判别器在分析识别时针对文本信息中的各个特征词所使用的特征权重值,确定文本信息中的各个特征词的词权重值,有利于提高词权重值的准确度。在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器进行分析识别的识别结果可以为一个概率值,前述输出结果可以包括目标概率值,目标概率值可以为文本分析模型的各个判别器输出的概率值中的最大概率值;根据输出结果从文本分析模型包括的判别器中确定出目标判别器的具体实施方式可以为:将输出目标概率值的判别器确定为目标判别器。在该技术方案中,通过将输出最大概率值的判别器确实为目标判别器,可以提高确定出的目标判别器的准确度。在一种实现方式中,文本分析模型可以包括多个判别器,每一个判别器可以对应一个标识;根据输出结果从文本分析模型包括的判别器中确定出目标判别器的具体实施方式可以为:将与文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,目标标识是根据文本分析模型的各个判别器对文本信息进行分析识别后得到的识别结果确定的。在一种实现方式中,基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值的具体实施方式可以为:将针对文本信息中的各个特征词所使用的特征权重值作为文本信息中的相应特征词的词权重值。在该技术方案中,通过将针对文本信息中的各个特征词所使用的特征权重值直接作为文本信息中的相应特征词的词权重值,可以提高确定词权重值的效率。在一种实现方式中,文本分析模型包括的各个判别器可以用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值可以不同。在该技术方案中,文本分析模型的判别器是通过特征权重值对不同分类类别的文本信息进行分析识别的,不同分类类别的文本信息中的同一特征词,在文本分析模型包括的不同判别器中的特征权重值不同,使得文本分析模型的不同判别器根据不同的特征权重值可以准确识别出文本信息所属的分类类别。在一种实现方式中,基于获取的各个特征权重值,确定文本信息中的各个特征词的词权重值的具体实施方式可以为:对文本信息进行分词处理,得到该文本信息的各个特征词;将该文本信息的各个特征词作为文本分析模型的输入,得到文本分析模型的输出结果。在该技术方案中,仅需将文本信息的各个特征词输入文本分析模型,即可得到文本分析模型的输出结果,进而基于输出结果得到文本信息的各个特征词的词权重值,过程简单高效,当文本信息的特征词的数量为多个时,仅需调用一次文本分析模型,即可得到文本信息的各个特征词的词权重值。在一种实现方式中,该方法还可以包括:获取训练样本数据,训练样本数据包括历史文本信息和标注信息;并基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型。在一种实现方式中,前述文本信息可以为查询信息,历史文本信息可以为历史查询信息,标注信息可以是根据对历史查询信息查询得到的查询结果的用户操作数据确定的。在该技术方案中,历史查询信息是用户以往输入的真实查询信息,用户操作数据是根据用户的真实操作得到的数据,即该文本分析模型是基于真实的用户反馈数据训练得到的,当该信息处理方法应用于搜索系统时,可以使得文本分析模型对查询信息进行分析识别得到的输出结果更加符合该查询信息对应的真实用户意图,进一步的,基于该输出结果得到的特征词的词权重值,可以更加客观地反映用户的真实搜索需求。在一种实现方式中,对历史查询信息查询得到的查询结果的数量可以为多个,用户操作数据可以包括对历史查询信息查询得到的查询结果及每个查询结果的选择次数,以及每个查询结果所属的分类类别;基于历史文本信息和标注信息,对预设模型进行训练,得到前述文本分析模型的具体实施方式可以为:将历史查询信息作为训练数据输入到预设模型中,得到训练结果;根据该训练结果和标注信息对预设模型进行参数优化,以得到前述文本分析模型,标注本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,所述方法包括:获取文本信息;调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果;根据所述输出结果,获取所述文本分析模型在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值;基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值。

【技术特征摘要】
1.一种信息处理方法,其特征在于,所述方法包括:获取文本信息;调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果;根据所述输出结果,获取所述文本分析模型在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值;基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值。2.根据权利要求1所述的方法,其特征在于,所述文本分析模型包括判别器,所述文本分析模型是通过所述判别器对所述文本信息进行分析识别的;所述根据所述输出结果,获取所述文本分析模型在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值,包括:根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,并获取所述目标判别器在分析识别时针对所述文本信息中的各个特征词所使用的特征权重值。3.根据权利要求2所述的方法,其特征在于,所述文本分析模型为分类模型,所述文本分析模型包括多个判别器,每一个判别器对应一个分类类别;所述根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,包括:将与所述文本分析模型的输出结果包括的目标分类类别对应的判别器确定为目标判别器,其中,所述目标分类类别是根据所述文本分析模型的各个判别器对所述文本信息进行分析后得到的识别结果确定的。4.根据权利要求2所述的方法,其特征在于,所述文本分析模型包括多个判别器,每一个判别器进行分析识别的识别结果为一个概率值,所述输出结果包括目标概率值,所述目标概率值为所述文本分析模型的各个判别器输出的概率值中的最大概率值;所述根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,包括:将输出所述目标概率值的判别器确定为目标判别器。5.根据权利要求2所述的方法,其特征在于,所述文本分析模型包括多个判别器,每一个判别器对应一个标识;所述根据所述输出结果从所述文本分析模型包括的判别器中确定出目标判别器,包括:将与所述文本分析模型的输出结果包括的目标标识对应的判别器确定为目标判别器,其中,所述目标标识是根据所述文本分析模型的各个判别器对所述文本信息进行分析识别后得到的识别结果确定的。6.根据权利要求1~5任一项所述的方法,其特征在于,所述基于获取的各个特征权重值,确定所述文本信息中的各个特征词的词权重值,包括:将所述针对所述文本信息中的各个特征词所使用的特征权重值作为所述文本信息中的相应特征词的词权重值。7.根据权利要求3所述的方法,其特征在于,所述文本分析模型包括的各个判别器用于识别不同分类类别的文本信息,不同分类类别的文本信息中的同一特征词,在所述文本分析模型包括的不同判别器中的特征权重值不同。8.根据权利要求1~5任一项所述的方法,其特征在于,所述调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果,包括:对所述文本信息进行分词处理,得到所述文本信息的各个特征词;将所述文本信息的各个特征词作为所述文本分析模型的输入,得到所述文本分析模型的输出结果。9.根据权利要求1~5任一项所述的方法,其特征在于,所述方法还包括:获取训练样本数据,所述训练样本数据包括历史文本信息和标注信息;基于所述历史文本信息和所述标注信息,对预设模型进行训练,得到所述文本分析模型。10.一种信息处理装置,其特征在于,所述装置包括:获取模块,用于获取文本信息;分析模块,用于调用文本分析模型对所述文本信息进行分析识别,并获取所述文本分析模型的输出结果;所述获取模块,还用于根据所述输出结果,获取所述文...

【专利技术属性】
技术研发人员:吴斌蒋欣
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1