一种无效上位词的过滤方法、装置及存储介质制造方法及图纸

技术编号:18497268 阅读:27 留言:0更新日期:2018-07-21 20:15
本发明专利技术实施例公开了无效上位词的过滤方法、装置及存储介质,应用于信息处理技术领域。在对无效上位词进行过滤时,通过对待处理短文本进行分字处理,得到第一分字处理结果,然后根据上位词分类模型提取第一分字处理结果的语义特征,并根据获取的语义特征获取待处理短文本是否是无效上位词的信息,以进行过滤处理。这样,将待处理短文本中所包括的各个字的语义特征作为判断待处理短文本是否为无效上位词的基准,使得得到的待处理短文本是否是无效上位词的信息更为准确,进而使得对于无效上位词的过滤更精确;且本发明专利技术实施例采用上位词分类模型及待处理短文本所包括的各个字即可直接得出待处理短文本是否为无效上位词的信息,计算过程较为简单。

Filtering method, device and storage medium for invalid upper word

The embodiment of the invention discloses a method for filtering invalid upper words, a device and a storage medium, and is applied to the field of information processing technology. When filtering the invalid epistasis, the first word processing result is obtained by treating the short text by the processing of the processing of the short text, then the semantic features of the first word processing result are extracted according to the classification model of the epistatic word, and the information of whether the short text is an invalid epistasis or not is obtained according to the semantic features obtained. Line filtering. In this way, the semantic features of each word included in the short text will be treated as a reference to determine whether the short text is invalid as an invalid epistatic, making the information of the short text as an invalid epistatic more accurate, and thus making the filtering of the invalid epistatic more accurate; and the invention is adopted by an example of the invention. The classification model of epistatic words and the words included in the short text can directly obtain information about whether the short text is an invalid epistatic, and the calculation process is simple.

【技术实现步骤摘要】
一种无效上位词的过滤方法、装置及存储介质
本专利技术涉及信息处理
,特别涉及一种无效上位词的过滤方法、装置及存储介质。
技术介绍
上位词是指可以概括至少两个实体的描述语,比如动物,植物等,目前已有的大规模上位词集合都是通过从纯文本中挖掘的上下位关系来获取的。由于网络中的纯文本噪声大且表述复杂,因此,会产生一些无具体意义的上位词,即无效上位词,比如:蓝色的,或平凡的等,这就需要对无效上位词进行过滤。无效上位词的过滤是指识别出无效上位词并从上位词集合中过滤这些无效上位词,提高上位词集合的质量。现有的一种无效上位词的过滤方法通常需要人工定义各种无效上位词,然后再从上位词集合中过滤这些无效上位词,这样方法需要较多的人力,且最终过滤的结果也不具有泛化性。现有的另一种无效上位词的过滤方法是基于词性标注的过滤方法,不需要人工参与,具体包括:先确定上位词的词性,然后从上位词集合中过滤与确定的词性一致的词语。但是有些上位词一般是以一种短语或短句的形式体现,比如“唐朝的诗人”等,而短语或短句不存在一个具体词性,因此,基于词性标注的过滤方法很难过滤“短语或短句”类型的上位词。
技术实现思路
本专利技术实施例提供一种无效上位词的过滤方法、装置及存储介质,实现了根据上位词分类模型确定待处理短文本是否为无效上位词。本专利技术实施例第一方面提供一种无效上位词的过滤方法,包括:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。本专利技术实施例第二方面提供一种无效上位词的过滤装置,包括:分字单元,用于对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;模型确定单元,用于确定上位词分类模型;信息分类单元,用于根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。本专利技术实施例第三方面提供一种存储介质,所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本专利技术实施例第一方面所述的无效上位词的过滤方法。本专利技术实施例第四方面提供一种终端设备,包括处理器和存储介质,所述处理器,用于实现各个指令;所述存储介质储存多条指令,所述指令适于由处理器加载并执行如本专利技术实施例第一方面所述的无效上位词的过滤方法。可见,在本实施例的方法中,在对无效上位词进行过滤时,主要是通过对待处理短文本进行分字处理,得到第一分字处理结果,然后根据上位词分类模型提取第一分字处理结果的语义特征,并根据获取的语义特征获取待处理短文本是否是无效上位词的信息,以进行过滤处理。这样,将待处理短文本中所包括的各个字的语义特征作为判断待处理短文本是否为无效上位词的基准,使得得到的待处理短文本是否是无效上位词的信息更为准确,进而使得对于无效上位词的过滤更精确;且采用上位词分类模型及待处理短文本所包括的各个字即可直接得出待处理短文本是否是无效上位词的信息,计算过程较为简单。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的一种无效上位词的过滤方法的流程图;图2是本专利技术一个实施例中训练上位词分类模型的流程图;图3是本专利技术一个实施例中确定第一训练样本的示意图;图4是本专利技术一个实施例中确定上位词分类的初始模块中特征提取模块的固定参数的初始值的流程图;图5是本专利技术应用实施例中训练上位词分类模型的示意图;图6是本专利技术应用实施例中一种上位词分类模型的结构示意图;图7是本专利技术应用实施例中另一种上位词分类模型的结构示意图;图8是本发专利技术实施例提供的一种无效上位词的过滤装置的结构示意图;图9是本发专利技术实施例提供的另一种无效上位词的过滤装置的结构示意图;图10是本发专利技术实施例提供的一种终端设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排它的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本专利技术实施例提供一种无效上位词的过滤方法,主要是针对任一短文本(即待处理短文本),确定待处理短文本是否是无效上位词,从而对无效上位词进行过滤。具体地:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。这样,将待处理短文本中所包括的各个字的语义特征作为判断待处理短文本是否为无效上位词的基准,使得得到的待处理短文本是否是无效上位词的信息更为准确,进而使得对于无效上位词的过滤更精确;且采用上位词分类模型及待处理短文本所包括的各个字即可直接得出待处理短文本是否为无效上位词的信息,计算过程较为简单。本专利技术实施例提供一种无效上位词的过滤方法,主要是无效上位词的过滤装置所执行的方法,流程图如图1所示,包括:步骤101,对待处理短文本进行分字处理,得到待处理短文本的第一分字处理结果。这里,待处理短文本是包括至少一个词的文本,即待处理短文本可以是一个词,比如“动物”等,也可以是一个短语,比如“飘动的物体”等。可以理解,无效上位词的过滤装置在对待处理短文本进行分字处理时,可以将一个中文字作为一个字;一个数字作为一个字;对于多个英文字母,如果任意两个相邻的英文字母之间没有空格,则可以将这多个英文字母作为一个字,例如,“china”这些英文字母中,两个相邻的英文字母之间没有空格,则可以将“china”作为一个整体的字。因此,无效上位词的过滤装置得到的第一分字处理结果可以包括待处理短文本中包括的所有字。步骤102,确定上位词分类模型。该上位词分类模型可以是在发起本实施例的流程之前,事先预置在无效上位词的过滤装置中的,主要是将已标记有效的上位词和已标记无效的上位词作为训练样本,且根据一定的训练方法训练得到。该上位词分类模型可以是任意类型的分类模型,比如,卷积神经网络(ConvolutionNeuralNetworks,CNN),或者,长短期记忆网络(LongShort-Term本文档来自技高网...

【技术保护点】
1.一种无效上位词的过滤方法,其特征在于,包括:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。

【技术特征摘要】
1.一种无效上位词的过滤方法,其特征在于,包括:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。2.如权利要求1所述的方法,其特征在于,所述确定上位词分类模型,具体包括:确定第一训练样本,所述第一训练样本中包括已标记有效的上位词和已标记无效的上位词,及确定上位词分类的初始模型;分别对所述第一训练样本中的各个上位词进行分字处理,得到第二分字处理结果;根据所述上位词分类的初始模型,及所述第二分字处理结果,对所述第一训练样本中各个上位词进行分类,得到所述各个上位词是否无效的初始分类结果;根据所述初始分类结果计算与所述上位词分类的初始模型相关的损失函数的函数值;根据所述损失函数的函数值调整所述上位词分类的初始模型的固定参数值,以得到所述上位词分类模型。3.如权利要求2所述的方法,其特征在于,所述确定第一训练样本,具体包括:在预置的上位词集合中选择无效上位词,设置所述选择的无效上位词的无效标记;确定有效上位词的第二描述模板,所述第二描述模板与所述选择的无效上位词的第一描述模板具有共有信息;从所述上位词集合中选择与所述第二描述模板一致的有效上位词,设置所选择的有效上位词的有效标记。4.如权利要求3所述的方法,其特征在于,所述在预置的上位词集合中选择无效上位词,具体包括:在预置的上位词集合中选择如下至少一种类型的无效上位词:方位词类型,年代类型,形容词类型和非名词类型。5.如权利要求4所述的方法,其特征在于,所述确定有效上位词的第二描述模板,具体包括:如果所述选择的无效上位词包括方位词类型的无效上位词,确定对应的第二描述模板为:以名词结尾,且能以“在”开始或以“在”开始的短文本;如果所述选择的无效上位词包括年代类型的无效上位词,确定对应的第二描述模板为:年代与名词的结合的短文本;如果所述选择的无效上位词包括形容词类型的无效上位词,确定对应的第二描述模板为:能以“的”结尾或以“的”结尾,且包括名词的短文本;如果所述选择的无效上位词包括非名词类型的无效上位词,确定对应的第二描述模板为:包括名词的短文本。6.如权利要求2所述的方法,其特征在于,所述确定上位词分类的初始模型,具体包括:确定所述上位词分类的初始模型的结构,所述上位词分类的初始模型包括特征提取模块和分类模块,所述特征提取模块用于进行语义特征的提取,所述分类模块用于根据所述特征提取模块提取的语义特征进行无效上位词或有效上位词的分类;确定所述特征提取模块和分类模块中固定参数的初始值。7.如权利要求6所述的方法,其特征在于,所述特征提取模块包括:字向量层,卷积层和池化层,所述分类模块包括:分类层;其中,所述字向量层用于获取各个字的字向量,所述字向量用于表示对应字的语义特征,所述卷积层用于根据各个字的字向量对相邻字进行融合,所述池化层用于对所述卷积...

【专利技术属性】
技术研发人员:郑孙聪李潇
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1