The embodiment of the invention discloses a method for filtering invalid upper words, a device and a storage medium, and is applied to the field of information processing technology. When filtering the invalid epistasis, the first word processing result is obtained by treating the short text by the processing of the processing of the short text, then the semantic features of the first word processing result are extracted according to the classification model of the epistatic word, and the information of whether the short text is an invalid epistasis or not is obtained according to the semantic features obtained. Line filtering. In this way, the semantic features of each word included in the short text will be treated as a reference to determine whether the short text is invalid as an invalid epistatic, making the information of the short text as an invalid epistatic more accurate, and thus making the filtering of the invalid epistatic more accurate; and the invention is adopted by an example of the invention. The classification model of epistatic words and the words included in the short text can directly obtain information about whether the short text is an invalid epistatic, and the calculation process is simple.
【技术实现步骤摘要】
一种无效上位词的过滤方法、装置及存储介质
本专利技术涉及信息处理
,特别涉及一种无效上位词的过滤方法、装置及存储介质。
技术介绍
上位词是指可以概括至少两个实体的描述语,比如动物,植物等,目前已有的大规模上位词集合都是通过从纯文本中挖掘的上下位关系来获取的。由于网络中的纯文本噪声大且表述复杂,因此,会产生一些无具体意义的上位词,即无效上位词,比如:蓝色的,或平凡的等,这就需要对无效上位词进行过滤。无效上位词的过滤是指识别出无效上位词并从上位词集合中过滤这些无效上位词,提高上位词集合的质量。现有的一种无效上位词的过滤方法通常需要人工定义各种无效上位词,然后再从上位词集合中过滤这些无效上位词,这样方法需要较多的人力,且最终过滤的结果也不具有泛化性。现有的另一种无效上位词的过滤方法是基于词性标注的过滤方法,不需要人工参与,具体包括:先确定上位词的词性,然后从上位词集合中过滤与确定的词性一致的词语。但是有些上位词一般是以一种短语或短句的形式体现,比如“唐朝的诗人”等,而短语或短句不存在一个具体词性,因此,基于词性标注的过滤方法很难过滤“短语或短句”类型的上位词。
技术实现思路
本专利技术实施例提供一种无效上位词的过滤方法、装置及存储介质,实现了根据上位词分类模型确定待处理短文本是否为无效上位词。本专利技术实施例第一方面提供一种无效上位词的过滤方法,包括:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进 ...
【技术保护点】
1.一种无效上位词的过滤方法,其特征在于,包括:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。
【技术特征摘要】
1.一种无效上位词的过滤方法,其特征在于,包括:对待处理短文本进行分字处理,得到所述待处理短文本的第一分字处理结果;确定上位词分类模型;根据所述上位词分类模型提取所述第一分字处理结果的语义特征,并根据所述语义特征获取所述待处理短文本是否为无效上位词的信息,以进行过滤处理。2.如权利要求1所述的方法,其特征在于,所述确定上位词分类模型,具体包括:确定第一训练样本,所述第一训练样本中包括已标记有效的上位词和已标记无效的上位词,及确定上位词分类的初始模型;分别对所述第一训练样本中的各个上位词进行分字处理,得到第二分字处理结果;根据所述上位词分类的初始模型,及所述第二分字处理结果,对所述第一训练样本中各个上位词进行分类,得到所述各个上位词是否无效的初始分类结果;根据所述初始分类结果计算与所述上位词分类的初始模型相关的损失函数的函数值;根据所述损失函数的函数值调整所述上位词分类的初始模型的固定参数值,以得到所述上位词分类模型。3.如权利要求2所述的方法,其特征在于,所述确定第一训练样本,具体包括:在预置的上位词集合中选择无效上位词,设置所述选择的无效上位词的无效标记;确定有效上位词的第二描述模板,所述第二描述模板与所述选择的无效上位词的第一描述模板具有共有信息;从所述上位词集合中选择与所述第二描述模板一致的有效上位词,设置所选择的有效上位词的有效标记。4.如权利要求3所述的方法,其特征在于,所述在预置的上位词集合中选择无效上位词,具体包括:在预置的上位词集合中选择如下至少一种类型的无效上位词:方位词类型,年代类型,形容词类型和非名词类型。5.如权利要求4所述的方法,其特征在于,所述确定有效上位词的第二描述模板,具体包括:如果所述选择的无效上位词包括方位词类型的无效上位词,确定对应的第二描述模板为:以名词结尾,且能以“在”开始或以“在”开始的短文本;如果所述选择的无效上位词包括年代类型的无效上位词,确定对应的第二描述模板为:年代与名词的结合的短文本;如果所述选择的无效上位词包括形容词类型的无效上位词,确定对应的第二描述模板为:能以“的”结尾或以“的”结尾,且包括名词的短文本;如果所述选择的无效上位词包括非名词类型的无效上位词,确定对应的第二描述模板为:包括名词的短文本。6.如权利要求2所述的方法,其特征在于,所述确定上位词分类的初始模型,具体包括:确定所述上位词分类的初始模型的结构,所述上位词分类的初始模型包括特征提取模块和分类模块,所述特征提取模块用于进行语义特征的提取,所述分类模块用于根据所述特征提取模块提取的语义特征进行无效上位词或有效上位词的分类;确定所述特征提取模块和分类模块中固定参数的初始值。7.如权利要求6所述的方法,其特征在于,所述特征提取模块包括:字向量层,卷积层和池化层,所述分类模块包括:分类层;其中,所述字向量层用于获取各个字的字向量,所述字向量用于表示对应字的语义特征,所述卷积层用于根据各个字的字向量对相邻字进行融合,所述池化层用于对所述卷积...
【专利技术属性】
技术研发人员:郑孙聪,李潇,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。