文档中无效词的识别方法及装置制造方法及图纸

技术编号:15762986 阅读:311 留言:0更新日期:2017-07-05 23:36
本申请涉及计算机技术领域,尤其涉及一种文档中无效词的识别方法及装置,在一种文档中无效词的识别方法中,首先对识别无效词的文档进行预处理,得到与该文档对应的词语集合;然后根据预设的语料库,确定词语集合中各个词语的平均位置以及逆文档频率;之后根各个词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定各个词语的目标权重值;最后根据各个词语的目标权重值,识别第一文档中的无效词。也即本申请是根据词语的平均位置以及逆文档频率,来从第一文档中识别无效词,由此,可以提高无效词识别的效率。

Method and device for identifying invalid words in document

The invention relates to the field of computer technology, especially relates to a method and device for recognizing an invalid word in the document, the document is invalid in a word recognition method, first to identify invalid word document preprocessing, corresponding with the document sets of words; then according to the preset corpus, determine the average position of sets of words in each word and inverse document frequency; after all, the average root word position inverse document frequency and Related words inverse document frequency, determine the weight of each target word value; according to each word the target weights, invalid word recognition in a first document. That is, the application identifies the invalid word from the first document according to the average position of the words and the inverse document frequency, thereby improving the efficiency of the invalid word recognition.

【技术实现步骤摘要】
文档中无效词的识别方法及装置
本申请涉及计算机
,尤其涉及一种文档中无效词的识别方法及装置。
技术介绍
传统技术中,一般通过如下两种方法来识别文档中的无效词,此处,无效词是指与当前文档内容不相关的词语,相应地,与当前文档的内容相关的词语可以称为关键词。第一种方法是,基于预设的规则,来识别文档中的无效词,如将“_”、“-”或者其它预设字符之前或者之后的词语识别为无效词,而事实上,文档内容的表现形式变化多端,在部分文档中,很有可能“_”、“-”或者其它特殊字符之前或者之后均包括了关键词,而根据上述方法,直接将“_”、“-”或者其它特殊字符之前或者之后的词语识别为无效词时,会导致关键词被识别为无效词的问题,也即根据第一种方法识别的无效词往往是不准确的。第二种方法是,根据TF-IDF的方法,来识别文档中的无效词。具体地,首先计算文档中各个词语的词频(termfrequency,TF)和逆文档频率(inversedocumentfrequency,IDF),其中,词频是指某一词语在某一文档中出现的次数,而IDF可以根据公式1计算:其中,IDF(w)为词语w的逆文档频率,N为预设的语料库中包含词语w的文档的个数,DF(w)为词语w的词频。IDF描述的是词语在文档中出现的广度,IDF越大,说明词语出现的越少,只在几篇文档中出现,IDF越小,说明词语出现的越频繁,极端情况下,一个词语在所有文档中都出现了,那么这个词语的IDF为0,说明词语没有区分价值,如“的”、“是”这类停用词在大部分文档中都会出现,因此这类词语的IDF值很小。在计算得到文档中各个词语的TF和IDF之后,根据计算得到的TF和IDF,来对各个词语进行打分(如,TF*IDF);最后根据各个词语的打分结果,来从文档中识别无效词。然而当部分文档只包括了较少的词语时,大部分的词语在文档中只出现了一次,则上述TF*IDF也相当于IDF;而根据上述内容可知,根据IDF只能从文档中识别停用词,而并不能识别无效词。
技术实现思路
本申请描述了一种文档中无效词的识别方法及装置,可以有效地识别文档中的无效词。第一方面,提供了一种文档中无效词的识别方法,该方法包括:对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;根据所述各个词语的目标权重值,识别所述第一文档中的无效词。第二方面,提供了一种文档中无效词的识别装置,该装置包括:预处理单元,用于对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;确定单元,用于根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;所述确定单元,还用于对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;识别单元,用于根据所述确定单元确定的所述各个词语的目标权重值,识别所述第一文档中的无效词。本申请提供的文档中无效词的识别方法及装置,首先对识别无效词的文档进行预处理,得到与该文档对应的词语集合;然后根据预设的语料库,确定词语集合中各个词语的平均位置以及逆文档频率;之后根各个词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定各个词语的目标权重值;最后根据各个词语的目标权重值,识别第一文档中的无效词。也即本申请是根据词语的平均位置以及逆文档频率,来从第一文档中识别无效词,由此,可以提高无效词识别的效率。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请一种实施例提供的文档中无效词的识别方法流程图;图2为本申请另一种实施例提供的文档中无效词的识别装置示意图。具体实施方式下面结合附图,对本专利技术的实施例进行描述。本申请实施例提供的文档中无效词的识别方法及装置,适用于从文档中识别与当前文档内容不相关的词语的场景,在本说明书中,将与当前文档内容不相关的词语称为无效词。举例来说,在淘宝网的某网页页面中包含了如下内容:“淘宝买买买好开心-提供健康|养生|留学|移民|创业|汽车等信息-手机淘网”,在该网页页面中,因为“手机淘网”与当前网页页面的内容不相关,所以可以将“手机”以及“淘网”识别为无效词。需要说明的是,上述文档可以是指由服务器或者人工预先收集的网页页面,也可以是指由人工预先整理的文本;此外,本说明书中的文档可以是指中文文档,也可以是指英文文档,具体地,当上述文档为中文文档时,识别的无效词为中文词语;当上述文档为英文文档时,识别的无效词为英文词语。图1为本申请一种实施例提供的文档中无效词的识别方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图1所示,所述方法具体包括:步骤110,对第一文档进行预处理,得到与第一文档对应的词语集合。其中,第一文档可以为预设的语料库中的任一文档,预设的语料库中的文档可以是由服务器或者人工预先收集的网页页面,也可以是指由人工预先整理的文本。可以理解的是,该预设的语料库中可以包括多个文档。需要说明的是,当第一文档为中文文档时,上述对第一文档进行预处理可以包括:对第一文档进行分词处理和/或去除停用词和/或词语去重处理等;而当第一文档为英文文档时,上述对第一文档进行预处理可以包括:对第一文档进行词语去重处理等。在此说明书中,以第一文档为中文文档为例来说。在对中文文档进行分词时,常用的分词方法主要包括:基于词典的分词方法、基于统计的分词方法以及两者结合的方法。基于词典的分词方法如下:人工预先整理一个词典,分词时,以长度从长到短的扫描文档中的每个句子,查看每个分段是否在词典中,如以文档的内容为“传说天雷山离天只有三尺三”为例来说,可以先扫描“传说天雷山离天只有三尺三”发现不在词典中,然后扫描“传说天雷山离天只有三尺”发现仍然不在词典中,不断尝试,直到最后扫描“传说”发现在词典中,这样就分成“传说”和“天雷山离天只有三尺三”这两个分段,后面再用这样的方法继续扫描词典,直至每个分段都包含在字典中。基于统计的分词方法与基于词典的分词方法类似,与之不同的是,不是去查词典,而是看每个分段在预设的语料库中出现的次数。如“传说”这个分段作为词语出现的次数会远远大于“传说天”,则将“传说”这个分段作为一个词语,基于统计的分词方法能够发现一些网络新词,比如“逗比”。在实际应用中,可以结合基于统计的分词方法和基于词典的分词方法来对文档进行分词。举例来说,在对文档:“传说天雷山离天只有三尺三”进行分词处理之后,得到的分词可以为:“传说”、“天雷山”、“离”、“天”、“只有”、“三尺”以及“三”。去除停用词的过程可以为:根据预先定义的停用词,来去除第一文档中的停用词,此处的停用词是指文档中没有实际意义的词语,如,“我”、“的”、“是”、“等”、“本文档来自技高网
...
文档中无效词的识别方法及装置

【技术保护点】
一种文档中无效词的识别方法,其特征在于,包括:对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;根据所述各个词语的目标权重值,识别所述第一文档中的无效词。

【技术特征摘要】
1.一种文档中无效词的识别方法,其特征在于,包括:对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;根据所述各个词语的目标权重值,识别所述第一文档中的无效词。2.根据权利要求1所述的方法,其特征在于,所述根据所述预设的语料库,确定所述词语集合中各个词语的平均位置,包括:对所述词语集合中的每个词语,从所述预设的语料库中筛选出包含所述词语的至少一个目标文档;对所述至少一个目标文档进行词语去重处理,得到词语去重处理后的各个目标文档;确定所述词语在所述各个目标文档中出现的序号,并统计所述各个目标文档所包含词语的个数;根据所述目标文档的个数、所述序号以及所述各个目标文档所包含词语的个数,确定所述词语的平均位置。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文档的个数、所述序号以及所述各个目标文档所包含词语的个数,确定所述词语的平均位置,包括:根据如下公式确定所述词语的平均位置:其中,w为所述词语,p(w)为所述词语的平均位置,DF(w)为所述目标文档的个数,d(i)为第i个目标文档,kd(i)为所述词语在所述第i个目标文档中出现的序号,Md(i)为所述第i个目标文档所包含词语的个数。4.根据权利要求1所述的方法,其特征在于,所述根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值,包括:根据如下公式确定所述词语的目标权重值:其中,D为所述第一文档,W为所述词语,PIDF(W,D)为所述词语的目标权重值,k(W,D)为所述词语在所述第一文档中出现的序号,m为所述第一文档所包含词语的个数,wj为所述第一文档中的第j个词语,IDF(wj)为所述第j个词语的逆文档频率,为所述词语以及在所述第一文档中出现在所述词语之后的后续词语的最小逆文档频率,p(W)为所述词语的平均位置。5.根据权利要求1所述的方法,其特征在于,所述根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值,包括:根据如下公式确定所述词语的目标权重值:其中,D为所述第一文档,W为所述词语,PIDF(W,D)为所述词语的目标权重值,k(W,D)为所述词语在所述第一文档中出现的序号,wj为所述第一文档中的第j个词语,IDF(wj)为所述第j个词语的逆文档频率,为所述词语以及在所述第一文档中出现在所述词语之前的前续词语的最小逆文档频率,p(W)为所述词语的平均位置。6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述各个词语的目标权重值,识别所述第一文档中的无效词,包括...

【专利技术属性】
技术研发人员:彭际群何慧梅王峰伟
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1