The invention relates to the field of computer technology, especially relates to a method and device for recognizing an invalid word in the document, the document is invalid in a word recognition method, first to identify invalid word document preprocessing, corresponding with the document sets of words; then according to the preset corpus, determine the average position of sets of words in each word and inverse document frequency; after all, the average root word position inverse document frequency and Related words inverse document frequency, determine the weight of each target word value; according to each word the target weights, invalid word recognition in a first document. That is, the application identifies the invalid word from the first document according to the average position of the words and the inverse document frequency, thereby improving the efficiency of the invalid word recognition.
【技术实现步骤摘要】
文档中无效词的识别方法及装置
本申请涉及计算机
,尤其涉及一种文档中无效词的识别方法及装置。
技术介绍
传统技术中,一般通过如下两种方法来识别文档中的无效词,此处,无效词是指与当前文档内容不相关的词语,相应地,与当前文档的内容相关的词语可以称为关键词。第一种方法是,基于预设的规则,来识别文档中的无效词,如将“_”、“-”或者其它预设字符之前或者之后的词语识别为无效词,而事实上,文档内容的表现形式变化多端,在部分文档中,很有可能“_”、“-”或者其它特殊字符之前或者之后均包括了关键词,而根据上述方法,直接将“_”、“-”或者其它特殊字符之前或者之后的词语识别为无效词时,会导致关键词被识别为无效词的问题,也即根据第一种方法识别的无效词往往是不准确的。第二种方法是,根据TF-IDF的方法,来识别文档中的无效词。具体地,首先计算文档中各个词语的词频(termfrequency,TF)和逆文档频率(inversedocumentfrequency,IDF),其中,词频是指某一词语在某一文档中出现的次数,而IDF可以根据公式1计算:其中,IDF(w)为词语w的逆文档频率,N为预设的语料库中包含词语w的文档的个数,DF(w)为词语w的词频。IDF描述的是词语在文档中出现的广度,IDF越大,说明词语出现的越少,只在几篇文档中出现,IDF越小,说明词语出现的越频繁,极端情况下,一个词语在所有文档中都出现了,那么这个词语的IDF为0,说明词语没有区分价值,如“的”、“是”这类停用词在大部分文档中都会出现,因此这类词语的IDF值很小。在计算得到文档中各个词语的TF和IDF ...
【技术保护点】
一种文档中无效词的识别方法,其特征在于,包括:对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;根据所述各个词语的目标权重值,识别所述第一文档中的无效词。
【技术特征摘要】
1.一种文档中无效词的识别方法,其特征在于,包括:对第一文档进行预处理,得到与所述第一文档对应的词语集合,其中,所述第一文档为预设的语料库中的任一文档;根据所述预设的语料库,确定所述词语集合中各个词语的平均位置以及逆文档频率;对所述词语集合中的每个词语,根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值;根据所述各个词语的目标权重值,识别所述第一文档中的无效词。2.根据权利要求1所述的方法,其特征在于,所述根据所述预设的语料库,确定所述词语集合中各个词语的平均位置,包括:对所述词语集合中的每个词语,从所述预设的语料库中筛选出包含所述词语的至少一个目标文档;对所述至少一个目标文档进行词语去重处理,得到词语去重处理后的各个目标文档;确定所述词语在所述各个目标文档中出现的序号,并统计所述各个目标文档所包含词语的个数;根据所述目标文档的个数、所述序号以及所述各个目标文档所包含词语的个数,确定所述词语的平均位置。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文档的个数、所述序号以及所述各个目标文档所包含词语的个数,确定所述词语的平均位置,包括:根据如下公式确定所述词语的平均位置:其中,w为所述词语,p(w)为所述词语的平均位置,DF(w)为所述目标文档的个数,d(i)为第i个目标文档,kd(i)为所述词语在所述第i个目标文档中出现的序号,Md(i)为所述第i个目标文档所包含词语的个数。4.根据权利要求1所述的方法,其特征在于,所述根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值,包括:根据如下公式确定所述词语的目标权重值:其中,D为所述第一文档,W为所述词语,PIDF(W,D)为所述词语的目标权重值,k(W,D)为所述词语在所述第一文档中出现的序号,m为所述第一文档所包含词语的个数,wj为所述第一文档中的第j个词语,IDF(wj)为所述第j个词语的逆文档频率,为所述词语以及在所述第一文档中出现在所述词语之后的后续词语的最小逆文档频率,p(W)为所述词语的平均位置。5.根据权利要求1所述的方法,其特征在于,所述根据所述词语的平均位置、逆文档频率以及相关词语的逆文档频率,确定所述词语的目标权重值,包括:根据如下公式确定所述词语的目标权重值:其中,D为所述第一文档,W为所述词语,PIDF(W,D)为所述词语的目标权重值,k(W,D)为所述词语在所述第一文档中出现的序号,wj为所述第一文档中的第j个词语,IDF(wj)为所述第j个词语的逆文档频率,为所述词语以及在所述第一文档中出现在所述词语之前的前续词语的最小逆文档频率,p(W)为所述词语的平均位置。6.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述各个词语的目标权重值,识别所述第一文档中的无效词,包括...
【专利技术属性】
技术研发人员:彭际群,何慧梅,王峰伟,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。