一种在网络上提取近义词的方法及系统技术方案

技术编号：2827366 阅读：1701 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种在网络上提取近义词的方法，包括获取网页上各反向链接的锚文本，将所述锚文本两两对比，分别去除重叠的词语，将剩余的词语组成近义词集合，基于所述近义词集合提取近义词。获取上述剩余词语在所述锚文本中的出现频次，所述各反向链接父网页的Ｒａｎｋ值，及该父网页所属主域的Ｒａｎｋ值，根据上述数值分别计算上述剩余词语中各个词语对的近义概率，选取近义概率超过预设阈值的词语对作为近义词。同时，本发明专利技术还提供一种在网络上提取近义词的系统。本发明专利技术解决现有技术中近义词提取的广度和精度都较低的问题，本发明专利技术提取的近义词具有较高的广度和精度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及近义词提取领域，特別是涉及一种在网络上提取近义词的方法及系统。技术背景在互联网上利用网络资源提取近义词，可以为网页搜索相关性、自然语言处理、文本挖掘等提供支持。但在网络上，难以找到恰当的方式去界定近义词，因此，目前现有技术仍釆用对比查找方式。参阅图l，为现有在网络上提取近义词的方法，具体步骤如下所述。步骤S1Q1、预置近义词词库。人工通过相关词典和经-验整理近义词，将整理好的近义词组成近义词库。近义词库包括通常意义上词义相近的词语，如吃饭、就餐，，，犹豫、踌躇，，等，还包括广义上的近义词，即表示同一事物的词语，如北京、北京大学，，等。步骤S102、提取网页文本，对网页文本进行分词处理。在网络上抓取所需网页，再在网页上提取正文文本，对正文文本进行分词处理，将各词语使用空格隔开，过滤掉虚词、语气词、介词等不具有实质意义的词语。步骤S103、将网页文本与近义词词库对比，才是取与近义词词库相同的词语。步骤S104、根据提取的近义词对网页进行分析。上述方法只是根据已有的近义词库在网络上提取相同的近义词，进行分析。但近义词库是根据人工整理的，一般数据量较小，覆盖范围也较小，基于该数据库提取近义词，提取的广度受到很大的局限。网络上的近义词很多由网络语言习惯形成的，预先设置近义词库很难嚢括这些网络特有的近义词，基于预置的近义词库无法查找到这些近义词，提取近义词的适用性较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种在网络上提取近义词的方法及系统，以解决现有技术中近义词提取的广度和适用性较低的问题。本专利技术提取的 ...

【技术保护点】
一种在网络上提取近义词的方法，其特征在于，包括：　　　　获取网页上各反向链接的锚文本；　　　　将所述锚文本两两对比，分别去除重叠的词语；　　　　将剩余的词语组成近义词集合，基于所述近义词集合提取近义词。

【技术特征摘要】
1、一种在网络上提取近义词的方法，其特征在于，包括获取网页上各反向链接的锚文本；将所述锚文本两两对比，分别去除重叠的词语；将剩余的词语组成近义词集合，基于所述近义词集合提取近义词。2、如权利要求1所述的方法，其特征在于，获取网页各反向链接的锚文本之前，还包括获取网页上各反向链接父网页的Rank值，及该父网页所属主域的Rank值；如父网页的Rank值，和/或该网页所在主域的Rank值低于预设数值，去除该父网页对应的反向链4妄。3、如权利要求1所述的方法，其特征在于，获取网页各反向链接的锚文本之后，还包括；计算锚文本权重，去除权重值低于预置数值的锚文本。4、如权利要求1所述的方法，其特征在于，基于所述近义词集合提取近义词具体为获取上述剩余词语在所述锚文本中的出现频次，所述各反向链接父网页的 Rank值，及该父网页所属主域的Rank值；根据上述数值分别计算上述剩余词语中各个词语对的近义概率；选取近义概率超过预设阈值的词语对作为近义词。5、如权利要求l所述的方法，其特征在于，基于所述近义词集合提取近义词具体为获取上述剩余词语在所述锚文本中的出现频次，所述各反向链接父网页的 Rank值，及该父网页所在主域的Rank值；根据上述数值分别计算上述剩余词语中各词语对的近义概率，重复上述步骤，获取各词语对在各个网页的近义概率；向链接子页面的Rank值，获得的乘积相加，作为该词语对的总近义概率；提取总近义概率超过设定阈值的词语对作为近义词。6、如权利要求4或5所述的方法，其特征在于，根据上述数值分别计算上述剩余词语中各词语对的近义概率具体为. 针对每个词语对，将词语对中一词语的出现频次乘以其对...

【专利技术属性】
技术研发人员：禹荣凌，刘云峰，
申请(专利权)人：腾讯科技北京有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人