一种在网络上提取近义词的方法及系统技术方案

技术编号:2827366 阅读:1701 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种在网络上提取近义词的方法,包括获取网页上各反向链接的锚文本,将所述锚文本两两对比,分别去除重叠的词语,将剩余的词语组成近义词集合,基于所述近义词集合提取近义词。获取上述剩余词语在所述锚文本中的出现频次,所述各反向链接父网页的Rank值,及该父网页所属主域的Rank值,根据上述数值分别计算上述剩余词语中各个词语对的近义概率,选取近义概率超过预设阈值的词语对作为近义词。同时,本发明专利技术还提供一种在网络上提取近义词的系统。本发明专利技术解决现有技术中近义词提取的广度和精度都较低的问题,本发明专利技术提取的近义词具有较高的广度和精度。

【技术实现步骤摘要】

本专利技术涉及近义词提取领域,特別是涉及一种在网络上提取近义词的方法 及系统。技术背景在互联网上利用网络资源提取近义词,可以为网页搜索相关性、自然语言 处理、文本挖掘等提供支持。但在网络上,难以找到恰当的方式去界定近义词, 因此,目前现有技术仍釆用对比查找方式。参阅图l,为现有在网络上提取近义词的方法,具体步骤如下所述。步骤S1Q1、预置近义词词库。人工通过相关词典和经-验整理近义词,将 整理好的近义词组成近义词库。近义词库包括通常意义上词义相近的词语,如 吃饭、就餐,,,犹豫、踌躇,,等,还包括广义上的近义词,即表示同一 事物的词语,如北京、北京大学,,等。步骤S102、提取网页文本,对网页文本进行分词处理。在网络上抓取所 需网页,再在网页上提取正文文本,对正文文本进行分词处理,将各词语使用 空格隔开,过滤掉虚词、语气词、介词等不具有实质意义的词语。步骤S103、将网页文本与近义词词库对比,才是取与近义词词库相同的词语。步骤S104、根据提取的近义词对网页进行分析。上述方法只是根据已有的近义词库在网络上提取相同的近义词,进行分 析。但近义词库是根据人工整理的, 一般数据量较小,覆盖范围也较小,基于 该数据库提取近义词,提取的广度受到很大的局限。网络上的近义词很多由网络语言习惯形成的,预先设置近义词库很难嚢括 这些网络特有的近义词,基于预置的近义词库无法查找到这些近义词,提取近 义词的适用性较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种在网络上提取近义词的方法及系 统,以解决现有技术中近义词提取的广度和适用性较低的问题。本专利技术提取的 近义词具有较高的广度和精度。本专利技术公开一种在网络上提取近义词的方法,包括获取网页上各反向链 接的锚文本;将所述锚文本两两对比,分别去除重叠的词语;将剩余的词语维 成近义词集合,基于所述近义词集合提取近义词。优选的,获取网页各反向链接的锚文本之前,还包括获取网页上各反向 链4妄父网页的Rankj直,及该父网页所属主i或的Rank {直;如父网页的Rank {直, 和/或该网页所在主域的Rank值低于预设数值,去除该父网页对应的反向链 接。优选的,获取网页各反向链接的锚文本之后,还包括;计算锚文本权重, 去除权重值低于预置数值的锚文本。优选的,基于所述近义词集合提取近义词具体为获取上述剩余词语在所 述锚文本中的出现频次,所述各反向链接父网页的Rank值,及该父网页所属 主域的Rank值;根据上述数值分别计算上述剩余词语中各个词语对的近义概 率;选取近义概率超过预设阈值的词语对作为近义词。优选的,基于所述近义词集合提取近义词具体为获取上述剩余词语在所 述锚文本中的出现频次,所述各反向链接父网页的Rank值,及该父网页所在 主域的Rank值;根据上述数值分别计算上述剩余词语中各词语对的近义概率, 重复上述步骤,获取各词语对在各个网页的近义概率;针对每个词语对,将其获得的乘积相加,作为该词语对的总近义概率;提取总近义概率超过设定阈值 的词i吾对作为近义词。优选的,根据上述数值分别计算上述剩余词语中各词语对的近义概率具体 为针对每个词语对,将词语对中一词语的出现频次乘以其对应反向链接父网 页的Rank值,乘积取对数后再乘以设定系数;将词语对中另一词语的出现频 次乘以其对应反向链接父网页所属主域的Rank值,乘积取对数;获得的数据 相加,为该词语的近义概率。优选的,根据上述数值分别计算上述剩余词语中各词语对的近义概率具体 为针对每个词语对,将词语对中一词语的出现频次乘以其对应反向链接父网 页的Rank值,另一词语的出现频次乘以其对应反向链接父网页所属主域的 Rank值;获得的数据相加,为该词语的近义概率。本专利技术还公开一种在网络上提取近义词的系统,包括锚文本获取模块、对比模块、去除模块、及组成模块所述锚.文本获取模块,用于获取网页上各反 向链接的锚文本;所述对比模块,用于将所述锚文本两两对比;所述去除模块, 用于分别去除重叠的词语;所述组成模块,用于将剩余的词语组成近义词集合。优选的,还包括数据获取模块、近义概率计算模块、近义词模块所述数 据获取模块,用于获取上述剩余词语在所述锚文本中的出现频次,所述各反向 链接父网页的Rank值,及该父网页所属主域的Rank值;所述近义概率计算模 块,用于根据上述数值分别计算上述剩余词语中各个词语对的近义概率;所述 近义词模块,用于选取近义概率超过预设阈值的词语对作为近义词。优选的,还包括总近义概率模块,接收所述近义概率计算模块发送的各个 词语对的近义概率,用于针对每个词语对,将其在不同网页的近义概率分别乘 以该近义概率对应反向链接子页面的Rank值,获得的乘积相加,作为该词语 对的总近义概率,并发送至近义词模块;所述近义词模块提取总近义概率超过 设定阈值的词语对作为近义词。与现有技术相比,本专利技术具有以下优点本专利技术对网络上的近义词进行界定,利用锚文本在网络上提取潜在近义 词,组成近义词集合,基于近义词集合提取近义词。纟是取的近义词数据量大, 覆盖范围广,并且能够体现网络应用的特性,提取的近义词的广度和精度较高。本专利技术通过词语的出现频次,反向链接父网页的Rank值,该父网页所属 域名的Rand值,计算词语对的近义扭X率,该近义扭克率集中体现该词语对的应 用频率,所在链接的可信度,可较好的判断该词语对内在含义相同度,根据近 义概率选取的近义词具有很高的精度和实用性。 附图说明图1为现有在网络上提取近义词的方法流程图; 图2为本专利技术在网络上提取近义词的方法第一实施例流程图; 图3为本专利技术在网络上提取近义词的方法第二实施例流程图; 图4为本专利技术在网络上提取近义词的方法第三实施例流程图; 图5为本专利技术在网络上提取近义词的方法第四实施例流程图; 图6为本专利技术在网络上才是取近义词系统的第一实施例示意图;图7为本专利技术在网络上提取近义词系统的第二实施例示意图; 闺8为本专利技术在网络上提取近义词系统的第三实施例示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。一个网页包含指向另 一个网页的超链接(URL ),认为这两个网页之间存在 链接关系。超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B, 网页A可称为父网页,网页B可称为子网页,该链接对于网页A为正向链接, 对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。本发 明根据词语在网页反向链接锚文本中出现的频次,反向链接父网页的可信度, 及该父网页所属主域的可信度,计算词语对的近义概率。依据近义概率判断该 词语对是否为近义词。互联网上的海量数据可以从概率上保证该方法的可行性 和结果的准确性。本专利技术利用锚文本提取近义词,指向同 一网页的锚文本有其相同的内在含 义,锚文本中重叠的词语一般为该网页的惯常用语或固定用语,锚文本去除该 重叠词语后的词语,存在近义的可能性非常大。参阅图2,示出本专利技术在网络上提取近义词的方法第一实施例,具体步骤 如下所述。步骤S201、获取网页上各反向链接的锚文本。网络服务器在互联网的各 网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。例如,网页A使用锚文本S指向网页B,本文档来自技高网...

【技术保护点】
一种在网络上提取近义词的方法,其特征在于,包括:    获取网页上各反向链接的锚文本;    将所述锚文本两两对比,分别去除重叠的词语;    将剩余的词语组成近义词集合,基于所述近义词集合提取近义词。

【技术特征摘要】
1、一种在网络上提取近义词的方法,其特征在于,包括获取网页上各反向链接的锚文本;将所述锚文本两两对比,分别去除重叠的词语;将剩余的词语组成近义词集合,基于所述近义词集合提取近义词。2、 如权利要求1所述的方法,其特征在于,获取网页各反向链接的锚文 本之前,还包括获取网页上各反向链接父网页的Rank值,及该父网页所属主域的Rank值; 如父网页的Rank值,和/或该网页所在主域的Rank值低于预设数值,去 除该父网页对应的反向链4妄。3、 如权利要求1所述的方法,其特征在于,获取网页各反向链接的锚文 本之后,还包括;计算锚文本权重,去除权重值低于预置数值的锚文本。4、 如权利要求1所述的方法,其特征在于,基于所述近义词集合提取近 义词具体为获取上述剩余词语在所述锚文本中的出现频次,所述各反向链接父网页的 Rank值,及该父网页所属主域的Rank值;根据上述数值分别计算上述剩余词语中各个词语对的近义概率; 选取近义概率超过预设阈值的词语对作为近义词。5、 如权利要求l所述的方法,其特征在于,基于所述近义词集合提取近 义词具体为获取上述剩余词语在所述锚文本中的出现频次,所述各反向链接父网页的 Rank值,及该父网页所在主域的Rank值;根据上述数值分别计算上述剩余词语中各词语对的近义概率,重复上述步 骤,获取各词语对在各个网页的近义概率;向链接子页面的Rank值,获得的乘积相加,作为该词语对的总近义概率; 提取总近义概率超过设定阈值的词语对作为近义词。6、 如权利要求4或5所述的方法,其特征在于,根据上述数值分别计算上述剩余词语中各词语对的近义概率具体为. 针对每个词语对,将词语对中一词语的出现频次乘以其对...

【专利技术属性】
技术研发人员:禹荣凌刘云峰
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1