基于数据挖掘获取词用法知识的系统及方法技术方案

技术编号:6867821 阅读:198 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种基于数据挖掘获取词用法知识的系统及方法,所述系统包括:输入装置,用于输入待查词或词组;查询分析装置,对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理;多输入模式处理装置,利用语义知识和词典对所述待查词或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述待查词或词组相关的网页;网页分析装置,对所述搜索得到的网页进行分析,将所述网页转换为候选文本;用法知识提取装置,对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句;输出装置,输出上下文信息和典型例句。采用本发明专利技术,能准确获取词用法知识。

【技术实现步骤摘要】

本专利技术涉及计算机信息处理
,尤其涉及一种。
技术介绍
当人们使用外语阅读、写作、翻译时,经常会遇到词典中未收录的词和词组,且同一个词或词组在不同的语境下译文也往往不同,因此如何写出地道词句是每一个使用外语的人所面临的问题。对于中国学生来说,由于中英文化和语言风格的差异,再加上缺少对英语搭配知识(例如形名搭配、动名搭配、动介搭配)的了解,如何写出地道词句的问题就显得尤为突出。互联网的发展给我们提供了前所未有的丰富资源,包括电子文档、在线期刊、杂志、新闻报纸和科技文献等,随着网络和信息技术的迅速发展,网络资源变得越来越丰富。 通常,可以通过网络搜索来查找词或词组的用法知识,然而,仅仅依靠通用的搜索引擎得到的结果很难作为我们所需要的有效知识,这是因为搜索结果仅仅列出与该词相关的网页, 而不是从语言学角色上是否相关进行考虑。另外,搜索结果中大量的冗余信息使得用户很难发现词用法正确的实例。因此,在大量的资源中挖掘有用的知识已经成为网络应用的一个重要课题。基于Web的词用法系统就是在网上获取词的搭配信息和例句从而辅助用户正确的写出地道的外语文章。
技术实现思路
基于此,有必要提供一种能更准确获取词用法知识的基于数据挖掘获取词用法知识的系统。一种基于数据挖掘获取词用法知识的系统,所述系统包括输入装置,用于输入待查词或词组;查询分析装置,对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理;多输入模式处理装置,利用语义知识和词典对所述待查词.或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述待查词或词组相关的网页;网页分析装置,对所述搜索得到的网页进行分析,将所述网页转换为候选文本;用法知识提取装置,对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句;输出装置,输出上下文信息和典型例句。其中,所述多输入模式处理装置包括以下多种输入模式单元比较模式单元、类别模式单元、目标语搭配模式单元和单个词模式单元,还包括用于检索网页的搜索引擎检索模块;比较模式单元采用逻辑词将词或词组组合成查询项,所述类别模式单元对输入的中心词及类别信息进行分析和扩展而形成查询项,所述目标语搭配模式单元对输入的搭配语进行翻译和扩展而形成查询项,所述单个词模式单元根据输入的单个词形成查询项,所述搜索引擎检索模块根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。其中,所述网页分析装置可进一步对搜索得到的网页信息进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式,在所述文档模型树中,去除网页中的非文本标签,保留有用标签,从而将网页转换为文本形式的候选文本。而该用法知识提取装置包括上下文信息提取单元,通过边界识别将所述候选文本处理为单个句子,通过关键词搜索获取所述单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到所述候选词的出现频率,根据所述候选词的出现频率输出上下文信息的候选列表。进一步地,所述上下文提取单元进一步根据所述候选词的出现频率对候选词进行排序,按照所述排序选取预设数量个候选词,并根据停词表去除功能词和非实义词,得到包含所述选取的候选词的上下文信息的候选列表。其中,所述用法知识提取装置还包括典型例句提取单元,所述典型例句提取单元包括候选例句提取模块,提取网页候选文本中的包含所述上下文信息的句子作为候选例句;聚类模块,利用基于特征的句子聚类方法对所述候选例句进行聚类;典型例句提取模块,在已聚类的句子中选取为聚类中心的句子作为典型例句。此外,还有必要提供一种能更准确获取词用法知识的基于数据挖掘获取词用法知识的方法。一种基于数据挖掘获取词用法知识的方法,包括以下步骤:A.接收用户输入的待查词或词组;B.对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式进行处理;C.利用语义知识和词典对所述待查词或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述输入的词或词组相关的网页;D.对所述搜索得到的网页进行分析,将所述网页转换为候选文本;E.对所述候选文本进行处理,提取词或词组的上下文信息和典型例句;F.输出所述上下文信息和典型例句。其中,所述输入模式包括以下模式的一种以上比较模式、类别模式、目标语搭配模式和单个词模式。当输入模式为比较模式时,所述步骤C具体可以是采用逻辑词将词或词组组合成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。当所述输入模式为类别模式时,所述步骤C具体可以是根据语义知识对输入的中心词及类别信息进行分析和扩展,形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。当输入模式为目标语搭配模式时,所述步骤C具体可以是根据词典对输入的搭配语进行分析和扩展,形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。当所述输入模式为单个词模式时,所述步骤C具体可以是根据输入的单个词形成查询项,根据所述查询项检索网页信息,获取与输入的词或词组相关的网页。而步骤D具体可以是对搜索得到的网页信息进行分析,去除重复的网页,将每一个网页分析成文档模型树的形式;在所述文档模型树中,去除网页中的非文本标签,保留有用标签,将网页转换为文本形式的候选文本。其中,步骤E包括通过边界识别将所述候选文本处理为单个句子,通过关键词搜索获取所述单个句子中的候选词,利用统计算法对每个候选文本进行统计,得到所述候选词的出现频率,根据所述候选词的出现频率输出上下文信息的候选列表。步骤E还可包括根据所述候选词的出现频率对候选词进行排序,按照所述排序选取预设数据个候选词,并根据停词表去除功能词和非实义词,得到包含所述选取的候选词的上下文信息的候选列表。其中,步骤E还可包括提取所述单个句子中的包含所述上下文信息的句子作为候选例句;利用基于特征的句子聚类方法对所述候选例句进行聚类;在已聚类的句子中选取为聚类中心的句子作为典型例句。上述,通过分析待查词或词组的关键字,将其送入相应的输入模式处理装置进行处理,相对于仅仅用单个词进行查询,能更准确的获取与待查词或词组搭配的信息;通过将检索到的网页转换为候选文本,对候选文本进行处理后提取待查词或词组的上下文信息和典型例句。所提取的上下文信息和典型例句能有效反应词的用法,能方便用于获取词的用法知识,提高用户体验需求。另外,比较模式、类别模式、目标语搭配模式等多种输入模式能有效限制检索条件,使得在统计相同数目的网页的情况下,能挖掘出更准确的词搭配知识;通过基于特征的句子聚类方法对候选例句进行聚类,将检索的冗余例句进行分析聚类,从而提取的典型例句最具有代表性,更能符合用户所需求。附图说明图1是一个实施例中基于数据挖掘获取词用法知识的系统结构示意图;图2是一个实施例中多输入模式处理装置的结构示意图;图3是一个实施例中用法知识提取装置的结构示意图;图4是一个实施例中典型例句提取单元的结构示意图;图5是一个实施例中基于数据挖掘获取词用法知识的方法的流程图;图6是一个实施例中对多种输入模式进行处理的方法流程图;图7是一个实施例中提取典型例句的方法流程图;图8是一个实施例中基于主要特征的聚类方法流程图。具体实施方式图1示本文档来自技高网...

【技术保护点】
1.一种基于数据挖掘获取词用法知识的系统,其特征在于,所述系统包括:输入装置,用于输入待查词或词组;查询分析装置,对所述待查词或词组中的关键字进行分析,根据分析结果将待查词或词组送入相应的输入模式处理装置进行处理;多输入模式处理装置,利用语义知识和词典对所述待查词.或词组进行分析和扩展,形成查询项,根据所述查询项对网页信息进行搜索,得到与所述待查词或词组相关的网页;网页分析装置,对所述搜索得到的网页进行分析,将所述网页转换为候选文本;用法知识提取装置,对所述候选文本进行处理,提取待查词或词组的上下文信息和典型例句;输出装置,输出上下文信息和典型例句。

【技术特征摘要】

【专利技术属性】
技术研发人员:方高林
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:94

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1