一种词匹配及信息查询方法及装置制造方法及图纸

技术编号:2912184 阅读:279 留言:0更新日期:2012-04-11 18:40
本申请公开了一种词匹配及信息查询方法及装置,包括:获取输入的第一查询关键词;根据第一查询关键词获取用户反馈日志,所述用户反馈日志包括历次以所述第一查询关键词为目标进行查询的查询结果,以及历次用户对查询结果的点选频率;根据所述查询结果以及点选频率确定与第一查询关键词匹配的第二查询关键词;反馈以第二查询关键词为目标进行查询的查询结果。由于在本申请实施中采用了用户反馈日志作为发现用户查询信息潜在词义的基础,因此在拥有大量的数据情况下,能够利用以往的用户反馈信息准确的确定出查询信息的潜在词义,从而提高了信息查询的准确性。

【技术实现步骤摘要】

本申请涉及数据处理技术,特别涉及一种词匹配及信息查询方法及装置
技术介绍
潜在词义通常是指一个词(包括短语)潜在的意义,通常可以通过另外一 个或多个词(包括短语)来表达,比如通常所称的"冰箱,,其一般情况下潜在 的词义是指"电水箱",而"棉拖"其一般情况下潜在的词义是指"全棉拖鞋" 等。自动发现潜在词义是自然语言处理的一个基本问题,它的解决可以提高文 档理解、机器翻译和搜索引擎的效果和性能。分词技术是自然语言处理中常用的技术,分词是将一个输入字符串分成若 干个词或短语,比如"曾经有一段诚挚的感情摆在我的面前,,,经过分词处理 后,通常情况下得到的分词结果为"曾经l有l一段l诚挚l的l感情l摆在l我l的l面前"。用户反^t日志记录了查询词对应的查询结果(文档或网页ID等)和查询 结果点击频率、曝光频率等。点击频率、曝光频率等信息反应了用户对该查询 结果的认同程度, 一般意义上符合用户需求的文档点击率比不符合用户意图的 点击率要高,比如查"西药,,,结果"批发西药,,和"江西药厂"的单字的匹 配程度是一样的,但是通常第一个结果的点击率会比第二个结果要高。通过分析用户反馈日志可以发现与查询词字符匹配程度较高,同时表达方 式不同的词,比如搜索"冰箱" 一词时,会发现4艮多带"电冰箱"的结果,比 如"双开门电冰箱"、"专利技术了水箱"、"电水箱厂家"、"销售电水箱"、"存冰箱 子"等,收集点击率相对较高的结果,并且对出现水箱的句子分词,统计每个 分词的频率,如果某个或多个分词结果大于设定的阈值,则做下面处理查询10词包含在一个高频分词结果中,比如"水箱"包含在"电冰箱"中,则认为"电冰箱"是"冰箱,,的潜在词义;查询词包含在相邻的两个高频分词中,例如 查询词"玻璃瓶"包含在"玻璃,,和"瓶子"这两个高频分词中,这也通常被 认为"玻璃瓶子"是"玻璃瓶"的潜在词义。目前潜在语意的自动发现上已经有过不少的研究,大多是通过词语的共现 或链接关系来发现近义词。例如陆勇、侯汉清在文章"基于PageRank算法的 汉语同义词自动识别"中介绍了一种同义词的自动发现方法,该文章将词汇之 间解释与被解释的关系看成是一种链接,把PageRank值看成是体现词汇之间 语义相似性的衡量指标,然后根据语义相似度的大小识别同义词。这个方法的 缺点是基于人工标注的语料,挖掘得到的词条数量会比较有限。如果改成基 于互联网网页之间的链接关系,这种链接关系有时又很不可靠,同义词自动发 现的效果很难得到保障。搜索引擎的索引方式包括单字搜索、分词索引和混合索引。单字索引需要 计算文档内单字之间的距离,效率不高,并且精确率低,比如搜索"农药"时,单字索引无法区分"神农药厂"和"神农农药厂"的区别;而分词搜索精确率 高,速度快,但是分词索引召回率有时比较低,比如搜"冰箱"时,分词索引 方法只能找到"水箱"的结果,而找不到"电冰箱"的结果;单字索引和分词 索引结合的混合索引方法通常是先根据分词索引查询,然后再根据单字索引查 询,比如查"玻璃瓶"时,先按分词索引找到"玻璃瓶"的结果,再按单字索 引找出其他结果,这种弥补了两种方法的缺点,但是"玻璃瓶子"是根据单字 索引的方式找到的,搜索引擎不能区分"玻璃瓶子"和"生产玻璃瓶颈在于" 的差异,影响搜索的准确性;前面的方法缺少足够的数据量,或者缺少用户的反馈,抽取出来的潜在语 意太少或很有可能是错误的。如陆勇、侯汉清提到的词义自动发现方法主要是通过已有的词典数据作为 抽取来源,样本量在几千条左右。如果是以互联网网页等大数据量为勤出的挖ii掘方法,又缺乏准确性。因此现有技术的不足在于当面临如互联网等存在着大数据量的情况时, 尚没有一种好的查询方案能够准确的预知用户真正所需查询的内容,也因此不 能向用户反馈用户真正所需的查询结果。 '
技术实现思路
本申请提供了 一种词匹配方法及装置,用以提供一种在存在海量数据的情 况下,准确判断词与词之间的内在联系,并将其匹配的方案。本申请实施例提供了一种词匹配方法,包括如下步骤 获取待匹配词;根据待匹配词获取用户反馈日志;根据所述用户反馈日志确定与待匹配词匹配的词。较佳地,所述用户反馈日志包括以所述待匹配词为目标进行查询的历史查 询结果,以及用户对历史查询结果的点选频率。较佳地,根据所述用户反馈日志中的历史查询结果以及点选频率确定与待 匹配词匹配的词。较佳地,所述点选频率包括对历史查询结果的点选频率和/或对历史查询 结果的内容的点选频率。较佳地,所述才艮据对历史查询结果的内容的点选频率确定与待匹配词匹配 的词,包括获取待匹配词的历史查询结果的内容;对历史查询结果的内容进行分词处理获得分词后的词;根据分词后的词的点选频率确定与待匹配词匹配的词。较佳地,所述分词后的词包括下述方式的词或者其组合分词后与待匹配词相邻的词;分词后包含4寺匹配词的词;分词后包括待匹配词组成部分的词。较佳地,在根据所述查询结果以及点选频率确定与待匹配词匹配的词时, 所述点选频率大于设定阈值。较佳地,所述获取J降匹配词,包括 获取用户输入的信息内容;对所述信息内容进行分词处理后获得分词后的词,和/或,将所述信息内容 分解为字;将分词后的词和/或字作为4寺匹配词。较佳地,所述点选频率包括历史查询结果的点击频率、历史查询结果的曝 光频率、对历史查询结果的阅读时间、历史查询结果的重要度其中之一或者其 组合。较佳地,进一步包括在用户输入待匹配词时,获取该用户的用户特征;所述获取用户反馈日志时,根据该用户的用户特征获取用户反馈日志。较佳地,进一步包括在用户输入待匹配词时,获取该用户的用户特征;所述获取用户反々赍日志时,获取用户反馈日志中包括以所述待匹配词为目 标进行查询的历史查询结果,以及用户对历史查询结果的点选频率,所述历史 查询结果包括所述用户特征。较佳地,进一步包括在用户输入待匹配词时,获取该用户的用户特征; 所述根据所述用户反馈日志确定与待匹配词匹配的词时,根据所述用户特 征确定与待匹配词匹配的词。本申请实施例还提供了一种词匹配装置,包括待匹配词获取模块,用于获取待匹配词;用户反馈日志获取模块,用于根据待匹配词获取用户反馈日志;匹配模块,用于根据所述用户反馈日志以及点选频率确定与待匹配词匹配 的词。较佳地,所述用户反馈日志获取模块进一步用于获取包括以所述待匹配词 为目标进行查询的历史查询结果,以及用户对历史查询结果的点选频率的用户 反馈曰志。较佳地,匹配模块进一步用于根据所述用户反馈日志中的历史查询结果以 及点选频率确定与待匹配词匹配的词。较佳地,所述用户反馈日志获取模块进一步用于获取包括对历史查询结 果的点选频率和/或对历史查询结果的内容的点选频率作为所述点选频率。 较佳地,所述匹配模块包括内容获取单元,用于获取待匹配词的历史查询结果的内容; 分词单元,用于对历史查询结果的内容进行分词处理获得分词后的词; 匹配单元,用于根据分词后的词的点选频率确定与待匹配词匹配的词。 较佳地,所述分词单元进一步用于在分词后获得下述方式的词或者其组合分词后与^f寺匹配词相邻的词;分词后包含4寺匹配词的词;分词后包括待匹配词组成部分的词。较佳地,所述匹配模块进一步用于在根据所述历史查询结果以及点选频率 确定与待匹配词匹配本文档来自技高网
...

【技术保护点】
一种计算机执行的词匹配方法,其特征在于,包括如下步骤: 获取待匹配词; 根据待匹配词获取用户反馈日志; 根据所述用户反馈日志确定与待匹配词匹配的词。

【技术特征摘要】

【专利技术属性】
技术研发人员:欧文武谢宇恒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:VG[英属维尔京群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1