基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统技术方案

技术编号:7759298 阅读:238 留言:0更新日期:2012-09-14 01:27
基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统,涉及信息检索技术领域,具体涉及语义检索技术。本发明专利技术解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明专利技术首先根据待检索的语义类信息过滤查询日志提取伪种子属性;同时,根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图;最后采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重排序,抽取前Y个候选属性作为待检索的语义类对应的语义属性。

【技术实现步骤摘要】

本专利技术涉及信息检索
,具体涉及语义检索技术。本专利技术旨在从查询日志中自动识别命名实体的属性词,其结果可以作为一种知识库应用于检索过程中的查询推荐、词义消歧、结果重排序等子任务。
技术介绍
语义检索是一种新兴的网页检索需求。万维网的丰富内容中蕴含着大量的语义知识,而深入挖掘这些知识,将使得现有的基于关键词的网页检索系统朝着“语义化”的方向转变。虽然基于现有计算机技术对自然语言充分理解还不现实,现有工作对万维网语义信息挖掘得并不充分,但是依然有相当数量的网页检索应用可以从较易挖掘的语义知识中获益,语义属性即为其中一种。语义属性描述了给定实体所具备的基本性质,例如“首都”是“中国”的属性、“价格”是“佳能MarkII”( 一种数码相机)的属性,等等。严格地说,这种语义属性一般附着于一个更加完整的语义类,而不仅仅是某个单独个体。所谓语义类是一个名实体的集合,由若干共享共一个上下位关系的名实体构成。例如“国家”这个语义类中包含“中国”、“美国”、“俄罗斯”等。也就是说,语义属性抽取的研究主要关注一类实体所共有的属性。例如“国家”的属性包括“首都”、“人口 ”、“面积”等等。在具体技术手段上,语义属性词的自动识别(也称为语义属性自动抽取,本申请中也常使用这种说法)的现有手段一般是根据事先给定的少量“种子”属性,对其所处的上下文建立模型。而后,对于处于相似上下文中的词语,根据其上下文与种子属性的上下文间的相似度,对这些词语进行筛选。最后,选取列表中的前N个词语作为语义属性词的输出结果。研究表明,这种基于上下文相似度的方法具有一定自由度和自适应性,且依赖的指导信息更少。查询日志作为语义属性词自动识别的一个新知识源,近年来受到较多的关注,例如文献 Pasca Μ. 2007. Organizing and searching the World Wide Web offacts-step two harnessing the wisdom of the crowds. In Proceedings ofthe 16thInternational World Wide Web Conference. 101-110 ;文献 Pasca M. and DurmeB.2007. What you seek is what you get-extraction of class attributes from querylogs. In Proceedings ofthe 20th International Joint Conference on ArtificialIntelligence. 2832-2837 ;文献 Pasca M.,Alfonseca E,RobIedo-Arnunciο E,Martin-Brualla R.,and Hall K. 2010. The role of query sessions in extractinginstance attributes from Web search queries. In Proceedings ofthe 32nd EuropeanConference on Information Retrieval. 62-74 ;文献 Alfonseca E,Pasca M.,andRobledo-Arnuncio E.2010.Acquisition of instance attributes via labeled andrelated instances. In Proceedings ofthe 33rd Annual International A CM SIGIRConference onResearch and Development in Information Retrieval. 58-65 ;文献Pasca M. and Durme B. 2008. Weakly-supervised acquisition of open—domain classesand class attributes from Web documents and query logs. In The 46th AnnualMeeting ofthe Association for Computational Linguistics. 19-27 等。其中,文献(题名译文在WWW网络中组织与检索事件-第二步驾驭群体智能)指出,查询日志中的查询文本蕴含着用户的既有知识。当用户需要获取新知识的时候,会利用这些知识来构造查询。具体到语义属性抽取工作上,当用户想要知道某个实体的某项属性,例如某种疾病的“症状”的时候,必然会构造形如“某疾病症状”的查询。如果可以从大量用户提交的查询文本中收集这样的知识,那么就能构造出一个基于搜索用户群体知识的语义属性库。当前,基于上下文相似度方法以及查询日志的语义属性抽取方法主要面临两个问题需要解决第一,种子属性的选取需要人工介入。基于上下文相似度的语义属性抽取需要人工提供至少一个种子属性作为指导,而种子属性越多,抽取的效果就越好例如,文献所介绍。但是,对于大量的语义类,尤其是未知的语义类,为其中的每一个都赋予种子属性事实上并不现实,因此该方法的实用价值大大降低。第二,种子属性的上下文分布不一定能和语料中其他属性词的上下文分布达到最优的匹配。也就是说,对某一个语义类而言,人工提供的种子属性,不一定是语料中最有代表性的语义属性词,因此其方法的性能也受到明显的制约。
技术实现思路
本专利技术为了解决现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题,本申请提出了一种基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统。基于伪种子属性和随机漫步排序的语义属性自动抽取方法的过程为首先,根据待检索的语义类信息过滤查询日志,提取伪种子属性,获得伪种子属性集合S,该伪种子属性集合中的伪种子属性的权重作为随机漫步算法的初始状态参数;同时,根据待检索的语义类遍历检索日志,生成候选属性或伪种子属性及其上下文候选数据的集合;并根据获得的候选属性或伪种子属性及其全部上下文,构建属性-上下文图;然后,根据伪种子属性以及属性上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,然后根据所述权重对所有候选属性进行排序,然后抽取前Y个候选属性作为待检索的语义类对应的语义属性,所述Y为正整数。实现上述方法的基于伪种子属性和随机漫步排序的语义属性自动抽取系统包括查询日志存储单元、伪种子属性抽取单元、候选属性排序单元、候选属性生成和上下文统计单元、候选属性/上下文数据库以及属性/上下文图构建单元,其中查询检索日志存储单元,用于存储查询检索日志;伪种子属性抽取单元,用于根据外部输入的待检索的语义类信息,过滤查询日志,进而提取伪种子属性;还用于将提取的伪种子属性发送给候选属性排序单元;候选属性排序单元,用于根据伪种子属性和属性/上下文图,采用基于随机漫步的权重传播算法计算所有候选属性的权重,并根据所述权重对所有候选属性进行排序,还用于将排序结果作为待检索的语义类的属性词列表本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:杨沐昀孙叔琦李生赵铁军
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1