基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统技术方案

技术编号：7759298 阅读：238 留言：0更新日期：2012-09-14 01:27

基于伪种子属性和随机漫步排序的语义属性自动抽取方法及实现该方法的系统，涉及信息检索技术领域，具体涉及语义检索技术。本发明专利技术解决了现有基于上下文相似度和查询日志的语义属性词自动识别方法存在的人工介入程度高、种子属性上下文分布和语料中潜在属性词不匹配的问题。本发明专利技术首先根据待检索的语义类信息过滤查询日志提取伪种子属性；同时，根据待检索的语义类遍历检索日志生成候选属性或伪种子属性及其上下文候选数据的集合；并根据获得的候选属性或伪种子属性及其全部上下文构建属性-上下文图；最后采用基于随机漫步的权重传播算法计算所有候选属性的权重，并根据所述权重排序，抽取前Y个候选属性作为待检索的语义类对应的语义属性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索
，具体涉及语义检索技术。本专利技术旨在从查询日志中自动识别命名实体的属性词，其结果可以作为一种知识库应用于检索过程中的查询推荐、词义消歧、结果重排序等子任务。
技术介绍
语义检索是一种新兴的网页检索需求。万维网的丰富内容中蕴含着大量的语义知识，而深入挖掘这些知识，将使得现有的基于关键词的网页检索系统朝着“语义化”的方向转变。虽然基于现有计算机技术对自然语言充分理解还不现实，现有工作对万维网语义信息挖掘得并不充分，但是依然有相当数量的网页检索应用可以从较易挖掘的语义知识中获益，语义属性即为其中一种。语义属性描述了给定实体所具备的基本性质，例如“首都”是“中国”的属性、“价格”是“佳能MarkII”( 一种数码相机)的属性，等等。严格地说，这种语义属性一般附着于一个更加完整的语义类，而不仅仅是某个单独个体。所谓语义类是一个名实体的集合，由若干共享共一个上下位关系的名实体构成。例如“国家”这个语义类中包含“中国”、“美国”、“俄罗斯”等。也就是说，语义属性抽取的研究主要关注一类实体所共有的属性。例如“国家”的属性包括“首都”、“人口 ”、“面积”等等。在具体技术手段上，语义属性词的自动识别(也称为语义属性自动抽取，本申请中也常使用这种说法)的现有手段一般是根据事先给定的少量“种子”属性，对其所处的上下文建立模型。而后，对于处于相似上下文中的词语，根据其上下文与种子属性的上下文间的相似度，对这些词语进行筛选。最后，选取列表中的前N个词语作为语义属性词的输出结果。研究表明，这种基于上下文相似度的方法具有一定自由度和自适应性，且依赖的指...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：杨沐昀，孙叔琦，李生，赵铁军，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人