一种基于互联网的模板抽取属性和评论词的方法技术

技术编号:4176514 阅读:288 留言:0更新日期:2012-04-11 18:40
一种基于互联网的模板抽取属性和评论词的方法,通过机器可读字典存储人工标注类别的、针对概念的属性模板;通过验证分类算法的评价指标后选择最大熵,确定在训练分类模型时的PMI值与属性词素;通过配置一模板基于互联网抽取出原始属性集,基于分类规则进行属性过滤,基于Resnik的假设使用连接短语模板扩展属性组,再过滤,形成一个循环迭代的过程,通过准确率、查全率及综合指标F评定属性抽取方法的性能,给出准确率和查全率的关系曲线图;基于互联网所抽取的产品属性,再实现对产品属性个性化评论词的抽取,形成有效地属性-评价对,并据评论信息中的评价形容词的词义特征,判断出其中的好、差评比,最终产生一个市场反馈综合值。

Method for extracting attribute and comment word of template based on Internet

A method of Internet template extraction and comment attribute word based on attribute template concept through a machine readable dictionary to store the manual annotation categories, through the evaluation index verification; classification algorithm selection of maximum entropy, determined in the training classification model of PMI value and attribute morpheme; by allocating a template extraction based on Internet the original attribute set, attribute filtering based on classification rules, then filter the Resnik hypothesis using the connection phrase template extended attribute group, based on the formation of a cyclic process, the accuracy, recall and comprehensive index evaluation method of F attribute extraction performance curve given the accuracy and recall of the product attribute of the Internet; based on extracting, and then realize the product attribute personalized comment word extraction, form an effective attribute According to the semantic features of the evaluation adjectives in the review information, the good and bad appraisals are judged, and finally a comprehensive value of the market feedback is generated.

【技术实现步骤摘要】

本专利技术涉及信息检索领域,特别涉及概念属性和评论词抽取的方法。
技术介绍
在全球所有的调查中,搜索引擎都是互联网上使用程度仅次于电子邮箱的服务, 搜索引擎服务能成为最受欢迎的服务是因为它解决了用户在浩瀚的互联网海量快速定位 信息瓶颈问题,但目前按照传统方式查找信息仍要耗费用户大量的精力和时间,这种传统 方式只是一个简单的符号处理。计算机不同于人的大脑思维,人可以直接理解词的意思、文 章的思路,机器和算法不能理解。人看到苹果这两个字就知道指的是那个圆圆的、有水的、 挺好吃的东西,然而搜索引擎却不能从感性上理解,无法把苹果与"圆圆的"、"有水的"、"挺 好吃的东西"等同起来。所以面对互联网的海量信息,想要在搜索引擎中直接找到自己想要 的答案,实在是很困难的事情。 基于现今搜索引擎在获得网络信息所占居的重要地位,却存在查全率、查准率欠 缺的严重问题,针对这种情况提出了垂直搜索引擎,以使搜索更细化、更深入、更专业,从而 提高用户获得信息的效率,其中以概念属性抽取为主要研究对象,即基于现有主流搜索引 擎存在的状况,提出对查询文本进行更深层次的语义分析,提出概念属性抽取的方法,包 括语料库、本文档来自技高网...

【技术保护点】
一种基于互联网的模板抽取属性和评论词的方法,其特征在于,所述的方法包括以下步骤:1)通过机器可读字典存储人工标注类别的、针对概念的属性模板。2)从互联网中搜索匹配模板的属性数与独立属性数,两者相除得到PMI值,以作为分类器的特征值;3)使用最大熵模型结合其他模板的PMI值特征以及词汇特征,对候选属性进行分类或加权;4)通过配置一个模板基于互联网抽取出原始属性集,基于分类规则进行属性过滤;5)基于Resnik的假设使用连接短语模板扩展属性组,且并列属性可通过名词识别器的验证和PES的测试;6)通过准确率、查全率及综合指标F评定属性抽取方法的性能,给出准确率和查全率的关系曲线图;7)手工采集评论词...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴月萍
申请(专利权)人:上海第二工业大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1