用户需求获取方法技术

技术编号：10050653 阅读：143 留言：0更新日期：2014-05-15 21:22

本发明专利技术涉及一种用户需求获取方法，依次包括以下步骤：获取用户提供的种子词、关键词扩展步骤、搜索步骤、网页挑选步骤、标注步骤、评价步骤以及学习步骤，由上述步骤得到用户的需求模型。上述用户需求获取方法中，需求模型是按照用户需求建立并不断完善的，根据该用户的需求模型，能够准确获取该用户的需求，从而提供相关性较高的信息给该用户。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络
，特别是涉及一种用户需求获取方法。
技术介绍
自互联网诞生以来，因特网已经发展成为拥有近亿用户和数亿页面的巨大的全球信息仓库，而且其信息量仍在以指数形式飞速地增长。从互联网中获取信息已经成为个人获取知识的主要方法和重要手段，也成为当前企业获取情报的重要途径，但是，面对浩如烟海的网络信息，传统的人工搜集和处理方法都已难以胜任，搜索结果通常包括很多与用户需求相关性不大的信息，因此如何准确获取用户的需求是一个关键的问题。目前，国内外在信息搜索领域已经做了大量研究，并开发了多种搜索引擎，如百度、谷歌以及雅虎等。从某种程度上这些搜索引擎提高了搜索的效率和速度，但获取用户需求的方法仍然存在着很大的局限性，最突出表现在以下几个方面：首先，由于采用的是全文检索或关键词检索方式，基于字面的检索机制造成实际检索结果与用户需求之间的偏差，即检索返回“有用”信息太少，“垃圾”信息太多；其次，网络搜索引擎需面对广泛的知识领域，而针对某一特殊领域...
用户需求获取方法

【技术保护点】
一种用户需求获取方法，其特征在于，依次包括以下步骤：获取用户提供的种子词，所述种子词包括正种子词和负种子词；关键词扩展步骤，利用同义词集合以及上下义关系，对所述种子词扩展，得到与正种子词相关的正相关关键词以及与负种子词相关的反相关关键词；搜索步骤，根据所述正相关关键词和反相关关键词，基于互联网进行匹配搜索，得到待标注网页，所述待标注网页包括候选正例和候选反例，所述候选正例和候选反例分别由所述正相关关键词和反相关关键词搜索得到；网页挑选步骤，分析所述待标注网页，根据其内容将待标注网页分类，然后从每类网页中分别选出一个样本网页供用户标注；标注步骤，如果样本网页符合用户的需求，将该样本网页标注为正例...

【技术特征摘要】
1.一种用户需求获取方法，其特征在于，依次包括以下步骤：
获取用户提供的种子词，所述种子词包括正种子词和负种子词；
关键词扩展步骤，利用同义词集合以及上下义关系，对所述种子词扩展，
得到与正种子词相关的正相关关键词以及与负种子词相关的反相关关键词；
搜索步骤，根据所述正相关关键词和反相关关键词，基于互联网进行匹配
搜索，得到待标注网页，所述待标注网页包括候选正例和候选反例，所述候选
正例和候选反例分别由所述正相关关键词和反相关关键词搜索得到；
网页挑选步骤，分析所述待标注网页，根据其内容将待标注网页分类，然
后从每类网页中分别选出一个样本网页供用户标注；
标注步骤，如果样本网页符合用户的需求，将该样本网页标注为正例，如
果样本网页不符合用户的需求，将该样本网页标注为反例，集合所述正例和反
例，得到初始用户标注数据集；
评价步骤，采用SVM分类器训练法，将从所述候选正例和候选反例中选出
的所有样本网页作为测试集，将所有非样本网页作为训练集，对待标注网页分
类的准确性进行测试，得到分类的准确率，预先设定阈值，当所述分类的准确
率达到所述阈值时，所述评价步骤完成，当所述分类的准确率未达到所述阈值
时，返回所述网页挑选步骤，调整需要标注的正例和反例的数量，重复标注步
骤和评价步骤，最终得到正例和反例数量均衡的用户标注数据集。
学习步骤，基于所述正例和反例数量均衡的用户标注数据集，学习用户需
求，得到用户的需求模型。
2.根据权利要求1所述的用户需求获取方法，其特征在于，在所述关键词
扩展步骤中，所述同义词集合以及上下义关系由wordnet提供。
3.根据权利要求1所述的用户需求获取方法，其特征在于，所述标注步骤
之后还包括从得到的所述正例和反例中抽取特征词，生成正相关关键词和反相
关关键词，进一步扩展所述种子词的步骤。
4.根据权利要求1所述的用户需求获取方法，其特征...

【专利技术属性】
技术研发人员：朱利民，
申请(专利权)人：江苏苏大大数据科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人