当前位置: 首页 > 专利查询>浙江大学专利>正文

基于微博的众包问答系统信息采集方法技术方案

技术编号:8703198 阅读:273 留言:0更新日期:2013-05-15 23:18
本发明专利技术公开了一种基于微博的众包问答系统信息采集方法,该发明专利技术首先实现了与微博平台进行数据交互的数据采集和发布模块,通过该模块自动采集系统相关的所有问答数据和用户资料信息;对于采集到的问答数据进行后台分析处理,为用户提供更直观和专业的回答结果展示;另外,系统通过对用户资料信息和问答行为的具体分析,将各类新问题有效推送给可能回答的潜在用户,以对新问题进行高效、快速扩散;应用本发明专利技术的方法,可以通过微博平台实现问答系统更高效快速地获取答案。

【技术实现步骤摘要】

本专利技术涉及互联网应用中的数据处理技术、信息处理领域中的文本相似度分析技术、社交网络领域中的用户兴趣信息提取技术,特别涉及一种。
技术介绍
在互联网应用方面,大多数社交网络平台都采用了开放授权0Auth2的用户登陆和授权模式。应用通过平台用户的授权之后,就可以通过API接口获取相应的用户数据。此夕卜,在微博系统中,当用户@具体账号时,该条消息就会发送给被@的用户。所述@到该官方账号具体为:在微博内容中加上以“@”+账号昵称为格式的文本。这些成熟的互联网数据处理技术和服务是本专利技术实现的基础。在众包系统中,通常都是通过一套激励措施吸引用户来完成一系列的工作和任务。问答网站是众包系统的一种实例。在问答网站中,一般都实现了积分方式作为对回答者的一种激励。众包系统的存在,正是因为在信息处理领域中,许多的问题和工作仍然只有通过人力才能够更高效地开展。最近几年来,在众包系统领域,专家学者又提出了一系列新的思路和技术。例如,伯克利大学的科研工作者提出了通过众包来回答数据库查询的技术。在信息处理领域中,文本相似度分析已经存在很多成熟的算法,例如最长公共子串LCS算法和字符串相似度Levenshtein距离算法。LCS算法的原理是将两个字符串分别以行和列组成矩阵,每个节点行列字符如果相同则计为1,通过找出值为I的最长对角线即可得到最长公共子串。Levenshtein距离又称为编辑距离,Levenshtein距离算法的基本原理是返回将第一个字符串转换成第二个字符串的编辑次数。次数越少,意味着字符串相似度越高。在社交网络领域中,专家学者们针对用户兴趣爱好的分析提取提出了许多工作。最基本的处理方法通常都是对社交网络中具体用户发布的所有信息数据,进行分词处理,对具体词汇通过tf-1df (词频-反文档频率)算法进行进一步计算,排序得到tf-1df值最高的一系列关键词作为该用户可能感兴趣的标签。
技术实现思路
本专利技术的目的在于针对现有技术的不足,提供一种。本专利技术解决其技术问题采用的技术方案如下:一种,包括如下步骤: 步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的App Key (应用码)和App Secret (应用密钥); 步骤2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息; 步骤3:用户发起的任何问题只需要O到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录; 步骤4:对采集到的问答数据进行分析处理:该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析; 步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示; 步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息; 步骤7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域等信息,系统自动将该新问题推送给可能感兴趣的潜在回答用户。本专利技术的有益效果是,该专利技术首先实现了与微博平台进行数据交互的数据采集和发布模块,通过该模块自动采集系统相关的所有问答数据和用户资料信息。对于采集到的问答数据进行后台分析处理,为用户提供更直观和专业的回答结果展示。另外,系统通过对用户资料信息和问答行为的具体分析,将各类新问题有效推送给可能回答的潜在用户,以对新问题进行高效、快速扩散。应用本专利技术的方法,可以通过微博平台实现问答系统更高效快速地获取答案。附图说明图1是本专利技术实施步骤总体模块流程 图2是数据采集和发布模块具体工作流程具体实施例方式现结合具体实施和示例对本专利技术的技术方案作进一步说明。如图1,本专利技术,包括如下步骤: 步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的App Key (应用码)和App Secret (应用密钥)。官方账号可以通过微博平台网站注册申请,得到的微博账号通过用户名、密码正常登陆后,可以修改个人信息、发布微博。在微博开放平台网站申请成为第三方网站开发账号,完成身份认证和开发者审核流程,获得测试应用开发权限。在开放平台网站的管理中心页面,添加待开发的网站,完成该网站基本信息的注册审核之后,得到相应的App Key和App Secret信息。步骤2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息。如图2,数据采集和发布模块的工作过程如下: 首先,根据步骤I)获取的第三方网站应用App Key和App Secrect信息,通过开放平台的开放授权0Auth2协议用官方账号登陆并完成授权,由此可以获取该官方账号访问微博数据的访问令牌Access Token。另外,其他微博用户在系统网站中通过微博登陆和完成授权,同样也可获得该账号绑定的访问令牌Access Token。其次,根据相关微博账号所绑定的访问令牌Access Token,通过微博开放平台所提供的获取数据和发布数据API,实现数据采集和发布模块的代码。最后,完成具体的开发之后,微博的用户只需要通过开放授权0Auth2登陆授权,系统就可以对该用户的数据进行采集和发布,所采集的数据包括用户所发表的问答微博数据和用户资料信息。步骤3:用户发起的任何问题只需要O到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录。所述@到该官方账号具体为:在微博内容中加上以“@”+被@的用户的账号昵称为格式的文本。在微博系统中,被@的用户将收到通知提醒。数据采集和发布模块维护了官方账号的访问令牌Access Token,通过微博开放平台的获取提及微博getMentions接口,就可以采集所有@到官方账号的微博。步骤4:对采集到的问答数据进行分析处理。该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析。数据分析处理的工作过程如下: 首先,根据微博的转发格式,对转发微博的文本内容进行分析,提取该话题的整体树状转发结构。微博的转发一般都以“//”的形式进行分隔,通过对转发内容的解析可以获得该条转发微博本身的文本内容,以及它所转发的父微博。对一个问题的所有转发微博进行分析之后,就可以得出该话题的整体树状转发结构。其次,根据上一过程获取每条转发微博本身的文本内容,如果该文本内容为空,则这是一条纯转发答案,可以进行过滤; 在提取相似答案步骤,根据每条回答的文本内容,通过最长公共子串LCS算法和字符串相似度Levenshtein距离算 法计算文本之间的相似距离,对整个问题的所有答案进行相似答案聚类。最后,根据一个话题的所有回答微博,统计回答时间、回答用户所在城市等分布信肩、O步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示。步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息。本文档来自技高网
...

【技术保护点】
一种基于微博的众包问答系统信息采集方法,其特征在于,包括如下步骤:步骤1:在微博平台上注册官方账号,在微博开放平台申请成为第三方网站开发账号,获取开发网站的App Key(应用码)和App Secret(应用密钥);步骤 2:通过微博开放平台提供的接口,开发数据采集和发布模块,向微博平台采集和发布数据,包括问答数据以及用户资料信息;步骤3:用户发起的任何问题只需要@到该官方账号,该问题原微博以及所有转发微博将通过数据采集和发布模块被系统采集收录;步骤4:对采集到的问答数据进行分析处理:该步骤可提取该问题的整体树状转发结构、提取相似答案、过滤纯转发答案,并对整个话题回答进行各类统计分析;步骤5:将步骤4提取的该问题的整体树状转发结构、提取相似答案和过滤纯转发答案,以及统计分析的结果,在前端界面为用户提供多元化的结果展示; 步骤6:利用全局采集到的用户问答记录和具体用户资料信息,分析每个用户在问答系统中的活跃程度、感兴趣领域以及擅长领域等信息;步骤 7:利用步骤6所得到的用户活跃程度、感兴趣和擅长领域等信息,系统自动将该新问题推送给可能感兴趣的潜在回答用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:胡天磊伍赛陈刚周显锞张冰冰陈珂
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1