本发明专利技术是一种基于位置服务采集新浪微博团购信息的方法,为了使得商家用户能实时发布团购消息,普通用户也能实时看到不同位置的团购信息,商家用户通过新浪微博平台发布团购信息,首先,利用新浪微博提供的开放位置服务接口,抽取在该位置附近发布的所有的微博数据信息;然后,将抽取出来的微博数据存放在数据库中,针对这些微博数据进行语料模式匹配预处理操作;接着,初步筛选出所有包含团购信息特征的微博数据;其次,使用语义分析技术,确定该条数据是否为团购信息;最后,成功地将团购信息从某一位置发布大量的微博数据中采集出来。
【技术实现步骤摘要】
【技术保护点】
一种基于位置服务采集新浪微博团购信息的方法,其特征在于该方法所包含的步骤为:步骤1)?抽取在某一具体位置附近发布微博的数据集信息:步骤1.1)?获取申请新浪微博应用的相关信息;步骤1.2)?分配授权信息;步骤1.3)?获取用户的该位置信息;步骤1.4)?根据位置服务的动态信息接口,抽取该位置附近发布的所有微博数据信息;步骤1.5)?存储抽取的所有微博数据信息;?步骤2)?预处理微博数据集信息:步骤2.1)?获取微博数据集信息;步骤2.2)?获取团购语料库;步骤2.3)?初始化微博数据集中团购的相关信息:步骤2.3.1)?初始化微博数据集中的团购信息标志为1;步骤2.3.2)?初始化微博数据集中的团购关键词匹配次数为0;步骤2.4)?获取第一条微博数据信息;步骤2.5)?判断该微博数据是否包含团购语料库中的词语,如果包含,转步骤2.6),否则,转步骤2.8);步骤2.6)?计算微博数据匹配语料库关键词的次数;步骤2.7)?更新微博团购关键词匹配的次数;步骤2.8)?更新该微博数据的团购信息标志为0;步骤2.9)?获取下一条微博数据信息;步骤2.10)?判断该微博数据信息是否到达微博数据集的末端,如果到达,转步骤2.11),否则,转步骤2.5);步骤2.11)?删除团购信息标志为0的所有微博数据;步骤2.12)?更新微博数据集信息;?步骤3)?对微博数据集进行分句:步骤3.1)?获取微博数据集中的第一条数据信息;步骤3.2)?获取该微博数据中的第一个字符信息;步骤3.3)?判断该字符是否为“;”,如果是,转步骤3.8),否则,转步骤3.4);步骤3.4)?判断该字符是否为?如果是,转步骤3.8),否则,转步骤3.5);步骤3.5)?判断该字符是否为“!”,如果是,转步骤3.8),否则,转步骤3.6);步骤3.6)?判断该字符是否为“,”,如果是,转步骤3.8),否则,转步骤3.7);步骤3.7)?判断该字符是否为“?”,如果是,转步骤3.8),否则,转步骤3.9);步骤3.8)?置换该字符为分句标识,用“/j”表示;步骤3.9)?获取下一个微博数据字符信息;步骤3.10)?判断是否到达微博数据的末端,如果到达,转步骤3.11),否则,转步骤3.3);步骤3.11)?更新微博数据信息;步骤3.12)?获取下一条微博数据信息;步骤3.13)?判断该微博数据是否为微博数据集的末端,如果到达,转步骤3.14),否则,转步骤3.2);步骤3.14)?更新微博数据集信息;?步骤4)?对微博数据集进行分词,并标注词性:步骤4.1)?获取微博数据集中第一条数据信息;步骤4.2)?获取该微博数据中的第一个字符信息;步骤4.3)?判断该字符是否为分句标识,如果是,转步骤4.4),否则,转步骤4.6);步骤4.4)?设置分词等级;步骤4.5)?根据分词函数,标注词性;步骤4.6)?获取下一个微博数据字符信息;步骤4.7)?判断是否到达微博数据的末端,如果到达,转步骤4.8),否则,转步骤4.3);步骤4.8)?存储分词后的数据信息;步骤4.9)?获取下一条微博数据信息;步骤4.10)?判断该微博数据是否为微博数据集的末端,如果到达,转步骤4.11),否则,转步骤4.2);步骤4.11)?更新微博数据集信息;?步骤5)?抽取微博数据集中的团购事件:步骤5.1)?获取微博数据集中第一条数据信息;步骤5.2)?获取该微博数据中的第一个字符信息;步骤5.3)?判断该字符是否为分句标识,如果是,转步骤5.4),否则,转步骤5.14);步骤5.4)?根据该句子的句法,标注词性;步骤5.5)?分析事件的语义特征;步骤5.6)?映射事件的命题实体;步骤5.7)?映射事件的代指概念;步骤5.8)?识别该句子中的动词;步骤5.9)?分析事件的论元结构属性;步骤5.10)?映射论元;步骤5.11)?完成该句子的事件抽取;步骤5.12)?判断该事件是否为团购事件,如果是,转步骤5.13),否则,转步骤5.14);步骤5.13)?更新该微博数据的团购信息标志为2;步骤5.14)?获取下一个微博数据字符;步骤5.15)?判断该微博数据字符是否到达微博数据的末端,如果到达,转步骤5.16),否则,转步骤5.3);步骤5.16)?获取下一条微博数据信息;步骤5.17)?判断该微博数据是否到达微博数据集的末端,如果到达,转步骤5.18),否则,转步骤5.2);步骤5.18)?更新微博数据集信息;步骤5.19)?完成团购事件的抽取。2013100207731100001dest_path_image001.jpg...
【技术特征摘要】
【专利技术属性】
技术研发人员:张卫丰,王云,周国强,张迎周,王子元,周国富,钱小燕,许碧欢,陆柳敏,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。