【技术实现步骤摘要】
一种公司形象提升系统的社交网络数据提取方法及系统
本专利技术涉及社交网络数据提取
,具体为一种公司形象提升系统的社交网络数据提取方法及系统。
技术介绍
目前,网络平台已成为我国最主要的社交模式之一,同时也是当今社会信息舆论传播的最快传播途径。在当今市场上,通过网络社交媒体来提升公司品牌价值、更好的分析客户需求以服务客户,已成为了重要的途径。与此同时,在这些社交媒体上每日都涌现出大量能公开访问且实时的媒体数据。在这每日更新的大数据中,一方面,提供了大量包含了已有客户或是目标客户的需求点以及公司业务不足之处的信息;另一方面,能及时获得实时舆论焦点,在舆论变成失去真实性甚至是失控之前,使得相关部门能监测网民情绪变化,并进行有效引导。这时,在大量的数据中得到精确的关键字,能让相关部门在最短的时间内得出用户或者舆论的具体结论,从而采取措施。其中,最难的是准确地从大数据中提取有用的关键字;目前的处理技术:利用提取方法,即针对特定内容在网页中的上下文信息,编写正则表达式等规则,然后对生成的规则按网络的传导途径进行连接和整理, ...
【技术保护点】
1.一种公司形象提升系统的社交网络数据提取方法,其特征在于,包括以下步骤;/nS1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;/nS2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;/nS3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作。/n
【技术特征摘要】
1.一种公司形象提升系统的社交网络数据提取方法,其特征在于,包括以下步骤;
S1:基于规则对待测数据划分模块,对待抽取原始语料,通过编写的少量正则表达式对待测样本语料进行抽取,得到少数符合规则的文本语料;
S2:“模式自动归纳”抽取模型建立模块,基于条件随机场模型以及迭代尺度法算法对“模式自动归纳”抽取模型进行训练,得到待测试模型;
S3:基于负反馈的规则、模型调整模块,对待测试模型进行测试,若正确率达标则可直接投入使用;若正确率不达标则需要由继续编写少量正则,完善规则,返回步骤S1进行循环操作。
2.根据权利要求1的一种公司形象提升系统的社交网络数据提取方法,其特征在于:在S1中,对特定内容在网页中的上下文信息,编写正则表达式等规则,基于此规则对待抽取的原始文本语料进行筛与文本提取,抽取出命中规则的语料作为模块二的输入,且语料为1%,而剩下占原始语料99%的未命中规则的语料不参与模块二的计算。
3.根据权利要求1的一种公司形象提升系统的社交网络数据提取方法,其特征在于:在S2中,完成模型训练的准备工作包括:指示词词库的构建、特征模板的构建与训练/测试语料的选择与标注,准备工作完成后需要将上个模块的输出结果根据特征模板匹配得到各词的上下文特征,并设定阈值进行特征筛选,最后将词汇和特征组合转换为词向量注入条件随机场模型,使用ImprovedIterativeScaling改进的迭代尺度法训练参数,得到一个可以用于预测实体的最终模型。
4.根据权利要求1的一种公司形象提升系统的社交网络数据提取方法,其特征在于:在S3中:基于负反馈思想对“模式自...
【专利技术属性】
技术研发人员:于灏,樊奕良,陈睿欣,刘睿,郑厚清,贾德香,孙艺新,王西胜,陈爽,曹瑾,李艳娜,林坤新,王玓,刘素蔚,王智敏,刘威,高洪达,崔维平,王程,李心达,柳占杰,陈光,
申请(专利权)人:国网能源研究院有限公司,国网北京市电力公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。