【技术实现步骤摘要】
一种用于舆情分析的可扩展文本分析系统及方法
本专利技术涉及舆情分析领域,具体是一种用于舆情分析的可扩展文本分析系统及方法。
技术介绍
舆情分析作为甲方未来业务发展的重要手段之一,需要一定的扩展性,同时要易于维护,修改,所以各个模块间需要充分的解耦。另一方面如果只是按照传统的IT系统设计,仅仅着眼于当前需求进行实现,势必无法满足未来业务扩展的需求。所以本项目站在平台化角度设计各个功能模块,力求能够轻松扩展系统功能,为甲方未来的业务发展提供足够的技术支撑能力。申请号CN201711307180.8本专利技术提供了基于数据特征的舆情分析方法和系统,涉及数据分析
,包括获取用户终端发送的舆情分析请求,并根据舆情分析请求分别筛选预设事件类和预设事件类中的事件,舆情分析请求中包括至少一个检索目标;根据检索目标将经筛选得到的预设事件类中的事件分成多个类别;获取各个类别的数据特征,其中,数据特征用于表征用户终端对应用户对舆情信息的关心情况,在操作简便快捷的基础上,通过数据特征的分析准确获知人们对网络舆情信息的关注情况。 ...
【技术保护点】
1.一种用于舆情分析的可扩展文本分析系统,其特征在于:包括客户端、HTTP接口、模型管理服务、文本分析服务、新词标注及词典管理服务、模型训练引擎、模型运转时环境、模型存储、模型测试、文本数据、词典、舆情语义分析方法和舆情语义分析模型,所述客户端均通过HTTP接口的输出端和输入端分别与模型管理器服务、文本分析服务和新词标注及词典管理服务的输入端和输出端连接,且客户端通过HTTP接口并分析请求至文本分析服务,所述文本分析服务的结果相应通过HTTP接口传递给客户端,所述模型管理服务通过更新模型管理模型训练引擎,所述文本分析服务的发送数据至模型运转时环境,且模型运转时环境的接受结构 ...
【技术特征摘要】
1.一种用于舆情分析的可扩展文本分析系统,其特征在于:包括客户端、HTTP接口、模型管理服务、文本分析服务、新词标注及词典管理服务、模型训练引擎、模型运转时环境、模型存储、模型测试、文本数据、词典、舆情语义分析方法和舆情语义分析模型,所述客户端均通过HTTP接口的输出端和输入端分别与模型管理器服务、文本分析服务和新词标注及词典管理服务的输入端和输出端连接,且客户端通过HTTP接口并分析请求至文本分析服务,所述文本分析服务的结果相应通过HTTP接口传递给客户端,所述模型管理服务通过更新模型管理模型训练引擎,所述文本分析服务的发送数据至模型运转时环境,且模型运转时环境的接受结构传递给文本分析服务,所述文本分析服务的输出新词传递给新词标注及词典管理服务,模型训练引擎的输出模型传递至模型测试,所述模型测试的数据传递至模型测试,且模型测试的检测为同步模型传递给模型运转时环境,所述文本数据和词典的输出端均传递至模型训练引脚,所述新词标注及词典管理服务通过处理更新词典至词典中,所述文本分析服务包括有感情分析模型、主体分析模型和主题关键词分析模型,所述客户端通过接收HTTPREST请求传输到文本分析服务,所述文本分析服务传输至模型运行时环境,所述模型运行时环境传输至情感分析模型,所述情感分析模型传输至主体分析模型,所述主体分析模型传输至主题关键词分析模型,且关键词分析模型分析处理之后返回分析结果,舆情语义分析方法包括:通过网络爬虫从预设的数据渠道采集与预设关键词相关的舆情数据,有监督的人工给开发集的舆情文本标注类标签,其中包括:舆情情感倾向判定、舆情涉及主体提取和舆情内容关键词提取,所述舆情情感倾向判定具体为:通过人工判定的方式分别将舆情开发集数据标注正面、中性和负面三类标签,对舆情数据的每个词代入嵌入层得到特征向量,使用双向循环神经网络对特征序列进一步编码得到序列信息,将编码的序列信息通过全连接层变换为输出结果,通过此输出结果的所处范围判定舆情情感倾向,所述舆情涉及主体提取判定具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对主体白名单词库,得到基于白名单命中舆情文本中涉及的公司、企业、集体、组织及金融业相关实体的舆情主体可疑度列表,利用词性分析方法和句法分析方法,分别提取文本每句话的主语成分、宾语成分,得到基于词性分析和句法分析的舆情主体可疑度列表,根据所述多种主体可疑度列表及第一预设权重,确定舆情目标主体,所述舆情内容关键词提取具体为:对舆情文本的中文文本进行分词处理及词性分析,通过比对关键词白名单词库,得到舆情文本中涉及的表述舆情内容的预设关键词可疑度列表,对数据分词后文本进行聚类,通过计算非白名单词库中文本词与白名单词库文本词的相似度,设置过滤规则,得到舆情文本中涉及的表述舆情内容的新增关键词可疑度列表,所述两种关键词可疑度列表及第一预设权重,确定舆情目标关键词,舆情语义分析模型包括:多维度分析模块,基于舆情文本数据,进行多维度分析,判定舆情情感倾向并提取舆情涉及主体和舆情内容关键词,其中,所述舆情情感倾向包括正面、中性、负面三类;舆情涉及主体包括基于白名单命中主体列表和基于词性、句法分析的主体列表,舆情内容关键词包括预设关键词列表和新增关键词列表,机器学习训练模块,基于舆情文本数据,平台自动调用模型训练脚本,通过内设的训练逻辑,输出新的模型文件所述机器学习训练的具体步骤为:基于所述爬取的现实数据和搜索结果进行分类为两部分:开发集、测试集,开发集为通过的舆情语义分析方法得到的训练数据,测试集为除开发集外的原始所述数据,用开发集的数据训练分类算法得到分类器,再用分类器对测试集里的数据进行分类,给出分类预测得到的标签,对比分类标签和人工标注得到的标签的差异,计算出准确度,通过扩大开发集数据和调整分类器参数提高准确度,最终达到针对上述三类标签的自动化舆情语义分析。
2.根据权利要求1所述的一种用于舆情分析的可扩展文本分析系统,其特征在于:所述模型运行时环境启动,将进行扫描模型目录,然后调用代码加载全部分析模型,之后根据配置决定加载多少模型实例,最终返回分析结果,所述模型管理服务包括模型上传,所述客户端将上传模型压缩包至模型管理服...
【专利技术属性】
技术研发人员:梁锦昌,张亦舒,
申请(专利权)人:广州商品清算中心股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。