基于拼音特征增强的中文舆情监测方法技术

技术编号:26505010 阅读:21 留言:0更新日期:2020-11-27 15:32
本发明专利技术提供的基于拼音特征增强的中文舆情监测方法,包括将预设训练语句中训练词汇分别映射为词向量序列和拼音序列集合,将拼音序列集合与对应的词向量序列输入至门结构中进行过滤处理,得到拼音序列向量集合,将拼音序列向量集合输入至长短期记忆网络中并结合对应的词向量序列进行拼接处理,得到语句表征;根据语句表征得到与预设训练语句对应的语句分类概率、预设分类规则、语句分类概率以及预设修正规则对预设模型参数进行修正处理,得到最终预设舆情监测模型。本发明专利技术提供的基于拼音特征增强的中文舆情监测方法,使得拼音向量中和该词语相关性更强的信息被保留下来,从而使最终预设舆情监测模型在实际舆情监测过程中的监测结果更加精准。

【技术实现步骤摘要】
基于拼音特征增强的中文舆情监测方法
本专利技术涉及网络舆情监测领域,尤其涉及基于拼音特征增强的中文舆情监测方法。
技术介绍
随着信息技术的发展,互联网迅猛发展,截止2018年为止,中国拥有的网民数量接近9亿人。普通民众在互联网上对自己感兴趣的内容进行评论、发微博、分享朋友圈等,民众在网络上对金融机构的关注也在日益增长,如果对网络上的信息处理不及时,对金融机构的声誉会带来极大的损害,在金融机构中,又以银行情况最为突出,客户通过柜台、网银、手机银行等渠道办理业务,客户在业务办理过程中遇到的问题、服务时间、职员的态度、收费等都习惯于在互联网上发表评论,并通过互联网去分享与传播,引起重点关注,演变成重大声誉问题,因此,银行必须使用先进的技术进行网络舆情监测,对网络言论进行自动化的舆情监控,在出现危机时,可以及时发现并跟踪发展情况,有效处理和应对各种危机。对于网络言论的舆情监控实质为文本的分类处理,目前有两种方法进行分类:1.专家规则的方法:通过专家规则找到敏感词、非法词,分析句式来进行舆情监控,但是这种方法由于依赖专家规则,而网民的言论是多种多本文档来自技高网...

【技术保护点】
1.基于拼音特征增强的中文舆情监测方法,其特征在于,包括以下步骤:/n映射处理,将预设训练语句中的若干训练词汇分别映射为若干对应的词向量序列和若干含有至少一个拼音序列的拼音序列集合,每个所述训练词汇与唯一的所述词向量序列及所述拼音序列集合对应;/n过滤处理,将每个所述拼音序列集合与对应的所述词向量序列一起输入至预设舆情监测模型中的门结构中进行过滤处理,得到含有若干拼音序列向量的拼音序列向量集合,每个所述拼音序列向量集合均与唯一的所述训练词汇对应;/n生成语句表征,根据每个所述拼音序列向量集合和对应的所述词向量序列得到完整词汇语义表征,将所有所述完整词汇语义表征进行均值池化处理,得到与预设训练语...

【技术特征摘要】
1.基于拼音特征增强的中文舆情监测方法,其特征在于,包括以下步骤:
映射处理,将预设训练语句中的若干训练词汇分别映射为若干对应的词向量序列和若干含有至少一个拼音序列的拼音序列集合,每个所述训练词汇与唯一的所述词向量序列及所述拼音序列集合对应;
过滤处理,将每个所述拼音序列集合与对应的所述词向量序列一起输入至预设舆情监测模型中的门结构中进行过滤处理,得到含有若干拼音序列向量的拼音序列向量集合,每个所述拼音序列向量集合均与唯一的所述训练词汇对应;
生成语句表征,根据每个所述拼音序列向量集合和对应的所述词向量序列得到完整词汇语义表征,将所有所述完整词汇语义表征进行均值池化处理,得到与预设训练语句对应的语句表征;
生成最终预设舆情监测模型,根据所述语句表征得到与所述预设训练语句对应的语句分类概率,根据预设分类规则、所述语句分类概率以及预设修正规则对预设舆情监测模型中的预设模型参数进行修正处理,得到最终预设舆情监测模型;
中文舆情监测,将待监测舆情语句输入至所述最终预设舆情监测模型进行判断,得到含有语句情感分类信息的监测结果。


2.如权利要求1所述的基于拼音特征增强的中文舆情监测方法,其特征在于:所述映射处理具体包括:
词向量序列映射,将预设训练语句中的若干训练词汇分别映射为对应的词向量序列,每个所述训练词汇与唯一的所述词向量序列对应;
拼音序列映射,根据预设汉语拼音法则将预设训练语句中的若干训练词汇映射为若干含有至少一个拼音序列的拼音序列集合,每个训练词汇与唯一的所述拼音序列集合对应。


3.如权利要求1所述的基于拼音特征增强的中文舆情监测方法,其特征在于:所述生成语句表征具体包括:
词汇语义表征生成,将所有所述拼音序列向量集合中的拼音序列向量按照时序序列依次输入至预设舆情监测模型中的长短期记忆网络中,得到与所述拼音序列向量集合对应拼音向量表征,每个所述拼音向量表征与唯一的所述词向量序列对应,将每个所述拼音向量表征和对应的所述词向量序列进行拼接处理,得到与所述训练词汇对应的完整词汇语义表征;
均值池化处理,将预设训练语句对应的所有所述完整词汇语义表征进行均值池化处理,得到与预设训练语句对应的语句表征。


4.如权利要求1所述的基于拼音特征增强的中文舆情监测方法,其特征在于:所述生成最终预设舆情监测模型具体包括:
概率输出,将所述语句表征经过预设舆情监测模型中的全连接层进行处理,得到与预设训练语句对应的隐层向量,将所述隐层向量输入至预设舆情监测模型中的归一化指数函数中,输出语句分类概率;
修正处理,根据预设分类规则和所述语句分类概率得到语句情感分类结果,根据所述语句情感分类结果、预设训练语句对应的预设情感分类结果、预设修正规则对预设舆情监测模型中的预设模型参数进...

【专利技术属性】
技术研发人员:何原赵泽栋李燕刘波郭豪
申请(专利权)人:广东华兴银行股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1