【技术实现步骤摘要】
面向网络言论的信息挖掘方法、装置和电子设备
[0001]本公开涉及人工智能
,具体为自然语言处理、深度学习和语义分析
,尤其涉及一种面向网络言论的信息挖掘方法、装置和电子设备存储介质。
技术介绍
[0002]面对互联网体量庞大的信息内容、相对宽松的言论环境和有限的人力资源,可以对网络进行挖掘,相关技术中,可以基于排序学习(learning to rank,简称LTR)的方式进行建模打分,对网络言论信息进行分析,然而基于LTR的方式,往往需要依赖大量数据进行学习,冷启动数据不足,并且解释性比较差,还可以根据用户的行为特征,设计人工规则来进行打分,对网络言论信息进行分析,然而基于人工规则的方式,规则依赖人工设置,对不同区段的分值设置依赖业务经验,需要手动调优,难以挖掘特征之间的隐藏关系等,因此,如何提高网络言论的信息挖掘的准确性和可靠性,已成为亟待解决的问题。
技术实现思路
[0003]本公开提供了一种面向网络言论的信息挖掘方法、装置、电子设备、存储介质及程序产品。
[0004]根据第一方面, ...
【技术保护点】
【技术特征摘要】
1.一种面向网络言论的信息挖掘方法,其中,包括:获取候选对象的网络言论集,并对所述网络言论集进行内容语义特征和内容时序特征进行挖掘;基于所述网络言论集,获取所述候选对象的行为特征;根据所述内容语义特征、所述内容时序特征和所述行为特征,预测所述候选对象执行目标事件的概率;根据所述候选对象执行目标事件的概率,从所述候选对象中筛出存在异常的目标对象。2.根据权利要求1所述的方法,其中,所述根据所述内容语义特征、所述内容时序特征和所述行为特征,预测所述候选对象执行目标事件的概率,包括:根据挖掘的所述内容语义特征,确定所述候选对象倾向执行目标事件的第一量化特征和第二量化特征;根据挖掘的所述内容时序特征,确定所述候选对象倾向执行目标事件的第三量化特征;根据所述行为特征、所述第一量化特征、所述第二量化特征和所述第三量化特征,对所述候选对象的执行目标事件的概率进行预测,得到所述候选对象执行目标事件的概率。3.根据权利要求2所述的方法,其中,所述根据挖掘的所述内容语义特征,确定所述候选对象倾向执行目标事件的第一量化特征和第二量化特征,包括:根据挖掘的所述内容语义特征,确定所述候选对象倾向执行目标事件每个倾向类别下的类别置信度,其中所述倾向类别按照所述候选对象倾向执行目标事件的程度进行划分;根据所述网络言论在不同倾向类别下的类别置信度,确定所述第一量化特征和所述第二量化特征。4.根据权利要求3所述的方法,其中,根据所述网络言论在不同倾向类别下的类别置信度,确定所述第一量化特征,包括:获取所述网络言论集中每个网络言论在目标倾向类别下的类别置信度;从所述目标倾向类别下的类别置信度中,统计大于所述设定置信度阈值的类别置信度的第一数量;确定所述网络言论集中网络言论的第一总数量;根据所述第一数量和所述网络言论的第一总数量确定高置信度占比,作为所述第一量化特征。5.根据权利要求3所述的方法,其中,根据所述网络言论在不同倾向类别下的类别置信度,确定所述第二量化特征,,包括:确定所述网络言论的两两倾向类别的所述类别置信度之间的差值;获取所述网络言论集中网络言论的第一总数量;根据所述目标网络言论的差值和所述第一总数量确定置信度均差,作为所述第二量化特征。6.根据权利要求1
‑
5中任一项所述的方法,其中,所述根据挖掘的所述内容时序特征,确定所述候选对象倾向执行目标事件的第三量化特征,包括:按照时序对所述网络言论集进行排序和尾部截取,得到网络言论序列;
获取所述网络言论序列中各网络言论在每个类别下的类别置信度;根据所述网络言论的每个类别下的所述类别置信度,确定所述网络言论序列中低倾向类别的网络言论的占比,作为所述候选对象的所述第三量化特征。7.根据权利要求6所述的方法,其中,所述根据所述类别置信度,确定所述网络言论序列中低倾向言论的占比,包括:选取所有类别中所述类别置信度最高的类别,作为所述网络言论的识别倾向类型;统计所述网络言论序列中所述识别倾向类型为低倾向类型的网络言论的第二数量;获取所述网络言论序列中网络言论的第二总数量;根据所述低倾向类型的网络言论的第二数量和所述第二总数量,确定所述网络言论序列中低倾向言论的占比。8.根据权利要求1或2所述的方法,其中,所述方法还包括:对所述网络言论集中的网络言论进行预处理,得到预处理后的网络言论,并对所述预处理后的网络言论进行特征挖掘。9.一种面向网络言论的信息挖掘装置,其中,包括:挖掘模块,用于获取候选对象的网络言论集,并对所述网络言论集...
【专利技术属性】
技术研发人员:陈珺仪,谢奕,陈佳颖,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。