一种基于目标信息识别的用户生成内容立场检测方法及系统技术方案

技术编号:41443163 阅读:44 留言:0更新日期:2024-05-28 20:35
一种基于目标信息识别的用户生成内容立场检测方法及系统,涉及社交网络数据处理技术领域。本发明专利技术为了解决现有的用户生成内容立场检测或识别方法需要花费大量人工成本去标注目标信息,并且仅有的类似方法在目标识别阶段往往需要大规模数据对模型进行训练或微调,导致样本数据质量会直接影响目标识别的性能和准确率的问题。技术要点:首先从给定社交媒体文本中抽取出具有代表性的关键词;然后通过余弦相似度计算关键词与目标集合中特定目标之间的相似度,并根据相似度将确定文本所针对的目标对象;最后基于识别出的目标对象,采用多任务BERTweet模型来检测文本与该目标对象之间的立场关系。本发明专利技术所提出的基于目标信息识别的用户生成内容立场检测方法可有效减少人工成本,从而提高了立场检测方法在实际应用中的可行性和实用性。

【技术实现步骤摘要】

本专利技术涉及社交网络数据处理,具体而言,涉及一种基于目标信息识别的用户生成内容立场检测方法及系统


技术介绍

1、当今时代,全球范围内数十亿用户广泛使用各种社交网络平台,这些平台已经逐渐成为了用户之间信息传播和意见表达的主要渠道。通过对社交网络平台上的用户生成内容进行立场检测可以有效且及时地了解公众对于热点新闻、畅销产品、公共政策等社会性事件的立场倾向。不仅可以帮助商业公司对产品设计和销售策略进行改进,从而更有针对性地满足市场需求,提高竞争力;还可以向政府决策者提供系统、浓缩、综合的舆情信息,帮助决策者提高决策效率,启迪决策思维,增强政府与民众之间的互动与合作。综上所述,立场检测技术在现实场景中具有重要的研究意义和应用价值。

2、针对立场检测任务,大量研究人员开展了相关研究。sun等人[1]以文本特征为基础,引入了情感特征、论据特征以及依存结构特征,同时提出了一种分层注意力机制,以衡量各种特征之间的重要性。siddiqua等人[2]提出一种集成了密集连接双向长短期记忆神经网络和嵌套长短期记忆神经网络的神经网络模型,该模型可以有效解决文本中的长本文档来自技高网...

【技术保护点】

1.一种基于目标信息识别的用户生成内容立场检测方法,其特征在于,所述方法的实现过程包括如下步骤:

2.根据权利要求1所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤1中所述数据清洗,即消除用户生成内容中包含的表情符号和网络链接网络元素;所述网络用语转化,即使用预定义的缩略语词典将社交媒体文本中常见的网络用语转化为书面用语。

3.根据权利要求1或2所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤3中五种文本特征的计算公式为:

4.根据权利要求3所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤3中所述通...

【技术特征摘要】

1.一种基于目标信息识别的用户生成内容立场检测方法,其特征在于,所述方法的实现过程包括如下步骤:

2.根据权利要求1所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤1中所述数据清洗,即消除用户生成内容中包含的表情符号和网络链接网络元素;所述网络用语转化,即使用预定义的缩略语词典将社交媒体文本中常见的网络用语转化为书面用语。

3.根据权利要求1或2所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤3中五种文本特征的计算公式为:

4.根据权利要求3所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤3中所述通过yake算法计算每个候选单词的权重,对用户生成内容中的关键词进行筛选和提取,具体为:首先根据各特征计算单词的权重:

5.根据权利要求1所述的基于目标信息识别的用户生成内容立场检测方法,其特征在于,步骤4中所述使用余弦相似度计算关键词与目标信息的相似度,具体计算公式为:

6.根据权利要求5所述的基于...

【专利技术属性】
技术研发人员:张嘉宇张宏莉孟超刘春雨田泽庶马毓翔叶麟
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1