一种舆情数据的新闻主体识别方法及系统技术方案

技术编号:40501358 阅读:18 留言:0更新日期:2024-02-26 19:28
本发明专利技术公开了一种舆情数据的新闻主体识别方法及系统,方法包括将新闻舆情数据通过AI大模型进行主体名称识别,得到舆情特征识别结果;其中,AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到;通过对舆情特征识别结果进行字符串匹配,判断舆情特征识别结果中是否存在新闻主体,若不存在,则输出未识别出主体的提示信息;若存在,则将舆情特征识别结果进行无效信息剔除,得到主体简化数据,并对主体简化数据进行主体数量判别分割,获得主体简化名称;通过公共子序列最优匹配策略,将主体简化名称与预先构建的公司知识库进行匹配,输出新闻主体名称识别结果。本实施例实现在海量新闻舆情信息中高效提取主体公司名称,提高主体识别的精准性。

【技术实现步骤摘要】

本专利技术涉及主体识别领域,尤其涉及一种舆情数据的新闻主体识别方法及系统


技术介绍

1、主体识别是自然语言处理(natural language processing,nlp)中的一项关键任务,其目标是从无结构文本中识别出预定义的实体,如人名、地名、组织名或专有名词等。舆情主体识别是主体识别的一项重要应用,可用于识别新闻或社交媒体内容中涉及的主体,如公司、政府机构、个人、产品等。舆情主体的精准抽提,有助于投资者对特定公司、人物、产品进行有效的舆情监控和管理,帮助投资者做出更精准的投资决策。

2、目前舆情主体识别的核心实现方案主要分为三种:基于规则的方法、基于统计的方法和基于深度学习的方法。现有的基于规则的方法是最早的主体识别方法,主要依赖于人工定义的语法或模式规则来识别文本中符合条件的实体。例如,可能设置一个规则来识别新闻中的公司名,规则可能是“任何紧跟着‘公司’或‘有限公司’等后缀的词组都被认为是公司名”。这样通过规则识别,"苹果公司"、"微软有限公司"等都将被识别为公司实体。然而,此类规则可能在识别准确率方面存在一定局限。例如,对于"苹果本文档来自技高网...

【技术保护点】

1.一种舆情数据的新闻主体识别方法,其特征在于,包括:

2.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述AI大模型通过基于上下文指令对ChatGPT模型进行数据训练而得到,具体为:

3.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述将所述舆情特征识别结果进行无效信息剔除,得到主体简化数据,具体为:

4.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述对所述主体简化数据进行主体数量判别分割,获得主体简化名称,具体为:

5.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述通过公共子序...

【技术特征摘要】

1.一种舆情数据的新闻主体识别方法,其特征在于,包括:

2.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述ai大模型通过基于上下文指令对chatgpt模型进行数据训练而得到,具体为:

3.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述将所述舆情特征识别结果进行无效信息剔除,得到主体简化数据,具体为:

4.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述对所述主体简化数据进行主体数量判别分割,获得主体简化名称,具体为:

5.如权利要求1所述的舆情数据的新闻主体识别方法,其特征在于,所述通过公共子序列最优匹配策略,将所述主体简化名称与预先构建的公司知识库进行匹配,得到新闻主体名称识别结果,具体为:

6.如权利要求5所述的舆情数据的新闻主体识别方法,其特征在于,所述通过最长公共子序列动态规划法,依次将所述第一序列与...

【专利技术属性】
技术研发人员:单怡然刘硕凌程宁杨澎涛王昱森
申请(专利权)人:易方达基金管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1