面向新闻领域的主体机构识别方法及系统技术方案

技术编号:37638494 阅读:16 留言:0更新日期:2023-05-25 10:05
本发明专利技术提供一种面向新闻领域的主体机构识别方法及系统,涉及文本匹配及新闻机构分类技术领域,包括:输入步骤:输入新闻标题、新闻正文、新闻中的机构名称和关键词,并对输入数据进行格式化处理;机构实体定位步骤:进行机构定位,对于全部所述机构名称在新闻标题或新闻正文中进行关联;特征提取步骤:根据机构定位结果提取特征,并根据提取的特征构建特征矩阵;模型学习步骤:输入所述特征矩阵,构建模型及训练模型,利用机器学习方法进行分类或排序;输出步骤:根据分类和排序结果,输出新闻主体机构判别结果。本发明专利技术能够实现对分类边界模糊的数据的精确判别。糊的数据的精确判别。糊的数据的精确判别。

【技术实现步骤摘要】
面向新闻领域的主体机构识别方法及系统


[0001]本专利技术涉及机器学习
,涉及文本匹配及新闻机构分类,具体地,涉及一种面向新闻领域的主体机构识别方法及系统。

技术介绍

[0002]新闻是互联网环境下不可或缺的一种信息获取方式,而对新闻文本中的机构提取并进行主体机构判断是舆情监控领域和金融领域的重要任务之一,新闻事件的主体机构在金融领域是投资分析,资产管理的重要决策参考;机构作为命名实体的一种,也是知识图谱的重要组成部分,实体抽取是进行图谱推理、事件分析的必要过程。
[0003]新闻文本主体机构识别的挑战体现在文本的复杂和任务的复杂。文本的复杂体现在待抽取的文本可能是句子、段落或者篇章,不定长度的文本使得限制文本长度的模型无法使用;任务的复杂体现在主体机构抽取任务包括:实体抽取,实体消歧和主体机构判别。对于存在多个机构的文本,主要机构,次要机构分类边界较为模糊,往往很难通过统一的规律进行区分,需要结合事件及上下文语义进行判别。
[0004]现有技术中存在以下缺陷:1)无法很好地适应文本复杂性,因为新闻文本披露无规定格式及写作风格,不同类型写作形式不同,不定长度的文本使得现有技术中限制文本长度的模型无法使用;2)对于新闻中披露的多种机构,其分类边界较为模糊,现有技术无法通过统一的规律进行区分,亟需一种可以结合事件及上下文语义进行判别的方法。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术提供一种面向新闻领域的主体机构识别方法及系统。
[0006]根据本专利技术提供的一种面向新闻领域的主体机构识别方法及系统,所述方案如下:
[0007]第一方面,提供了一种面向新闻领域的主体机构识别方法,所述方法包括:
[0008]输入步骤:输入新闻标题、新闻正文、新闻中的机构名称和关键词,并对输入数据进行格式化处理;
[0009]机构实体定位步骤:进行机构定位,对于全部所述机构名称在新闻标题或新闻正文中进行关联;
[0010]特征提取步骤:根据机构定位结果提取特征,并根据提取的特征构建特征矩阵;
[0011]模型学习步骤:输入所述特征矩阵,构建模型及训练模型,利用机器学习方法进行分类或排序;
[0012]输出步骤:根据分类和排序结果,输出新闻主体机构判别结果。
[0013]优选地,所述输入步骤包括:
[0014]步骤S1.1:剔除所述新闻标题中的乱码,对标点符号做统一转换;
[0015]步骤S1.2:剔除所述新闻正文中网页链接及乱码,对标点符号做统一转换。
[0016]优选地,所述机构实体定位步骤包括:
[0017]步骤S2.1:通过CRF机器学习将所述机构名称、新闻标题或新闻正文的全称转化为简称;
[0018]步骤S2.2:根据步骤S2.1处理后的所有待匹配的机构名称,构造有限状态机;
[0019]步骤S2.3:根据所述有限状态机,在新闻标题和正文中进行AC算法匹配;
[0020]步骤S2.4:根据步骤S2.3的匹配结果,剔除重复机构实体,消除机构实体歧义。
[0021]优选地,所述步骤S2.2具体包括:
[0022]步骤S2.2.1:基于所有待匹配机构名称,构建有限状态机;
[0023]步骤S2.2.2:将字符串作为输入数据送入所述模式匹配机;
[0024]步骤S2.2.3:对机构名称进行匹配。
[0025]优选地,所述步骤S2.3具体包括:
[0026]步骤S2.3.1:匹配新闻中对应的机构名称;
[0027]步骤S2.3.2:对机构名称进行状态设置,若该字符不属于机构名称,则将状态设为

1,若该字符属于机构名称,则按机构名称字符顺序设置状态集合s={1,2,

,N};
[0028]步骤S2.3.3:设置合法的状态转移,包括:
[0029]进入动作:从

1转移至第i个字符对应的状态,i字符需要在机构名称中,对应的状态集合为s;
[0030]转移动作:从第i个字符对应的状态转移至第j个字符对应的状态,其中i,j in s,i<j;
[0031]结束动作:第i个字符对应的状态不在s集合中,状态转移为

1,则结束匹配。
[0032]优选地,所述特征提取步骤包括:
[0033]步骤S3.1:特征提取,对于所述新闻标题和新闻正文中的机构实体定位结果,分别提取特征;
[0034]步骤S3.2:根据提取的特征,构建特征矩阵,作为模型学习模块的输入;
[0035]其中,所述特征提取的种类包括:
[0036]出现的频率:即机构实体名称在新闻标题、新闻正文中出现的次数;
[0037]出现的位置:即机构实体名称在新闻标题、新闻正文中首先出现的位置;
[0038]共现次数:即两个机构实体或机构实体与关键词共同出现的次数。
[0039]优选地,所述模型学习步骤包括:
[0040]步骤S4.1:输入所述特征矩阵,进行机构特征矩阵的得分排序;
[0041]步骤S4.2:运用分类算法,将主体机构与非主体机构判别看成是二分类问题,运用分类模型进行分类判别;
[0042]步骤S4.3:集成多分类器结果,使用经过优化的分布式梯度提升库XGBoost,将支持向量机SVM和逻辑回归logistic作为基础分类器进行模型融合,使得多个分类器通过投票决定最终的分类结果。
[0043]优选地,所述输出步骤包括:对所述分类器结果做可视化输出,输出结果包含:主体机构实体判别结果及相关机构的多分类器打分结果,分数越高表明分类结果置信度越高。
[0044]第二方面,提供了一种面向新闻领域的主体机构识别系统,所述系统包括:
[0045]输入模块:输入新闻标题、新闻正文、新闻中的机构名称和关键词,并对输入数据进行格式化处理;
[0046]机构实体定位模块:进行机构定位,对于全部所述机构名称在新闻标题或新闻正文中进行关联;
[0047]特征提取模块:根据机构定位结果提取特征,并根据提取的特征构建特征矩阵;
[0048]模型学习模块:输入所述特征矩阵,构建模型及训练模型,利用机器学习方法进行分类或排序;
[0049]输出模块:根据分类和排序结果,输出新闻主体机构判别结果。
[0050]优选地,所述输入模块包括:
[0051]模块M1.1:剔除所述新闻标题中的乱码,对标点符号做统一转换;
[0052]模块M1.2:剔除所述新闻正文中网页链接及乱码,对标点符号做统一转换;
[0053]所述机构实体定位模块包括:
[0054]模块M2.1:通过CRF机器学习将所述机构名称、新闻标题或新闻正文的全称转化为简称;
[0055]模块M2.2:根据模块M2.1处理后的所有待匹配的机构名称,构造有限状态机;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向新闻领域的主体机构识别方法,其特征在于,包括:输入步骤:输入新闻标题、新闻正文、新闻中的机构名称和关键词,并对输入数据进行格式化处理;机构实体定位步骤:进行机构定位,对于全部所述机构名称在新闻标题或新闻正文中进行关联;特征提取步骤:根据机构定位结果提取特征,并根据提取的特征构建特征矩阵;模型学习步骤:输入所述特征矩阵,构建模型及训练模型,利用机器学习方法进行分类或排序;输出步骤:根据分类和排序结果,输出新闻主体机构判别结果。2.根据权利要求1所述的面向新闻领域的主体机构识别方法,其特征在于,所述输入步骤包括:步骤S1.1:剔除所述新闻标题中的乱码,对标点符号做统一转换;步骤S1.2:剔除所述新闻正文中网页链接及乱码,对标点符号做统一转换。3.根据权利要求1所述的面向新闻领域的主体机构识别方法,其特征在于,所述机构实体定位步骤包括:步骤S2.1:通过CRF机器学习将所述机构名称、新闻标题或新闻正文的全称转化为简称;步骤S2.2:根据步骤S2.1处理后的所有待匹配的机构名称,构造有限状态机;步骤S2.3:根据所述有限状态机,在新闻标题和正文中进行AC算法匹配;步骤S2.4:根据步骤S2.3的匹配结果,剔除重复机构实体,消除机构实体歧义。4.根据权利要求3所述的面向新闻领域的主体机构识别方法,其特征在于,所述步骤S2.2具体包括:步骤S2.2.1:基于所有待匹配机构名称,构建有限状态机;步骤S2.2.2:将字符串作为输入数据送入所述模式匹配机;步骤S2.2.3:对机构名称进行匹配。5.根据权利要求3所述的面向新闻领域的主体机构识别方法,其特征在于,所述步骤S2.3具体包括:步骤S2.3.1:匹配新闻中对应的机构名称;步骤S2.3.2:对机构名称进行状态设置,若该字符不属于机构名称,则将状态设为

1,若该字符属于机构名称,则按机构名称字符顺序设置状态集合s={1,2,

,N};步骤S2.3.3:设置合法的状态转移,包括:进入动作:从

1转移至第i个字符对应的状态,i字符需要在机构名称中,对应的状态集合为s;转移动作:从第i个字符对应的状态转移至第j个字符对应的状态,其中i,j in s,i<j;结束动作:第i个字符对应的状态不在s集合中,状态转移为

1,则结束匹配。6.根据权利要求1所述的面向新闻领域的主体机构识别方法,其特征在于,所述特征提取步骤包括:步骤S3.1:特征提取,对于所述新闻标题和新闻正文中的机构实体定位结果,分别提取特征;
步骤S3.2:根据提取的特征,构建特征矩阵,作为模型学习模块的输入;其中,所述特征提取的种类包括:出现的频率:即机构实体名称在新闻标题、新闻正文中出现的次数;出现的位置:即机构实体名称在新闻标题、新闻正文中首先出现的位置;共现次数:即两个机构实体或机构实体与关键词共同出现的次数。7.根据权利要求1所述的面向新闻领域的主体机构识别方法,其特征在于,所述模型学习步骤包括:步骤S4.1:输入所述特征矩阵,进行机构特征矩阵的得分排序;步骤S4.2:运用分类算法,将主体机构与非主体机构判别看成是二分类问题,运用分类模型进行分类判别;步骤S4.3:集成多分类器结果,使用经过优化的分布式梯度提升库XGBoost,将支持向量机SVM和逻辑回归logistic作为基础分类器进行模型融合,使得多个分类器通过投票决定最终的分类结果。8.根据权利要求...

【专利技术属性】
技术研发人员:张友豪史海雄冯卫强刘守洲吴筱巧
申请(专利权)人:上海大智慧财汇数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1