一种计算实体动态关系的系统及方法技术方案

技术编号:34135211 阅读:19 留言:0更新日期:2022-07-14 16:26
本发明专利技术公开了一种计算实体动态关系的系统及方法,包括实体识别模块、构建计算模块、写入推送模块,实体识别模块包括识别处理单元、提取单元、规范筛选单元,处理单元用于处理人名机构名实体,提取单元用于对新闻中的标题与正文采取拼接的方式,输送进入模型,对输入文本保持固定截断值,规范筛选单元用于利用正则表达式规范输入的人名机构名实体。本发明专利技术根据现有实体识别技术,包括使用预训练模型与传统模型相结合的方式,从繁杂的新闻正文中识别出新闻主体,并分析随新闻热度变化的识别实体关系的变化趋势,建立实体之间的实时动态关系,可应用于未来搜索词库拓展。可应用于未来搜索词库拓展。可应用于未来搜索词库拓展。

【技术实现步骤摘要】
一种计算实体动态关系的系统及方法


[0001]本专利技术属于动态算法处理领域,尤其涉及一种计算实体动态关系的系统及方法。

技术介绍

[0002]计算机互联网发展迅猛的时代社交网络媒体正日渐崛起,广大用户对其越发依赖,各个用户对新闻信息的需求不同,呈现出用户群体对新闻信息的关注程度不同的自然现象,进行宏观统计后,某些新闻信息被频繁访问,用户关注程度高;某些新闻信息被访问的频率非常低,用户关注程度低。目前可以用新闻信息被播放的次数作为热度值来量化表示用户群体对于新闻信息的关注程度。目前,新闻热度变化的识别实体关系的变化趋势不可预测。因此我们对此做出改进,提出一种计算实体动态关系的系统及方法。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题,提供一种计算实体动态关系的系统及方法,根据现有实体识别技术,包括使用预训练模型与传统模型相结合的方式,从繁杂的新闻正文中识别出新闻主体,并分析随新闻热度变化的识别实体关系的变化趋势,建立实体之间的实时动态关系,可应用于未来搜索词库拓展。
[0004]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种计算实体动态关系的系统及方法,包括实体识别模块、构建计算模块、写入推送模块;所述实体识别模块包括识别处理单元、提取单元、规范筛选单元,处理单元用于处理人名机构名实体,提取单元用于对新闻中的标题与正文采取拼接的方式,输送进入模型,对输入文本保持固定截断值,规范筛选单元用于利用正则表达式规范输入的人名机构名实体;所述构建计算模块包括统计单元、处理训练单元、处理筛选单元、热度计算单元、数据采集单元、抽取单元,统计单元用于输入规范后的人名机构名实体,并统计各实体在文本中出现的次数,处理训练单元用于,处理训练单元用于对地域实体的提取相对严格的多,并最终目的为输出文本的主要归属地地域,处理筛选单元用于对输入新闻的标题与正文采取不同策略,对标题使用关键词检索策略,关键词以国家发布的行政规划词典为材料,提取标题中的地域词后,转换相对应的行政编号,并进行频数统计,对不符合规范的实体进行剔除,热度计算单元用于以标题中最主要的地域信息为指引,对正文中的地域信息进行剔除,统计细分地域的最多区县级地域信息,保留主要的地域提及地,数据采集单元用于采集包括微信、微博、新闻客户端、网页、论坛和报刊等六大平台的数据采集,抽取单元用于调用Ner模型提取热点新闻中的人名,机构名以及地域实体信息,并分别对每个事件的所有聚合数据进行实体频数统计,同一实体在一条新闻中单次出现或多次出现仅记作1次制定数据中3种实体的热度阈值,仅保留高于热度阈值的实体,并保留实体的频数用于后期的热度值计算;
所述写入推送模块用于将符合要求的实体数据写入文件并进行推送。
[0005]进一步地,所述处理筛选单元对新闻正文采用的策略为使用地域模型提取地域实体,对提取实体后的位置标记星号,再采用关键词模型对剩余文本检索,对所有识别的地域进行筛选,按行政规划字典,寻找对应的行政编号,筛选方式主要有通过行政规划字典约束地域词,对含地域信息的实体词,查询信息库,转换编码,若信息库中不存在,则通过高德地图,百度地图查询后,获取地域信息,转换行政编号,并存入信息库中,对不符合规范的实体进行剔除。
[0006]一种计算实体动态关系的方法:A、处理单元处理人名机构名实体,提取单元对新闻中的标题与正文采取拼接的方式,输送进入模型,对输入文本保持固定截断值,规范筛选单元用于利用正则表达式规范输入的人名机构名实体;B、统计单元输入规范后的人名机构名实体,并统计各实体在文本中出现的次数,处理训练单元,处理训练单元对地域实体的提取相对严格的多,并最终目的为输出文本的主要归属地地域,处理筛选单元对输入新闻的标题与正文采取不同策略,对标题使用关键词检索策略,关键词以国家发布的行政规划词典为材料,提取标题中的地域词后,转换相对应的行政编号,并进行频数统计,对不符合规范的实体进行剔除,热度计算单元以标题中最主要的地域信息为指引,对正文中的地域信息进行剔除,统计细分地域的最多区县级地域信息,保留主要的地域提及地;C、数据采集单元采集包括微信、微博、新闻客户端、网页、论坛和报刊等六大平台的数据采集,抽取单元调用Ner模型提取热点新闻中的人名,机构名以及地域实体信息,并分别对每个事件的所有聚合数据进行实体频数统计,同一实体在一条新闻中单次出现或多次出现仅记作1次制定数据中3种实体的热度阈值,仅保留高于热度阈值的实体,并保留实体的频数后期的热度值计算;D、写入推送模块将符合要求的实体数据写入文件并进行推送本专利技术的有益效果是:该种计算实体动态关系的系统及方法,根据现有实体识别技术,包括使用预训练模型与传统模型相结合的方式,从繁杂的新闻正文中识别出新闻主体,并分析随新闻热度变化的识别实体关系的变化趋势,建立实体之间的实时动态关系,可应用于未来搜索词库拓展。
附图说明
[0007]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术的流程图;图2是本专利技术识别处理单元示意图;图3是本专利技术的局部结构示意图;图4是本专利技术的步骤流程图;图5是本专利技术的步骤流程图;图6是本专利技术的步骤流程图。
具体实施方式
[0008]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0009]如图1所示的一种计算实体动态关系的系统及方法,包括实体识别模块即对文本提取出人名实体,机构名实体以及文本归属地地域实体;构建计算模块构建并计算实体关系热度值;写入推送模块;实体识别模块包括识别处理单元、提取单元、规范筛选单元,处理单元用于处理1998年人民日报发布并标记的新闻文本训练集,用于训练并构建bilstm+crf结构的Ner实体识别模型处理人名机构名实体,提取单元用于对新闻中的标题与正文采取拼接的方式,输送进入模型,对输入文本保持固定截断值,规范筛选单元用于利用正则表达式规范输入的人名机构名实体;构建计算模块包括统计单元、处理训练单元、处理筛选单元、热度计算单元、数据采集单元、抽取单元,统计单元用于输入规范后的人名机构名实体,并统计各实体在文本中出现的次数,处理训练单元用于,处理训练单元用于对地域实体的提取相对严格的多,并最终目的为输出文本的主要归属地地域,处理筛选单元用于对输入新闻的标题与正文采取不同策略,对标题使用关键词检索策略,关键词以国家发布的行政规划词典为材料,提取标题中的地域词后,转换相对应的行政编号,并进行频数统计,对不符合 规范的实体进行剔除,热度计算单元用于以标题中最主要的地域信息为指引,对正文中的地域信息进行剔除,统计细分地域的最多区县级地域信息,保留主要的地域提及地,数据采集单元用于采集包括微信、微博、新闻客本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算实体动态关系的系统及方法,其特征在于,包括实体识别模块、构建计算模块、写入推送模块;所述实体识别模块包括识别处理单元、提取单元、规范筛选单元,处理单元用于处理人名机构名实体,提取单元用于对新闻中的标题与正文采取拼接的方式,输送进入模型,对输入文本保持固定截断值,规范筛选单元用于利用正则表达式规范输入的人名机构名实体;所述构建计算模块包括统计单元、处理训练单元、处理筛选单元、热度计算单元、数据采集单元、抽取单元,统计单元用于输入规范后的人名机构名实体,并统计各实体在文本中出现的次数,处理训练单元用于,处理训练单元用于对地域实体的提取相对严格的多,并最终目的为输出文本的主要归属地地域,处理筛选单元用于对输入新闻的标题与正文采取不同策略,对标题使用关键词检索策略,关键词以国家发布的行政规划词典为材料,提取标题中的地域词后,转换相对应的行政编号,并进行频数统计,对不符合规范的实体进行剔除,热度计算单元用于以标题中最主要的地域信息为指引,对正文中的地域信息进行剔除,统计细分地域的最多区县级地域信息,保留主要的地域提及地,数据采集单元用于采集包括微信、微博、新闻客户端、网页、论坛和报刊等六大平台的数据采集,抽取单元用于调用Ner模型提取热点新闻中的人名,机构名以及地域实体信息,并分别对每个事件的所有聚合数据进行实体频数统计,同一实体在一条新闻中单次出现或多次出现仅记作1次制定数据中3种实体的热度阈值,仅保留高于热度阈值的实体,并保留实体的频数用于后期的热度值计算;所述写入推送模块用于将符合要求的实体数据写入文件并进行推送。2.根据权利要求1所述的一种计算实体动态关系的方法,其特征在于,所述方法包括以下步骤:A、处理单元处理人名机构名实体,提取单元对新闻中的标题与正...

【专利技术属性】
技术研发人员:余强朱旭琪王欢夏茂晋
申请(专利权)人:安徽清博大数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1