一种基于自然语言处理的资讯事件图谱化系统及方法技术方案

技术编号:25479730 阅读:29 留言:0更新日期:2020-09-01 23:01
本发明专利技术提供了一种基于自然语言处理的资讯事件图谱化系统及方法,所述系统包括资讯分类筛选模块、词性标注及语法解析模块、文本语法树构建模块、主谓宾分析提取模块、多句实体指代消解模块和知识图谱展现模块。通过实施本发明专利技术能够帮助分析人员更直观地了解资讯的关键信息,从而有利于提高分析人员的资讯阅读工作效率以及分析准确性。

【技术实现步骤摘要】
一种基于自然语言处理的资讯事件图谱化系统及方法
本专利技术涉及知识图谱
,尤其是涉及一种自然语言处理的资讯事件图谱化系统及方法。
技术介绍
随着互联网技术的进步发展,资讯信息越来越发达,关于证券相关的资讯信息机构越来越多,从中能够获得的信息也逐日增加,但信息量也越来越大,越来越杂乱。哪些是最有用最相关的信息,需要我们通过慢慢的筛选和寻找再得出相应的准确信息。对于证券公司而言,有大量的投资顾问、行业研究员,他们专为广大投资者提供选股建议、买卖时机、热点分析等服务。投资顾问在为投资者提供投资建议的同时,必须遵守法律法规,为投资者提供恰当的建议。他们在工作的过程中,太多冗余的信息会导致他们错误的判断,怎样通过工具来减少这部分错误的产生,更清晰的知道资讯传达的重要内容,成为一个亟待解决的问题。现有的新闻资讯涵盖面很广泛,分析人员现在阅读资讯的方式,都是肉眼凭借自己的知识储备去提取相关内容,分析得到某一个内容是否会对某个分析点有一定的影响。因此,分析人员通过现有技术进行资讯阅读和分析的工作效率低下,难以快速和准确的作出决策与判断。
技术实现思路
本专利技术实施例所要解决的技术问题在于,提供一种基于自然语言处理的资讯事件图谱化系统及方法,能够帮助分析人员更直观地了解资讯的关键信息,从而有利于提高分析人员的资讯阅读工作效率以及分析准确性。为了解决上述技术问题,本专利技术实施例提供了一种基于自然语言处理的资讯事件图谱化系统,包括:资讯分类筛选模块,用于根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据;词性标注及语法解析模块,用于对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息,同时,对所述待分析资讯数据进行语法解析得到语法结构信息;文本语法树构建模块,用于根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树;主谓宾分析提取模块,用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的主谓宾三元组数据;其中,每一所述主语及每一所述宾语分别对应为一个实体,每一所述谓语对应为一种关系;多句实体指代消解模块,用于对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,继而基于所述主谓宾三元组数据以及合并后得到的实体,对文本进行重新融合得到精简后的三元组数据;知识图谱展现模块,用于利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。进一步地,所述资讯分类筛选模块具体包括:长度指标筛选单元,用于根据预设的资讯篇章长度对接收到的资讯事件进行筛选得到符合长度要求的第一资讯数据;关键词指标筛选单元,用于对所述第一资讯数据提取关键词并与预设的关键词分析范围进行匹配,筛选得到符合所述关键词范围的第二资讯数据;相关性指标筛选单元,用于提取所述第二资讯数据的各部分文本内容的关键信息并将所述关键信息与预设的资讯标题进行相关性匹配,筛选得到符合所述资讯标题的相关性条件的所述待分析资讯数据。进一步地,所述语法结构信息包括语义依存关系信息和句法结构信息。进一步地,所述主谓宾分析提取模块具体包括:主谓宾分析提取单元,用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的初始三元组数据;三元组数据过滤单元,用于分析所述每句文本的初始三元组数据的关键词语义,将不符合预设的文章关键词的初始三元组数据进行过滤,得到所述每句文本的主谓宾三元组数据。进一步地,所述对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,具体为:对文本中的句子按照单词个数组合划分为多个词组单元,按预设的概率计算规则标记每一所述词组单元的实体命名,并将各个命名后的实体进行分类,将同一类别下的共指实体合并为同一个实体。为了解决相同的技术问题,本专利技术还提供了一种基于自然语言处理的资讯事件图谱化方法,包括:根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据;对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息,同时,对所述待分析资讯数据进行语法解析得到语法结构信息;根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树;根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的主谓宾三元组数据;其中,每一所述主语及每一所述宾语分别对应为一个实体,每一所述谓语对应为一种关系;对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,继而基于所述主谓宾三元组数据以及合并后得到的实体,对文本进行重新融合得到精简后的三元组数据;利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。进一步地,所述根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据,具体包括:根据预设的资讯篇章长度对接收到的资讯事件进行筛选得到符合长度要求的第一资讯数据;对所述第一资讯数据提取关键词并与预设的关键词分析范围进行匹配,筛选得到符合所述关键词范围的第二资讯数据;提取所述第二资讯数据的各部分文本内容的关键信息并将所述关键信息与预设的资讯标题进行相关性匹配,筛选得到符合所述资讯标题的相关性条件的所述待分析资讯数据。进一步地,所述语法结构信息包括语义依存关系信息和句法结构信息。进一步地,所述根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的主谓宾三元组数据,具体包括:根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的初始三元组数据;分析所述每句文本的初始三元组数据的关键词语义,将不符合预设的文章关键词的初始三元组数据进行过滤,得到所述每句文本的主谓宾三元组数据。进一步地,所述对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,具体为:对文本中的句子按照单词个数组合划分为多个词组单元,按预设的概率计算规则标记每一所述词组单元的实体命名,并将各个命名后的实体进行分类,将同一类别下的共指实体合并为同一个实体。与现有技术相比,本专利技术具有如下有益效果:本专利技术实施例提供了一种基于自然语言处理的资讯事件图谱化系统及方法,所述系统包括资讯分类筛选模块、词性标注及语法解析模块、文本语法树构建模块、主谓宾分析提取模块、多句实体指代消解模块和知识图谱展现模块。通过实施本专利技术能够帮助分析人员更直观地了解资讯的关键信息,从而有利于提高分析人员的资讯阅读工作效率以及分析准确性。附图说明图1是本专利技术一实施例提供的基于自然语言处理的资讯事件图谱化系统的结构示意图;图2是本专利技术一实施例提供的基于自然语言处理的资讯事件图谱化方法的流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理的资讯事件图谱化系统,其特征在于,包括:/n资讯分类筛选模块,用于根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据;/n词性标注及语法解析模块,用于对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息,同时,对所述待分析资讯数据进行语法解析得到语法结构信息;/n文本语法树构建模块,用于根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树;/n主谓宾分析提取模块,用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的主谓宾三元组数据;其中,每一所述主语及每一所述宾语分别对应为一个实体,每一所述谓语对应为一种关系;/n多句实体指代消解模块,用于对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,继而基于所述主谓宾三元组数据以及合并后得到的实体,对文本进行重新融合得到精简后的三元组数据;/n知识图谱展现模块,用于利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。/n

【技术特征摘要】
1.一种基于自然语言处理的资讯事件图谱化系统,其特征在于,包括:
资讯分类筛选模块,用于根据预设的定制指标对接收到的资讯事件进行筛选得到待分析资讯数据;
词性标注及语法解析模块,用于对所述待分析资讯数据进行词性标注得到每个分词的词性标注信息,同时,对所述待分析资讯数据进行语法解析得到语法结构信息;
文本语法树构建模块,用于根据所述词性标注信息及语法结构信息将所述待分析资讯数据的每句文本构建成语法树;
主谓宾分析提取模块,用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的主谓宾三元组数据;其中,每一所述主语及每一所述宾语分别对应为一个实体,每一所述谓语对应为一种关系;
多句实体指代消解模块,用于对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,继而基于所述主谓宾三元组数据以及合并后得到的实体,对文本进行重新融合得到精简后的三元组数据;
知识图谱展现模块,用于利用预设的可视化工具对所述精简后的三元组数据生成所述资讯事件的知识图谱并输出。


2.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统,其特征在于,所述资讯分类筛选模块具体包括:
长度指标筛选单元,用于根据预设的资讯篇章长度对接收到的资讯事件进行筛选得到符合长度要求的第一资讯数据;
关键词指标筛选单元,用于对所述第一资讯数据提取关键词并与预设的关键词分析范围进行匹配,筛选得到符合所述关键词范围的第二资讯数据;
相关性指标筛选单元,用于提取所述第二资讯数据的各部分文本内容的关键信息并将所述关键信息与预设的资讯标题进行相关性匹配,筛选得到符合所述资讯标题的相关性条件的所述待分析资讯数据。


3.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统,其特征在于,所述语法结构信息包括语义依存关系信息和句法结构信息。


4.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统,其特征在于,所述主谓宾分析提取模块具体包括:
主谓宾分析提取单元,用于根据每一所述语法树对文本中每一单句的主语、谓语及宾语进行提取,得到每句文本的初始三元组数据;
三元组数据过滤单元,用于分析所述每句文本的初始三元组数据的关键词语义,将不符合预设的文章关键词的初始三元组数据进行过滤,得到所述每句文本的主谓宾三元组数据。


5.根据权利要求1所述的基于自然语言处理的资讯事件图谱化系统,其特征在于,所述对本文所有实体进行关系分析,根据实体的共指关系将多个共指实体合并为同一个实体,具体为:
对文本中的句子按照单词个数组合划分为多个词组单元,按预设的概率计算规则标记每一所述词组单元的实体命名,并将各个命名...

【专利技术属性】
技术研发人员:林康
申请(专利权)人:广发证券股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1