舆情事件数据发现的方法、终端设备及存储介质技术

技术编号:17912500 阅读:172 留言:0更新日期:2018-05-10 18:19
本发明专利技术公开一种基于RDF知识库的舆情事件数据发现的方法,包括如下步骤,S1:根据描述舆情事件的要素,构建至少包括人物、地点和组织的多个实体(即要素)的多维度的RDF实体库,进入S2步骤;S2:依据RDF实体库,从各个维度对需要进行舆情事件数据发现的网络文本数据,使用隐马尔科夫模型对网络文本数据中命中的实体进行判断,获得包含有该网络文本数据在各个维度中命中的实体及其相关信息的结构化的文本数据,进入S3步骤;S3:根据用户输入的舆情事件条件,对S2中获得的结构化的文本数据进行舆情事件条件匹配,并将匹配到的结构化的文本数据,作为相关的舆情事件数据,进入S4步骤;S4:将相关的舆情事件数据返回给用户。

【技术实现步骤摘要】
舆情事件数据发现的方法、终端设备及存储介质
本专利技术涉及信息处理
,具体是一种基于RDF知识库的舆情事件数据发现的方法、终端设备及存储介质。
技术介绍
爆发式增长的互联网数据对数据的分析提出了更多和更高的要求。文本分析和挖掘技术是目前被广泛应用的技术,通过相应的技术和方法对文本的语义内容进行抽取,从而对文本进行分类聚类等一系列操作,进而用于商品推荐、舆情数据发现、文本搜索等领域。在舆情数据发现中,首先需要从网络数据中获取事件的基本要素,在语义层面描述舆情,进而进行相关的分析。其中,数据的语义信息可以通过几个基本要素来描述,例如人物、地点、行为等。从舆情文本数据中抽取这些基本要素(实体),在构建数据摘要和事件检索中都有着重要的作用,在此基础上进行舆情数据发现能取得显著的效果。目前,舆情数据发现方法主要是基于关键词匹配来实现数据摘要的构建和事件检索等功能,此类方法存在准确率和召回率都较为低下的问题。
技术实现思路
为了解决上述问题,本专利技术提供一种基于RDF知识库的舆情事件数据发现的方法、终端设备及存储介质,在传统方法的基础上,使用RDF(ResourceDescriptionFramework)资源描述框架来构建一个用户可配置的实体知识库(知识库),通过RDF来描述实体资源之间的联系,在此基础上实现舆情基本要素的抽取。本专利技术一种基于RDF知识库的舆情事件数据发现的方法,包括如下步骤:S1:RDF实体库构建:根据描述舆情事件的要素,构建至少包括人物、地点和组织的多个实体(即要素)的多维度的RDF实体库,进入S2步骤;S2:将网络文本数据处理成结构化的文本数据:依据S1中构建的RDF实体库,从各个维度对需要进行舆情事件数据发现的网络文本数据,使用隐马尔科夫模型对网络文本数据中命中的实体进行判断,获得包含有该网络文本数据在各个维度中命中的实体及其相关信息的结构化的文本数据,进入S3步骤;S3:舆情事件数据发现:根据用户输入的舆情事件条件,对S2中获得的结构化的文本数据进行舆情事件条件匹配,并将匹配到的结构化的文本数据,作为相关的舆情事件数据,进入S4步骤;S4:将相关的舆情事件数据,返回给用户。进一步的,S1中,使用概念模型建模工具Ontology来定义和描述RDF实体库中的实体的概念和概念之间的关系。进一步的,S2中,使用隐马尔科夫模型对网络文本数据中命中的实体进行判断,具体为:计算网络文本数据中出现的RDF实体库中各个维度的实体及其相关信息的概率,并根据概率的大小对各个维度的实体进行排序,并与相应的文本数据进行关联。进一步的,S3中,还包括,根据匹配到的结构化的文本数据,获得相对应的网络文本数据,作为相关的舆情事件数据。本专利技术一种基于RDF知识库的舆情事件数据发现的终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于RDF知识库的舆情事件数据发现的方法的步骤。本专利技术一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于RDF知识库的舆情事件数据发现的方法的步骤。本专利技术的有益效果:通过多个维度的实体的相关信息来命中实体,因而大大提高了实体抽取的召回率,从而提高了舆情数据发现的召回率。此外,实体概率的计算能在一定程度上对实体进行消歧,而且本方法能结合各个维度的实体对舆情数据进行发现,所以也在一定程度上提高了舆情数据发现的准确率。此外,基于RDF的知识库的构造简单,具有良好的扩展性。附图说明图1为本专利技术实施例一的方法流程图;图2a为本专利技术实施例的人物Ontology的概念及其关系示意图;图2b为本专利技术实施例的地点Ontology的概念及其关系示意图;图2c为本专利技术实施例的组织Ontology的概念及其关系示意图。具体实施方式为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。现结合附图和具体实施方式对本专利技术进一步说明。实施例一:请参阅图1-图2所示,本专利技术提供了一种基于RDF知识库的舆情事件数据发现的方法,在传统方法的基础上,使用RDF(ResourceDescriptionFramework)资源描述框架来构建一个用户可配置的实体知识库(知识库),通过RDF来描述实体资源之间的联系,在此基础上实现舆情基本要素的抽取。一方面,由于实体之间存在大量联系,在匹配资源时可以根据上下文信息中涉及的跟实体信息有关的概念的相关描述来发现文本中涉及的实体,而不是仅靠单纯的关键词匹配来实现,这可以大大提高舆情数据发现的召回率;另一方面,在文本内容消歧,提取文本涉及的主要信息方面,本方法可以考虑从多个维度计算实体概率,综合多个事件要素进行分析,从多个维度进行判断和分析,最终提高舆情数据发现的准确率,从而改进发现舆情数据发现的效果。例如,传统舆情数据发现过程中,想要发现“厦门”相关的舆情数据,是通过“厦门”这个关键词进行数据匹配的,该方法存在明显的召回率低下的问题,而在本方法中,可以通过厦门相关的基础设施,如机场、高速公路等,或者街道、企业、标志性建筑等与厦门有关的事物来推测文本是否涉及了“厦门”这个实体,依此做出判断;另一方面,传统方法对于文本中出现的“苹果”,无法区分其是水果的一种,还是某电子产品品牌,但本方法可以通过上下文语境等方面进行分析,最终得到较为接近真相的判断,由此提高舆情数据发现的准确率;此外,本方法可以根据多个维度,例如什么人,在什么地点,做了什么事情,设置相应的数据发现条件,返回用户需要的结果。本方法主要针对网络文本内容进行舆情事件监测,例如贴文,微博等。本专利技术所阐述的方法具体过程如下:S1:RDF实体库构建:根据描述舆情事件的要素,构建至少包括人物、地点和组织的多个实体(即要素)的多维度的RDF实体库,本实施例中,使用概念模型建模工具Ontology来定义和描述RDF实体库中的实体的概念和概念之间的关系。根据描述舆情事件的要素,本专利技术从多个维度构建丰富的RDF实体库。由于舆情事件可以通过多个要素来进行描述,例如可以从人物、地点和组织等维度来描述,从这些维度构建相应的RDF实体库,能够更清晰全面地对舆情事件进行描述。本实施例使用一种能在语义和知识层次上描述信息系统的概念模型建模工具Ontology来定义和描述概念和关系。例如本实施例中人物、地点和组织对应的Ontology图如图2所示(在本实施例中,人物、地点和组织对应的Ontology图包括图中所示的实体的相关信息,但并不局限于此,用户可以对实体库中的各个维度的实体包括的相关信息进行自定义设置,即可以对实体的相关信息进行增减),其中图2a为人物Ontology的概念及其关系示意图,人物实体包括如下相关信息:基础信息、出生日期、籍贯、性别、民族、党派、别名、工作职务、任职地点、毕业院校、人物关系、配偶、子女、父母和亲戚等。其中图2b为地点Ontology的概念及其关系示意图,地点实体包括如下相关信息:本文档来自技高网...
舆情事件数据发现的方法、终端设备及存储介质

【技术保护点】
一种基于RDF知识库的舆情事件数据发现的方法,其特征在于:包括如下步骤:S1:RDF实体库构建:根据描述舆情事件的要素,构建至少包括人物、地点和组织的多个实体(即要素)的多维度的RDF实体库,进入S2步骤;S2:将网络文本数据处理成结构化的文本数据:依据S1中构建的RDF实体库,从各个维度对需要进行舆情事件数据发现的网络文本数据,使用隐马尔科夫模型对网络文本数据中命中的实体进行判断,获得包含有该网络文本数据在各个维度中命中的实体及其相关信息的结构化的文本数据,进入S3步骤;S3:舆情事件数据发现:根据用户输入的舆情事件条件,对S2中获得的结构化的文本数据进行舆情事件条件匹配,并将匹配到的结构化的文本数据,作为相关的舆情事件数据,进入S4步骤;S4:将相关的舆情事件数据,返回给用户。

【技术特征摘要】
1.一种基于RDF知识库的舆情事件数据发现的方法,其特征在于:包括如下步骤:S1:RDF实体库构建:根据描述舆情事件的要素,构建至少包括人物、地点和组织的多个实体(即要素)的多维度的RDF实体库,进入S2步骤;S2:将网络文本数据处理成结构化的文本数据:依据S1中构建的RDF实体库,从各个维度对需要进行舆情事件数据发现的网络文本数据,使用隐马尔科夫模型对网络文本数据中命中的实体进行判断,获得包含有该网络文本数据在各个维度中命中的实体及其相关信息的结构化的文本数据,进入S3步骤;S3:舆情事件数据发现:根据用户输入的舆情事件条件,对S2中获得的结构化的文本数据进行舆情事件条件匹配,并将匹配到的结构化的文本数据,作为相关的舆情事件数据,进入S4步骤;S4:将相关的舆情事件数据,返回给用户。2.如权利要求1所述的基于RDF知识库的舆情事件数据发现的方法,其特征在于:S1中,使用概念模型建模工具Ontology来定义和描述RDF实体库中...

【专利技术属性】
技术研发人员:赖太平段思欣栾江霞俞碧洪黄钦泉章正道许剑锋
申请(专利权)人:厦门市美亚柏科信息股份有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1