自动判别文本相关性的方法及系统技术方案

技术编号:34422709 阅读:16 留言:0更新日期:2022-08-06 15:49
本申请涉及自动判别文本相关性的方法及系统。公开了一种原文文本与原文的解读文本相关联的方法,包括:输入文本数据;判别文本数据类型,包括将输入文本判别为原文文本、解读文本或无关文本;如果判别文本数据为原文文本,对原文文本进行信息抽取,信息抽取包括抽取原文文本的主要主体,以及将原文文本和抽取的主要主体存储在原文数据库中;如果判别文本数据为解读文本,判断该解读文与已存储的原文的关联性,包括:对解读文进行信息抽取,信息抽取包括抽取解读文的主要主体;将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;生成匹配的原文与该解读文的“原文

【技术实现步骤摘要】
自动判别文本相关性的方法及系统


[0001]本公开涉及文本分析领域,特别涉及对文本数据进行分析以进行政策文本判别及政策解读。

技术介绍

[0002]在政策解读方面,企业往往需要及时、快速、准确地跟踪政府发布的各项政策,通过解读政策的内容帮助企业申报政策支持的项目,甚至调整企业的发展战略。由于各级政府发布政策的渠道不同,企业往往难以统一跟踪最新的政策信息。另外,企业也需要参考政府及行业专家对的政策解读以帮助准确理解政策的走向。在现有的情况下,第三方对政策的解读内容大多数在与发布政策的网站不同的网站上发布。例如一项政策可能发布在政府公示网站上,然而各行业专家对该项政策的解读内容却往往发布在不同的新闻网站、论坛甚至自媒体平台上。
[0003]在股票投资方面,投资者往往需要关注上市公司的重大事件以及行业专家对该事件的解读与评价。上市公司的公告或证监会针对某家上市公司发布的(处罚)公告可能发布在各自的公示网站上,而第三方(例如行业专家、分析师)针对这一公告所进行的评论、解读文章却往往发布在其他新闻网站、论坛或自媒体平台上。公告的解读内容对投资者而言也具备重要的参考价值。然而由于不同的发布渠道、大量的解读文本使得投资者难以高效地获取信息。
[0004]现有技术中对政策的分析往往仅着眼于分析单篇政策原文或公告原文(后面简称“原文”)本身的信息,而忽略了第三方解读文本(后面简称“解读文”)对原文的解读信息。
[0005]例如,专利申请“一种基于深度学习的政策解读方法及政策解读系统”CN109493265A仅对政策原文进行NLP处理。专利申请“一种政策研究解读方法、系统、存储介质和服务器”CN110245225A仅对政策原文进行简单处理。专利申请“一种政策解读的方法及装置”CN108984766A仅对政策原文进行检索,简单处理。专利申请“一种基于数据联勤服务的政策解读方法”CN110874414A仅对政策原文进行元数据关联处理。
[0006]因此,存在将政策原文或公告原文与相应的第三方的解读文本关联起来的需求以使得企业或投资者能够高效的获取发布政策的相关信息并及时作出相应的策略调整。
[0007]在本申请的“原文”指的是任何需要被解读的文本,例如政府公告、公司公告、文学作品等等;而解读文指的是任何判别为与原文相关联的文本,例如解读政府政策的新闻文章、解读公司公告的分析师报告、文学评论等等。

技术实现思路

[0008]针对上述需求,本申请提出了将原文与解读文相关联的解决方案。本申请的实施例采用自动化流程进行,首先判别输入的文本的类型是属于原文、解读文还是无关文本;如果判别该文本为原文类型,则对该原文进行信息抽取并存入于原文数据库;如果判别该文本为解读文,则对该解读文进行信息抽取,并将抽取的解读文的信息与数据库中存储的抽
取的原文的信息进行匹配以判别解读文与哪一篇原文相关联。
[0009]本申请进一步还可以抽取解读文中与关联的原文相关的解读信息。具体而言,可以根据对解读文的每个句子和相应原文的每个句子成对相似度计算,和解读句的解读方式来去匹配各解读句与一个或多个原文正文句或句子集。
[0010]根据本公开的第一方面,提供了一种原文文本与原文的解读文本相关联的方法,包括:输入文本数据;判别文本数据类型,包括将输入文本判别为原文文本、解读文本或无关文本;如果判别文本数据为原文文本,对原文文本进行信息抽取,信息抽取包括抽取原文文本的主要主体,以及将原文文本和抽取的主要主体存储在原文数据库中;如果判别文本数据为解读文本,判断该解读文与已存储的原文的关联性,包括:对解读文进行信息抽取,信息抽取包括抽取解读文的主要主体;将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;生成匹配的原文与该解读文的“原文

解读文”二元组。
[0011]根据本公开的第二方面,提供了一种原文文本与原文的解读文本相关联的计算机系统,包括:原文数据库,用于存储原文及其相关信息;输入模块,用于接收文本数据;文本数据类型判别模块,用于将接收的文本判别为原文文本、解读文本或无关文本;原文信息抽取模块,用于对判别为原文文本的文本类型进行信息抽取,所述信息抽取包括抽取原文文本的主要主体,并且将原文文本和抽取的主要主体存储在所述原文数据库中;解读文信息抽取模块,用于对判别为解读文本的文本类型进行信息抽取,所述信息抽取包括抽取解读文本的主要主体;判断关联性模块,用于判断解读文本与原文数据库存储的原文文本的关联性,包括:将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;以及生成匹配的原文与该解读文的“原文

解读文”二元组。计算机系统还可以包括解读句提取模块,针对每个“原文

解读文”的二元组,从解读文本中抽取对相关联的原文的解读句;以及输出模块,输出原文信息和相应的解读文分析信息。
[0012]根据本公开的第三方面,提供了一种计算设备,包括处理器和存储器,存储器上存储有指令,当指令在处理器上执行时促使处理器执行上述用于原文文本与原文的解读文本相关联的方法。
[0013]根据本公开的第四方面,提供了一个或多个计算机可读存储介质,其上存储有指令,当指令在一个或多个处理器上执行时促使该一个或多个处理器执行用于原文文本与原文的解读文本相关联的方法。
[0014]本专利技术所解决的技术问题是如何将原文文本与对该原文的解读文本的解读信息或评论信息(即文本解读文本)关联起来,其中本专利技术提出的技术方案解决了如何判别文本类型是原文还是解读文,如何判别解读文与哪一篇原文相关联,如何从解读文中抽取原文的解读信息等。本申请多个实施例提供了针对各个问题的具体的解决方案。
附图说明
[0015]为了促进全面理解本专利技术,现在参照附图,图示本公开的几个方面,且连同本描述一起用来解释本公开的原理。这些附图不应当被解释为限制本专利技术,而是意图为实例性的并作为参考而示出。
[0016]图1示出了根据本专利技术的一个实施例的流程图100 ;
图2 示出了本专利技术对政策文本判别的一个实施例的流程图;图2a示出了本专利技术的判别文本类型的流程;图3示出了在本专利技术的政策解读分析的一个实施例的流程图;图4a和图4b分别示出了政策文本和解读文本的示例;图5示出了根据本专利技术的一个实施例的将原文文本与原文的解读文本相关联的计算机系统500。
具体实施方式
[0017]下面阐述的实施例表示使本领域中的技术人员能够实践实施例并说明实践实施例的最佳模式的必要的信息。在考虑到所附附图阅读下面的描述后,本领域中的技术人员将理解本公开的概念并将认识到不在本文中特别处理的这些概念的应用。应理解,这些概念和应用落在本公开的范围内。
[0018]除非另有限定,在本文中使用的所有术语(包括技术和科学术语)具有与本公开所属的领域中的普通技术人员通常理解的相同的含义。将进一步理解,在本文中使用的术语应被解释为具有与它们在这个说明书和相关领域本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种原文文本与原文的解读文本相关联的方法,包括:输入文本数据;判别文本数据类型,包括将输入文本判别为原文文本、解读文本或无关文本;如果判别文本数据为原文文本,对原文文本进行信息抽取,信息抽取包括抽取原文文本的主要主体,以及将原文文本和抽取的主要主体存储在原文数据库中;如果判别文本数据为解读文本,判断该解读文与已存储的原文的关联性,包括:对解读文进行信息抽取,信息抽取包括抽取解读文的主要主体;将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配;生成匹配的原文与该解读文的“原文

解读文”二元组。2.根据权利要求1所述的方法,还包括针对每个“原文

解读文”的二元组,从解读文本中抽取对相关联的原文的解读句;以及输出原文信息和相应的解读文信息和解读文分析信息。3.根据权利要求1所述的方法,其中,判别文本数据类型包括基于预设一系列规则来判别文本数据类型。4.根据权利要求1所述的方法,其中,判别文本数据类型包括利用事先收集的数据集通过机器学习训练文本分类模型,其中训练数据的特征可以包括文本的元数据、标题、来...

【专利技术属性】
技术研发人员:林瑜轩许达果
申请(专利权)人:慧科讯业北京网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1