自动判别文本相关性的方法及系统技术方案

技术编号：34422709 阅读：16 留言：0更新日期：2022-08-06 15:49

本申请涉及自动判别文本相关性的方法及系统。公开了一种原文文本与原文的解读文本相关联的方法，包括：输入文本数据；判别文本数据类型，包括将输入文本判别为原文文本、解读文本或无关文本；如果判别文本数据为原文文本，对原文文本进行信息抽取，信息抽取包括抽取原文文本的主要主体，以及将原文文本和抽取的主要主体存储在原文数据库中；如果判别文本数据为解读文本，判断该解读文与已存储的原文的关联性，包括：对解读文进行信息抽取，信息抽取包括抽取解读文的主要主体；将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配；生成匹配的原文与该解读文的“原文

全部详细技术资料下载

【技术实现步骤摘要】
自动判别文本相关性的方法及系统

[0001]本公开涉及文本分析领域，特别涉及对文本数据进行分析以进行政策文本判别及政策解读。

技术介绍

[0002]在政策解读方面，企业往往需要及时、快速、准确地跟踪政府发布的各项政策，通过解读政策的内容帮助企业申报政策支持的项目，甚至调整企业的发展战略。由于各级政府发布政策的渠道不同，企业往往难以统一跟踪最新的政策信息。另外，企业也需要参考政府及行业专家对的政策解读以帮助准确理解政策的走向。在现有的情况下，第三方对政策的解读内容大多数在与发布政策的网站不同的网站上发布。例如一项政策可能发布在政府公示网站上，然而各行业专家对该项政策的解读内容却往往发布在不同的新闻网站、论坛甚至自媒体平台上。
[0003]在股票投资方面，投资者往往需要关注上市公司的重大事件以及行业专家对该事件的解读与评价。上市公司的公告或证监会针对某家上市公司发布的（处罚）公告可能发布在各自的公示网站上，而第三方（例如行业专家、分析师）针对这一公告所进行的评论、解读文章却往往发布在其他新闻网站、论坛或自媒体平台上。公告的解读内容对投资者而言也具备重要的参考价值。然而由于不同的发布渠道、大量的解读文本使得投资者难以高效地获取信息。
[0004]现有技术中对政策的分析往往仅着眼于分析单篇政策原文或公告原文（后面简称“原文”）本身的信息，而忽略了第三方解读文本（后面简称“解读文”）对原文的解读信息。
[0005]例如，专利申请“一种基于深度学习的政策解读方法及政策解读系统”CN109493265A仅对...

【技术保护点】

【技术特征摘要】
1.一种原文文本与原文的解读文本相关联的方法，包括：输入文本数据；判别文本数据类型，包括将输入文本判别为原文文本、解读文本或无关文本；如果判别文本数据为原文文本，对原文文本进行信息抽取，信息抽取包括抽取原文文本的主要主体，以及将原文文本和抽取的主要主体存储在原文数据库中；如果判别文本数据为解读文本，判断该解读文与已存储的原文的关联性，包括：对解读文进行信息抽取，信息抽取包括抽取解读文的主要主体；将抽取的解读文的主要主体与存储在原文数据库中的每个原文文本的主要主体进行匹配；生成匹配的原文与该解读文的“原文
‑
解读文”二元组。2.根据权利要求1所述的方法，还包括针对每个“原文
‑
解读文”的二元组，从解读文本中抽取对相关联的原文的解读句；以及输出原文信息和相应的解读文信息和解读文分析信息。3.根据权利要求1所述的方法，其中，判别文本数据类型包括基于预设一系列规则来判别文本数据类型。4.根据权利要求1所述的方法，其中，判别文本数据类型包括利用事先收集的数据集通过机器学习训练文本分类模型，其中训练数据的特征可以包括文本的元数据、标题、来...

【专利技术属性】
技术研发人员：林瑜轩，许达果，
申请(专利权)人：慧科讯业北京网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人