一种基于机器学习的实体文本相关度计算方法和系统技术方案

技术编号:33290140 阅读:31 留言:0更新日期:2022-05-01 00:07
本发明专利技术公开了一种基于机器学习的实体文本相关度计算方法和系统,其中所述方法包括:获取新闻数据,识别新闻数据中的实体信息;根据所述新闻数据的文本内容抽取不同类型的相关性特征,构建多个维度相关性特征群;对所述新闻数据的文本内容和对应的实体信息进行相关性标注;将标注后的新闻数据文本内容和实体信息输入到Xgboost模型中训练,并预测所述实体信息和新闻数据文本内容的相关性。所述方法和系统通过构建多个不同类型的实体和新闻文本的特征群进行模型训练,使得模型的可解释性更强,并提高训练模型的泛化能力。并提高训练模型的泛化能力。并提高训练模型的泛化能力。

【技术实现步骤摘要】
一种基于机器学习的实体文本相关度计算方法和系统


[0001]本专利技术涉及互联网新闻
,特别涉及一种基于机器学习的实体文本相关度计算方法和系统。

技术介绍

[0002]新闻文本分析场景中需要抽取文本中的人物、机构、地理等实体信息,通过这些实体可以帮助编辑或者运营同学高效的解析新闻,发掘新闻事件,理解新闻主旨。然而通过实体识别等手段抽取出的实体缺少与该文本的相关度指标,大量与新闻无关的实体会带来噪声从而很大程度上影响使用者对新闻主旨的判断,并且这些与新闻主旨不相关的实体也会给其他新闻处理流程带来误差与效率损失,所以实体相关度算法不仅能够保障从新闻中抽取的实体与该文本高度相关,也可以减少新闻处理流程的复杂度,提高效率。
[0003]现有的方案中,一种是人工构建实体相关度规则,根据实体出现在文本中的位置、实体自身长度等信息制定一系列实体与文本相关或不相关的逻辑条件实现,通过在不同情况设置合适的阈值以判断相关度。
[0004]另外一种是搭建神经网络模型,通过自动构建文本语义特征的方式将该问题转化成分类或其他模型计算相关度。
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的实体文本相关度计算方法,其特征在于,所述方法包括:获取新闻数据,识别新闻数据中的实体信息;根据所述新闻数据的文本内容抽取不同类型的相关性特征,构建多个维度相关性特征群;对所述新闻数据的文本内容和对应的实体信息进行相关性标注;将标注后的新闻数据文本内容和实体信息输入到Xgboost模型中训练,并预测所述实体信息和新闻数据文本内容的相关性。2.根据权利要求1所述的一种基于机器学习的实体文本相关度计算方法,其特征在于,在获取新闻数据后,首先对获取的新闻数据进行数据清洗,其中所述数据清洗的操作包括:去除新闻数据文本中的电头和电尾;所述实体信息的识别方法包括:采用分词算法和实体识别算法抽取新闻文本中包括人物、机构和地理实体信息。3.根据权利要求1所述的一种基于机器学习的实体文本相关度计算方法,其特征在于,所述相关性标注的方法包括:建立强相关性标签,其中所述强相关性标签包括0和1,0表示不相关,1表示实体和新闻文本存在强相关。4.根据权利要求1所述的一种基于机器学习的实体文本相关度计算方法,其特征在于,所述不同类型的相关性特征包括:统计特征、词法特征、位置特征、交叉特征和转化特征,分别构建统计特征群、词法特征群、位置特征群、交叉特征群和转化特征群,用于所述Xgboost模型不同特征的分类训练和预测。5.根据权利要求4所述的一种基于机器学习的实体文本相关度计算方法,其特征在于,其中所述统计特征群获取方法包括:获取新闻数据文本后,将清洗后的文本数据的正文部分进行分句和分段,根据所述分句...

【专利技术属性】
技术研发人员:辛宇
申请(专利权)人:新华智云科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1