一种基于多重语义信息的资讯智能分类方法及系统技术方案

技术编号:38902204 阅读:11 留言:0更新日期:2023-09-22 14:20
本发明专利技术公开了一种基于多重语义信息的资讯智能分类方法及系统,涉及多重语义分析技术领域,该方法包括以下步骤,S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;S2、建立资讯框架模型;S3、提取资讯数据集内若干个架构中的话题关系,提取段落话头结构词句,将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充后和预测,获得第二小句复合体Dy2和第一语义关联度系数GLd1;S4、设定预设类别名词,将获取的若干个对第二小句复合体Dy2,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。得到分类结果。得到分类结果。

【技术实现步骤摘要】
一种基于多重语义信息的资讯智能分类方法及系统


[0001]本专利技术涉及多重语义分析
,具体为一种基于多重语义信息的资讯智能分类方法及系统。

技术介绍

[0002]随着网络实现的现代信息传递对人们生活的影响很大,信息传递给我们带来了不少方便和便捷,不仅服务于我们的生活,而且改变了人们学习和记忆知识的方式,特别是资讯信息,包括政治、经济、社会、科技、文化、娱乐、体育等资讯数据,帮助人们在搜索相关类目的资讯数据便于更好的阅读和记忆;多重语义信息是指从文本中提取的多个层次或多个方面的语义内容。传统的文本分析通常仅关注词汇层面的信息,如词语的意义和关联。而多重语义信息则更加全面地考虑了文本的语义特征,包括词汇、句法、语义角色、实体识别等多个层面的信息。
[0003]随着网络的透明化,越来越多的企业会选择建设企业网站建设,便于更好的将企业文化和企业范围更好的展示在企业文化网站上,也会将企业内部的资讯进行分类和展示,便于用户更轻松地浏览和获取与企业文化相关的信息,这有助于用户更高效的了解企业文化,提升对企业的认知和理解。
[0004]目前,企业网站建设都是由企业管理员将采集获取的企业资讯和多重语义信息,获取到资讯数据信息并对资讯数据信息通过人工分类的方式,传输至不同的企业展示页面供用户与企业之间的互动和沟通。因人工分类容易受到个人主观意识和经验的影响,可能存在一定的偏见和局限性。不同的人可能会有不同的判断标准和分类依据,导致分类结果的一致性和客观性受到影响,且人工分类导致信息处理效率低下,特别是在面对大量资讯时,因此,亟需提出适用于企业文化建设资讯分类的一种基于多重语义信息的资讯智能分类方法及系统。

技术实现思路

[0005](一)解决的技术问题
[0006]针对现有技术的不足,本专利技术提供了一种基于多重语义信息的资讯智能分类方法及系统,通过采集资讯数据集,预处理后建立资讯框架模型进行训练和提取资讯数据框架结构中的段落话头词句,并进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充后和预测,获得第二小句复合体Dy2,基于训练完成的资讯框架模型,智能匹配分类结果,与预设类别名词进行关联性匹配,获取分类结果,这样的方式,促进提高资讯分类的准确性、效率和个性化程度。减少人工要通篇阅读资讯内容后进行判断分析分类的类目而导致效率低下的的问题,相比人工分类,系统能够在短时间内对大量资讯进行处理,提高信息处理的效率和速度,使资讯能够更快地传输到适当的企业展示页面。
[0007](二)技术方案
[0008]为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于多重语义信息的
资讯智能分类方法,包括以下步骤,
[0009]S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;
[0010]S2、建立资讯框架模型、将预处理后的资讯数据集输入至资讯框架模型中,使用降维技术将资讯数据集,进行高维向量影射至三维空间,在三维空间内提取资讯数据集中文本的框架结构,并对若干个框架结构进行相似度度量;
[0011]S3、提取若干个架构中的话题关系,提取段落话头结构词句,将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充后和预测,获得第二小句复合体Dy2,并对其智能分析;获取第一语义关联度系数GLd1,并将第一语义关联度系数GLd1作为标签标记在第二小句复合体Dy2首尾处;
[0012]S4、设定预设类别名词,将获取的若干个对第二小句复合体Dy2,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。
[0013]优选的,文本预处理包括:
[0014]对采集到的资讯数据进行初步的清洗、去噪和停用词去除,去除无效或查重的数据;
[0015]将每条资讯文本切分至3—5条段落,将段落文本转化为统一的大小写格式进行存储至资讯数据集。
[0016]优选的,基于框架语义学技术分析多重语义信息法,进行资讯框架模型建模;
[0017]将预处理后的资讯数据集输入中资讯框架模型中,获取每个资讯文本的框架结构信息,然后,使用降维技术将高维向量映射到三维空间,便于可视化保留观看每个资讯文本向量的局部和全部结构;
[0018]在三维空间中,提取资讯数据集中文本的框架结构,对降维后的向量进行聚类,将具有相似框架结构的文本进行归类;
[0019]对提取的框架结构进行相似度度量,计算不同框架结构之间的距离。
[0020]优选的,所述S3包括:
[0021]S31、话题关系提取:从若干个框架中提取话题;
[0022]S32、段落话头结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取话头结构词句,话头是段落中引导或概括话题的关键句子或短语,使用关键词提取和识别3—5条段落中的话头结构;
[0023]S33、第一小句复合体Dy1的形成:将每个段落的话头词句组合成第一小句复合体Dy1,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;
[0024]S34、对第一小句复合体Dy1进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第二小句复合体Dy2;
[0025]S35、第二小句复合体Dy2的智能分析和语义依赖关联度系数获取:对第二小句复合体Dy2进行智能分析,将提取第二小句复合体Dy2中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第一语义关联度系数GLd1。
[0026]优选的,所述S3包括:
[0027]S31、话题关系提取:从若干个框架中提取话题;
[0028]S32、段落结尾结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取结
尾结构词句,结尾是段落中概括或总结话题的关键句子或短语,使用关键词提取和识别3—5条段落中的结尾结构;
[0029]S33、第三小句复合体Dy3的形成:将每个段落的话尾词句组合成第三小句复合体Dy3,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;
[0030]S34、对第三小句复合体Dy3进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第四小句复合体Dy4;
[0031]S35、第四小句复合体Dy4的智能分析和语义依赖关联度系数获取:对第四小句复合体Dy4进行智能分析,将提取第四小句复合体Dy4中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第二语义关联度系数GLd2。
[0032]优选的,所述S3包括:
[0033]S31、话题关系提取:从若干个框架中提取话题;
[0034]S32、全文高频关键词结构提取:针对3—5条段落的资讯文本,针对全文提取高频的关键词结构;
[0035]S33、第五小句复合体Dy5的形成:将全文中频率出现本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多重语义信息的资讯智能分类方法,其特征在于:包括以下步骤,S1、采集获取资讯数据集,对所述资讯数据集进行文本预处理;S2、建立资讯框架模型、将预处理后的资讯数据集输入至资讯框架模型中,使用降维技术将资讯数据集,进行高维向量影射至三维空间,在三维空间内提取资讯数据集中文本的框架结构,并对若干个框架结构进行相似度度量;S3、提取若干个架构中的话题关系,提取段落话头结构词句,将各个段落的话头词句进行复合,形成第一小句复合体Dy1,并对第一小句复合体Dy1进行智能补充后和预测,获得第二小句复合体Dy2,并对其智能分析;获取第一语义关联度系数GLd1,并将第一语义关联度系数GLd1作为标签标记在第二小句复合体Dy2首尾处;S4、设定预设类别名词,将获取的若干个对第二小句复合体Dy2,基于训练完成的资讯框架模型,与预设类别名词进行关联性匹配,获得相似度和差异度,将相似度高的划分至同一分类,得到分类结果。2.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:文本预处理包括:对采集到的资讯数据进行初步的清洗、去噪和停用词去除,去除无效或查重的数据;将每条资讯文本切分至3—5条段落,将段落文本转化为统一的大小写格式进行存储至资讯数据集。3.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:基于框架语义学技术分析多重语义信息法,进行资讯框架模型建模;将预处理后的资讯数据集输入中资讯框架模型中,获取每个资讯文本的框架结构信息,然后,使用降维技术将高维向量映射到三维空间,便于可视化保留观看每个资讯文本向量的局部和全部结构;在三维空间中,提取资讯数据集中文本的框架结构,对降维后的向量进行聚类,将具有相似框架结构的文本进行归类;对提取的框架结构进行相似度度量,计算不同框架结构之间的距离。4.根据权利要求1所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:所述S3包括:S31、话题关系提取:从若干个框架中提取话题;S32、段落话头结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取话头结构词句,话头是段落中引导或概括话题的关键句子或短语,使用关键词提取和识别3—5条段落中的话头结构;S33、第一小句复合体Dy1的形成:将每个段落的话头词句组合成第一小句复合体Dy1,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;S34、对第一小句复合体Dy1进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第二小句复合体Dy2;S35、第二小句复合体Dy2的智能分析和语义依赖关联度系数获取:对第二小句复合体Dy2进行智能分析,将提取第二小句复合体Dy2中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第一语义关联度系数GLd1。5.根据权利要求4所述的一种基于多重语义信息的资讯智能分类方法,其特征在于:所
述S3包括:S31、话题关系提取:从若干个框架中提取话题;S32、段落结尾结构词句提取:针对3—5条段落的资讯文本,针对每个段落提取结尾结构词句,结尾是段落中概括或总结话题的关键句子或短语,使用关键词提取和识别3—5条段落中的结尾结构;S33、第三小句复合体Dy3的形成:将每个段落的话尾词句组合成第三小句复合体Dy3,将这些话头词句按照段落的顺序进行组合,形成一个完整的句子或短语;S34、对第三小句复合体Dy3进行智能补充和预测,通过自然语言处理技术,分析并生成具有连贯性和合理性的第四小句复合体Dy4;S35、第四小句复合体Dy4的智能分析和语义依赖关联度系数获取:对第四小句复合体Dy4进行智能分析,将提取第四小句复合体Dy4中的资讯关键词,作为语义角色进行标注,并从全文来提取其语义信息和依赖关系,从中获取第二语义关联度系...

【专利技术属性】
技术研发人员:李盛祥
申请(专利权)人:六晟信息科技杭州有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1