一种基于领域语义关系图的文本领域确定方法与系统技术方案

技术编号:22467645 阅读:18 留言:0更新日期:2019-11-06 11:28
本申请公开了一种领域语义关系图的文本领域确定方法与系统,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要针对特殊领域对文本进行分析。通过设置语义关联关系、权重系数和专属属性,提高灵活性和针对性。

A text domain determination method and system based on domain semantic diagram

【技术实现步骤摘要】
一种基于领域语义关系图的文本领域确定方法与系统
本申请涉及信息处理领域,尤其涉及一种基于领域语义关系图的文本领域确定方法与系统。
技术介绍
随着大数据时代的快速发展,网络社区和社交媒体成为自由、匿名言论的聚集地。由于网络社区和社交媒体具有匿名性、便捷性和超越时空限制等特点。大量用户可以自由、随意地在这些网络平台上分享自己的意见、见解和对热点事件的看法等。对网络平台上随时产生的文本数据进行实时分析,可以及时掌握用户对热点事件的看法和情绪,检测出其中的不良言论和突发舆情。对随时产生的突发舆情和不良言论进行及时合理的引导,可以有效的提高网络空间的安全性和可信性,具有非常重要的社会意义。然而现有的方法无法根据需要,针对特殊领域对文本进行分析。综上所述,需要提供一种能够根据需要,针对特殊领域对文本进行分析的方法与系统。
技术实现思路
为解决以上问题,本申请提出了一种基于领域语义关系图的文本领域确定方法与系统。一方面,本申请提出一种基于领域语义关系图的文本领域确定方法,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。优选地,根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;筛选文本数据,得到领域文本数据;对领域文本数据进行分词,得到领域词汇集合;提取领域词汇集合中的多个词汇;根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。优选地,所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:对待分析文本进行预处理,得到预处理后的文本;对所述预处理后的文本进行分句,得到语句集合;对所述语句集合进行分词,得到文本词汇集合。优选地,所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:查询文本词汇集合中各词汇在领域语义关系图中的关注指数;若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;若该词汇不存在于领域语义关系图中,则返回数值0;根据得到的关注指数确定文本词汇得分。优选地,所述根据语句集合和领域语义关系图,确定词汇联合得分,包括:对语句集合中的每个语句进行依存句法分析,得到依存句法关系树;根据依存句法树中涉及到的词汇,确定词汇的联合得分。优选地,按照以下公式确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分:其中Wi为文本词汇集合中包含的各词汇;G(Wi)为该词汇在领域语义关系图中的关注指数;Ni为该词汇在待分析文本中总共出现的有效次数;Sw为文本词汇得分。优选地,按照以下公式确定词汇联合得分:其中Wi和Wj为依存关系树中的两个词汇;L(Wi,Wj)为词汇间语义关联路径长度,当词汇间不存在语义关联路径时,L(Wi,Wj)的值为正无穷大;G(Wi)为词汇Wi的关注指数;G(Wj)为词汇Wj的关注指数;Sr(Wi,Wj)为词汇联合得分。优选地,按照以下公式确定领域总得分:Ss=A*SW+B*∑Sr(Wi,Wj),其中A和B分别对应SW和Sr的权重系数;SW为文本词汇得分;Sr(Wi,Wj)为词汇联合得分。优选地,所述领域专属属性为自定义的属性,包括关注指数和类型。第二方面,本申请提出一种基于领域语义关系图的文本领域确定系统,包括:文本分析模块,用于对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域;领域语义关系图构建模块,用于根据从网络平台中采集的文本生成领域语义关系图。本申请的优点在于:根据从网络平台中采集的文本生成的领域语义关系图,通过确定待分析文本中的文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,能够根据需要,针对特殊领域对文本进行分析。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的,而并不认为是对本申请的限制。而且在整个附图中,用同样的参考符号表示相同的部件。在附图中:图1是本申请提供的一种基于领域语义关系图的文本领域确定方法的步骤示意图;图2是本申请提供的一种基于领域语义关系图的文本领域确定方法的领域语义关系的示意图;图3是本申请提供的一种基于领域语义关系图的文本领域确定方法的领域语义关系图构建的示意图;图4是本申请提供的一种基于领域语义关系图的文本领域确定方法的高校学生舆情领域语义关系图的局部截图;图5是本申请提供的一种基于领域语义关系图的文本领域确定系统的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。根据本申请的实施方式,提出一种基于领域语义关系图的文本领域确定方法,如图1所示,包括:S101,对待分析文本进行处理得到语句集合和文本词汇集合;S102,确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;S103,根据语句集合和领域语义关系图,确定词汇联合得分;S104,根据词汇联合得分和文本词汇得分确定领域总得分;S105,根据所述领域总得分确定所述待分析文本所属的文本领域。根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;筛选文本数据,得到领域文本数据;对领域文本数据进行分词,得到领域词汇集合;提取领域词汇集合中的多个词汇;根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。在领域语义关系图中,语义节点是由领域要素组成。领域要素对应为自然语言中的一个词语。每一个与领域相关的词汇都视作一个领域要素,同时生成一个领域相关节点。领域要素主要由两部分组成,一部分为领域涉及到的实体,包括人物、机构、地点、专有名词等;另一部分为领域涉及到的事件词汇,如“抢劫”,“自杀”等词汇。语义节点的属性包括两部分,一部分是词汇自然属性,用于描述词语在自然语言中所代表的概念或意义。例如词语的词性,词的英文等。另一部分是词汇的领域专属属性,用于描述词语在专属领域中所代表的概念或意义。例如,可以设置关注指数属性(关注指数),用于表示词汇在该领域的关注程度,关注程度越高,则关注指数越高。语义节点属性定义如表1所示。表1如表1本文档来自技高网...

【技术保护点】
1.一种基于领域语义关系图的文本领域确定方法,其特征在于,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。

【技术特征摘要】
1.一种基于领域语义关系图的文本领域确定方法,其特征在于,包括:对待分析文本进行处理得到语句集合和文本词汇集合;确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,所述领域语义关系图为根据从网络平台中采集的文本生成的;根据语句集合和领域语义关系图,确定词汇联合得分;根据词汇联合得分和文本词汇得分确定领域总得分;根据所述领域总得分确定所述待分析文本所属的文本领域。2.如权利要求1所述的方法,其特征在于,根据从网络平台中采集的文本,按照以下流程生成领域语义关系图:采集网络平台中的文本,对采集到的文本进行预处理,得到文本数据;筛选文本数据,得到领域文本数据;对领域文本数据进行分词,得到领域词汇集合;提取领域词汇集合中的多个词汇;根据领域专属属性,生成与所述多个词汇对应的多个领域语义节点;针对所述多个词汇,结合领域语义关联关系,生成三元组结构的语义关系;根据所述领域语义节点和三元组结构的语义关系生成领域语义关系图。3.如权利要求1所述的方法,其特征在于,所述对待分析文本进行处理得到语句集合和文本词汇集合,包括:对待分析文本进行预处理,得到预处理后的文本;对所述预处理后的文本进行分句,得到语句集合;对所述语句集合进行分词,得到文本词汇集合。4.如权利要求1所述的方法,其特征在于,所述确定所述文本词汇集合中各词汇在领域语义关系图中的文本词汇得分,包括:查询文本词汇集合中各词汇在领域语义关系图中的关注指数;若该词汇存在于领域语义关系图中,则返回该词汇的关注指数;若该词汇不存在于领域语义关系图中,则返回数值0;根据得到的关注指数确定文本词汇得分。5.如权利要求1所述的方法,其特征在于,所述根据语句集合和领域语义...

【专利技术属性】
技术研发人员:吴旭颉夏青田钟林许晋方滨兴
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1