基于NER的群体性诉求识别方法和系统技术方案

技术编号:37552530 阅读:13 留言:0更新日期:2023-05-15 07:37
本发明专利技术公开了一种基于NER技术的群体性诉求识别方法和系统,包括基于深度学习算法和特征工程进行的特征要素信息识别功能,可识别特征要素包括但不限于诉求中的人、地、物、组织以及诉求自身描述性特征数据;基于相似度比较算法的实体比对功能,可量化实体内容的相似程度;基于阈值的人工干预机制,可灵活控制群体性诉求分组与相似性诉求分组的范围边界;本发明专利技术的优点在于:能够通过技术手段,较好的实现对于潜在群体性诉求的识别功能,降低人力成本,提高生产效率。提高生产效率。提高生产效率。

【技术实现步骤摘要】
基于NER的群体性诉求识别方法和系统


[0001]本专利技术涉及一种群体性诉求识别方法和系统,具体地说是一种基于NER的群体性诉求识别方法和系统,属于智慧城市、智能政务、城市管理领域。

技术介绍

[0002]NER是指命名实体识别(Named Entity Recognition),它是自然语言处理领域中的一项基本任务。NER的目标是从文本中自动识别出具有特定意义的实体,如人名、地名、组织机构、时间、日期等等。NER技术在信息提取、问答系统、文本分类、信息检索等应用中发挥着重要作用。例如,在文本分类中,NER可以帮助分类器识别文本中提到的实体,从而更好地理解文本的主题。在问答系统中,NER可以帮助系统识别用户提到的实体,并根据这些实体提供相关的答案。在信息检索中,NER可以帮助搜索引擎更好地理解用户的查询意图,从而提供更准确的搜索结果。
[0003]在城市管理领域,市民热线是城市管理手段之一,是政府为市民提供的一种快捷、方便的沟通渠道。市民可以通过市民热线对城市管理相关的诉求和意见表达出来,政府则可以通过市民热线了解城市管理中存在的问题,不断完善城市管理服务。因此,市民热线与城市管理是密不可分的。
[0004]群体性诉求又是市民热线中群众诉求普遍性、广泛性的集中体现,最能够代表当前正存在的社会性问题。正因如此,对于群体性诉求的处理应当讲求时效性,避免问题进一步加重。
[0005]由于群体性诉求涉及面较广,通常涵盖了公共服务、社会治安、环境卫生、交通等方面的诉求。这些诉求可能是来自社区、居民区、工作单位等不同人群的关于公共资源、公共服务设施等方面的诉求,因此仅凭借坐席员根据工作经验进行手动标识和识别会存在耗时长、效率低、不精确等问题,亟待解决。

技术实现思路

[0006]本专利技术的目的在于,提供了一种基于NER的群体性诉求识别方法和系统,解决了目前群体性诉求识别方式效率低、精度差、耗时长等问题。
[0007]本专利技术的技术方案为:基于NER的群体性诉求识别方法,包括以下步骤:步骤S100:获取待识别文本内容和附属特征数据;用于对接业务系统的输入数据,获取输入数据,对数据进行预处理,排除无效数据,并提取特征数据。通过此步骤可以将原始数据转变为有效特征数据。
[0008]步骤S200:对待识别文本内容按通用维度进行实体识别;用于提取输入数据中的命名实体,通过命名实体识别模型对输入内容中存在的和识别群体性案件相关性较高的实体进行抽取。通过此步骤可以得到一批高相关性的实体值。
[0009]步骤S300:比较实体和特征的相似度,按特定阈值确定群体性诉求分组。用于分组
群体性诉求,通过对输入内容中的特征数据和实体值进行相似度比较,确定群体性诉求分组。通过此步骤可以实现在众多诉求中识别出群体性诉求功能。
[0010]所述步骤S100包括以下子步骤:(1)对接业务系统,获取文本数据。获取的数据是当前批次待比较的数据,以数组形式呈现。通过对当前批次数据进行文本预处理操作,去除重复数据和无意义符号数据。当前批次可选近3天、近7天等时间维度,由于群体性诉求的特点在于短时间内高频出现的高度相似的诉求,因此只需要重点关注近期时间范围内,而不需要过多追踪历史数据;(2)获取文本数据附属特征数据。文本数据的附属特征数据通常和数据本身成对出现,通过文本数据的描述性信息中获取附属特征数据,并组装文本数据和其附属特征数据。
[0011]所述步骤S200包括以下子步骤:(1)利用深度学习网络构建命名实体识别模型首先收集历史文本数据,对数据进行预处理,包括分词,去除停用词等操作,以使数据更加简洁易懂;利用标注工具对文本数据中的相关实体进行标注,标注形式选择BIOES序列标注法,其中B即Begin,用于表示一个实体的开始标识;I即Inside,用于表示一个实体的中间标识;O即Outside,用于表示非实体数据部分;E即End,用于表示一个实体的结束标识;S即Single,用于表示当前词自身即构成一个完整实体;使用LSTM深度学习网络结合标注数据构建命名实体模型,LSTM即Long Short

Term Memory循环神经网络,由于其能够保存长期记忆,所以比较适合处理较长的序列问题以及存在前后依赖关系的序列问题;(2)通过命名实时识别模型对文本中的实体进行识别,实体类型需要选择和识别群体性案件相关性较高的实体,如地址实体、被诉实体等。
[0012]所述步骤S300包括以下子步骤:(1)按各维度分别设定群体性诉求相似度阈值下限和相似诉求相似度阈值下限。相似诉求在概念上其相似性是低于群体性诉求的,在设置阈值时,应保证相似性诉求的阈值低于群体性诉求的阈值。阈值设置需要按维度逐一设置,如被诉实体维度、地址实体维度、其他特征维度等需要分别设置,彼此互不影响;(2)通过相似度比较算法对每个维度数据进行比较。相似度比较算法使用余弦相似度算法进行比较。余弦相似度算法是一种度量两个向量相似度的计算方法,通过计算两个向量的夹角余弦值来评估它们的相似度。具体来说,余弦相似度算法首先计算两个向量的点积,然后除以它们的模长的乘积。点积是两个向量的元素相乘的和,而模长则是向量的欧几里得长度。余弦相似度的值介于
ꢀ‑
1 和 1 之间,其中
ꢀ‑
1 表示完全不相似,1 表示完全相同,结果越接近1则说明待比较维度数据越相似。因此使用该相似度比较算法,首先需要将待比较数据转变为向量表示形式。使用TF

IDF方式,通过计算单词在文本中的词频(TF)和文档频率(IDF),进而将单词转变为向量表示形式。然后再进行向量间的相似度比较;(3)通过相似度比较算法对每个维度数据进行比较,结果阈值均高于群体性诉求相似度阈值下限的情况下,属于群体性诉求,被划分为某一群体性诉求分组内;
(4)通过相似度比较算法对每个维度数据进行比较,结果阈值均高于相似诉求相似度阈值下限,并且低于群体性诉求相似度阈值下限的情况下,属于相似性诉求,被划分为某一相似性诉求分组内。
[0013]用于上述基于NER的群体性诉求识别方法的识别系统,包括数据获取模块、实体识别模块、数据预处理模块、阈值配置模块、相似度比较模块和输出模块;所述数据获取模块,用于对接业务系统获取待识别的文本内容和特征信息;所述实体识别模块,用于对文本内容中涉及的特定实体信息作出识别;所述数据预处理模块,用于对实体信息和特征信息进行预处理,得到符合要求的待比较数据对;所述阈值配置模块,用于对比较结果相似度阈值进行配置,根据阈值识别文本所属群体性诉求或相似性诉求;所述相似度比较模块,用于比较相同特征维度的数据的相似程度;所述输出模块,用于对文本数据的分组结果进行输出。
[0014]所述数据获取模块为程序入口模块,对接外部系统的输入数据,被实体识别模块和数据预处理模块所依赖;所述实体识别模块和所述数据预处理模块,用于对输入数据进行数据预处理、实体识别和特征提取等,被所述阈值配置模块和所述相似度比较模块所依赖;所述相似度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于NER的群体性诉求识别方法,其特征在于,包括以下步骤:步骤S100:获取待识别文本内容和附属特征数据;步骤S200:对待识别文本内容按通用维度进行实体识别;步骤S300:比较实体和特征的相似度,按特定阈值确定群体性诉求分组。2.根据权利要求1所述的基于NER的群体性诉求识别方法,其特征在于,所述步骤S100包括以下子步骤:(1)对接业务系统,获取文本数据获取的数据是当前批次待比较的数据,以数组形式呈现;通过对当前批次数据进行文本预处理操作,去除重复数据和无意义符号数据;由于群体性诉求的特点在于短时间内高频出现的高度相似的诉求,因此只需要重点关注近期时间范围内,而不需要过多追踪历史数据;获取文本数据附属特征数据文本数据的附属特征数据通常和数据本身成对出现,通过文本数据的描述性信息中获取附属特征数据,并组装文本数据和其附属特征数据。3.根据权利要求1所述的基于NER的群体性诉求识别方法,其特征在于,所述步骤S200包括以下子步骤:(1)利用深度学习网络构建命名实体识别模型首先收集历史文本数据,对数据进行预处理,包括分词,去除停用词操作,以使数据更加简洁易懂;利用标注工具对文本数据中的相关实体进行标注,标注形式选择BIOES序列标注法;使用LSTM深度学习网络结合标注数据构建命名实体模型,由于其能够保存长期记忆,所以比较适合处理较长的序列问题以及存在前后依赖关系的序列问题;(2)通过命名实时识别模型对文本中的实体进行识别,实体类型需要选择和识别群体性案件相关性较高的实体。4.根据权利要求1所述的基于NER的群体性诉求识别方法,其特征在于,所述步骤S300包括以下子步骤:(1)按各维度分别设定群体性诉求相似度阈值下限和相似诉求相似度阈值下限相似诉求在概念上其相似性是低于群体性诉求的,在设置阈值时,应保证相似性诉求的阈值低于群体性诉求的阈值;阈值设置需要按维度逐一设置,彼此互不影响;(2)通过相似度比较算法对每个维度数据进行比较相似度比较算法使用余弦相似度算法进行比较;余弦相似度算法是一种度量两个向量相似度的计算方法,通过计算两个向量的夹角余弦值来评估它们的相似度;具体来说,余弦相似度算法首先计算两个向量的点积,然后除以它们的模长的乘积;点积是两个向量的元素相乘的和,而模...

【专利技术属性】
技术研发人员:程伯瑄钱双张德健齐和庆
申请(专利权)人:北京国研数通软件技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1