应用于城市大脑自然语言处理的文本标注方法及装置制造方法及图纸

技术编号:38969815 阅读:12 留言:0更新日期:2023-09-28 09:33
本发明专利技术提供一种应用于城市大脑自然语言处理的文本标注方法及装置,该方法包括预处理获得的自然语言文本并对预处理后的词性进行筛选以分别形成业务词集和情感词集,提取业务关键词集和情感关键词集。基于情感关键词集进行情感标注的同时还进一步判断自然语言文本的情感强烈程度。对于情感强烈的文本,在业务标注时将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列。将业务关键词序列输入已训练好的模型内进行分类并基于业务关键词序列中是否具有情感关键词以准确标注情感程度不同但语义相同或相近文本,取模型输出的置信度最高的分类作为该自然语言文本的业务标签。言文本的业务标签。言文本的业务标签。

【技术实现步骤摘要】
应用于城市大脑自然语言处理的文本标注方法及装置


[0001]本专利技术涉及人工智能
,且特别涉及一种应用于城市大脑自然语言处理的文本标注方法、装置及电子设备。

技术介绍

[0002]城市大脑是互联网大脑架构与智慧城市建设结合的产物,是城市级的类脑复杂智能巨系统,在人类智慧和机器智能的共同参与下,在物联网,大数据,人工智能,边缘计算,5G、云机器人、数字孪生等前沿技术的支撑下,城市神经元网络和城市云反射弧将是城市大脑建设的重点,城市大脑的作用是提高城市的运行效率,解决城市运行中面临的复杂问题,更好的满足城市各成员的不同需求。
[0003]城市大脑是基于城市运行所产生的信息作为输入的智能系统,城市运行不仅会产生海量数据且数据格式不统一,故如何从杂乱的信息中获取有效信息已成为业界的研究热点。文本分类任务是自然语言处理(NLP)领域中最基础的任务之一,其不仅能有效的筛选信息,而且在信息检索和自动文摘等方面有着重要的应用。当前基于文本的分类主要聚焦于文本业务类型的分类,涉及情感分类的极少且情感分类和业务分类之间是独立的。
[0004]随着物联网技术的不断普及,与人们日常相关的舆情信息也逐渐以数据的形式汇集到相关部门。对于此类信息,其在反馈相关业务的同时也包含着反馈者对于该业务的情感和迫切度,因此亟需分析这类文本的业务类别和情感类别以更好地指导相关部门快速且有序地解决相关问题。但由于这类舆情信息通常会包含无意义冗余词,若直接采用原始文本作为语料进行模型训练以进行业务分类,忽略了冗余词对分类准确性的影响将会导致分类准确性差或无法分类的问题。此外,大量的无意义冗余词也会给情感分类带来很大的困难,且情感标注和业务标注的分离也使得信息接收者很难识别海量信息的重要程度。故当前与人们日常相关的舆情信息主要还是通过人工的方式进行标注,耗费大量人力资源。

技术实现思路

[0005]本专利技术为了克服现有技术的不足,提供一种应用于城市大脑自然语言处理的文本标注方法、装置及电子设备。
[0006]为了实现上述目的,本专利技术提供一种应用于城市大脑自然语言处理的文本标注方法,其包括:
[0007]预处理获得的自然语言文本,包括子句切分和每一子句的分词处理;
[0008]基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集;
[0009]分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集;
[0010]将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;基于多个情感词的情感值得到自然语言文本的情感总得分;
[0011]将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本;
[0012]若判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注,将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列;
[0013]将业务关键词序列输入已训练好的FastText模型内进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。
[0014]根据本专利技术的一实施例,在计算子句情感词序列内的每个情感词的情感值时:
[0015]判断子句情感词序列内每一情感词的词性以确定当前子句是否包含情感程度词,所述情感程度词包括助词、动副词以及副词;
[0016]若判断表明当前子句仅包括一个或多个单形容词且无情感程度词时,根据预设的仅与单形容词相关的第一计算规则计算其情感值;若判断表明当前子句包含情感程度词,则在一个或多个单形容词的基础上结合情感程度词权重以第二计算规则计算情感值。
[0017]根据本专利技术的一实施例,当判断表明当前子句包含情感程度词,基于词空间距离获取与每一情感程度词距离最近且出现在情感程度词后侧的单形容词并根据该情感程度词的权重更新距离最近且位于其后侧的单形容词的情感值。
[0018]根据本专利技术的一实施例,以子句中的一个单形容词为节点,相邻节点之间采用滑动窗口M对子句进行开窗划分,以滑动窗口M为度量单位将情感程度词匹配至与其最接近且出现在情感程度词后侧的单形容词,根据该情感程度词的权重更新位于其后侧的单形容词的情感值。
[0019]根据本专利技术的一实施例,计算子句情感词序列内的每个情感词的情感值时,判断子句情感词序列内的情感词是否包含连词;若是,则在第一计算规则或第二计算规则的基础上融合连词权重。
[0020]根据本专利技术的一实施例,预处理获得的自然语言文本包括:
[0021]将获得的自然语言文本切分成多个子句并构建子句集合T={S1,S2,

,S
n
};
[0022]对子句集合内的每个子句S
i
进行分词以得到多个分词结果S
i
={W1={w1,p1},W2,

,W
n
},每一分词结果均包括分词后的单个词汇w
i
和该词汇的词性p
i

[0023]通过预设的停用词集合ST过滤每一子句S
i
中无意义的停用词。
[0024]根据本专利技术的一实施例,在获得情感词集采用如下步骤提取相应的情感关键词集:
[0025]根据情感词之间的共现关系,以情感词汇w
i
为节点并基于滑动窗口H中出现的同类词汇构建候选情感关键词无向有权图;
[0026]根据以下公式迭代传播各节点权重直至收敛以得到候选情感关键词权重值集TRE:
[0027][0028]其中,TRE(w
i
)为词汇w
i
的权重;d代表阻尼系数,设置为0.85;In(w
i
)代表指向w
i
节点的集合;Out(w
i
)代表w
i
所指向的节点集合;WE
ji
代表节点w
j
到节点w
i
的连接权重;WE
jk
代表节点w
j
到节点w
k
的连接权重;TRE(w
j
)为词汇w
j
的权重;
[0029]对得到的候选情感关键词权重值集TRE按权重值进行降序排序并得到情感关键词集KWE;
[0030]采用相同的步骤在业务词集中提取情感关键词集KEB。
[0031本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于城市大脑自然语言处理的文本标注方法,其特征在于,包括:预处理获得的自然语言文本,包括子句切分和每一子句的分词处理;基于预设的词性集合历遍每个子句的分词结果,对每一分词结果中单个词汇的词性进行筛选以分别生成业务词集和情感词集;分别在业务词集和情感词集中提取文本的业务关键词集和情感关键词集;将每一子句与情感关键词集匹配以获得每个子句所对应的子句情感词序列,将子句情感词序内的每个情感词与情感词典匹配以获得每个情感词所对应的情感值;基于多个情感词的情感值得到自然语言文本的情感总得分;将自然语言文本的情感总得分与预设的情感阈值匹配以标注情感标签并基于强烈情感阈值判断该自然语言文本是否为情感强烈文本;若判断表明当前自然语言文本为情感强烈文本,则认为情感词会影响业务标签标注,将每一子句相交于业务关键词集和情感关键词集的并集,获得包含情感关键词和业务关键词的相交元素以形成业务关键词序列;若判断表明当前自然语言文本为非情感强烈文本,则认为情感词不会影响业务标签标注,将每一子句与业务关键词集相交匹配,获得包含业务关键词的相交元素以形成业务关键词序列;将业务关键词序列输入已训练好的FastText模型内进行分类并基于业务关键词序列中是否具有情感关键词以分别标注业务关键词相同或相近但情感程度不同的文本;同时FastText模型输出的置信度最高的分类作为该自然语言文本的业务分类,得到业务标签。2.根据权利要求1所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,在计算子句情感词序列内的每个情感词的情感值时:判断子句情感词序列内每一情感词的词性以确定当前子句是否包含情感程度词,所述情感程度词包括助词、动副词以及副词;若判断表明当前子句仅包括一个或多个单形容词且无情感程度词时,根据预设的仅与单形容词相关的第一计算规则计算其情感值;若判断表明当前子句包含情感程度词,则在一个或多个单形容词的基础上结合情感程度词权重以第二计算规则计算情感值。3.根据权利要求2所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,当判断表明当前子句包含情感程度词,基于词空间距离获取与每一情感程度词距离最近且出现在情感程度词后侧的单形容词并根据该情感程度词的权重更新距离最近且位于其后侧的单形容词的情感值。4.根据权利要求2所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,以子句中的一个单形容词为节点,相邻节点之间采用滑动窗口M对子句进行开窗划分,以滑动窗口M为度量单位将情感程度词匹配至与其最接近且出现在情感程度词后侧的单形容词,根据该情感程度词的权重更新位于其后侧的单形容词的情感值。5.根据权利要求2所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,计算子句情感词序列内的每个情感词的情感值时,判断子句情感词序列内的情感词是否包含连词;若是,则在第一计算规则或第二计算规则的基础上融合连词权重。6.根据权利要求1所述的应用于城市大脑自然语言处理的文本标注方法,其特征在于,预处理获得的自然语言文本包括:将获得的自然语言文本切分成多个子句并构建子句集合T={S1,S2,

,S
n
};
对子句集合内的每个子句S
i
进行分词以得到多个分词结果S
i
={W1={w1,p1},W2,

,W
n
},每一分词结果...

【专利技术属性】
技术研发人员:申永生陈冲杰叶晓华凌从礼
申请(专利权)人:杭州城市大脑有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1