一种面向中文反讽文本的夸张表征词提取方法技术

技术编号:39402943 阅读:10 留言:0更新日期:2023-11-19 15:54
本发明专利技术公开了一种面向中文反讽文本的夸张表征词提取方法,属于自然语言处理技术,包括以下步骤:步骤1:对反讽数据集进行预处理后,采用双向最大匹配法分词;步骤2:利用

【技术实现步骤摘要】
一种面向中文反讽文本的夸张表征词提取方法


[0001]本专利技术涉及自然语言处理领域,具体是一种面向中文反讽文本的夸张表征词提取方法


技术介绍

[0002]社交媒体的用户经常使用夸张的表达方式来增强自己的反讽表达

反讽文本中存在的夸张表述可以帮助人们更好地传达观点和情感,使文字更加生动有趣,让听众或读者更容易理解或记住所传达的信息

同时,通过夸张的手法,可以突出反讽语句的反差性,引起公众的关注和反思

而通过提取中文反讽文本中存在的夸张表征词,能够为挖掘反讽文本的语言特征,准确识别中文反讽文本提供技术支持,从而使网络平台的监管部门可以更准确地识别和处理平台上出现的一些不当言行,有针对性地采取相应的措施,提高维护工作的准确性和效率

[0003]目前,关于反讽文本的语言特征词提取方法一般分为基于规则的方法和基于统计词频的方法,基于规则的方式通过预定义的规则和逻辑来提取文本中的特征词,但无法处理复杂的模式且解决的不确定性高;基于统计词频方式常用的方法主要有聚类方法,互信息,
TF

IDF
算法等,但忽略了单词之间的语义信息对特征词提取的影响,这容易忽略对含有重要信息的特征词的提取,使提取的特征词缺乏重要的识别信息,从而导致反讽文本识别效率较低

[0004]针对以上不足,本专利技术提出一种面向中文反讽文本的夸张表征词提取方法

本专利技术不同之处在于通过基于/>WoBERT
语义相似度计算框架计算文本单词与种子词之间的语义相似度,深入挖掘了单词间的语义信息,寻找到更加有效的特征词提取方法,来增强提取的特征词对反讽识别准确率的辅助提升效果


技术实现思路

[0005]本专利技术的目的在于提供一种面向中文反讽文本的夸张表征词提取方法,通过卡方统计和卡方检验方法计算相关性并设置阈值来选取出中文反讽文本中存在的夸张表征种子词,然后计算文本单词与种子词之间的语义相似度,从而提取包含语义信息的特征词,最终实现夸张表征词的提取

[0006]本专利技术涉及相关定义如下:
[0007]定义1:夸张表征词:对于中文反讽文本中存在的夸张表述的感叹词,程度副词,强调词,以及一些搭配规则,记为夸张表征词
。{
例如:“呵呵,很好,又失眠了
。”“呵呵”以及“很好

又”为该句中包含夸张表述的语言特征词和搭配规则
。}
[0008]本专利技术为了实现专利技术目的采用如下技术方案:
[0009]一种面向中文反讽文本的夸张表征词提取方法,包括以下步骤:
[0010](1)
获取中文反讽文本数据与文本预处理及分词;
[0011]获取中文反讽文本数据,并将其作为研究对象,对其进行文本预处理与分词操作

[0012](2)
选取高频词作为夸张表征候选词;
[0013]利用
TF

IDF
算法,计算词频,选取高频词作为夸张表征候选词集

[0014](3)
基于卡方统计和卡方检验方法,挖掘出中文反讽文本中强关联夸张表征,进而提取出夸张表征种子词集

[0015]利用卡方统计衡量中文反讽文本与其中存在的夸张表征词的关联程度,通过卡方检验设置阈值,从而选取达到阈值的强关联夸张表征词,进而提取出夸张表征种子词集

[0016](4)
基于
WoBERT
的语义相似度计算框架来提取夸张表征词集,丰富词集涵盖的语义信息;
[0017]分别利用
WoBERT
模型获取文本词粒度特征向量和种子词集中词的特征向量,计算两者之间余弦相似度,设定阈值,过滤掉相似度低的候选词

[0018]其中,所述步骤
(1)
中,中文反讽文本数据获取与文本预处理和分词的具体操作为:
[0019](1.1)
整合“Ciron”和“ChineseSarcasmCorpus”数据集中的中文反讽文本数据,得到所需中文反讽文本数据集

[0020](1.2)
预处理

对文本中出现的表情符号

停用词等噪声数据进行处理

[0021](1.3)
分词

对预处理后的文本使用双向最大匹配法对中文反讽文本进行分词

采用双向最大匹配方法进行分词处理,通过正向分词与逆向分词方法比较,为具有歧义的词找到更加符合语境的分词方法

[0022]其中,所述步骤
(2)
中,基于
TF

IDF
算法提取出夸张表征候选词集的具体步骤为:
[0023](2.1)
使用
TF

IDF
从文本中计算词汇的词频和逆文档频率,通过两者结果乘积得到该词的
TF

IDF
值,并同时通过
Softmax
函数对计算结果进行归一化处理,选取高频词,最终提取出夸张表征候选词集

[0024]其中,所述步骤
(3)
中,基于卡方统计与卡方检验方法,挖掘出强关联夸张表征的具体步骤为:
[0025](3.1)
根据卡方统计计算中文反讽文本与候选词集中的夸张表征词之间的卡方值

[0026](3.2)
通过卡方检验计算最佳阈值
Tv
,选取卡方值达到最佳阈值
Tv
的夸张表征,构建出夸张表征种子词集

计算方法如下:
[0027][0028]其中,
n
为总文本数,
A
i
为实际频数,
B
为理论频数

[0029]根据卡方检验所设置的最佳阈值
Tv
需要计算自由度
v
,根据计算出的自由度
v
查询卡方分布临界值表,默认显著性水平
α

0.01
,表示概率为
0.99
的情况下假设为真

自由度计算公式如下:
[0030]v

(row

1)*(col

1)
[0031]其中,
row
表示分类的类别数,
col
表示与分类类别相关的特征文本数

[0032]根据计算的自由度的结果值与显著性水平
α
的值来查询对应的卡方分布临界值表得到最佳阈值
Tv

10.83
,将所选取的候选词本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种面向中文反讽文本的夸张表征词提取方法,其特征在于包括如下步骤:步骤1:获取中文反讽文本数据与文本预处理和分词;获取中文反讽数据,并将其作为研究对象,对其进行文本预处理与分词操作

步骤2:基于
TF

IDF
方法提取夸张表征候选词集;利用
TF

IDF
方法,计算文本的词频,获取高频词,提取夸张表征候选词集

步骤3:基于卡方统计和卡方检验方法,构建夸张表征种子词集;统计包含夸张表征候选词集中词的文本数与反讽文本数,计算每个候选词的卡方值,据此衡量夸张表征候选词与反讽文本的关联程度,并通过卡方检验设置最佳阈值,通过比较卡方值与阈值,选取强关联夸张表征词构建夸张表征种子词集

步骤4:基于
WoBERT
的语义相似度计算框架,构建夸张表征词集;计算文本特征词向量与夸张表征种子词集词向量之间的余弦相似度,设定阈值,将文本中语义相似的词纳入夸张表征词集中,丰富词集所包含的语义信息
。2.
根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤1,包括如下步骤:步骤
1.1
文本预处理:对文本中出现的表情符号

停用词以及噪声数据进行处理;步骤
1.2
分词:利用双向最大匹配法对中文反讽文本进行分词
。3.
根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤2,包括如下步骤:步骤
2.1
使用
TF

IDF
计算文本中的词频和逆文档频率,并通过
Softmax
函数进行归一化处理,从而选取出所有高频词,获得夸张表征候选词集;对于中文反讽文本中存在的夸张表征采用
TF

IDF
计算高频词,计算方法如下:
TF

IDF
seq

Softmax{TF

IDF
(1)
,

,TF

IDF
(n)
}
其中,
C
x
为词
x
在文本中出现的次数,
H
x
为含有词
x
的文档数,
n
为文档数,
m
表示文档总单词数,
TF

IDF
seq
表示归一化后的词频序列
。4.
根据权利要求1所述一种面向中文反讽文本的夸张表征词提取方法,其特征在于步骤3包括如下:步骤
3.1
利用卡方统计,衡量中文反讽文本与其中存在的夸张表征之间的关联程度,计算所得的每个夸张表征词对应的卡方值用于表示它们与反讽文本之间的关联程度;统计包含夸张表征候选词集中候选词的反讽文本数以及非反讽文本数,同时统计不包含夸张表征候选词集中候选词的反讽文本数以及非反讽文本数,计算文本数之间的关系得到卡方值
。5....

【专利技术属性】
技术研发人员:朱广丽李书羽周若彤汪雨晴段文杰王琰慧户龙辉
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1