一种直白文本到反讽文本的文本风格转换方法及装置制造方法及图纸

技术编号:34485538 阅读:16 留言:0更新日期:2022-08-10 09:03
本发明专利技术属于人工智能自然语言处理领域,具体涉及一种直白文本到反讽文本的文本风格转换方法及装置,包括:首先利用爬虫技术获得若干社交平台的评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,得到正负情感极性的平衡数据集,构建正负情感二分类的情感倾向性分类模型;基于正负情感二分类的情感倾向性分类模型构建模块构造名词

【技术实现步骤摘要】
一种直白文本到反讽文本的文本风格转换方法及装置


[0001]本专利技术属于人工智能自然语言处理领域,具体涉及一种直白文本到反讽文本的文本风格转换方法及装置。

技术介绍

[0002]随着人工智能技术的不断发展,自然语言处理领域取得了极大的进步,现有的人工智能模型已经能在一些任务中生成流畅的自然语言文本,甚至实现人机对话交流。文本风格转换是当前自然语言处理领域中的一个热门问题,可以促进人工智能的情绪化和拟人化,提升人机交流的质量。
[0003]现有技术中的语言风格转换模型取得了一定的效果,但是,目前还没有实现直白文本到反讽文本的文本风格转换。

技术实现思路

[0004]本专利技术主要解决直白文本到反讽文本的文本风格转换方法的技术问题,提出一种直白文本到反讽文本的文本风格转换方法及装置。
[0005]本专利技术采用的技术方案是:一种直白文本到反讽文本的文本风格转换方法及装置,包括:
[0006]一种直白文本到反讽文本的文本风格转换方法,包括以下步骤:
[0007]步骤1:利用爬虫技术获得若干社交平台评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,构建正负情感极性的平衡数据集,根据平衡数据集构建正负情感二分类的情感倾向性分类模型;
[0008]步骤2:基于正负情感二分类的情感倾向性分类模型构造名词

形容词正负情感极性搭配表;
[0009]步骤3:对输入的文本样本进行预处理;
[0010]步骤4:根据名词

形容词正负情感极性搭配表判断文本样本的情感类别,若文本样本的情感类别为负向情感,则对预处理后的文本样本执行中心词与评价词的定位,针对评价词进行正向情感极性替换,替换后计算整句困惑度并将困惑度最低的文本保留;
[0011]步骤5:对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型,完成直白文本到反讽文本的文本风格转换。
[0012]优选的,所述步骤2的具体实现包括以下子步骤:
[0013]步骤2.1:利用爬虫技术获得若干社交平台评论数据并进行预处理,去掉无意义的符号和空格后,进行分词;
[0014]步骤2.2:利用词嵌入技术将预处理后的数据转换为文本张量;
[0015]步骤2.3:将文本张量输入至正负情感二分类的情感倾向性分类模型,得到数据的正负情感极性标签;
[0016]步骤2.4:利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取
构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配的文本情感极性频次,正向频次记为Freq
pos
,负向频次记为Freq
neg

[0017]步骤2.5:计算Freq
pos
与Freq
neg
的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性;
[0018]步骤2.6:将每对情感极性搭配以结构化的形式存入名词

形容词正负情感极性搭配表。
[0019]优选的,所述步骤3的具体实现包括以下子步骤:
[0020]步骤3.1:清理输入的文本样本,删除无意义的符号与空格;
[0021]步骤3.2:对经过步骤3.1处理后的文本样本进行分词;
[0022]步骤3.3:识别每条分词处理后的文本样本的情感类别,包括正向情感和负向情感,只有负向情感的输入文本才可以执行后续步骤实现反讽风格文本转换。
[0023]优选的,所述步骤4的具体实现包括以下子步骤:
[0024]步骤4.1:利用词性标注和句法依存分析技术分析预处理后的文本,提取构成主谓关系和偏正关系的名词与形容词搭配,将名词视为中心词,对应的形容词视为评价词;
[0025]步骤4.2:利用名词

形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性,若为负向情感搭配,则检索能与该中心词搭配的正向情感搭配形容词列表,依次分别替换原始的评价词,并按照语言困惑度公式分别计算替换后的整句困惑度,将困惑度最低的文本保留。
[0026]进一步的,语言困惑度评分公式为:
[0027][0028]其中,s表示替换后的文本,w
i
表示文本的第i个词语,D表示本地的语料库,count(w
i
,D)表示词语w
i
在语料库D中的出现频数,count(w
i
‑1w
i
,D)表示前一个词是w
i
‑1的情况下,w
i
在语料库D中的出现频数,P(s)表示句子的困惑度,δ表示防止0概率问题的平滑参数,L为文本长度。
[0029]优选的,所述步骤5的具体实现包括以下子步骤:
[0030]步骤5.1:人工构造若干条可以用于任何对象的通用正向评价句;
[0031]步骤5.2:将步骤5.1构造的正向评价句添加至得分最高的文本的末尾,分别得到若干条追加后的文本,并分别输入至正负情感二分类的情感倾向性分类模型,输出对应文本的情感标签以及置信度,并记录该文本的情感标签和置信度;
[0032]步骤5.3:将使模型输出情感标签为正向的文本保留,作为最终的反讽风格文本,如果有若干个输出文本的情感标签为正向,则保留对应正向标签的置信度最大的文本;如果所有输出文本的情感标签都为负向,则保留对应负向标签的置信度最小的文本。
[0033]进一步的,置信度计算公式为:
[0034][0035]其中,y
i
代表正负情感二分类的情感倾向性分类模型产生的原始输出,i代表原始输出对应情感标签类别,e代表自然底数,n为标签总数量,C(y
i
)代表将y
i
映射至[0,1]从而得到置信度。
[0036]一种直白文本到反讽文本的文本风格转换装置,包括:接收模块、构建模块、转换模块;
[0037]所述接收模块用于接受直白文本到反讽文本的文本风格转换请求;
[0038]所述构建模块用于构建正负情感二分类的情感倾向性分类模型以及名词

形容词正负情感极性搭配表;
[0039]所述转换模块用于根据所述直白文本到反讽文本的文本风格转换请求,利用所述名词

形容词正负情感极性搭配表与所述正负情感二分类的情感倾向性分类模型将直白文本转换为反讽文本。
[0040]优选的,所述构建模块利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配来源文本的情感极性为正向和负向的频次,分别记为F本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种直白文本到反讽文本的文本风格转换方法,其特征在于,包括以下步骤:步骤1:利用爬虫技术获得若干社交平台的评论数据,从中抽取具有明显情感倾向性的评论样本并打上标签,构建正负情感极性的平衡数据集,根据平衡数据集构建正负情感二分类的情感倾向性分类模型;步骤2:基于正负情感二分类的情感倾向性分类模型构造名词

形容词正负情感极性搭配表;步骤3:对输入的文本样本进行预处理;步骤4:根据名词

形容词正负情感极性搭配表判断文本样本的情感类别,若文本样本的情感类别为负向情感,则对预处理后的文本样本执行中心词与评价词的定位,针对评价词进行正向情感极性替换,替换后计算整句困惑度并将困惑度最低的文本保留;步骤5:对困惑度最低的文本追加正向情感极性的评价句并输入至正负情感二分类的情感倾向性分类模型,完成直白文本到反讽文本的文本风格转换。2.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤2的具体实现包括以下子步骤:步骤2.1:利用爬虫技术获得若干社交平台评论数据并进行预处理,去掉无意义的符号和空格后,进行分词;步骤2.2:利用词嵌入技术将预处理后的数据转换为文本张量;步骤2.3:将文本张量输入至正负情感二分类的情感倾向性分类模型,得到数据的正负情感极性标签;步骤2.4:利用词性标注和句法依存分析技术对评论数据进行句式结构识别,提取构成主谓结构或偏正结构的名词与形容词搭配,并根据所述正负情感极性标签统计每对名词与形容词搭配的文本情感极性频次,正向频次记为Freq
pos
,负向频次记为Freq
neg
;步骤2.5:计算Freq
pos
与Freq
neg
的比值,若大于1,则将该名词与形容词搭配标记为正向情感极性的搭配;若小于1,则将该名词与形容词搭配标记为负向情感极性的搭配;若等于1,则由人工确定该搭配的情感极性;步骤2.6:将每对情感极性搭配以结构化的形式存入名词

形容词正负情感极性搭配表。3.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤3的具体实现包括以下子步骤:步骤3.1:清理输入的文本样本,删除无意义的符号与空格;步骤3.2:对经过步骤3.1处理后的文本样本进行分词;步骤3.3:识别每条分词处理后的文本样本的情感类别,包括正向情感和负向情感,只有负向情感的输入文本才可以执行后续步骤实现反讽风格文本转换。4.根据权利要求1所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,所述步骤4的具体实现包括以下子步骤:步骤4.1:利用词性标注和句法依存分析技术分析预处理后的文本,提取构成主谓关系和偏正关系的名词与形容词搭配,将名词视为中心词,对应的形容词视为评价词;步骤4.2:利用名词

形容词正负情感极性搭配表中的评论数据搭配的结构化形式判断步骤4.1中定位出的中心词与评价词搭配的情感极性,若为负向情感搭配,则检索能与该中
心词搭配的正向情感搭配形容词列表,依次分别替换原始的评价词,并按照语言困惑度公式分别计算替换后的整句困惑度,将困惑度最低的文本保留。5.根据权利要求4所述的一种直白文本到反讽文本的文本风格转换方法,其特征在于,语言困惑度评分公式为:其中,s表示替换后的文本,w
i
表示文本的第i个词语,D表示本地的语料库,count(w
i...

【专利技术属性】
技术研发人员:陈龙黄嘉成
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1