一种评论扩展方法及系统技术方案

技术编号:23213050 阅读:18 留言:0更新日期:2020-01-31 21:58
本发明专利技术提供一种评论扩展方法,包括以下步骤:S1、对用户输入的评论进行预处理;S2、利用表情符号扩展的方法产生指定数量的新评论。本发明专利技术之方法可以在短时间内生成大批量的与输入评论主题相关的评论,在一些实施例中,通过该技术方案,可以生成超过十万条与输入评论主题相关的评论。

A comment expansion method and system

【技术实现步骤摘要】
一种评论扩展方法及系统
本专利技术涉及自然语言处理领域,特别涉及一种评论扩展方法及系统。
技术介绍
社交媒体领域中,评论扮演着重要角色。社交评论,也属于自然语言处理的研究对象;但社交评论与常规文本不同,具有口语化、混杂表情符等图文信息等特点。现阶段对社交评论的自然语言的处理,还不成熟,其中一个原因是标注的社交评论数据集不够丰富。针对这种困境,一种可行的方法是对训练集的评论数据进行增强,即扩展出与原评论相似的更多评论作为训练数据。此外,在社交媒体中,媒体平台也迫切需要一种评论自动扩展的工具。如在直播领域中,媒体平台需要自动生成虚拟评论以活跃气氛;又如,媒体平台可以为用户提供基于输入评论的相似评论候选,以提升用户体验。
技术实现思路
本专利技术的目的是提供一种评论扩展方法及系统,为社交媒体大批量生成主题相关的评论。为实现上述目的,本专利技术提供如下技术方案:一种评论扩展方法,包括以下步骤:S1、对用户输入的评论进行预处理;S2、利用表情符号扩展的方法产生指定数量的新评论。进一步地,所述S1中所述的用户输入的评论,包括待扩展评论,或者还包括主题词及限定条件。所述主题词,是指用户标识的、存在于所述待扩展的评论中的关键词;所述限定条件,包括扩展后的新评论指定使用的社交平台及所述新评论的生成数量;所述主题词的数量大于等于零,且所述主题词必须存在于所述用户输入的评论中。进一步地,所述S1所述的预处理,具体包括以下子步骤:a、分析所述用户输入的评论的情感类别;b、对所述用户输入的评论进行预扩展处理获得初始评论集合。进一步地,所述子步骤a中,所述的分析用户输入评论的情感类别,是指利用情感计算模型计算用户输入评论的所属的情感类别,如快乐、悲伤、失望等。优选地,情感计算模型,通过使用带情感类别数据集合训练得到。进一步地,所述子步骤b中,对所述用户输入评论进行预扩展处理获得初始评论集合采用的原理是,利用现有的技术生成语义相关的评论。由于现有技术的限制,生成的语义相关的评论数量有限,但可以作为输入评论的扩展。进一步地,所述子步骤b中,所述的对所述用户输入评论进行预扩展处理,包括以下步骤:1)在评论数据集中按照相关性获取相似评论列表:提前准备评论数据集,用于集中记录用户输入的评论的句子向量及情感类别;根据用户输入的评论的句子向量及情感类别,从所述评论数据集中获取相似度超过预设阈值或指定条数的评论作为相似评论;2)使用预设规则对候选评论集进行评论扩展:所述预设规则包括近义词替换规则及词语位置互换规则,所述的候选评论集包含输入评论,或者还包括输入评论与步骤1)中获取的相似评论集合而成合集,使用预设规则对候选评论集进行评论扩展,其具体的操作是,对候选评论集中的每条评论,选择与其匹配的预设规则进行评论扩展,从而得到新评论,再对最终获取到的新评论作去重处理。优选地,如果步骤S1获得的初始评论集合数量达到用户要求后,评论扩展操作提前结束。进一步地,所述S2包括:c、从表情库中获取候选表情符号集合;d、使用表情符号插入规则扩展评论。进一步地,所述表情符号是指能表达情感/情绪的符号,包括普通文字、颜文字、表情符等。所述的普通文字,是指诸如“666”、“加油”等表达情感/情绪的普通文字。所述的颜文字,是指诸如“<( ̄︶ ̄)>”(表达满足且得意情绪)、“(>﹏<)”(表达痛苦情绪)等一类利用特定字符编排其组合次序,形成的表情符号作品。所述的表情符,即为日常使用的emoji。可选地,所述步骤S2中所述的表情符号,还包括用于传达情感/情绪信息的图片,所述的可以传达情感/情绪信息的图片,是指一类以时下流行的名人、语录、漫画、影视截图为素材,配上一系列相匹配的文字,用以表达特定情感的图片。进一步地,步骤S2所采用的原理,是利用通过带表情符的评论集学习到或者人工编写的表情符插入规则,在评论中插入与评论情感类别一致的表情符号的方法,将一条评论变成多条。所述的表情符插入规则,使用表情标签对表情符进行泛化。表情符号有表情标签属性,一个表情符号至少有一个表情标签属性。在表情符使用规则中,出现表情标签,代表具有该表情标签的表情符号等能使用该规则。进一步地,所述子步骤c中,所述的表情库以二元组<E,B>的方式存储所述的表情符号。其中,E为表情符号本身,B为记录该表情符号所属的情感类别、数据集中出现的权重、适用的社交平台、表情标签列表等信息的属性序列。进一步地,所述子步骤c中,所述的从表情库中获取候选表情符号集合,具体为从所述表情库中获取同时满足以下条件的表情符号集合:1)与步骤S1中用户输入的评论具有相同情感类别;2)与步骤S1中用户输入的限定条件不冲突。进一步地,所述子步骤d中,具体的方法是,利用所述的表情符号插入规则,对步骤S1获得初始评论集合中的评论,依次插入表情符号作为新评论。优选地,动态调整评论生成顺序,以提高最终评论的多样性。获得的新评论集合需要去重处理;当获得指定数量的新评论后,评论生成操作结束。本专利技术还提供了一种评论扩展系统,包括:预处理模块,对用户输入的评论进行预处理;评论生成模块,利用表情符号扩展的方法产生指定数量的新评论。进一步地,所述的预处理模块,包括子模块:情感计算子模块,用于分析用户输入评论的情感类别;预扩展子模块,对输入评论进行预扩展处理获得初始评论集合。进一步地,所述的评论生成模块,包括子模块:表情符号选择子模块,用于从表情库中获取候选表情符号集合;扩展子模块,用于使用表情符插入规则扩展评论。本专利技术提出的技术方案,与其他现有技术相比,最大的优点是,可以在短时间内生成大批量的与输入评论主题相关的评论。在一些实施例中,通过该技术方案,可以生成超过十万条与输入评论主题相关的评论。附图说明图1为本专利技术实施例中一种基于主题词的评论扩展方法的流程图;图2为本专利技术实例例中一种基于主题词的评论扩展系统的结构示意图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。实施例一:参照图1,本实施例提供一种评论扩展方法,包括以下步骤:步骤S1、对用户输入的评论进行预处理;用户输入的评论,可以包括待扩展评论、主题词及限定条件。所述的主题词,是指用户标识的、存在于所述待扩展的评论中的关键词;所述的限定条件,可以包括新评论指定使用的社交平台、新评论的生成数量等;所述的用户输入的评论中,待扩展评论是必须的;主题、限定条件可以缺失;需要指出的是,输入的主题词的数量大于等于零,且主题词必须存在于输入评论中。举例来说,假设用户希望对评论“太厉害了”进行扩展,用户除了输入该待扩展评论外,还可以指定主题词“厉害”,以确定产生的新评论的本文档来自技高网...

【技术保护点】
1.一种评论扩展方法,其特征在于,包括以下步骤:/nS1、对用户输入的评论进行预处理;/nS2、利用表情符号扩展的方法产生指定数量的新评论。/n

【技术特征摘要】
1.一种评论扩展方法,其特征在于,包括以下步骤:
S1、对用户输入的评论进行预处理;
S2、利用表情符号扩展的方法产生指定数量的新评论。


2.根据权利要求1所述的方法,其特征在于,所述S1中所述的用户输入的评论,包括待扩展评论,或者还包括主题词及限定条件。


3.根据权利要求2所述的方法,其特征在于,所述主题词,是指用户标识的、存在于所述待扩展的评论中的关键词;所述限定条件,包括扩展后的新评论指定使用的社交平台及所述新评论的生成数量;所述主题词的数量大于等于零,且所述主题词必须存在于所述用户输入的评论中。


4.根据权利要求2所述的方法,其特征在于,所述S1所述的预处理,具体包括以下子步骤:
a、分析所述用户输入的评论的情感类别;
b、对所述用户输入的评论进行预扩展处理获得初始评论集合。


5.根据权利要求4所述的方法,其特征在于,所述子步骤a中,所述的分析所述用户输入的评论的情感类别,是指利用情感计算模型计算用户输入的评论所属的情感类别。


6.根据权利要求4所述的方法,其特征在于,所述子步骤b中,所述的对所述用户输入评论进行预扩展处理,包括以下步骤:
1)在评论数据集中按照相关性获取相似评论列表:提前准备评论数据集,用于集中记录用户输入的评论的句子向量及情感类别;根据用户输入的评论的句子向量及情感类别,从所述评论数据集中获取相似度超过预设阈值或指定条数的评论作为相似评论;
2)使用预设规则对候选评论集进行评论扩展:所述预设规则包括近义词替换规则及词语位置互换规则,所述的候选评论集包含输入评论,或者还包括输入评论与步骤1)中获取的相似评论集合而成合集,使用预设规则对候选评论集进行评论扩展,其具体的操作是,对候选评论集中的每条评论,选择与其匹配的预设规则进行评论扩展,从而得到新评论,再对最终获取到的新评论作去重处理。


7.根据权利要求1所述的方法,其特征在于,所述S2包括:
c、从表情库中获取候选表情符号集合;...

【专利技术属性】
技术研发人员:冯荣坤万里黄娜
申请(专利权)人:深圳市比量科技传媒有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1