文本处理方法、装置和存储介质制造方法及图纸

技术编号:21200240 阅读:27 留言:0更新日期:2019-05-25 01:21
本发明专利技术提供一种文本处理方法、装置和存储介质,该方法包括:根据目标领域的已有的用户评论文本,获取目标领域的情感搭配词典,情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对目标领域的评论对象的属性的情感评论;根据目标领域的待处理用户评论文本和情感搭配词典,获取待处理用户评论文本对应的情感搭配组。本发明专利技术提供的文本处理方法根据已有的用户评论文本构建目标领域的情感搭配词典,再采用该情感搭配词典获取待处理文本的情感搭配组,能够准确获取目标领域的文本的情感观点。

Text processing methods, devices and storage media

The invention provides a text processing method, device and storage medium. The method includes: acquiring an emotional collocation dictionary in the target field according to the existing user comments in the target field, including multiple target emotional collocation groups, each target emotional collocation group is used to represent the user's emotional comments on the attributes of the target field's commentary objects; and according to the target field, acquiring an emotional collocation dictionary in the target field. A Dictionary of user reviews and emotional collocation in the domain is used to obtain the corresponding emotional collocation group of user reviews to be processed. The text processing method of the present invention constructs an emotional collocation dictionary in the target field according to the existing user comment text, and then uses the emotional collocation dictionary to obtain the emotional collocation group of the text to be processed, so as to accurately obtain the emotional viewpoint of the text in the target field.

【技术实现步骤摘要】
文本处理方法、装置和存储介质
本专利技术涉及文本情感分析
,尤其涉及一种文本处理方法、装置和存储介质。
技术介绍
用户评论文本(UGC文本)是用户体验过产品后对产品进行评价的文本,其文本中的情感观点抽取至关重要;如自动评论文本为对一家餐厅的评论文本,包括“这家餐馆的味道不错”、“我好喜欢这里的味道”和“这家的牛肉汤很好喝”,对上述评论文本的情感观点的抽取结果为“味道、不错、积极”;对文本中的情感观点抽取结果可以使得商家看到用户对于自家产品的印象,更有针对性的进行产品优化,且还使得用户可以通过对比不同商家的评论,更好的进行消费决策。现有技术中,能够实现通用
的情感观点抽取,但由于通用
中的情感观点的属性词为了普适各个领域,其中的情感观点的属性词过于单一,并不适用于垂直领域;如通用
的情感观点的抽取结果为“设计、不错、积极”,并不适用美食领域的评论文本“这家餐馆的味道不错”。
技术实现思路
本专利技术提供一种文本处理方法、装置和存储介质,根据已有的用户评论文本构建目标领域的情感搭配词典,再采用该情感搭配词典获取待处理文本的情感搭配组,能够准确获取目标领域的文本的情感观点。本专利技术的第一方面一种提供文本处理方法,包括:根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,所述情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对所述目标领域的评论对象的属性的情感评论;根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组。可选的,所述目标情感搭配组包括维度词和评价词,所述维度词为所述已有的用户评论文本中的评论对象的属性;所述根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,包括:对每个所述已有的用户评论文本进行分词处理,获取每个所述已有的用户评论文本的多个词语;根据每个所述已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个所述已有的用户评论文本的第一候选情感搭配组,所述词性搭配规则包括:维度词的确定规则和评价词的确定规则;根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典。可选的,所述目标情感搭配组还包括情感词,所述情感词为所述已有的用户评论文本的情感极性;所述获取每个所述已有的用户评论文本的第一候选情感搭配组之后,还包括:对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词;所述根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典,包括:根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典。可选的,所述根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典,包括:将每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个所述第二候选情感搭配组包括所述维度词、所述评价词和所述情感词;根据每个所述第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组;根据每个所述第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照所述数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为所述目标领域的情感搭配词典。可选的,所述对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词之前,还包括:对多个所述第一候选情感搭配组进行筛选,删除不符合预设依存规则的第一候选情感搭配组,所述预设依存规则为:所述第一候选情感搭配组中的评价词与维度词存在动宾关系,和/或,所述第一候选情感搭配组中的维度词与所述第一候选情感搭配组对应的已有的用户评论文本中的评论对象存在主谓关系。可选的,所述根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组,包括:若所述待处理用户评论文本中包括所述情感搭配词典中第一目标情感搭配组中的维度词和评价词,则将所述第一目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组,所述第一目标情感搭配组为所述情感搭配词典中的任意一个目标情感搭配组;若所述待处理用户评论文本中仅包括所述情感搭配词典中第二目标情感搭配组中的维度词,且所述待处理用户评论文本的情感极性和所述第二目标情感搭配组的情感极性相同,则将所述第二目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组,所述第二目标情感搭配组为所述情感搭配词典中的任意一个目标情感搭配组。可选的,所述根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组,包括:若所述待处理用户评论文本中不包括所述情感搭配词典中任意一个目标情感搭配组中的维度词,则将与所述待处理用户评论文本的语义相似度大于相似度阈值的目标情感搭配组作为所述待处理用户评论文本对应的情感搭配组。本专利技术的第二方面提供一种文本处理装置,包括:情感搭配词典获取模块,用于根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,所述情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对所述目标领域的评论对象的属性的情感评论;情感搭配组获取模块,用于根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组。可选的,所述目标情感搭配组包括维度词和评价词,所述维度词为所述已有的用户评论文本中的评论对象的属性。可选的,所述情感搭配词典获取模块,具体用于对每个所述已有的用户评论文本进行分词处理,获取每个所述已有的用户评论文本的多个词语;根据每个所述已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个所述已有的用户评论文本的第一候选情感搭配组,所述词性搭配规则包括:维度词的确定规则和评价词的确定规则;根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典。可选的,所述目标情感搭配组还包括情感词,所述情感词为所述已有的用户评论文本的情感极性。可选的,所述装置还包括:情感词获取模块;所述情感词获取模块,用于对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词。可选的,情感搭配词典获取模块,具体用于根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典。可选的,情感搭配词典获取模块,具体用于将每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个所述第二候选情感搭配组包括所述维度词、所述评价词和所述情感词;根据每个所述第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组;根据每个所述第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照所述数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为所述目标领域的情感搭配词典。可选的,所述装置还包括:删除模块;所述删除模块,用于本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,所述情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对所述目标领域的评论对象的属性的情感评论;根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组。

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,所述情感搭配词典中包括多个目标情感搭配组,每个目标情感搭配组用于表征用户对所述目标领域的评论对象的属性的情感评论;根据所述目标领域的待处理用户评论文本和所述情感搭配词典,获取所述待处理用户评论文本对应的情感搭配组。2.根据权利要求1所述的方法,其特征在于,所述目标情感搭配组包括维度词和评价词,所述维度词为所述已有的用户评论文本中的评论对象的属性;所述根据目标领域的已有的用户评论文本,获取所述目标领域的情感搭配词典,包括:对每个所述已有的用户评论文本进行分词处理,获取每个所述已有的用户评论文本的多个词语;根据每个所述已有的用户评论文本的多个词语对应的词性,以及,词性搭配规则,获取每个所述已有的用户评论文本的第一候选情感搭配组,所述词性搭配规则包括:维度词的确定规则和评价词的确定规则;根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典。3.根据权利要求2所述的方法,其特征在于,所述目标情感搭配组还包括情感词,所述情感词为所述已有的用户评论文本的情感极性;所述获取每个所述已有的用户评论文本的第一候选情感搭配组之后,还包括:对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情感搭配组对应的情感词;所述根据多个所述第一候选情感搭配组,获取所述目标领域的情感搭配词典,包括:根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典。4.根据权利要求3所述的方法,其特征在于,所述根据每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词,获取所述目标领域的情感搭配词典,包括:将每个所述第一候选情感搭配组和每个所述第一候选情感搭配组对应的情感词进行组合,获取第二候选情感搭配组,每个所述第二候选情感搭配组包括所述维度词、所述评价词和所述情感词;根据每个所述第二候选情感搭配组的维度词的第一语义和评价词的第二语义,对具有相同第一语义和第二语义的第二候选情感搭配组进行聚类,获取第三候选情感搭配组;根据每个所述第三候选情感搭配组对应的第二候选情感搭配组的数量,并按照所述数量从大到小的顺序进行排序,将排列在前预设数量个的第三候选情感搭配组作为所述目标领域的情感搭配词典。5.根据权利要求3所述的方法,其特征在于,所述对每个所述第一候选情感搭配组进行情感极性分析,获取每个所述第一候选情...

【专利技术属性】
技术研发人员:刘昊何伯磊肖欣延王晨秋杨水生吕雅娟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1