分词处理方法及装置、电子设备制造方法及图纸

技术编号:15571885 阅读:64 留言:0更新日期:2017-06-10 05:59
本申请公开一种分词处理方法及装置、电子设备,该方法包括:在已进行分词处理后的文本中,确定反映评论内容的词;在确定所述反映评论内容的词与邻近所述反映评论内容的词的词之间满足预定关系的情况下,将所述反映评论内容的词与所述邻近所述反映评论内容的词的词合并。采用本申请的技术方案,能够达到更大的分词粒度,从而有效提升对反映评论内容的词的分析能力。

Word segmentation processing method and device, electronic equipment

The present invention discloses a word processing method and device, electronic device, the method includes: text segmentation has been processed, determine the content words reflect the comments; meet between the word and the adjacent comments reflect determines the content of the comments reflect the word book related to the case, will the comments reflect the content words and the adjacent to the reflection of the word with comments. The technical scheme of the application can achieve bigger word segmentation granularity, thereby effectively improving the analysis ability of the words reflecting the content of the commentary.

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,具体而言,涉及一种分词处理方法及装置、电子设备
技术介绍
在汉语中,词是最小的能够独立活动的、有意义的语言成分。而在汉语中由于词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此在对中文文本进行分析时,中文分词是一项基本技术,是后续其他各项分析的基础。而由于不同的分词粒度,其表意能力不一样,因此针对不同的中文文本分析,分词粒度对分析的准确性起到了关键作用。目前,随着电子商务的蓬勃发展,各电商平台的商品评论信息越来越多。在对评论进行分析时,同样需要进行分词,而不同的分词粒度则会影响对例如评论属性词、评论词等的分析能力。目前的分词处理技术较依赖人工,不够智能和灵活,有些自动处理的准确度较低,难以实现预期的分词粒度。
技术实现思路
有鉴于此,本专利技术提供一种分词处理方法及装置、电子设备,适用于评论信息分析,能够达到更大的分词粒度,有效提升对反映评论内容的词(例如基本属性词、评论词等)的分析能力,具备智能性和灵活性。本专利技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本专利技术的实践而习得。根据本专利技术的一方面,提供一种分词处理方法,包括:在已进行分词处理后的文本中,确定反映评论内容的词;在确定所述反映评论内容的词与邻近所述反映评论内容的词的词之间满足预定关系的情况下,将所述反映评论内容的词与所述邻近所述反映评论内容的词的词合并反映评论内容反映评论内容反映评论内容反映评论内容。另外,本专利技术还提供一种分词处理装置,其包括:词确定模块,用于在已进行分词处理后的文本中确定反映评论内容的词;合并模块,用于在所述反映评论内容的词与邻近所述反映评论内容的词的词之间满足预定关系的情况下,将所述反映评论内容的词与所述邻近所述反映评论内容的词的词合并反映评论内容反映评论内容反映评论内容反映评论内容。此外,本专利技术还提供一种电子设备,包括:处理器;以及存储器,其上存储有可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序以实现如上文所述的方法的步骤。本专利技术还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上文所述方法的步骤。根据本专利技术实施方式的分词处理方法及装置以及电子设备,可自动确定反映评论内容的词,并在此基础上通过预定关系的校验,来自动判断是否将该词与邻近的词合并,使得进行合并处理之后的文本能够达到更大的分词粒度,具备智能性和灵活性,能够达到较高的准确度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本专利技术。附图说明通过参照附图详细描述其示例实施例,本专利技术的上述和其它目标、特征及优点将变得更加显而易见。图1是根据一示例性实施方式示出的一种分词处理方法的流程图。图2是根据一示例性实施方式示出的一种分词处理方法的流程图。图3是根据一示例性实施方式示出的一种分词处理方法的流程图。图4是根据一示例性实施方式示出的一种分词处理方法的原理示意图。图5A是根据一示例性实施方式示出的一种分词处理方法的流程图。图5B是根据一示例性实施方式示出的一种分词处理方法的流程图。图6A是根据一示例性实施方式示出的一种分词处理方法的流程图。图6B是根据一示例性实施方式示出的一种分词处理方法的流程图。图6C是根据一示例性实施方式示出的一种分词处理方法的原理示意图。图7A是根据一示例性实施方式示出的一种分词处理方法的流程图。图7B是根据一示例性实施方式示出的一种分词处理方法的流程图。图7C及图7D是根据一示例性实施方式示出的一种分词处理方法的原理示意图。图8A是根据一示例性实施方式示出的一种分词处理方法的流程图。图8B是根据一示例性实施方式示出的一种分词处理方法的流程图。图9是根据一示例性实施方式示出的一种分词处理装置的框图。图10是根据一示例性实施方式示出的一种分词处理装置的框图。图11是根据一示例性实施方式示出的一种分词处理装置的框图。图12A是根据一示例性实施方式示出的一种分词处理装置的框图。图12B是根据一示例性实施方式示出的一种分词处理装置的框图。图13是根据一示例性实施方式示出的一种电子设备的框图。具体实施方式现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本专利技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本专利技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本专利技术的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本专利技术的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本专利技术的各方面变得模糊。图1是根据本专利技术实施方式示出的一种分词处理方法的流程图。在本专利技术实施方式中,分词处理方法可包括:步骤S1:在已进行分词处理后的文本中,确定反映评论内容的词。在本专利技术实施方式中,先提取出能反映评论内容的词。反映评论内容的词一般指评论的句子中表达最核心内容的词。以外卖平台的用户评论内容为例,某用户的评论为“外卖的配送速度值得信赖”,其中反映评论内容的词可以是“速度”、“信赖”,因为“速度”是评论的主体,“信赖”是用户的核心观点。而“外卖”、“配送”都是修饰“速度”的,“值得”只是作为能愿动词与“依赖”构成词组的,都不能反映评论内容的核心内容。对于一家外卖平台,其用户评论会呈现一定的统计规律性,例如“速度”、“环境”、“态度”、“服务”等评论主体出现的频率较高,因此反映评论内容的词可以是一个预定的集,用于在某个已进行分词处理后的文本中确定反映评论内容的词。当然,确定反映评论内容的词的方法并不局限于此。步骤S3:在确定反映评论内容的词与邻近该反映评论内容的词的词之间满足预定关系的情况下,将反映评论内容的词与邻近该反映评论内容的词的词合并。在本专利技术实施方式中,提取出能反映评论内容的词之后,如果检测该词与邻近的词的关系满足预定关系,例如满足语法关系、词性搭配关系等,则可以进行合并处理,即相较于合并前形成更大分词粒度的文本。如此,可提升机机器或系统的智能化处理水平及处理的灵活度,且提升合并的准确度。“分词粒度”是一个计算语言学术语,即一个中文词包含汉字的个数,例如“速度”的分词粒度为2,“配送速度”的分词粒度为4。可以理解,以某词为基础,随着合并及分词粒度的增大,其表达的含义也更加确切,有助于对评论内容进行进一步分析及处理。图2是根据本专利技术实施方式示出的另一种分词处理方法的流程图。该方法与图1所示的方法相比还包括判断步骤S2。具体如下:在步骤S1中,确定反映评论内容的词。在步骤S2中,确定反映评论内容的词与邻近所述反映评论内容的词的词之间是否满足预定关系。如果在步骤S2中确定反映评论内容的词与邻近反映评论内容的词的词之间满足预定关系,则执行步骤S3。如果在步骤S2中确定反映评论内容的词与邻近反映评论内容的词的词之间不满足预定关系,则说本文档来自技高网...
分词处理方法及装置、电子设备

【技术保护点】
一种分词处理方法,其特征在于,包括:在已进行分词处理后的文本中,确定反映评论内容的词;在确定所述反映评论内容的词与邻近所述反映评论内容的词的词之间满足预定关系的情况下,将所述反映评论内容的词与所述邻近所述反映评论内容的词的词合并。

【技术特征摘要】
1.一种分词处理方法,其特征在于,包括:在已进行分词处理后的文本中,确定反映评论内容的词;在确定所述反映评论内容的词与邻近所述反映评论内容的词的词之间满足预定关系的情况下,将所述反映评论内容的词与所述邻近所述反映评论内容的词的词合并。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在确定所述反映评论内容的词之后,如果所述反映评论内容的词与所述邻近所述反映评论内容的词的词之间存在虚词,则删除所述虚词。3.根据权利要求1或2所述的方法,其特征在于,所述满足预定关系包括符合预定句法依存关系和/或预定词性模式。4.根据权利要求3所述的方法,其特征在于,所述确定反映评论内容的词包括:确定反映评论内容的基本属性词。5.根据权利要求4所述的方法,其特征在于,所述基本属性词对应的所述预定句法依存关系包括:所述基本属性词与位于所述基本属性词之前且相邻的词具有修饰关系。6.根据权利要求4所述的方法,其特征在于,所述基本属性词对应的所述预定词性模式包括:所述位于所述基本属性词之前且相邻的词与所述基本属性词构成动词加名词模式或名词加名词模式。7.根据权利要求3所述的方法,其特征在于,所述确定反映评论内容的词包括:确定反映用户观点的评价词。8.根据权利要求7所...

【专利技术属性】
技术研发人员:焦增涛
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1