一种用于全媒体科普视窗的分词方法及系统技术方案

技术编号:19543754 阅读:35 留言:0更新日期:2018-11-24 20:36
本发明专利技术公开了一种用于全媒体科普视窗的分词方法及系统。所述分词方法包括:获取字符序列;将所述字符序列输入到估值模块进行估值,确定良度值;将所述良度值以及所述字符序列输入到选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,若是,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列并利用所述调整后的字符序列更新所述估值模块内的统计信息。采用本发明专利技术所提供的分词方法及系统能够提高分词精准度。

A Word Segmentation Method and System for All-Media Popular Science Windows

The invention discloses a word segmentation method and system for all media popular science windows. The word segmentation method includes: acquiring the character sequence; inputting the character sequence into the valuation module for valuation to determine the goodness value; inputting the goodness value and the character sequence into the selection module for filtering and processing to determine the segmentation form with the greatest goodness value; and the segmentation form with the greatest goodness value is as follows: Hierarchical structure; the hierarchical structure is used for word segmentation of the character sequence; it judges whether iterative processing is needed according to the segmentation form with the maximum best degree value; if so, the segmentation form with the maximum degree of good value and the character sequence are input into the adjustment module to adjust and determine the adjustment. The adjusted character sequence is used to update the statistical information in the estimation module. The method and system of word segmentation provided by the invention can improve the accuracy of word segmentation.

【技术实现步骤摘要】
一种用于全媒体科普视窗的分词方法及系统
本专利技术涉及全媒体科普视窗分词领域,特别是涉及一种用于全媒体科普视窗的分词方法及系统。
技术介绍
在如今大数据技术和云计算技术流行的当下,从大量的网络数据中,抓取有效的信息,过滤,分类,标签化,聚合成需要的网络资源库,慢慢成为一种互联网时代关键性的技术问题。人类语言存在规则,人的大脑可以在经过充分的学习之后掌握并运用这样的规则,从而可以在生活中自如地遣词造句与人交流。在与人交流的过程中,使用同一种语言的人可以很轻易地从对方的话语里抓住中心词,并依据一句话的中心意思,对整个句子进行分词,将句子分割成一个又一个的关键词,方便理解其中的意思;人类的语言各有各的规则,例如汉语,汉语这一种语言是非常需要重视语法规则的语言,汉语在使用过程中没有词形变化,所以很难根据字词本身的形态变化来分割词汇寻找中心词,这就给中文在计算机上的发展和应用带来了难题。汉语的语法规则如何体现?汉语可以用完全相同的几个具有实在意义的单个符号组合在一起表达出不同的意义,句子意义的差异是由单个符号间的结构关系不同造成的,这些不同的结构关系要通过一定的词序,特定的虚词等语法形式体现出来,这些复杂的语法规则,让外族人学习汉语时都感到非常困难,可以想见让计算机处理如此庞杂的语言信息时,会遭遇何等的困难,而又因为其形态上完全没有变化,所以应用于计算机处理信息时会造成极大的负担;由于汉语语言的独特性,机器在处理汉语信息时无法正确地分隔开有效的词汇,从而表达出正确的语句停顿,更无法得知一句话的准确含义。在构建机器学习方法时,理论上我们力图避免掺杂人类直觉,但实际上,设计者的直觉对构建过程的影响是不可避免的;对于监督方法,学习过程始终不会偏离人工明确给定的正误标准,而无监督方法则没有这种标准可以依赖,显然,无监督方法的构建难度远大于监督方法。理论上,学习的目的是确定数据组织的方式,找到蕴含的特征及模式,监督与否的差别在于是否有人工干预,但是现有的无监督学习方法依然存在的人工参数设置,由于器学习模型中所包含的参数必须人工给定,必然会降低方法的泛化程度,并可能损害处理实际数据时的表现,于是为了能够在处理不同语料时提高表现,需要对人工赋值的那些参数进行调整,因此,由于人为的主观意识参与,会导致分词精度大大降低。
技术实现思路
本专利技术的目的是提供一种用于全媒体科普视窗的分词方法及系统,以解决由于人为的主观意识参与,导致分词精度低的问题。为实现上述目的,本专利技术提供了如下方案:一种用于全媒体科普视窗的分词方法,所述分词方法应用于估值-选择-调整ESA架构;所述ESA架构包括估值模块、选择模块以及调整模块;所述分词方法包括:获取字符序列;所述字符序列包括多个子序列;相邻的两个子序列为邻接子序列对;将所述字符序列输入到所述估值模块进行估值,确定良度值;所述良度值包括所述子序列独立的个体良度值、每对邻接子序列之间的间隔良度值以及所述邻接子序列对的组合良度值;将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,得到第一判断结果;若所述第一判断结果表示为所述具有最大良度值的分割形式需要进行迭代处理,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,并利用所述调整后的字符序列更新所述估值模块内的统计信息。可选的,所述将所述字符序列输入到所述估值模块进行估值,确定良度值,具体包括:根据所述字符序列确定所述字符序列所包含的子序列;根据所述子序列确定第一类统计信息;所述第一类统计信息包括各个子序列出现的频率以及相同长度子序列的数量;根据所述第一类统计信息确定第二类统计信息;所述第二类统计信息包括相同长度子序列的平均频率、子序列的SP1熵以及相同长度子序列的SP1平均熵;根据所述第一类统计信息以及第二类统计信息确定良度值。可选的,所述将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式,具体包括:根据所述良度值,采用最大化策略对所述字符序列进行最优分割,确定具有最大良度值的分割形式。可选的,所述将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,具体包括:根据具有最大良度值的分割形式以及所述字符序列,利用统计子串削减法调整所述字符序列,确定调整后的字符序列。一种用于全媒体科普视窗的分词系统,包括:字符序列获取模块,用于获取字符序列;所述字符序列包括多个子序列;相邻的两个子序列为邻接子序列对;估值模块,用于将所述字符序列输入到所述估值模块进行估值,确定良度值;所述良度值包括所述子序列独立的个体良度值、每对邻接子序列之间的间隔良度值以及所述邻接子序列对的组合良度值;选择模块,用于将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;第一判断模块,用于根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,得到第一判断结果;调整模块,用于若所述第一判断结果表示为所述具有最大良度值的分割形式需要进行迭代处理,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,并利用所述调整后的字符序列更新所述估值模块内的统计信息。可选的,所述估值模块具体包括:子序列确定单元,用于根据所述字符序列确定所述字符序列所包含的子序列;第一类统计信息确定单元,用于根据所述子序列确定第一类统计信息;所述第一类统计信息包括各个子序列出现的频率以及相同长度子序列的数量;第二类统计信息确定单元,用于根据所述第一类统计信息确定第二类统计信息;所述第二类统计信息包括相同长度子序列的平均频率、子序列的SP1熵以及相同长度子序列的SP1平均熵;良度值确定单元,用于根据所述第一类统计信息以及第二类统计信息确定良度值。可选的,所述选择模块具体包括:选择单元,用于根据所述良度值,采用最大化策略对所述字符序列进行最优分割,确定具有最大良度值的分割形式。可选的,所述调整模块具体包括:调整单元,用于根据具有最大良度值的分割形式以及所述字符序列,利用统计子串削减法调整所述字符序列,确定调整后的字符序列。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术提供了一种用于全媒体科普视窗的分词方法及系统,具体公开了一种估值-选择-调整(Evaluation,Selection,Adjustment,ESA)架构,该ESA为无监督分词方法,并不限制于某个特定语言;本专利技术能够达到以下技术效果:一、相对于半监督和监督分词方法,本专利技术提供了一种能够适应更加苛刻条件下的方法,同时要确保该方法能够生成可以被接受的结果。“更加苛刻”指,没有词典、标注语料和语法规则,而“可接受”指,以手工分割结果为验证标准。二、相对于其他无监督分词方法,本专利技术探索了完全无监督方法的可行性和潜力,进一步降低了人工干涉强度,提高方法的通用性。此外,ESA架构基于全新的良度本文档来自技高网
...

【技术保护点】
1.一种用于全媒体科普视窗的分词方法,其特征在于,所述分词方法应用于估值‑选择‑调整ESA架构;所述ESA架构包括估值模块、选择模块以及调整模块;所述分词方法包括:获取字符序列;所述字符序列包括多个子序列;相邻的两个子序列为邻接子序列对;将所述字符序列输入到所述估值模块进行估值,确定良度值;所述良度值包括所述子序列独立的个体良度值、每对邻接子序列之间的间隔良度值以及所述邻接子序列对的组合良度值;将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,得到第一判断结果;若所述第一判断结果表示为所述具有最大良度值的分割形式需要进行迭代处理,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,并利用所述调整后的字符序列更新所述估值模块内的统计信息。

【技术特征摘要】
1.一种用于全媒体科普视窗的分词方法,其特征在于,所述分词方法应用于估值-选择-调整ESA架构;所述ESA架构包括估值模块、选择模块以及调整模块;所述分词方法包括:获取字符序列;所述字符序列包括多个子序列;相邻的两个子序列为邻接子序列对;将所述字符序列输入到所述估值模块进行估值,确定良度值;所述良度值包括所述子序列独立的个体良度值、每对邻接子序列之间的间隔良度值以及所述邻接子序列对的组合良度值;将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,得到第一判断结果;若所述第一判断结果表示为所述具有最大良度值的分割形式需要进行迭代处理,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,并利用所述调整后的字符序列更新所述估值模块内的统计信息。2.根据权利要求1所述的分词方法,其特征在于,所述将所述字符序列输入到所述估值模块进行估值,确定良度值,具体包括:根据所述字符序列确定所述字符序列所包含的子序列;根据所述子序列确定第一类统计信息;所述第一类统计信息包括各个子序列出现的频率以及相同长度子序列的数量;根据所述第一类统计信息确定第二类统计信息;所述第二类统计信息包括相同长度子序列的平均频率、子序列的SP1熵以及相同长度子序列的SP1平均熵;根据所述第一类统计信息以及第二类统计信息确定良度值。3.根据权利要求2所述的分词方法,其特征在于,所述将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式,具体包括:根据所述良度值,采用最大化策略对所述字符序列进行最优分割,确定具有最大良度值的分割形式。4.根据权利要求3所述的分词方法,其特征在于,所述将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,具体包括:根据具有最大良度值的分割形式以及所述字符序列...

【专利技术属性】
技术研发人员:朱俭王函石
申请(专利权)人:北京千松科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1