The invention discloses a word segmentation method and system for all media popular science windows. The word segmentation method includes: acquiring the character sequence; inputting the character sequence into the valuation module for valuation to determine the goodness value; inputting the goodness value and the character sequence into the selection module for filtering and processing to determine the segmentation form with the greatest goodness value; and the segmentation form with the greatest goodness value is as follows: Hierarchical structure; the hierarchical structure is used for word segmentation of the character sequence; it judges whether iterative processing is needed according to the segmentation form with the maximum best degree value; if so, the segmentation form with the maximum degree of good value and the character sequence are input into the adjustment module to adjust and determine the adjustment. The adjusted character sequence is used to update the statistical information in the estimation module. The method and system of word segmentation provided by the invention can improve the accuracy of word segmentation.
【技术实现步骤摘要】
一种用于全媒体科普视窗的分词方法及系统
本专利技术涉及全媒体科普视窗分词领域,特别是涉及一种用于全媒体科普视窗的分词方法及系统。
技术介绍
在如今大数据技术和云计算技术流行的当下,从大量的网络数据中,抓取有效的信息,过滤,分类,标签化,聚合成需要的网络资源库,慢慢成为一种互联网时代关键性的技术问题。人类语言存在规则,人的大脑可以在经过充分的学习之后掌握并运用这样的规则,从而可以在生活中自如地遣词造句与人交流。在与人交流的过程中,使用同一种语言的人可以很轻易地从对方的话语里抓住中心词,并依据一句话的中心意思,对整个句子进行分词,将句子分割成一个又一个的关键词,方便理解其中的意思;人类的语言各有各的规则,例如汉语,汉语这一种语言是非常需要重视语法规则的语言,汉语在使用过程中没有词形变化,所以很难根据字词本身的形态变化来分割词汇寻找中心词,这就给中文在计算机上的发展和应用带来了难题。汉语的语法规则如何体现?汉语可以用完全相同的几个具有实在意义的单个符号组合在一起表达出不同的意义,句子意义的差异是由单个符号间的结构关系不同造成的,这些不同的结构关系要通过一定的词序,特定的虚词等语法形式体现出来,这些复杂的语法规则,让外族人学习汉语时都感到非常困难,可以想见让计算机处理如此庞杂的语言信息时,会遭遇何等的困难,而又因为其形态上完全没有变化,所以应用于计算机处理信息时会造成极大的负担;由于汉语语言的独特性,机器在处理汉语信息时无法正确地分隔开有效的词汇,从而表达出正确的语句停顿,更无法得知一句话的准确含义。在构建机器学习方法时,理论上我们力图避免掺杂人类直觉,但实际上, ...
【技术保护点】
1.一种用于全媒体科普视窗的分词方法,其特征在于,所述分词方法应用于估值‑选择‑调整ESA架构;所述ESA架构包括估值模块、选择模块以及调整模块;所述分词方法包括:获取字符序列;所述字符序列包括多个子序列;相邻的两个子序列为邻接子序列对;将所述字符序列输入到所述估值模块进行估值,确定良度值;所述良度值包括所述子序列独立的个体良度值、每对邻接子序列之间的间隔良度值以及所述邻接子序列对的组合良度值;将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,得到第一判断结果;若所述第一判断结果表示为所述具有最大良度值的分割形式需要进行迭代处理,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,并利用所述调整后的字符序列更新所述估值模块内的统计信息。
【技术特征摘要】
1.一种用于全媒体科普视窗的分词方法,其特征在于,所述分词方法应用于估值-选择-调整ESA架构;所述ESA架构包括估值模块、选择模块以及调整模块;所述分词方法包括:获取字符序列;所述字符序列包括多个子序列;相邻的两个子序列为邻接子序列对;将所述字符序列输入到所述估值模块进行估值,确定良度值;所述良度值包括所述子序列独立的个体良度值、每对邻接子序列之间的间隔良度值以及所述邻接子序列对的组合良度值;将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式;所述具有最大良度值的分割形式为层次化结构;所述层次化结构用于对所述字符序列进行分词;根据所述具有最大良度值的分割形式判断是否需要进行迭代处理,得到第一判断结果;若所述第一判断结果表示为所述具有最大良度值的分割形式需要进行迭代处理,将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,并利用所述调整后的字符序列更新所述估值模块内的统计信息。2.根据权利要求1所述的分词方法,其特征在于,所述将所述字符序列输入到所述估值模块进行估值,确定良度值,具体包括:根据所述字符序列确定所述字符序列所包含的子序列;根据所述子序列确定第一类统计信息;所述第一类统计信息包括各个子序列出现的频率以及相同长度子序列的数量;根据所述第一类统计信息确定第二类统计信息;所述第二类统计信息包括相同长度子序列的平均频率、子序列的SP1熵以及相同长度子序列的SP1平均熵;根据所述第一类统计信息以及第二类统计信息确定良度值。3.根据权利要求2所述的分词方法,其特征在于,所述将所述良度值以及所述字符序列输入到所述选择模块进行筛选处理,确定具有最大良度值的分割形式,具体包括:根据所述良度值,采用最大化策略对所述字符序列进行最优分割,确定具有最大良度值的分割形式。4.根据权利要求3所述的分词方法,其特征在于,所述将所述具有最大良度值的分割形式以及所述字符序列输入到所述调整模块进行调整,确定调整后的字符序列,具体包括:根据具有最大良度值的分割形式以及所述字符序列...
【专利技术属性】
技术研发人员:朱俭,王函石,
申请(专利权)人:北京千松科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。