当前位置: 首页 > 专利查询>中南大学专利>正文

一种基于单文本词项凝固度的字典自动抽取方法与系统技术方案

技术编号:38640903 阅读:15 留言:0更新日期:2023-08-31 18:34
本发明专利技术涉及自然语言处理技术领域,具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统,包括:输入说明子系统:用于录入输入数据,输入数据包括待分词文本和自定义断点数,根据待分词文本生成的候选词项会生成候选词项的凝固度,自然断点法说明子系统:用于分组候选词项的凝固度获得分组数据,通过对分组数据给定不同的级别来表示匹配时的优先级,构件字典过程说明子系统:用于基于候选词项的凝固度优先级和单文本自动构建词典,输出说明子系统:用作数据输出,数据输出为基于地质单文本和凝固度自动构建的字典,解决了传统的专业字典生成方法在设定规则、标注语料库、筛选词项时,存在大量人工耗费的问题。存在大量人工耗费的问题。存在大量人工耗费的问题。

【技术实现步骤摘要】
一种基于单文本词项凝固度的字典自动抽取方法与系统


[0001]本申请涉及自然语言处理
,具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统。

技术介绍

[0002]对于中文分词两大技术难点:歧义识别和未登录词识别,基于字典分词具有速度快、效率高、易修改的优点,分词任务通常依赖于丰富的语料库和专业字典,但是固化的字典无法实现歧义消解,在分词过程中对歧义词和未登录词的识别能力较低。
[0003]在专业文本分词的实际工作中,专业字典不能一成不变,需要人工不断地更新和维护,这种方式不能很好适应专业领域知识快速性和灵活性增长;且人工构建字典费时费力,难以实现精确率和耗费的平衡。因此,能够及时、自动、智能、准确地生成专业字典、减少构建和维护字典过程中的人为工作很有必要。
[0004]现有技术中,对于自动生成字典有如下实施方法:
[0005]基于“二元语法”统计模型、统计算法、统计选词策略、规则知识和规则过滤算法,从大规模语料库中自动高效地发现新词,但仍需要人工定义丰富的规则;
[0006]基于大规模语料库利用汉字的邻接关系建立局部二元模型,但是该模型的新词识别的准确率不超过80%;
[0007]使用重复模式互信息、左右熵等特征进行新词识别,获得候选新词列表,然后利用中文词语搭配库过滤候选词;
[0008]综合信息交叉熵算法、标注字典及组词规则发现新词,经过筛选后把新词加入字典;
[0009]这些研究从统计方法、规则定义、字符关系等角度发现新词和构建字典,具有良好的效果。但是,以上方法在进行设定规则、标注语料库、筛选词项等人为的工作时,仍具有很大程度的不确定性和随意性,不利于智能自动生成专业字典。
[0010]因此,专利技术人有鉴于此,提供了一种基于单文本词项凝固度的字典自动抽取方法与系统,以便解决上述问题。

技术实现思路

[0011]本专利技术的目的在于解决传统的专业字典生成方法在设定规则、标注语料库、筛选词项时,存在大量人工耗费的问题。
[0012]为了达到上述目的,本专利技术的基础方案提供一种基于单文本词项凝固度的字典自动抽取系统,包括:
[0013]输入说明子系统:用于录入输入数据,输入数据包括待分词文本和自定义断点数,根据待分词文本生成的候选词项会生成候选词项的凝固度;
[0014]自然断点法说明子系统:用于分组候选词项的凝固度获得分组数据,通过对分组数据给定不同的级别来表示匹配时的优先级;
[0015]构建字典过程说明子系统:用于基于候选词项的凝固度优先级和单文本自动构建词典;
[0016]输出说明子系统:用作数据输出,数据输出为基于地质单文本和凝固度自动构建的字典。
[0017]进一步,所述输入数据为若干组连续型数据并构成数组。
[0018]进一步,所述自然断点说明子系统包括如下步骤:
[0019]步骤A01:计算分组数据平均值的偏差平方和;
[0020]步骤A02:迭代每个范围组合得到不同的分类组别,计算类别均值的平方偏差平方和,选择偏差最小的组别;
[0021]步骤A03:计算方差拟合优度,检验拟合效果,获得最好的分类断点;
[0022]步骤A04:基于数值和分类断点的比较,确定数组的分组组别,输出数据为连续型数据中每个数值的分组。
[0023]为了达到上述目的,本专利技术的基础方案还提供了一种基于单文本词项凝固度的字典自动抽取系统的抽取方法,具体包括如下步骤:
[0024]步骤S10:读取输入的单文本,定义单文本的长度,读取输入的候选词项,定义断点数;
[0025]步骤S20:通过自然确定断点的函数,获得候选词集每个词项的凝固度分级;
[0026]步骤S30:将凝固度分级加入候选词集,此时候选词项也表示分级词典;
[0027]步骤S40:取出词项,定义查询例句的结果列表;
[0028]步骤S50:将获得的例句结果列表存入候选词集;
[0029]步骤S60:至此,得到由候选词项、分级和例句组成的字典。
[0030]进一步,在步骤S10中,行格式为[词项,凝固度],本专利技术中,定义断点数等于4。
[0031]进一步,进入步骤S50;
[0032]步骤S42:获取当前词项在文本中的位置;
[0033]步骤S43:根据当前文本向前查询最近的一个句号,定位例句起始字段;
[0034]步骤S44:根据文本向后查询最近的一个句号,定位例句末尾字段;
[0035]步骤S45:获得当前词项的例句,存入例句列表,重复步骤S41。
[0036]本方案的原理及效果在于:
[0037]1、本专利技术设有根据凝固度的概念来判断候选词项的等级,符合筛选词项、组合字典的逻辑,并对字典的词项进行等级划分,不同的级别表示匹配分词任务时的优先级,且字典中提供了词项的相关例句,借鉴于汉语词典的解释性表述,可以辅助词项理解,解决了传统的专业字典生成方法在设定规则、标注语料库、筛选词项时,存在大量人工耗费的问题。
[0038]2、本专利技术抽取字典的过程基于统计的方法、基于单文本的低资源条件,不依赖人为工作,快捷且准确。
[0039]3、本专利技术提出的字典自动生成方法,基于凝固度来表示词项,能保证较高的字典正确率。
[0040]4、本专利技术基于零样本、无标签、单文本的低资源条件,摆脱了构建词典过程中的人为工作,减少了人工耗费,基于统计的方法,具有快捷的优点,不依赖设定规则和阈值筛选词项,很好地避免了人为的不准确性。
附图说明
[0041]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]图1示出了本申请实施例提出的一种基于单文本词项凝固度的字典自动抽取方法与系统的流程图。
具体实施方式
[0043]为更进一步阐述本专利技术为实现预定专利技术目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本专利技术的具体实施方式、结构、特征及其功效,详细说明如后。
[0044]一种基于单文本词项凝固度的字典自动抽取方法与系统,实施例如图1所示:
[0045]包括输入说明子系统、输出说明子系统、自然断点法说明子系统、构建字典过程说明子系统。
[0046]输入说明子系统用于录入输入数据,输入数据包括领域单文本text、候选词项的凝固度unity_list和自定义断点数classes。其中,候选词项的凝固度unity_list,行数据格式解释为[词项,凝固度],断点数classes为自定义常量。
[0047]在本实施例中,以任村地质调查报告文本成果部分(任村报告)为例,全文约52万个字符、16万个汉字。任村报告作为地质领域单文本量化词项的代表性数据集。...

【技术保护点】

【技术特征摘要】
1.一种基于单文本词项凝固度的字典自动抽取系统,其特征在于:包括:输入说明子系统:用于录入输入数据,输入数据包括待分词文本和自定义断点数,根据待分词文本生成的候选词项会生成候选词项的凝固度;自然断点法说明子系统:用于分组候选词项的凝固度获得分组数据,通过对分组数据给定不同的级别来表示匹配时的优先级;构建字典过程说明子系统:用于基于候选词项的凝固度优先级和单文本自动构建词典;输出说明子系统:用作数据输出,数据输出为基于地质单文本和凝固度自动构建的字典。2.根据权利要求1所述的一种基于单文本词项凝固度的字典自动抽取方法与系统,其特征在于,所述输入数据为若干组连续型数据并构成数组。3.根据权利要求2所述的一种基于单文本词项凝固度的字典自动抽取方法与系统,其特征在于,所述自然断点说明子系统包括如下步骤:步骤A01:计算分组数据平均值的偏差平方和;步骤A02:迭代每个范围组合得到不同的分类组别,计算类别均值的平方偏差平方和,选择偏差最小的组别;步骤A03:计算方差拟合优度,检验拟合效果,获得最好的分类断点;步骤A04:基于数值和分类断点的比较,确定数组的分组组别,输出数据为连续型数据中每个数值的分组。4.一种根据权利要求3所述的一种基于单文本词项凝固度...

【专利技术属性】
技术研发人员:邓吉秋唐宇郭志勇邱蓝吴军王飞龙
申请(专利权)人:中南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1