一种基于单文本词项凝固度的字典自动抽取方法与系统技术方案

技术编号：38640903 阅读：15 留言：0更新日期：2023-08-31 18:34

本发明专利技术涉及自然语言处理技术领域，具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统，包括：输入说明子系统：用于录入输入数据，输入数据包括待分词文本和自定义断点数，根据待分词文本生成的候选词项会生成候选词项的凝固度，自然断点法说明子系统：用于分组候选词项的凝固度获得分组数据，通过对分组数据给定不同的级别来表示匹配时的优先级，构件字典过程说明子系统：用于基于候选词项的凝固度优先级和单文本自动构建词典，输出说明子系统：用作数据输出，数据输出为基于地质单文本和凝固度自动构建的字典，解决了传统的专业字典生成方法在设定规则、标注语料库、筛选词项时，存在大量人工耗费的问题。存在大量人工耗费的问题。存在大量人工耗费的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于单文本词项凝固度的字典自动抽取方法与系统

[0001]本申请涉及自然语言处理
，具体公开了一种基于单文本词项凝固度的字典自动抽取方法与系统。

技术介绍

[0002]对于中文分词两大技术难点：歧义识别和未登录词识别，基于字典分词具有速度快、效率高、易修改的优点，分词任务通常依赖于丰富的语料库和专业字典，但是固化的字典无法实现歧义消解，在分词过程中对歧义词和未登录词的识别能力较低。
[0003]在专业文本分词的实际工作中，专业字典不能一成不变，需要人工不断地更新和维护，这种方式不能很好适应专业领域知识快速性和灵活性增长；且人工构建字典费时费力，难以实现精确率和耗费的平衡。因此，能够及时、自动、智能、准确地生成专业字典、减少构建和维护字典过程中的人为工作很有必要。
[0004]现有技术中，对于自动生成字典有如下实施方法：
[0005]基于“二元语法”统计模型、统计算法、统计选词策略、规则知识和规则过滤算法，从大规模语料库中自动高效地发现新词，但仍需要人工定义丰富的规则；
[0006]基于大规模语料库利用汉字的邻接关系建立局部二元模型，但是该模型的新词识别的准确率不超过80％；
[0007]使用重复模式互信息、左右熵等特征进行新词识别，获得候选新词列表，然后利用中文词语搭配库过滤候选词；
[0008]综合信息交叉熵算法、标注字典及组词规则发现新词，经过筛选后把新词加入字典；
[0009]这些研究从统计方法、规则定义、字符关系等角度发现新词和构建字典，具有良

【技术保护点】

【技术特征摘要】
1.一种基于单文本词项凝固度的字典自动抽取系统，其特征在于：包括：输入说明子系统：用于录入输入数据，输入数据包括待分词文本和自定义断点数，根据待分词文本生成的候选词项会生成候选词项的凝固度；自然断点法说明子系统：用于分组候选词项的凝固度获得分组数据，通过对分组数据给定不同的级别来表示匹配时的优先级；构建字典过程说明子系统：用于基于候选词项的凝固度优先级和单文本自动构建词典；输出说明子系统：用作数据输出，数据输出为基于地质单文本和凝固度自动构建的字典。2.根据权利要求1所述的一种基于单文本词项凝固度的字典自动抽取方法与系统，其特征在于，所述输入数据为若干组连续型数据并构成数组。3.根据权利要求2所述的一种基于单文本词项凝固度的字典自动抽取方法与系统，其特征在于，所述自然断点说明子系统包括如下步骤：步骤A01：计算分组数据平均值的偏差平方和；步骤A02：迭代每个范围组合得到不同的分类组别，计算类别均值的平方偏差平方和，选择偏差最小的组别；步骤A03：计算方差拟合优度，检验拟合效果，获得最好的分类断点；步骤A04：基于数值和分类断点的比较，确定数组的分组组别，输出数据为连续型数据中每个数值的分组。4.一种根据权利要求3所述的一种基于单文本词项凝固度...

【专利技术属性】
技术研发人员：邓吉秋，唐宇，郭志勇，邱蓝，吴军，王飞龙，
申请(专利权)人：中南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人