基于图网络的汉字及结构的关联分析方法、介质及设备技术

技术编号:40528381 阅读:27 留言:0更新日期:2024-03-01 13:48
本发明专利技术提供了一种基于图网络的汉字及结构的关联分析方法、介质及设备;其中方法为:构建字频共现矩阵;遍历字频共现矩阵,构建以有向图为网络结构的汉字关联网络;构建汉字到结构序列的映射表;根据映射表中汉字到结构序列的映射关系,对中文语料库的每个句子采用结构序列随机替换部分汉字,在汉字关联网络中引入结构节点,得到汉字‑结构关联网络;当汉字‑结构关联网络的关键指标有提升则视为有效操作;输出每个汉字的权重以及汉字‑结构关联网络。该方法更关注于字与字之间关联,利用不同汉字间存在相同结构的数据特点有效地缓解词性失衡问题对分析结果的干扰,有效提升中文语料库学习效率和学习准确率。

【技术实现步骤摘要】

本专利技术涉及现代汉语分析,更具体地说,涉及一种基于图网络的汉字及结构的关联分析方法、介质及设备


技术介绍

1、语法分析是自然语言处理中一个比较重要的任务,其目标是分析句子的语法结构,反映一个完整句子中的字词关联。由于自然语言分布特性,不同领域的语料库在知识侧重方面也大有不同,例如,在开放域的语料库中,虚词的出现频率明显高于实词;在垂直域的语料库中,专业名词的出现频率明显高于非专业名词;相同的汉字在不同的语境下也蕴含截然相反的意思。简单地通过汉字出现的频率来衡量其重要程度明显缺乏合理性。在汉语言研究领域的现有工作中,尚未发现一种科学的分析方法能够在不同类型的中文语料库中因地制宜的准确量化每个汉字的贡献度。

2、现代汉语的常规分析方法通常采用语法树对完整语句进行结构分析。语法树就是按照某一语言规则进行推导时所形成的能够反映句子语法结构的图形表示。一棵语法树包括了一个句型的所有可能的推导过程。语法树的构建和设计以人工经验为主导,蕴含了丰富且专业的语言学知识。

3、但是以人工经验为主导的语法树分析方式在数据层面上局限于词粒度。中文语句转本文档来自技高网...

【技术保护点】

1.一种基于图网络的汉字及结构的关联分析方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤S1,是指:

3.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤S2,是指:

4.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤S3,包括如下步骤:

5.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤S4中关键指标,是指:平均最短路径长度、半径与直径、强连通分量中的任一项或两项以上;

<...

【技术特征摘要】

1.一种基于图网络的汉字及结构的关联分析方法,其特征在于:包括如下步骤:

2.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤s1,是指:

3.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤s2,是指:

4.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤s3,包括如下步骤:

5.根据权利要求1所述的基于图网络的汉字及结构的关联分析方法,其特征在于:所述步骤s4中关键指标,是指:平均最短路径长度、半径与直径、强连通分量中的任一项或两项以上;

...

【专利技术属性】
技术研发人员:张通邓忠易
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1