【技术实现步骤摘要】
基于语言对称性和拓扑性的对联生成方法及系统
[0001]本专利技术涉及一种基于语言对称性和拓扑性的对联生成方法及系统。
技术介绍
[0002]自然语言理解研究如何使电子计算机理解和应用人类的自然语言,并通过语言生成与人类进行无障碍交际的方法和理论。如今中文自然语言理解使用的仍是乔姆斯基语法体系,这套体系并不完全适用于中文,因此针对中文进行的自然语言理解研究仍有许多未解决的难题,需要进一步进行研究。
[0003]语言中存在着各种数学表现,其中包含了对称性和拓扑性。对联作为中文中一种十分普遍的文学形式,其对称性的表现是典型的。对联可以概括出五个对称规律。同时对联中也有拓扑性质的存在,可以将对称性与拓扑性结合来分析理解对联。
技术实现思路
[0004]为解决上述技术问题,本专利技术的目的是提供一种基于语言对称性和拓扑性的对联生成方法,提供了一种在给出汉语对联上联的情况下,生成下联的方法。
[0005]本专利技术基于语言对称性和拓扑性的对联生成方法,包括:
[0006]S1生成语料库; >[0007]S2获本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于语言对称性和拓扑性的对联生成方法,其特征在于,包括:S1生成语料库;S2获取对联的上联,基于统计及机器学习的分词方式对上联进行分词;S3在语料库中搜索从上联中分出的词语编码,判断语料库中是否有相应的词语编码,若有,则判断与该词匹配的语编码是否大于1个,若大于1个,则对所有义项进行相似度计算,取相似度最大者;若等于1个,则取该编码;若没有,则输出与分出词语对应字数的“*”符号;S4查找所有编码前X层相同的词语,其中X初始值为3,是否多于或等于一个词,若是,则删除候选词汇中与原词字数不同和有重复字的词语;若否,则查找所有编码前X
‑
1层相同的词语,是否多于或等于一个词,重复步骤4;S5对所有备选词汇进行相似度计算,选取相似度在Y至Y+0.2之间的词,Y的初始值为0.6;S6备选词数量与1的关系,若大于1,则随机选取备选词中的一个词语,输出该词语;若等于1,则输出该词语;若小于1,则以Y=Y+0.1,判断Y+0.2≤1,若是,则重复步骤S5;若Y+0.2>1,则随机选取备选词中的一个词语,输出该词语;S7组合所有词语,输出下联。2.根据权利要求1所述的基于语言对称性和拓扑性的对联生成方法,其特征在于,生成语料库的方法具体包括:把“笠翁对韵”以“同义词词林扩展板”的五层编码方式编入语料库。3.根据权利要求1所述的基于语言对称性和拓扑性的对联生成方法,其特征在于,词语相似度计算过程如下:首先判断在同义词林中作为叶子节点的两个义项在哪一层分支,即两个义项的编号在哪一层不同;从第1层开始判断,相同则乘1,否则在分支层乘以相应的系数,然后乘以调节参数其中n是分支层的节点总数,该调节参数的功能是把义项相似度控制在[0,1]之间;词语所在树的密度,分支的多少直接影响到义项的相似度,密度较大的义项相似度的值相比密度小的相似度的值精确,再乘以一个控制参数(n
‑
k+1)/n,其中n是分支层的节点总数,k是两个分支间的距离;两个义项的相似度用Sin表示...
【专利技术属性】
技术研发人员:赵川,贺鹏,吴畏,黄静雯,尹中,周宣志,涂德志,王圆圆,郑雪,唐健,岳鹏,朱洪波,陈永俊,李晓喆,杜玲,卢尧,李晓,彭敦峰,马源,李晟,
申请(专利权)人:成都理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。