当前位置: 首页 > 专利查询>南京大学专利>正文

用于命名的缩略词生成系统及其工作方法技术方案

技术编号:9794521 阅读:205 留言:0更新日期:2014-03-21 19:01
本发明专利技术公开了一种用于命名的缩略词生成系统及其工作方法,该系统通过对输入长字符串的分析,给出适当的缩略词命名。该系统包括输入输出页面及后台支撑服务平台,输入输出页面用于输入待生成缩略词的长字符串及输出用于命名的缩略词;后台支撑服务平台包括分类数据库、缩略词生成系统及推荐系统,分类数据库中储存有便于计算出各个单词的分类倾向的数据,可以使得后台支持程序分析用户输入的语句并且产生语义相关的缩略词,用于各领域的命名。本发明专利技术的产生就是为了改变现状,使得用户能够得到与原字符串语义相近的缩略词以用于命名。

【技术实现步骤摘要】
用于命名的缩略词生成系统及其工作方法
:本专利技术涉及一种名字生成系统及其工作方法,尤其涉及用于命名的缩略词生成系统及其工作方法,其为一个由多个单词组成的字符串提供与字符串本身意义相符合的缩略词。
技术介绍
:缩略词生成技术是一个有创造性的、模拟人类思维对字符串进行分析的自动生成技术。由于各行业、各领域都需要打造家喻户晓的好品牌,所以取一个朗朗上口而又体现专业特色的名字就显得尤为重要。所以构建一个用于命名的缩略词生成系统在各行业、各领域都具有巨大的应用潜力和广阔前景。目前互联网上已有缩略词生成与缩略词查询系统,其命名规则基本上采用首字母匹配,即提取该字符串内所有单词的第一个字母构成缩略语命名。但是,如何生成与字符串意义相关的缩略词,尚未有可行的解决方法。一些缩略词生成系统通过用户投票的方式为生成的缩略词排序,但由于投票这种方式需要用户的配合,在查询次数较小的字符串上表现得并不令人满意。而且考虑到不同领域的用户需求不同,投票方式生成的缩略词在缩略词表达语义方面的表现不尽如人意。在现有的用于命名的缩略词生成系统中,我们利用计算机分析出字符串的语义,通过相关性匹配规则构造出与之相近语义的缩略词。通过查询后台数据库检查这样的组合是否构成单词,如果不构成单词,则在其中添加或删除一些字母以达到生成缩略词的目的。
技术实现思路
:本专利技术提供一种用于命名的缩略词生成系统及其工作方法,其通过改变现有的缩略词生成系统,使之能够生成与原字符串语义相匹配的缩略词。本专利技术采用如下技术方案:一种用于命名的缩略词生成系统,该系统包括输入输出页面及后台支撑服务平台;其中,输入输出页面用于输入待生成缩略词的长字符串及输出用于命名的缩略词;后台支撑服务平台包括:分类数据库,分类数据库使用后台支持程序建立,分类数据库中储存有计算出各个单词的分类倾向的数据,用于查找用户输入的语句所属分类,并用于在相应分类所属的数据库中匹配所需的缩略词;缩略词生成系统,通过查询分类数据库分析原语句的语义以及所属类别,从而在语句字符串的子序列中找出语义匹配的缩略词并按照语义相关程度给出排序;推荐系统,缩略词均不匹配情况下,能够判断输入语句的语义,并在不影响语句语义的基础上修改语句中的某些单词或是调换语句中单词的顺序,再与分类数据库中单词进行匹配,使之能产生匹配的缩略词,并推荐给用户。本专利技术还采用如下技术方案:一种用于命名的缩略词生成系统的工作方法,其包括如下步骤:1).输入待生成缩略词的长字符串,并确认生成;2).根据上述输入的长字符串,提取字符串中的每一个单词,并依次与分类数据库中的单词进行匹配并计算出各单词的类型;3).判断出该字符串属于的类型,然后保存下该类型;4).分析长字符串中有实意单词的首字母作为固定字母,并在此基础上保持字符原序并插入长字符串中的其它字母,找出所有可能的缩略词,并依次与步骤3)中查找出的类型所对应的数据库中的单词进行匹配,若匹配成功,则作为候选缩略词保存;5).为所有候选缩略词按类型相关程度排序,类型相关程度在类型数据库中获取;6).在缩略词输出框中显示排序之后的缩略词,转步骤7),若无法生成相关类型的缩略词,则转步骤8);7).进行复位动作,准备下一次缩略词生成;8).进入缩略词推荐系统,不改变语句语义对语句进行修改,生成缩略词,并把修改的语句反馈给用户。本专利技术具有如下有益效果:(1)本专利技术通过单词的分类计算出输入字符串的分类,在该分类下匹配输入字符串的各个子序列,从而达到缩略词语义与输入字符串相近的目的;(2)本专利技术与已有的缩略词生成系统相比,其能够大大提高生成命名缩略词与原语句的相关程度。附图说明:图1为本专利技术用于命名的缩略词生成系统的结构图。图2为本专利技术缩略词生成流程图。图3为本专利技术分类数据库生成流程图。具体实施方式:请参照图1至图3所示,本专利技术用于命名的缩略词生成系统包括输入输出页面及后台支持程序。其中输入输出页面包括语句输入框、命名生成按钮、复位按钮、推荐按钮以及缩略词输出框。后台支持程序分为三个部分:分类数据库的生成、缩略词的生成及推荐系统。分类数据库用于查找用户输入的语句所属分类,并用于在相应分类所属的数据库中匹配所需的缩略词。下面将具体介绍这三个部分:(1)分类数据库的生成本专利技术所述的分类数据库使用后台支持程序事先建立,存储的数据包括大量单词和各单词的分类倾向。建立分类数据库需要大量训练文本。我们首先对训练文本中出现的所有单词进行字数统计,然后计算各单词对每个独立文本的重要性,最后使用余弦相似性的原理对文本进行分类,从而得到单词的分类。通过训练文本产生分类数据库,步骤如下:A:由处理程序分析文本本件,得到各个单词在各文本中出现的次数,在预备数据库中储存为<单词,文件ID[出现次数]>这样的格式;B:为预备数据库中的每一个元组计算该单词对各个文件的重要性ti,这里用到了TF-IDF(termfrequency-inversedocumentfrequency)技术:tndfi,j=tfi,j×idfi以上式子中ni,j是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。|D|表示文件总数,|{j:ti∈dj}|表示包含单词ti的文件数。如此计算出预备数据库中所有单词与文件之间的相关程度并存入define数据库格式为<单词,与文件1相关度,与文件2相关度,....,与文件n相关度>。C:把B中所述的define数据库每个单词与文件i的相关程度构成一个向量,计算各文件之间的余弦相似性:D:根据C中计算的余弦相似性为文件分类,再根据文件的分类为各个单词分类,如此就得到了各单词与某一类型的相关程度,构成了分类数据库。(2)缩略词的生成缩略词的生成分为两个阶段:(A):分析用户输入字符串的语义:首先提取用户输入语句中的各个单词,通过查询(1)中建立的分类数据库分析各单词的类别,从而得到并记录语句的类别。(B):产生语义相关的缩略词并排序:首字母缩略词匹配:考虑到好的缩略词往往尽可能使用原语句中的首字母,本专利技术首先提取用户输入语句的首字母组成缩略词与(A)中记录的分类下的数据库进行匹配,若匹配成功,则此缩略词记为最佳缩略词。在首字母基础上插入句中其它单词匹配:首字母缩略词匹配成功的概率并不是很高。当匹配失败时,我们考虑选取原语句中的部分单词,按原顺序插入到首字母序列之中,再次在(A)中记录的分类下的数据库中进行匹配。其中缩略词生成部分,由用户发起,输入一个包含N个单词的字符串,点击生成按钮后,交由后台处理程序,步骤如下:A.提取输入字符串中的所有单词组成序列a,提取输入字符串中的所有字符组成序列b;B.根据步骤A中所述序列a,利用前期准备部分提到的TF-IDF技术计算出原本文档来自技高网...
用于命名的缩略词生成系统及其工作方法

【技术保护点】
一种用于命名的缩略词生成系统,其特征在于,该系统包括输入输出页面及后台支撑服务平台;其中,输入输出页面用于输入待生成缩略词的长字符串及输出用于命名的缩略词;后台支撑服务平台包括:分类数据库,分类数据库使用后台支持程序建立,分类数据库中储存有计算出各个单词的分类倾向的数据,用于查找用户输入的语句所属分类,并用于在相应分类所属的数据库中匹配所需的缩略词;缩略词生成系统,通过查询分类数据库分析原语句的语义以及所属类别,从而在语句字符串的子序列中找出语义匹配的缩略词并按照语义相关程度给出排序;推荐系统,缩略词均不匹配情况下,通过判断输入语句的语义,并在不影响语句语义的基础上修改语句中的某些单词或是调换语句中单词的顺序,再与分类数据库中单词进行匹配,使之能产生匹配的缩略词,并推荐给用户。

【技术特征摘要】
1.一种用于命名的缩略词生成系统,其特征在于,该系统包括输入输出页面及后台支撑服务平台;其中,输入输出页面用于输入待生成缩略词的长字符串及输出用于命名的缩略词;后台支撑服务平台包括:分类数据库,分类数据库使用后台支持程序建立,分类数据库中储存有计算出各个单词的分类倾向的数据,用于查找用户输入的语句所属分类,并用于在相应分类所属的数据库中匹配所需的缩略词;缩略词生成系统,通过查询分类数据库分析原语句的语义以及所属类别,从而在语句字符串的子序列中找出语义匹配的缩略词并按照语义相关程度给出排序;推荐系统,缩略词均不匹配情况下,通过判断输入语句的语义,并在不影响语句语义的基础上修改语句中的某些单词或是调换语句中单词的顺序,再与分类数据库中单词进行匹配,使之能产生匹配的缩略词,并推荐给用户。2.一种如权利要求1所述的用于命名的缩略词生成系统的工作方法,其特...

【专利技术属性】
技术研发人员:王晓亮张雪薇陆桑璐
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1