一种中文语义库新词的生成方法技术

技术编号:18732282 阅读:19 留言:0更新日期:2018-08-22 02:59
本发明专利技术公开了一种中文语义库新词的生成方法,所述方法通过设立文本块作为语料库,通过扫描文本块,把相邻出现的字组成集合,如果该集合不在字典中,统计该集合出现次数,如果出现次数超过阈值,则该相邻出现的字认定为新词,加入语义库。本发明专利技术方法能够精确比对中文文本的相似度,较快的识别新出现的词语,及时补充了词典,随着社会不断发展,文化的不断演进,中文词汇也随之不断扩充,通过使用本发明专利技术方法将识别的新词加入字典,将会节省大量的时间和人力。

A new method for generating new words in Chinese semantic database

The invention discloses a method for generating new words in Chinese semantic database. The method sets up a text block as a corpus and scans a text block to form a set of adjacent words. If the set is not in a dictionary, the occurrence times of the set are counted. If the occurrence times exceed the threshold, the adjacent words are recognized. Add the new word to the semantic library. The method of the invention can accurately compare the similarity of Chinese text, quickly identify new words and phrases, and timely supplement the dictionary. With the continuous development of society and culture, Chinese vocabulary is constantly expanded. By using the method of the invention, new words identified will be added to the dictionary, which will save a lot of time and time. Human resources.

【技术实现步骤摘要】
一种中文语义库新词的生成方法
本专利技术涉及自然语言处理
,具体涉及一种中文语义库新词的生成方法,能够精确比对中文文本的相似度。
技术介绍
词典是基于词典分词法的基础,新词和歧义词是分词的重点、难点,需要引入统计学知识,识别新词。语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。中文是世界上使用文字最多的文字,其表意能力强,语法也比较随意、简单,同英文等拉丁语系的语言相比较,其基本构成元素汉字相对较多,中文的语义库也相对比较复杂。随着社会不断发展,文化的不断演进,中文词汇也随之不断扩充,如果使用人工处理加入字典,将会耗费大量的时间和人力。
技术实现思路
本专利技术要解决的技术问题是:本专利技术针对以上问题,提供一种中文语义库新词的生成方法,能够精确比对中文文本的相似度。本专利技术所采用的技术方案为:一种中文语义库新词的生成方法,所述方法通过设立文本块作为语料库,通过扫描文本块,把相邻出现的字组成集合,如果该集合不在字典中,统计该集合出现次数,如果出现次数超过阈值,则该相邻出现的字认定为新词,加入语义库。更进一步,所述文本块的构成包括:单字集合、双字集合及由单字集合与双字集合组合构成的集合。更进一步,所述文本块中相邻出现字的统计,根据每个字在文本中的偏移量进行统计,通过建立每个字出现的偏移量向量,然后对每一个偏移量向量进行统计,统计出相邻字结合出现的次数。更进一步,所述单字集合通过网络爬虫工具,从用户日志和数据库文件中获取。更进一步,所述单子集合包括n个不同的中文字符,集合为W{W1,W2,W3,…,Wn},所述双字集合为Y{Y1,Y2,Y3,…,Ym},其中Ym={wi-wj,wj-wi},其中i、j介于1和n之间,符号‘-’表示为一种联系关系,比如,‘美’和‘人’,有两种组合,分别是‘美人’和‘人美’。更进一步,所述单字集合与双字集合组合构成的集合为N,N={Wi-Yj,Yj-Wi},其中i、j介于1和n之间,符号‘-’表示为一种联系关系,比如:爱-美人和美人-爱。更进一步,所述方法通过对认定的新词进行筛选,筛选出其中不是词语的组合,确保加入语义库的新词的有效性。本专利技术的有益效果为:本专利技术方法能够精确比对中文文本的相似度,较快的识别新出现的词语,及时补充了词典,随着社会不断发展,文化的不断演进,中文词汇也随之不断扩充,通过使用本专利技术方法将识别的新词加入字典,将会节省大量的时间和人力。附图说明图1为本专利技术方法实现流程图。具体实施方式下面根据说明书附图,结合具体实施方式对本专利技术进一步说明:实施例1如图1所示,一种中文语义库新词的生成方法,所述方法通过设立文本块作为语料库,通过扫描文本块,把相邻出现的字组成集合,如果该集合不在字典中,统计该集合出现次数,如果出现次数超过阈值,则该相邻出现的字认定为新词,加入语义库。所述文本块的构成包括:单字集合、双字集合及由单字集合与双字集合组合构成的集合。所述文本块中相邻出现字的统计,根据每个字在文本中的偏移量进行统计,通过建立每个字出现的偏移量向量,然后对每一个偏移量向量进行统计,统计出相邻字结合出现的次数。所述单字集合通过网络爬虫工具,从用户日志和数据库文件中获取。实施例2中文是单字即可成词,所以只需要使用单个字作为基本的词,假设某个字为Wn。所有中文词为W{W1,W2,W3,…,Wn}集合,包含n个不同的中文字符。另设双字集合Y,某个分词为Ym,Y{Y1,Y2,Y3,…,Ym},其中Ym={wi-wj,wj-wi},其中i、j介于1和n之间,其中的符号‘-’表示为一种联系关系,比如,‘美’和‘人’,有两种组合,分别是‘美人’和‘人美’,所有两个字组成的有意义的词为Y。同样的所有的两字词和单字词之间又可以组合为N={Wi-Yj,Yj-Wi},其中i、j介于1和n之间,符号‘-’表示为一种联系关系,比如:爱-美人和美人-爱。把所有文本集中起来当成一个文本块,然后第一次扫描,记录下每一个字的偏移量,建立每个字出现的偏移量向量。然后对每一个偏移量进行统计,把相邻出现的组成集合,统计出现次数。超过2的就认为具有重复性,那就是新词。实际结果会多出一些不是词语的东西,但是可以通过人工筛选掉。实施例3:在“我们是共产主义接班人,我们都爱共产主义”这句话里,词典原本是空白的,“我们”、“共产主义”这个术语未登录词。经过扫描统计以后,发现“我+们”相邻组合出现过2次,“共+产+主+义”相邻也出现过2次,那么就认为是词语了。实施方式仅用于说明本专利技术,而并非对本专利技术的限制,有关
的普通技术人员,在不脱离本专利技术的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本专利技术的范畴,本专利技术的专利保护范围应由权利要求限定。本文档来自技高网
...

【技术保护点】
1.一种中文语义库新词的生成方法,其特征在于,所述方法通过设立文本块作为语料库,通过扫描文本块,把相邻出现的字组成集合,如果该集合不在字典中,统计该集合出现次数,如果出现次数超过阈值,则该相邻出现的字认定为新词,加入语义库。

【技术特征摘要】
1.一种中文语义库新词的生成方法,其特征在于,所述方法通过设立文本块作为语料库,通过扫描文本块,把相邻出现的字组成集合,如果该集合不在字典中,统计该集合出现次数,如果出现次数超过阈值,则该相邻出现的字认定为新词,加入语义库。2.根据权利要求1所述的一种中文语义库新词的生成方法,其特征在于,所述文本块的构成包括:单字集合、双字集合及由单字集合与双字集合组合构成的集合。3.根据权利要求1或2所述的一种中文语义库新词的生成方法,其特征在于,所述文本块中相邻出现字的统计,根据每个字在文本中的偏移量进行统计,通过建立每个字出现的偏移量向量,然后对每一个偏移量向量进行统计,统计出相邻字结合出现的次数。4.根据权利要求3所述的一种中文语义库新词的生成方法,其特征在于,所述单字集合通过...

【专利技术属性】
技术研发人员:姜明鲁
申请(专利权)人:山东汇贸电子口岸有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1