一种中文语义库新词的生成方法技术

技术编号：18732282 阅读：19 留言：0更新日期：2018-08-22 02:59

本发明专利技术公开了一种中文语义库新词的生成方法，所述方法通过设立文本块作为语料库，通过扫描文本块，把相邻出现的字组成集合，如果该集合不在字典中，统计该集合出现次数，如果出现次数超过阈值，则该相邻出现的字认定为新词，加入语义库。本发明专利技术方法能够精确比对中文文本的相似度，较快的识别新出现的词语，及时补充了词典，随着社会不断发展，文化的不断演进，中文词汇也随之不断扩充，通过使用本发明专利技术方法将识别的新词加入字典，将会节省大量的时间和人力。

A new method for generating new words in Chinese semantic database

The invention discloses a method for generating new words in Chinese semantic database. The method sets up a text block as a corpus and scans a text block to form a set of adjacent words. If the set is not in a dictionary, the occurrence times of the set are counted. If the occurrence times exceed the threshold, the adjacent words are recognized. Add the new word to the semantic library. The method of the invention can accurately compare the similarity of Chinese text, quickly identify new words and phrases, and timely supplement the dictionary. With the continuous development of society and culture, Chinese vocabulary is constantly expanded. By using the method of the invention, new words identified will be added to the dictionary, which will save a lot of time and time. Human resources.

全部详细技术资料下载

【技术实现步骤摘要】
一种中文语义库新词的生成方法
本专利技术涉及自然语言处理
，具体涉及一种中文语义库新词的生成方法，能够精确比对中文文本的相似度。
技术介绍
词典是基于词典分词法的基础，新词和歧义词是分词的重点、难点，需要引入统计学知识，识别新词。语料库中存放的是在语言的实际使用中真实出现过的语言材料；语料库是以电子计算机为载体承载语言知识的基础资源；真实语料需要经过加工(分析和处理)，才能成为有用的资源。中文是世界上使用文字最多的文字，其表意能力强，语法也比较随意、简单，同英文等拉丁语系的语言相比较，其基本构成元素汉字相对较多，中文的语义库也相对比较复杂。随着社会不断发展，文化的不断演进，中文词汇也随之不断扩充，如果使用人工处理加入字典，将会耗费大量的时间和人力。
技术实现思路
本专利技术要解决的技术问题是：本专利技术针对以上问题，提供一种中文语义库新词的生成方法，能够精确比对中文文本的相似度。本专利技术所采用的技术方案为：一种中文语义库新词的生成方法，所述方法通过设立文本块作为语料库，通过扫描文本块，把相邻出现的字组成集合，如果该集合不在字典中，统计该集合出现次数，如果出现次数超过阈值，则该相邻出现的字认定为新词，加入语义库。更进一步，所述文本块的构成包括：单字集合、双字集合及由单字集合与双字集合组合构成的集合。更进一步，所述文本块中相邻出现字的统计，根据每个字在文本中的偏移量进行统计，通过建立每个字出现的偏移量向量，然后对每一个偏移量向量进行统计，统计出相邻字结合出现的次数。更进一步，所述单字集合通过网络爬虫工具，从用户日志和数据库文件中获取。更进一步，所述单子集合...

【技术保护点】
1.一种中文语义库新词的生成方法，其特征在于，所述方法通过设立文本块作为语料库，通过扫描文本块，把相邻出现的字组成集合，如果该集合不在字典中，统计该集合出现次数，如果出现次数超过阈值，则该相邻出现的字认定为新词，加入语义库。

【技术特征摘要】
1.一种中文语义库新词的生成方法，其特征在于，所述方法通过设立文本块作为语料库，通过扫描文本块，把相邻出现的字组成集合，如果该集合不在字典中，统计该集合出现次数，如果出现次数超过阈值，则该相邻出现的字认定为新词，加入语义库。2.根据权利要求1所述的一种中文语义库新词的生成方法，其特征在于，所述文本块的构成包括：单字集合、双字集合及由单字集合与双字集合组合构成的集合。3.根据权利要求1或2所述的一种中文语义库新词的生成方法，其特征在于，所述文本块中相邻出现字的统计，根据每个字在文本中的偏移量进行统计，通过建立每个字出现的偏移量向量，然后对每一个偏移量向量进行统计，统计出相邻字结合出现的次数。4.根据权利要求3所述的一种中文语义库新词的生成方法，其特征在于，所述单字集合通过...

【专利技术属性】
技术研发人员：姜明鲁，
申请(专利权)人：山东汇贸电子口岸有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人