一种地名新词的发现方法技术

技术编号：19139960 阅读：53 留言：0更新日期：2018-10-13 08:38

本发明专利技术涉及一种地名新词的发现方法，包括以下步骤：S1：构建原始文档集合：利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取，并利用网页解析软件对爬取的文本进行解析，形成原始的文档集合；S2：预处理原始文档：对步骤S1中构建的原始文档集合中的文档进行预处理；S3：分词处理：采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理，设计分词词典；S4：提取地名新词：利用步骤S3中生成的分词词典，对分词词典进行分类，并将词典进行分割，得到有益于处理的长度，然后提取出地名新词。利用互联网上容易获取的网页资源进行地名新词的发现，提高了发现新词汇的机会且有效提高新词发现的精度与准确率。

A method for finding new words in place names

The invention relates to a method for discovering new terminology of place names, which comprises the following steps: S1: constructing the original document set: crawling the web page text from the Internet by using a web crawler program or RSS method, and parsing the crawled text by using a web page parsing software to form the original document set; S2: preprocessing the original document set; Documents: Preprocessing the documents in the original set of documents constructed in 65 Classify and segment the dictionary to get useful length for processing, and then extract new geographical names. Using the web resources which are easily available on the Internet to discover new words of place names can improve the chance of discovering new words and effectively improve the accuracy and accuracy of new words discovery.

全部详细技术资料下载

【技术实现步骤摘要】
一种地名新词的发现方法
本专利技术涉及信息技术抽取领域，特别是涉及一种地名新词的发现方法。
技术介绍
随着网络技术和信息技术的飞速发展，产生了大量的信息，据调查显示，人类社会80％以上的信息资源与地理空间相关，这些信息具有更新速度快、数据量大、来源广泛、数据结构多样等特征，但也蕴藏着丰富的地名信息。目前我国正在进行地名信息化建设，地名信息更新维护周期长、成本高、效率低，因此，从大量信息中对地名信息进行抽取获得地名新词显得尤为重要。目前国内采用的新词发现技术主要有以下两种：(一)基于规则的新词发现：通过使用一个预设的分词词典，利用分词词典与一定的组词规则相结合来识别新词，其主要思想是根据语言学的原理和知识来制定一些共性和个性规则，用这些规则来自动处理分析中出现的问题。其优点是发现新词的准确率较高，然而由于制定的规则只是针对某一个领域，灵活性较差，同时由于规则的获取难度加大，规则的全面制定既耗时又耗力，新词的产生速度越来越快，基于规则的方法很难满足需求。(二)基于统计的新词发现：通过观察语料中的特征信息，寻找描述新词特征的统计量，确定候选字符串，计算其内部聚合度和自由度，在此基础上确定阈值，寻找聚合度和自由度最高的字符串组合。其优点是实现方法简单，可以应用于很多领域，对于查找较短的短语比较适合，然后这种方法需要大量的训练语料，忽略了词语内部的结构和词与词之间的构词能力等特性，新词发现的质量不是很高。综上所述，为了有效提高新词发现的准确度和精度，有必要开发研究一种将规则和统计相结合的地名新词的发现方法。
技术实现思路
本专利技术要解决的技术问题是，提供一种地名新词发...

【技术保护点】
1.一种地名新词的发现方法，其特征在于，包括以下步骤：S1：构建原始文档集合：利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取，并利用网页解析软件对爬取的文本进行解析，形成原始的文档集合；S2：预处理原始文档：对步骤S1中构建的原始文档集合中的文档进行预处理；S3：分词处理：采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理，设计分词词典；S4：提取地名新词：利用步骤S3中生成的分词词典，对分词词典进行分类，并将词典进行分割，得到有益于处理的长度，然后提取出地名新词。

【技术特征摘要】
1.一种地名新词的发现方法，其特征在于，包括以下步骤：S1：构建原始文档集合：利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取，并利用网页解析软件对爬取的文本进行解析，形成原始的文档集合；S2：预处理原始文档：对步骤S1中构建的原始文档集合中的文档进行预处理；S3：分词处理：采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理，设计分词词典；S4：提取地名新词：利用步骤S3中生成的分词词典，对分词词典进行分类，并将词典进行分割，得到有益于处理的长度，然后提取出地名新词。2.根据权利要求1所述的地名新词的发现方法，其特征在于，所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤：S21：去除网页标签：将找到的所有网页标签及其中的内容从文本中删除；S22：替换标识符：根据步骤S21中处理完成的文本，将文本中的标识符替换成相应的标识符；S23：切分文本：利用中文文本中的标点符号或回车换行符号作为切分文本的标志，将步骤S22中处理完成的文本进行切分；S24：过滤非中文字符：对原始文档中非中文字符全部过滤掉，并以非中文字符所在的位置为界，将文档中的字符划分为字符串的组合，每个字符串占文本文档的每一行，并删除原始文档的内容，将划分结果保存在原始文档中。3.根据权利要求2所述的地名新词的发现方法，其特征在于，所述步骤S3的具体过程具体包括以下步骤：S31：首先利用逆向最大匹配法进行字符串的匹配，将匹配后的字符串用N-gram概率统计方法进行统计以发现新词；S32：在进行中文分词前，先预设一个全面的专业词典，将词典的格式设计为最简单的数列的形式；然后在利用统计语言模型进行信息提取的过程中，设置一个字符串同现频度表，存放每个字符串及其前面一个字符串的同现频度；S33：设计一个词典用于存储分词词典。4.根据权利要求2所述的地名新词的发现方法，其特征在于，所述步骤S4包括预处理阶段和地名新词抽取阶段；所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤；所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤。5.根据权利要求4所述的地名新词的发现方法，其特征在...

【专利技术属性】
技术研发人员：李俊，孙海峰，徐忠建，朱必亮，冯建亮，
申请(专利权)人：江苏速度信息科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人