基于机器学习的关键词识别方法技术

技术编号：16427955 阅读：59 留言：0更新日期：2017-10-21 22:54

本发明专利技术提供了一种基于机器学习的关键词识别方法，该方法包括：采用散列树词典建立数据检索结构，利用统计方法消除分词过程中出现的二义字段。本发明专利技术提出了一种基于机器学习的关键词识别方法，改进了对分词的二义字段处理的过程，具备更理想的时间复杂度和切分正确率。

Keyword spotting method based on machine learning

The invention provides a keyword recognition method based on machine learning, which comprises the following steps: establishing a data retrieval structure by using a hash tree dictionary, and eliminating the two semantic fields in the segmentation process by using the statistical method. The invention proposes a keyword recognition method based on machine learning, which improves the process of processing two semantic fields of word segmentation, and has better time complexity and segmentation accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的关键词识别方法
本专利技术涉及自然语言处理，特别涉及一种基于机器学习的关键词识别方法。
技术介绍
随着网络技术及Internet的逐渐成熟，传统的单一关键词方式已不能满足当前海量信息的内容获取需求，如何设计好问答系统成为网络搜索需要解决的一个重要技术。从现有的问答系统来看，中文由于其分词的复杂性和语义识别等方面的限制，成形产品技术相对较落后，例如，由于现有分词方法必须首先设定一个匹配词长的初始值，词长过长则算法的时间复杂度提高；词长过短则切分正确率降低。对于二义字段的处理也不能满足实际用户需要。
技术实现思路
为解决上述现有技术所存在的问题，本专利技术提出了一种基于机器学习的关键词识别方法，包括：采用散列树词典建立数据检索结构，利用统计方法消除分词过程中出现的二义字段。优选地，所述散列树词典用于存储字符串，实现字符串的快速查找；所述散列树由首字索引和散列树节点两部分组成，在对被切分语句的一次扫描过程中，沿着树链的根节点逐字匹配。优选地，所述散列树根据中文编码标准的分区数A和每分区字数B，在散列树节点中存储B个数据单元，装载中文分词词典，建立的数据检索结构如下：首字索引，根据字的区位码采用以下公式直接定位：pos＝(c1-176)×B+(c2-161)pos为词在首字索引节点中的位置，c1为词首字第一个字节的无符号数，c2为第二个字节的无符号数。优选地，所述首字索引节点包含如下数据：属性：单字是否匹配为词，是否存在子树，索引字作为首字的最长词的长度；子树大小：存在子树时，首字为索引字的两字词的个数，否则为0；子树指针：存在子树时，指针指向子树，否则...
基于机器学习的关键词识别方法

【技术保护点】
一种基于机器学习的关键词识别方法，其特征在于，包括：采用散列树词典建立数据检索结构，利用统计方法消除分词过程中出现的二义字段。

【技术特征摘要】
1.一种基于机器学习的关键词识别方法，其特征在于，包括：采用散列树词典建立数据检索结构，利用统计方法消除分词过程中出现的二义字段。2.根据权利要求1所述的方法，其特征在于，所述散列树词典用于存储字符串，实现字符串的快速查找；所述散列树由首字索引和散列树节点两部分组成，在对被切分语句的一次扫描过程中，沿着树链的根节点逐字匹配。3.根据权利要求1所述的方法，其特征在于，所述散列树根据中文编码标准的分区数A和每分区字数B，在散列树节点中存储B个数据单元，装载中文分词词典，建立的数据检索结构如下：首字索引，根据字的区位码采用以下公式直接定位：pos＝(c1-176)×B+(c2-161)pos为词在首字索引节点中的位置，c1为词首字第一个字节的无符号数，c2为第二个字节的无符号数。4.根据权利要求2或3所述的方法，其特征在于，所述首字索引节点包含如下数据：属性：单字是否匹配为词，是否存在子树...

【专利技术属性】
技术研发人员：张鹏，
申请(专利权)人：成都布林特信息技术有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人