新词发现方法及装置制造方法及图纸

技术编号：12589516 阅读：82 留言：0更新日期：2015-12-24 14:42

一种新词发现方法及装置，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息熵，去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。所述方法及装置可以提升新词发现的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及智能交互领域，尤其设及一种新词发现方法及装置。
技术介绍
在中文信息处理的众多领域，均需要基于词典完成对应的功能。例如，在智能检索系统或智能对话系统中，通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等，其中每个过程都是通过词语为最小单位进行计算，计算的基础为词语词典，所W词语词典对于整个系统的性能有着很大的影响。社会文化的进步和变迁、经济商业的快速发展，往往带动着语言的变化，而最快速体现语言变化的就是新词的出现。特别是在特定领域内，是否能在新词出现后及时更新词语词典，对词语词典所在的智能对话系统的系统效率有着决定性的影响。新词也就是新发现的单独词，在现有技术中，至少有W下=个来源：客户提供的领域内的新词；通过客户提供的语料发现的新词；运营过程中发现的新词。现有技术中新词发现准确度有待提升。
技术实现思路
本专利技术解决的技术问题是如何提升新词发现的准确度。为解决上述技术问题，本专利技术实施例提供一种新词发现方法，包括：对接收到的语料进行预处理，W得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照词典中包含的单独词对所述语句数据进行分词处理，W得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，W生成候选数据串；对所述候选数据串进行判断处理，W发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息赌，去除各词语与其外侧词语的信息赌在预设范围外的候选数据串。可选的，所述判断处理还包括：计算候选数据串的所述频次相关的概率特征值，所述候选数据...
新词发现方法及装置

【技术保护点】
一种新词发现方法，其特征在于，包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；所述判断处理包括：计算所述候选数据串中各词语与其外侧词语的信息熵，去除各词语与其外侧词语的信息熵在预设范围外的候选数据串。

【技术特征摘要】

【专利技术属性】
技术研发人员：张昊，朱频频，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人