计算机可读存储介质及计算机系统技术方案

技术编号：19593406 阅读：37 留言：0更新日期：2018-11-28 04:53

本发明专利技术公开了一种计算机可读存储介质及计算机系统。所述介质上存储有程序，该程序被执行时实现词典更新方法，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；若发现新词，则将所述新词添加至所述基础词典，以更新所述基础词典。本发明专利技术可以降低词典维护成本，提升词典更新效率。

全部详细技术资料下载

【技术实现步骤摘要】
计算机可读存储介质及计算机系统本申请是申请日为2015年10月27日，申请号为201510706335.X，专利技术创造名称为“词典更新方法及装置”的分案申请。
本专利技术涉及智能交互领域，尤其涉及一种计算机可读存储介质及计算机系统。
技术介绍
在中文信息处理的众多领域，均需要基于词典完成对应的功能。例如，在智能检索系统或智能对话系统中，通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答案等，其中每个过程都是通过词语为最小单位进行计算，计算的基础为词语词典，所以词语词典对于整个系统的性能有着很大的影响。社会文化的进步和变迁、经济商业的快速发展，往往带动着语言的变化，而最快速体现语言变化的就是新词的出现。特别是在特定领域内，是否能在新词出现后及时更新词语词典，对词语词典所在的智能对话系统的系统效率有着决定性的影响。现有技术中都是采用人工的方式向词典中添加新词。词典中包含单独词，新词也就是新发现的单独词至少有以下三个来源：客户提供的领域内的新词；通过客户提供的语料发现的新词；运营过程中发现的新词。图1是现有技术中一种更新词典的流程图，包括：S11，人工通过阅读发现候选数据串；S12，通过检索判断候选数据串是否包括在已有的词典中；S13，当候选数据串未包括在词典中时，将该候选数据串作为新的单独词添加到已有词典中从而形成新的词典。但是上述人工的工作方式导致词典的维护成本高，效率低，且容易发生遗漏，最终使得新词不能及时添加到词典中。
技术实现思路
本专利技术解决的技术问题是如何降低词典维护成本，提升词典更新效率。为解决上述技术问题，本专利技术实施例提供一种计算机...

【技术保护点】
1.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被执行时实现词典更新方法，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；若发现新词，则将所述新词添加至所述基础词典，以更新所述基础词典。

【技术特征摘要】
1.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被执行时实现词典更新方法，所述方法包括：对接收到的语料进行预处理，以得到文本数据；对所述文本数据进行分行处理，得到语句数据；依照基础词典中包含的单独词对所述语句数据进行分词处理，以得到分词后的词语数据；对相邻的所述分词后的词语数据进行组合处理，以生成候选数据串；对所述候选数据串进行判断处理，以发现新词；若发现新词，则将所述新词添加至所述基础词典，以更新所述基础词典。2.根据权利要求1所述的计算机可读存储介质，其特征在于，所述生成候选数据串，包括：利用Bigram模型将同一行的语句数据中相邻词语作为候选数据串。3.根据权利要求1或2所述的计算机可读存储介质，其特征在于，所述方法还包括：依照更新后的基础词典重新对所述语句数据进行分词处理、组合处理和判断处理，并利用每次发现的新词不断更新所述基础词典。4.根据权利要求1所述的计算机可读存储介质，其特征在于，所述对所述候选数据串进行判断处理，以发现新词包括：内部判断和/或外部判断；所述内部判断包括：计算候选数据串成为新词的概率特征值，所述候选数据串成为新词的概率特征值在预设范围内时，该候选数据串为新词；所述外部判断包括：计算所述候选数据串中各词语与其外侧词语构成新词的概率特征值，去除各词语与其外侧词语构成新词的概率特征值在预设范围外的候选数据串，剩余的候选数据串为新词。5.根据权利要求4所述的计算机可读存储介质，其特征在于，所述计算候选数据串成为新词的概率特征值包括以下至少一种：计算候选数据串出现的频次、频率或根据所述候选数据串出现的频次和频率计算得到的数值；计算候选数据串中各个词语数据间的互信息；计算候选数据串的边界词语数据与内侧词语数据的信息熵。6.根据权利要求5所述的计算机可读存储介质，其特征在于，当需计算的所述候选数据串成为新词的...

【专利技术属性】
技术研发人员：朱频频，
申请(专利权)人：上海智臻智能网络科技股份有限公司，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人