【技术实现步骤摘要】
本专利技术涉及智能交互领域,尤其涉及一种词典更新方法及装置。
技术介绍
在中文信息处理的众多领域,均需要基于词典完成对应的功能。例如,在智能检索 系统或智能对话系统中,通过分词、问题检索、相似度匹配、确定检索结果或智能对话的答 案等,其中每个过程都是通过词语为最小单位进行计算,计算的基础为词语词典,所以词语 词典对于整个系统的性能有着很大的影响。 社会文化的进步和变迀、经济商业的快速发展,往往带动着语言的变化,而最快速 体现语言变化的就是新词的出现。特别是在特定领域内,是否能在新词出现后及时更新词 语词典,对词语词典所在的智能对话系统的系统效率有着决定性的影响。 现有技术中都是采用人工的方式向词典中添加新词。词典中包含单独词,新词也 就是新发现的单独词至少有以下三个来源:客户提供的领域内的新词;通过客户提供的语 料发现的新词;运营过程中发现的新词。 图1是现有技术中一种更新词典的流程图,包括: S11,人工通过阅读发现候选数据串; S12,通过检索判断候选数据串是否包括在已有的词典中; S13,当候选数据串未包括在词典中时,将该候选数据串作为新的单独 ...
【技术保护点】
一种词典更新方法,其特征在于,包括:对接收到的语料进行预处理,以得到文本数据;对所述文本数据进行分行处理,得到语句数据;依照基础词典中包含的单独词对所述语句数据进行分词处理,以得到分词后的词语数据;对相邻的所述分词后的词语数据进行组合处理,以生成候选数据串;对所述候选数据串进行判断处理,以发现新词;若发现新词,则将所述新词添加至所述基础词典,以更新所述基础词典。
【技术特征摘要】
【专利技术属性】
技术研发人员:张昊,朱频频,
申请(专利权)人:上海智臻智能网络科技股份有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。