【技术实现步骤摘要】
构建实体词库的方法、装置以及存储介质
[0001]本申请涉及信息
,特别是涉及一种构建实体词库的方法、装置以及存储介质。
技术介绍
[0002]在西方的语言体系中,单词与单词之间是有明显的分隔符号的。自然语言处理对于英文的分词处理,只需要简单的操作即可将一个英文句子准确的划分为若干个单词而不需要考虑这个单词是否为新词。与英文不同的是,中文用于表达意思的最小语言单位为词,词与词之间没有明显的分隔符号,因此自然语言处理中对中文文本的首要处理操作为分词。自然语言处理过程要求计算机能准确提炼出句子所表达的含义,处理过程涉及句法、语义成分、语义结构和语境等方面。这一切的基础都是基于将一个句子准确地切分为多个词语的组合。在更深—层自然语言处理过程中,譬如个性化推荐、情感分析、主题分类、舆情分析等,都需要准确率较高的分词效果作为前提保证。而新词的出现往往会对现有分词软件造成干扰,导致分词效果不理想,进而影响了后续对中文文本的处理。此外,当模型的记忆和拟合能力足够强的时候,我们完全可以不用分词的,直接基于字的模型就可以做,比如基于字的 ...
【技术保护点】
【技术特征摘要】
1.一种构建实体词库的方法,其特征在于,包括:利用预设的第一筛选规则,对文本数据集进行筛选处理,确定与所述文本数据集对应的候选新词集合,其中所述候选新词集合由多个候选新词组成,所述文本数据集中的文本数据为语音转文本处理后得到的文本数据,并且所述候选新词为实体词;利用预设的第二筛选规则,对所述候选新词集合进行筛选处理,确定与所述候选新词集合对应的新词集合,其中所述新词集合由所述多个候选新词中的部分新词组成,其中所述第二筛选规则的筛选精度大于所述第一筛选规则;以及将所述新词集合中的所有新词录入预设的实体词库。2.根据权利要求1所述的方法,其特征在于,利用预设的第二筛选规则,对所述候选新词集合进行筛选,确定与所述候选新词集合对应的新词集合,其中所述新词集合由所述多个候选新词中的部分新词组成的操作,包括:对所述候选新词集合中的所有候选新词进行置信度筛选处理,从所述所有候选新词中确定达到预设的置信度阈值的多个第一候选新词;对所述候选新词集合中的所有候选新词进行词频筛选处理,从所述所有候选新词中确定达到预设的词频阈值的多个第二候选新词;对所述候选新词集合中的所有候选新词进行距离筛选处理,从所述所有候选新词中确定达到预设的距离阈值的多个第三候选新词;以及确定所述多个第一候选新词、所述多个第二候选新词以及多个第三候选新词中共同包括的候选新词,从而得到由所确定的候选新词组成的所述新词集合。3.根据权利要求2所述的方法,其特征在于,对所述候选新词集合中的所有候选新词进行置信度筛选处理,从所述所有候选新词中确定达到预设的置信度阈值的多个第一候选新词的操作,包括:根据所述候选新词集合中的所有候选新词的实体识别结果,分别判断所述候选新词集合中的各个候选新词的分类置信度是否达到所述预设的置信度阈值,生成第一判断结果,其中所述实体识别结果包括各个候选新词的分类置信度,所述各个候选新词的分类置信度为在利用所述第一筛选规则,对所述文本数据集进行筛选处理过程中,使用预设的实体识别模型对所述文本数据集中的各个文本数据进行实体识别而得到的数据;以及根据所述第一判断结果,从所述所有候选新词中确定达到所述预设的置信度阈值的多个第一候选新词。4.根据权利要求2所述的方法,其特征在于,对所述候选新词集合中的所有候选新词进行词频筛选处理,从所述所有候选新词中确定达到预设的词频阈值的多个第二候选新词的操作,包括:根据所述候选新词集合中的所有候选新词的实体识别结果,分别判断所述候选新词集合中的各个候选新词的词频是否达到与所述候选新词的类别对应的词频阈值,生成第二判断结果,其中所述实体识别结果包括各个候选新词的分类类别,所述各个候选新词的分类类别为在利用所述第一筛选规则,对所述文本数据集进行筛选处理过程中,使用预设的实体识别模型对所述文本数据集中的各个文本数据进行实体识别而得到的数据;以...
【专利技术属性】
技术研发人员:李长林,蒋宁,王洪斌,吴海英,
申请(专利权)人:北京中关村科金技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。