文本条目搜索方法、装置、系统及存储介质制造方法及图纸

技术编号：24853479 阅读：46 留言：0更新日期：2020-07-10 19:07

本发明专利技术实施例涉及一种文本条目搜索方法、装置、系统及存储介质，该方法包括：获取包含待识别实体的语言文本；利用统计语言模型从预构建的知识库中查询包含待识别实体的文字组集；根据文字组集生成索引向量；从预构建的数据库中查询与待识别实体对应的标识信息，并根据标识信息生成编码向量；根据索引向量、编码向量以及预设定的语言长度，构成知识识别特征；根据知识识别特征，以及从预构建的实体识别模型中提取的与语言文本对应的语言特征，获取意图槽位标签；根据意图槽位标签，搜索与包含待识别实体的语言文本对应的文本条目。通过该方法，提升了搜索与包含待识别实体的语言文本对应的文本条目的速率和准确率，大大提高了用户体验度。

全部详细技术资料下载

【技术实现步骤摘要】
文本条目搜索方法、装置、系统及存储介质
本专利技术实施例涉及计算机
，尤其涉及一种文本条目搜索方法、装置、系统及存储介质。
技术介绍
现阶段，在大规模语料库上预训练的BERT(BidirectionalEncoderRepresentationsfromTransformers)等神经语言表示模型，可以很好地从纯文本中提取出丰富的语义模式，并且进行微调就可以提升下游各种神经语言程序学(Neuro-LinguisticProgramming，简称NLP)任务的性能。然而，不论是哪种神经语言表示模型，对于新实体或者特定领域的实体都无法在短时间内进行识别。比如对19年新出的剧名《都挺好》《宸汐缘》等无法及时准确识别。通用语境下，“都挺好”一般都表示感受或者对某事物人的评价。当突然有部热剧叫“都挺好”，而用户的意图句子是“我想看都挺好”，原有模型未添加相应语料进行训练过，所以无法识别，进而也就无法搜索到与包含这些实体的语言文本对应的文本条目。而将这个实体从训练到更新上线也需要走一段流程，这段流程则需要花费很多时间，大大影响用户

【技术保护点】
1.一种文本条目搜索方法，其特征在于，所述方法包括：/n获取包含待识别实体的语言文本；/n利用统计语言模型从预构建的知识库中查询包含所述待识别实体的文字组集；/n根据所述包含待识别实体的文字组集生成索引向量；/n从所述预构建的数据库中查询与所述待识别实体对应的标识信息，并根据所述标识信息生成编码向量；/n根据所述索引向量、所述编码向量以及预设定的语言长度，构成知识识别特征；/n根据所述知识识别特征，以及从预构建的实体识别模型中提取的与所述语言文本对应的语言特征，获取意图槽位标签；/n根据所述意图槽位标签，搜索与所述包含待识别实体的语言文本对应的文本条目。/n

【技术特征摘要】
1.一种文本条目搜索方法，其特征在于，所述方法包括：
获取包含待识别实体的语言文本；
利用统计语言模型从预构建的知识库中查询包含所述待识别实体的文字组集；
根据所述包含待识别实体的文字组集生成索引向量；
从所述预构建的数据库中查询与所述待识别实体对应的标识信息，并根据所述标识信息生成编码向量；
根据所述索引向量、所述编码向量以及预设定的语言长度，构成知识识别特征；
根据所述知识识别特征，以及从预构建的实体识别模型中提取的与所述语言文本对应的语言特征，获取意图槽位标签；
根据所述意图槽位标签，搜索与所述包含待识别实体的语言文本对应的文本条目。

2.根据权利要求1所述的方法，其特征在于，所述利用统计语言模型从预构建的知识库中查询包含所述待识别实体的文字组集，具体包括：
利用统计语言模型，从预构建的知识库中查询与所述语言文本中每一个字分别对应的文字组集，所述文字组集包括预设数量的文字组合，每一个文字组合包括预设数量的文字和预设数量的符号；
识别每一个字分别对应的文字组集，当确定所述语言文本中第i个字对应的第i文字组集中，存在与所述待识别实体相匹配的文字组合时，确定所述第i文字组集为包含所述待识别实体的文字组集，其中，i为大于或者等于1，小于或者等于所述语言文本中文字总数的数值，i依次递进取值，初始取值为1。

3.根据权利要求2所述的方法，其特征在于，文字组集中的所有文字组合按照预设形式进行排序，所述生成与包含所述待识别实体的文字组集对应的索引向量，具体包括：
将包含所述待识别实体的文字组集中，与所述待识别实体相匹配的文字组合对应的索引向量元素置为1，未与所述待识别实体相匹配的文字组合对应的索引向量元素置为0，其中，所述索引向量中各元素所在位置与所述文字组集中对应的文字组合所在位置相同。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述知识识别特征，以及从预构建的实体识别模型中提取的与所述语言文本对应的语言特征，获取意图槽位标签，具体包括：
将所述知识识别特征输入至所述预构建的实体识别模型中，与所述语言特征进行融合后进行槽位分类，获取意图槽位标签。

5.一种文本条目搜索装置，其特征在于，所述装置包括：
获取单元，用于获取包含待识别实体的语言文本；
查询单元，用于利用统计语言模型从预构建...

【专利技术属性】
技术研发人员：丁建平，李成，
申请(专利权)人：北京奇艺世纪科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人