一种基于用户行为分析的动态词库更新方法技术

技术编号:24091368 阅读:39 留言:0更新日期:2020-05-09 08:13
本发明专利技术提供的基于用户行为分析的动态词库更新方法,具体包括如下步骤:输入待查询的中文词条,分词器分词处理,用户行为分析器分析和动态更新扩展词库。其中,行为分析处理器通过对用户的行为进行分析处理,并以用户行为为指标计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略,能够充分发挥用户的主动性,满足用户的需求;经过循环往复迭代,系统不断将高于设计分值的分词添加到扩展词库中,实现了词库的动态更新、实时性高;系统自动累积增加更多的专业词汇存储在扩展词库中,词库数量和内容得到不断更新,能够满足各类专业领域快速查询的需要,专业词汇查询准确,词库更新效率高。

A dynamic lexicon updating method based on user behavior analysis

【技术实现步骤摘要】
一种基于用户行为分析的动态词库更新方法
本专利技术涉及一种基于用户行为分析的动态词库更新方法,属于数据处理

技术介绍
人工智能在计算机模式识别和信息提取等场景中的应用越来越广泛,应用的广度和深度也在不断扩大。自然语言处理技术可以利用计算机软件,从语义有效性和一致性等方面便捷地模拟和解析现实世界人、物、事件、规则在应用模式中的关联。将人工智能技术和自然语言处理技术结合,应用于特定的专业领域的数据处理,如实时查询服务、分词更新与协同服务、实时分析统计服务等,将会在专业领域产生特定的新规则,促进专业领域的应用研究和工程实践的进一步变革。特别是在专业应用领域包含大量的专业词汇的应用场景下,现有的中文分词处理与查询应用环境中,并没有一种有效的针对专业应用的扩展词库及其动态更新方法,更多地依赖常规的中文分词工具生成基础词库或普通词库进行查询处理,不能适应各类专业领域快速准确查询的需要,容易发生专业词汇找不准、准确度不高、性能较差等问题。
技术实现思路
本专利技术的目的在于解决现有技术的不足,并提供一种专业词汇查询准确,词库更新效率高的基于用户行为分析的动态词库更新方法。实现本专利技术目的所采用的技术方案是:该基于用户行为分析的动态词库更新方法,其特征在于具体包括以下步骤:(1)输入待查询的专业应用领域的中文词条;(2)分词器分词处理,对输入的中文词条进行分词处理,即加载相关领域内的基础词库以及扩展词库中的词语,以这些词语为语料,对输入的中文词条进行分词处理,初步形成符合中文检索习惯和语义规范的待检索分词结果集;(3)用户行为分析器分析,搜索引擎按照基础词库与扩展词库进行分析,生成文档索引库,根据分词结果与索引库,快速检索出文档,并将要输出的结果按照关联度从大到小进行排序,并以分页的方式返回给用户,用户得到搜索返回结果后,对搜索返回结果进行操作处理;将用户对搜索结果的操作处理行为作为维度数据发送给行为分析处理器,行为分析处理器以用户行为的维度数据为指标按照分词检索满意度分值计算公式,计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略;分词检索满意度分值计算公式表示如下:式中:f为分词检索满意度分值,t为用户查看查询返回结果中每个文档的时间,n为用户点击查看文档总数,p为每个查看文档在整个查询返回结果中的排列位置,m为用户分页查询次数,q为每个分页上查看的文档个数;(4)动态更新扩展词库,当步骤3计算所得的分词检索满意度分值高于设计的分值时,系统将当前分词在基础词库以及扩展词库中进行查找匹配,当在基础词库以及扩展词库中未查找匹配到该分词时,则将该分词添加到扩展词库中;当步骤3计算所得的分词检索满意度分值低于设计的分值时,说明分词查询结果与用户查询需求期望之间的相差比较小,当前分词检索满意度分值与期望分值之间越接近,查询结果越符合用户的查询需求。步骤(1)所述的中文词条是专业词汇、句式完整的语句或整个段落中的一种或几种。步骤(2)所述的分词结果集是指根据输入查询的中文词条的长度、词频、词性和词的位置,并去掉关系不大的语气词和标点符号后,形成的一个中文词条分词后的结果集合。步骤(3)所述的分页的方式是在分页查询的存储过程将清单进行分页,并将与查询相关的文档清单通过单页方式返回,每个分页上文档的个数可以通过自定义方式确定。步骤(3)所述的用户对搜索返回结果的操作处理是指用户查看返回结果中每个文档的时间、用户查看文档总数、每个查看文档在整个查询返回结果中的排列位置、用户分页查询次数和每个分页上查看的文档个数。由上述技术方案可知,本专利技术提供的基于用户行为分析的动态词库更新方法,具体包括如下步骤:输入待查询的中文词条,分词器分词处理,用户行为分析器分析和动态更新扩展词库;其中,行为分析处理器对用户行为指标按照分词检索满意度分值计算公式计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略,能够充分发挥用户的主动性,满足用户的需求;当计算所得的分词检索满意度分值高于设计的分值时,系统将当前分词在基础词库以及扩展词库中进行查找匹配,如果在基础词库以及扩展词库中未查找匹配到该分词,则将该分词添加到扩展词库中,经过循环往复迭代,系统不断将高于设计分值的分词添加到扩展词库中,实现了词库的动态更新、实时性高,保证用户下次能够检索出满意的文档;系统自动累积增加更多的专业词汇存储在扩展词库中,词库数量和内容得到不断更新,能够满足各类专业领域快速查询的需要,专业词汇查询准确,词库更新效率高。综上,本专利技术技术方案所具有的有益效果在于:(1)根据用户行为为指标计算出分词检索满意度分值,确定词库的更新策略,能够充分发挥用户的主动性,满足用户的需求。(2)经过循环往复迭代,系统不断将高于设计分值的分词添加到扩展词库中,实现了词库的动态更新、实时性高。(3)系统自动累积增加更多的专业词汇存储在扩展词库中,词库数量和内容得到不断更新,能够满足各类专业领域快速查询的需要,专业词汇查询准确,词库更新效率高。附图说明图1为本专利技术提供的基于用户行为分析的动态词库更新方法的流程图;图2为本专利技术提供的基于用户行为的分值曲线图;图3为本专利技术提供的基于用户行为分析的分词添加流程图。具体实施方式结合附图和实施例对本专利技术作进一步说明。图1为本专利技术实施例提供的基于用户行为分析的动态词库更新方法的流程图。参照图1,该基于用户行为分析的动态词库更新方法,具体包括以下步骤:步骤1,输入待查询的中文词条,即用户输入待查询的专业应用领域的中文词条。专业应用领域是指信息查询覆盖的各个行业应用领域,如国土、林业、气象、石油或公安等。中文词条是专业词汇、句式完整的语句或整个段落中的一种或几种。步骤2,分词器分词处理,采用中文分词工具对输入的中文词条进行分词处理,即加载相关领域内的基础词库以及扩展词库中的词语,以这些词语为语料,对输入的中文词条进行分词处理,初步形成符合中文检索习惯和语义规范的待检索分词结果集。所述中文分词是指将一个汉字序列词语、句子或段落切分成一个一个单独的词的操作,所述分词操作就是将连续的句子按照一定的规范重新组合成词序列的过程。所述中文分词工具是指当前云环境中适用于中文检索环境下的分词算法模型及软件,如盘古分词、IKAnalyzer、jieba、SnowNLP、THULAC、NLPIR等。所述基础词库是分词软件默认提供的分词词库,扩展词库是指与专业相关的词库,基础词库及扩展词库中的词语,可以作为分词元素,去匹配和剖分需要查询的段落或语句。所述分词结果集是指对步骤1中输入的中文词条内容进行分词后的结果,它根据中文词条的长度、词频、词性、词的位置等基础属性进行处理,同时去掉关系不大的语气词和标点符号等句子元素,形成一个集合。分词结果的质量和效率与输入的专业词汇的复杂度有关。复杂度高的分词结果集可能需要人工干预处本文档来自技高网...

【技术保护点】
1.一种基于用户行为分析的动态词库更新方法,其特征在于具体包括以下步骤:/n(1)输入待查询的专业应用领域的中文词条;/n(2)分词器分词处理,对输入的中文词条进行分词处理,即加载相关领域内的基础词库以及扩展词库中的词语,以这些词语为语料,对输入的中文词条进行分词处理,初步形成符合中文检索习惯和语义规范的待检索分词结果集;/n(3)用户行为分析器分析,搜索引擎按照基础词库与扩展词库进行分析,生成文档索引库,根据分词结果与索引库,快速检索出文档,并将要输出的结果按照关联度从大到小进行排序,并以分页的方式返回给用户,用户得到搜索返回结果后,对搜索返回结果进行操作处理;将用户对搜索结果的操作处理行为作为维度数据发送给行为分析处理器,行为分析处理器以用户行为的维度数据为指标按照分词检索满意度分值计算公式,计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略;/n分词检索满意度分值计算公式表示如下:/n

【技术特征摘要】
1.一种基于用户行为分析的动态词库更新方法,其特征在于具体包括以下步骤:
(1)输入待查询的专业应用领域的中文词条;
(2)分词器分词处理,对输入的中文词条进行分词处理,即加载相关领域内的基础词库以及扩展词库中的词语,以这些词语为语料,对输入的中文词条进行分词处理,初步形成符合中文检索习惯和语义规范的待检索分词结果集;
(3)用户行为分析器分析,搜索引擎按照基础词库与扩展词库进行分析,生成文档索引库,根据分词结果与索引库,快速检索出文档,并将要输出的结果按照关联度从大到小进行排序,并以分页的方式返回给用户,用户得到搜索返回结果后,对搜索返回结果进行操作处理;将用户对搜索结果的操作处理行为作为维度数据发送给行为分析处理器,行为分析处理器以用户行为的维度数据为指标按照分词检索满意度分值计算公式,计算出当前分词检索满意度分值,然后根据该分词检索满意度分值确定词库的更新策略;
分词检索满意度分值计算公式表示如下:



式中:f为分词检索满意度分值,t为用户查看查询返回结果中每个文档的时间,n为用户点击查看文档总数,p为每个查看文档在整个查询返回结果中的排列位置,m为用户分页查询次数,q为每个分页上查看的文档个数;
(4)动态更新扩展词库,当步骤3计算所得的分词检索满意度分值高于设计的分值时,系统将当前分词在基础...

【专利技术属性】
技术研发人员:郑坤方发林答海玲易云蕾
申请(专利权)人:苏州视锐信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1