一种基于有限状态自动机的决策搜索引擎实现方法技术

技术编号:21914017 阅读:120 留言:0更新日期:2019-08-21 12:26
本发明专利技术提供一种基于有限状态自动机的决策搜索引擎实现方法,包括:步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;步骤S3:建立基于词典的情感自动机;步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。本发明专利技术的技术方案能够在提供用户相关的检索结果的同时对检索结果进行数据分析和处理,提供给用户对于某个实体的评判结果或情绪状态,以及情感强烈程度的定量分析,以辅助用户对所搜索的问题进行决策。

An Implementation Method of Decision Search Engine Based on Finite State Automata

【技术实现步骤摘要】
一种基于有限状态自动机的决策搜索引擎实现方法
本专利技术涉及搜索引擎
,具体而言,尤其涉及一种基于有限状态自动机的决策搜索引擎实现方法。
技术介绍
基于决策树分类算法实现搜索引擎优化技术(CN201710046903)根据企业业务确定核心关键词,搜索关键词对应的数据项,处理速度更快、具有很好利用价值、可以快速提升关键词排名、从而达到理想的网站优化目标。信息推荐方法及装置、搜索引擎系统(CN201811347764)接收用户输入的搜索关键词,确定与所述搜索关键词关联的推荐媒体、以及与所述推荐媒体关联的推荐信息;所述推荐媒体为非广告主题媒体;将所述推荐媒体作为搜索结果展示给用户;在所述推荐媒体被触发时,展现所述推荐信息,提升信息推荐效果。一种基于用户偏好的智能搜索方法及系统(CN201711073916)对可能影响用户购买商品或服务的重要因素进行细分,为这些重要因素制定评分规则并进行量化打分,搜索引擎建立各类商品和服务的重要因素数据库。当用户输入某商品名称的关键词,搜索引擎就会给出该商品的重要因素列表,用户根据自己的偏好选择若干个重要因素并设定权值,搜索引擎就会根据评分规则和用户设定的权值进行多因素综合评分并按总分排序将结果反馈给用户。一种基于互联网信息进行销售线索挖掘的方法(CN201811447618)通过深入研究产品的目标客户特征,对目标客户进行多维度的分析,找到目标客户可能出现的地方和场景;通过多种渠道获取线索,不依赖某一种线索来源,多做尝试,提高了销售线索的挖掘途径以及线索数量、质量。根据决策搜索引擎相关的公开的专利可见,搜索引擎已经对网络的发展和成功产生了巨大的影响,提供了方便访问大量信息的途径,然而,许多现有系统和方法都关注于关于提供信息源列表(例如,到文档、网页的链接)与用户的查询相关,而不考虑用户的最终目标——做出决定。
技术实现思路
根据上述提出的技术问题,而提供一种基于有限状态自动机的决策搜索引擎实现方法。本专利技术提出的决策搜索引擎能够在提供用户相关的检索结果的同时,对检索结果进行数据分析和处理,提供给用户对于某个实体(包括产品、服务、个人、组织机构、事件、议题)的评判结果(支持或反对、喜欢或厌恶等)或情绪状态(高兴或悲伤等),以及情感强烈程度的定量分析,以辅助用户对所搜索的问题进行决策。本专利技术采用的技术手段如下:一种基于有限状态自动机的决策搜索引擎实现方法,包括:步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;步骤S3:建立基于词典的情感自动机;步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。进一步地,所述步骤S2中提取的文档集中的情感短语包括:正面评价词、负面评价词、正面情感词、负面情感词以及程度副词,所述情感短语模式为由正面评价词、负面评价词、正面情感词、负面情感词以及程度副词组成的三类短语模式,即评价/情感倾向词、程度副词+评价/情感倾向词语或评价/情感倾向词语+程度副词。进一步地,所述步骤S3中建立的情感自动机表示为5元组,具体如下:(1)状态的非空有穷集合Q;(2)知网词典中的词语∑,输入文档的短语模式都是∑上的字符串,∑={Y,C},其中,程度级别词语C={E,V,M,S,I,O},Y={B,D},正面词语集合B={P,J},负面词语集合D={N,K};其中,正面评价词语集合P={p1,p2,…,p3730},共3730个词语;负面评价词语集合N={n1,n2,…,n3116},共3116个词语;正面情感词语集合J={j1,j2,…,j836},共836个词语;负面情感词语集合K={k1,k2,…,k1254},共1254个词语;所述知网词典中的词语∑还包括:“极其、最”程度级别词语集合E={e1,e2,…,e69},共69个词语;“很”程度级别词语集合V={v1,v2,…,v42},共42个词语;“较”程度级别词语集合M={m1,m2,…,m37},共37个词语;“稍”程度级别词语集合S={s1,s2,…,s29},共29个词语;“欠”程度级别词语集合I={i1,i2,…,i12},共12个词语;“超”程度级别词语集合O={o1,o2,…,o30},共30个词语;(3)状态转移函数δ,δ为Q×∑→Q;(4)开始状态S0,所述情感自动机在还未处理输入的时候的状态;(5)终止状态集合F,接受的语言模式的状态集合;F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds}其中,所述情感自动机接受的语言模式为Y、CY和YC,即评价/情感倾向词、程度副词+评价/情感倾向词语和评价/情感倾向词语+程度副词;终止状态Sb,Sd对应接受的语言为Y,即评价/情感倾向词;终止状态Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd对应接受的语言为CY,即程度副词+评价/情感倾向词语;终止状态Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds对应接受的语言为YC,即程度评价/情感倾向词语+副词。进一步地,所述步骤S4的具体过程如下:所述情感自动机接受的文档提取短语模式共有18个终止状态,每个终止状态的情感函数值对应接受语言的情感得分,对词典中的正、负倾向性词语分别赋值+1和-1,对程度副词分别赋值为4,3,2,0.5,0.5,2,赋值函数如下:情感强度赋值函数:f(e∈E)=4;f(v∈V)=3;f(m∈M)=2;f(s∈S)=0.5;f(i∈I)=0.5;f(o∈O)=3;正向情感赋值函数:f(p∈P)=1;f(j∈J)=1;负向情感赋值函数:f(n∈N)=-1;f(k∈K)=-1;由以上赋值函数计算获得终止状态F,F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds},则对应的情感强度计算结果分别为:r(Sb)=f(b∈B)=1;r(Sd)=f(d∈B)=-1;r(Seb)=r(Sbe)=f(e∈E)×f(b∈B)=f(b∈B)×f(e∈E)=4×1=4;r(Sed)=r(Sde)=f(e∈E)×f(d∈D)=f(d∈D)×f(e∈E)=4×(-1)=-4;r(Svb)=r(Sbv)=f(v∈V,o∈O)×f(b∈B)=f(b∈B)×f(v∈V,o∈O)=3×1=3;r(Sed)=r(Sde)=f(v∈V,o∈O)×f(d∈D)=f(d∈D)×f(v∈V,o∈O)=4×(-1)=-3;r(Smb)=r(Sbm)=f(m∈M,)×f(b∈B)=f(b∈B)×f(m∈M)=2×1=2;r(Smd)=r(Sdm)=f(m∈M)×f(d∈D)=f(d∈D)×f(m∈M)=2×(-1)=-2;r(Ssb)=r(Sbs)=f(s∈S,i∈I)×f(b∈D)=f(b∈D)×f(s∈S,i∈I)=0.5×1=0.5;r(Ssd)=r(Sds)=f(s∈S,i∈I)×f(d∈D)=f(d∈D)×f(s∈本文档来自技高网
...

【技术保护点】
1.一种基于有限状态自动机的决策搜索引擎实现方法,其特征在于,包括:步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;步骤S3:建立基于词典的情感自动机;步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。

【技术特征摘要】
1.一种基于有限状态自动机的决策搜索引擎实现方法,其特征在于,包括:步骤S1:根据用户所搜索的问题,通过搜索引擎获得相关文档,组成文档集;步骤S2:基于词典的文档情感短语模式,提取文档集中的情感短语;步骤S3:建立基于词典的情感自动机;步骤S4:计算基于情感自动机的文档情感短语模式的情感强度,得出每一个文档情感强度分析结果;步骤S5:基于文档情感强度分析结果,获得用户所搜索问题的辅助决策结果。2.根据权利要求1所述的基于有限状态自动机的决策搜索引擎实现方法,其特征在于,所述步骤S2中提取的文档集中的情感短语包括:正面评价词、负面评价词、正面情感词、负面情感词以及程度副词,所述情感短语模式为由正面评价词、负面评价词、正面情感词、负面情感词以及程度副词组成的三类短语模式,即评价/情感倾向词、程度副词+评价/情感倾向词语或评价/情感倾向词语+程度副词。3.根据权利要求1所述的基于有限状态自动机的决策搜索引擎实现方法,其特征在于,所述步骤S3中建立的情感自动机表示为5元组,具体如下:(1)状态的非空有穷集合Q;(2)知网词典中的词语∑,输入文档的短语模式都是∑上的字符串,∑={Y,C},其中,程度级别词语C={E,V,M,S,I,O},Y={B,D},正面词语集合B={P,J},负面词语集合D={N,K};其中,正面评价词语集合P={p1,p2,…,p3730},共3730个词语;负面评价词语集合N={n1,n2,…,n3116},共3116个词语;正面情感词语集合J={j1,j2,…,j836},共836个词语;负面情感词语集合K={k1,k2,…,k1254},共1254个词语;所述知网词典中的词语∑还包括:“极其、最”程度级别词语集合E={e1,e2,…,e69},共69个词语;“很”程度级别词语集合V={v1,v2,…,v42},共42个词语;“较”程度级别词语集合M={m1,m2,…,m37},共37个词语;“稍”程度级别词语集合S={s1,s2,…,s29},共29个词语;“欠”程度级别词语集合I={i1,i2,…,i12},共12个词语;“超”程度级别词语集合O={o1,o2,…,o30},共30个词语;(3)状态转移函数δ,δ为Q×∑→Q;(4)开始状态S0,所述情感自动机在还未处理输入的时候的状态;(5)终止状态集合F,接受的语言模式的状态集合;F={Sb,Sd,Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd,Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds}其中,所述情感自动机接受的语言模式为Y、CY和YC,即评价/情感倾向词、程度副词+评价/情感倾向词语和评价/情感倾向词语+程度副词;终止状态Sb,Sd对应接受的语言为Y,即评价/情感倾向词;终止状态Seb,Sed,Svb,Svd,Smb,Smd,Ssb,Ssd对应接受的语言为CY,即程度副词+评价/情感倾向词语;终止状态Sbe,Sbv,Sbm,Sbs,Sde,Sdv,Sdm,Sds对应接...

【专利技术属性】
技术研发人员:张恒宇梁冰
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1