马尔科夫模型搜索引擎初探
马尔科夫假设的简化模型,在搜索引擎初步里还挺有用的。你要是碰到句子太长,模型吃不消,就可以像文中那样,用P(词|前一两个词)
来近似。不是高精尖算法,但挺实用,尤其是刚搭建搜索框架的时候,省事儿多了。
马尔科夫模型的核心逻辑,说白了就是“当前只看前面几个词”,不用整个上下文。这样,训练快,推理也快,不容易出错。你要真跑P(lizard|the,other,day,...)
这种全长依赖,分分钟爆内存,没必要。
还有个小细节,文中提到两种近似方式:P(lizard|a)
和P(lizard|saw,a)
,分别对应一阶和二阶马尔科夫。要快就上一阶,要准就上二阶。自己看情况取舍,别死抠公式。
如果你对搜索引擎感兴趣,文章后面附的几个链接也还不错。像这个概率的链规则-搜索引擎初步,讲得挺通俗。还有像LAMP_HMM 隐马尔科夫模型,配合看更有感觉。
建议你用的时候搭配n-gram
模型一起试,效果更。写简单分词器、自动补全、甚至命名实体识别都能用上。嗯,简单粗暴,但还蛮好用的。
如果你刚入门搜索引擎,建议先试试这个方法,别一开始就上 BERT,先跑通再说。
2.31MB
文件大小:
评论区