前段时间在搜索关键词“盐水瓶”时观察到的一个关键字标红案例,当时首发在了IT茶馆与大家讨论。最近的工作一直处于加班状态,学习上怠慢了,关于分词部分还没有花时间去好好地研究一番。先分享我观察到的案例:
在Google中搜索关键词“盐水瓶灯”
1。当关键字出现全文匹配时,会标红。注意下图中,绿色的圈,为什么那里不标红?包括前面的“盐水”一词为什么也不标红?

规律:当描述中存在全文匹配的词以后,分词后的词不再标红。注意,标题、描述、URL三处是独立的。比如上图的描述中全文匹配出现过一次“盐水瓶灯”,那么“盐水瓶”等不再标红。同意,假如标题中出现了“盐水瓶灯”,那么标题中再出现其他分词也不再标红。
2。正面支持上面规律的两个图片:

规律:当标题,摘要都不全文匹配关键词时,将分词后的词标红。
规律:注意绿色圈,说明URL、标题、摘要三处是独立的。
以上三张图共同说明了第1点里观察到的规律。你觉得这个规律存在什么漏洞吗?你有观察到一个反面的例子么?请帖出来分享,大家一起讨论。
一个反例:
分析:如果按照上面总结的规律,那么摘要里,绿色圈的部分也应该标红。难道是跟分词有关?分词目前研究的不够深入,说不出过所以然,只是感觉应该跟分词有关,分词也是下一步需要重点攻克的课题。
下面是再一个跟分词相关的图:
分析:注意绿色圈部分,摘要里已经全文匹配出现了了一次“盐水瓶灯”,假设上面第1点的规律成立,那么“盐水瓶”等分词后的词不会标红。那么绿色圈的为什么标红?另外,如果搜索引擎处理“盐水瓶”灯中间的双引号符号是忽略,那么确实是全文匹配。那这又是一个值得考察的现象。
你这个版本改得很清爽,赞一个!!