中文搜索引擎的查询处理

4

本文作者:如青seo  发布于:2011-11-20  分类:SEO研究  点击:


查询处理是指用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢? 
 
1、假设用户提交了不只一个查询串,比如“苏州SEO 网站 优化”。 那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<苏州SEO,网站,优化>三个子字符串;这个道理简单,我们接着往下看。
  2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“优化 网站优化”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“网站优化”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大 进行处理。那么是如何得出这个结论的呢?我们可以将“网站优化”提交给百度,返回8,530,000篇文档,大致看看第一页的返回内容。
  OK。继续,我们提交查询“优化 网站优化”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而 GOOGLE 则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的)。
  3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断 点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作 一个整体来对待。至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。当然如果查询中包含数字,也是如此办理。 到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。

本文标签: SEO工具  搜索引擎  
本文Url: http://www.rqseo.com/SEOKnowledge/149.html (出自: 苏州SEO网站优化推广-让你网站的流量提高10倍!-落夜辰星)
我要引用: 点击这里获取该日志的TrackBack引用地址

相关文章:

139. 十种页面标题优化的技巧(下)  (2011-5-23 17:50:12)

136. 30个最受欢迎的wordpress插件  (2011-4-12 16:48:0)

135. 10款免费英文seo工具  (2011-4-6 17:14:50)

129. 20个关于SEO火狐插件(非常给力!)  (2011-3-15 12:18:32)

128. 我认为的一款最好的日志分析工具  (2011-3-9 12:57:15)

123. 6款免费查询内链接、外链接和未验证链接工具(很强)  (2011-2-23 17:49:58)

85. 搜索引擎的未来  (2010-7-12 15:20:16)

62. seo工具大全(二)  (2010-6-28 14:2:28)

61. seo工具大全(一)  (2010-6-28 13:41:8)

55. 那些属于SEO作弊行为!  (2010-6-22 14:52:44)

4 Comments

Write a comment ?