百度分词算法-查询处理

作者:鸿亿网络   2008-02-29 09:31:03   点击:111   评论:0

用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。那么百度在接受到用户查询后做了些什么工作呢?

1、假设用户提交了不只一个查询串,比如信息检索 理论 工具。那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:三个子字符串;这个道理简单。

2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询理论 工具理论,百度是将重复的字符串当作只出现过一次,也就是处理成等价的理论工具,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理。

3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询baidu排名优化,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待。

首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。

 

上一篇文章:  无
下一篇文章:  百度中文分词算法
关于我们 | 代理合作 | 解决方案 | 常见问题 | 新闻资讯 | SEO博客
西安鸿亿网络科技有限公司
2007-2008 Inc.西安鸿亿网络科技有限公司.版权所有 陕ICP备07011159号
联系电话: 029-88726470   传真: 029-88726470   地址: 西安市高新区电子二路36号14F-1