百度中文分词算法

作者:鸿亿网络   2008-02-29 09:32:27   点击:231   评论:0

先,讲讲百度的分词时机或者条件问题,不是所有的字符串百度都会切割的

简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才把这个字符串肢解掉。
 
怎么证明呢?我们向百度提交百度搜索排名优化,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。这里就不展开说了。但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

那么百度用的是什么方法?我的判断是用双向最大匹配算法。至于怎么推理得出的,以后有时间再讲。

关于我们 | 代理合作 | 解决方案 | 常见问题 | 新闻资讯 | SEO博客
西安鸿亿网络科技有限公司
2007-2008 Inc.西安鸿亿网络科技有限公司.版权所有 陕ICP备07011159号
联系电话: 029-88726470   13363990305   (6 * 8 小时)
联系电话: 029-88945654   15802957768   (7 * 24 小时)
传真: 029-88726470   地址: 西安市高新区电子二路36号14F-1 企业电视台名扬网视