|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?立即注册
×
目前我们在蜘蛛上的技术突破,给大家分享下,主要两点:
1是蜘蛛抓取时,自动放弃没有描述的页面,这可以秒杀列表页,大概节省数据库至少30%空间。
2是蜘蛛抓取时,可以完全按照二级域名抓,比如我抓发米U盘,就不会像以前那样抓取友情链接到发米在线。
当然,这些小聪明,大家稍微修改下蜘蛛就可以完成了。但是这两个功能,是非常实用的!希望大家都做修改。
目前我们的全部收录,已经没有了列表页、400页面等无效页面。
但是还存在的问题有:
1、Sphinx写入了服务,还是会自动关闭。
2、数据库分表有谁解决了吗?
大家共享,PHPsou更强、更大!
|
|