找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 785|回复: 1

Discuz! X2采集-DXC采集插件发布,不用写规则的采集插件

[复制链接]
发表于 2011-10-2 09:07:36 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

×
  • 选择采集器类型。选择‘精准的’,这一步不解释了。
  • 采集范围设置:选择“从分页列表采集文章”。
  • 分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词,、
    那么网址是
    http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php
    翻到第二页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2
    然后翻到第三页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
    看出规律了吗?别看url太长就头晕了,其实前面的部分是不变的,后面的数字有变化而已。如果我们要采集从第1页到第30页(30页之后,大多数文章和关键词相关不大了)
    网址就是这样http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=[1,30]
  • 列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞,这部分的功能暂时未做得强大。
  • 列表区域识别。这是个重头戏,你得告诉程序,列表中哪些是文章的链接地址?这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看,然后进行分析,如下图:
    5 天前 上传
    下载附件 (33.03 KB)



    看出结构了吗?无非就是一个li下面有个h3,h3下面只有一个a标签,那么就可以这样填:li h3。程序就知道获取一个li h3 下面的a标签的链接了,倘若下面不仅仅有一个a标签,有多个a标签,那么这时候你就要告诉程序更多的信息。比如a[title=*]这样就是告诉程序去获取有title属性的a标签的链接。
  • 文章信息获取方式。因为我们搜索到的文章来自多个网站,我们没办法根据某个特定的规则去采集,所以这里选择只能选择"智能识别",让程序自动去提取。到了这里,基本上就可以采集了,其他的一些选项不用解释大家应该都可以明白的了。

附上本例子的配置,用采集器导入就行了。 -php.txt (1.48 KB, 下载次数: 29)
发表于 2012-8-13 12:21:48 | 显示全部楼层
这个很强大
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

返回顶部快速回复上一主题下一主题返回列表找客服手机访问
快速回复 返回顶部 返回列表