裸奔的鸡蛋 发表于 2011-10-2 09:07:36

Discuz! X2采集-DXC采集插件发布,不用写规则的采集插件


[*]选择采集器类型。选择‘精准的’,这一步不解释了。

[*]采集范围设置:选择“从分页列表采集文章”。
[*]分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词,、
那么网址是
http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php。
翻到第二页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2。
然后翻到第三页,网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
看出规律了吗?别看url太长就头晕了,其实前面的部分是不变的,后面的数字有变化而已。如果我们要采集从第1页到第30页(30页之后,大多数文章和关键词相关不大了)
网址就是这样http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=
[*]列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞,这部分的功能暂时未做得强大。

[*]列表区域识别。这是个重头戏,你得告诉程序,列表中哪些是文章的链接地址?这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看,然后进行分析,如下图:
http://www.56php.com/data/attachment/forum/201109/27/161506c6y1oefdffq0fpo6.jpg 5 天前 上传
下载附件 (33.03 KB)



看出结构了吗?无非就是一个li下面有个h3,h3下面只有一个a标签,那么就可以这样填:li h3。程序就知道获取一个li h3 下面的a标签的链接了,倘若下面不仅仅有一个a标签,有多个a标签,那么这时候你就要告诉程序更多的信息。比如a这样就是告诉程序去获取有title属性的a标签的链接。
[*]文章信息获取方式。因为我们搜索到的文章来自多个网站,我们没办法根据某个特定的规则去采集,所以这里选择只能选择"智能识别",让程序自动去提取。到了这里,基本上就可以采集了,其他的一些选项不用解释大家应该都可以明白的了。

附上本例子的配置,用采集器导入就行了。 http://www.56php.com/static/image/filetype/text.gif -php.txt (1.48 KB, 下载次数: 29)

500600 发表于 2012-8-13 12:21:48

这个很强大
页: [1]
查看完整版本: Discuz! X2采集-DXC采集插件发布,不用写规则的采集插件