Discuz! X2采集-DXC采集插件发布，不用写规则的采集插件-Discuz!-技术讨论-谷姐论坛-姐是你心灵庇护港湾-来打开这扇心灵门锁！

裸奔的鸡蛋 发表于 2011-10-2 09:07:36

Discuz! X2采集-DXC采集插件发布，不用写规则的采集插件

[*]选择采集器类型。选择‘精准的’，这一步不解释了。

[*]采集范围设置：选择“从分页列表采集文章”。
[*]分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词，、
那么网址是
http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php。
翻到第二页，网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2。
然后翻到第三页，网址是http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
看出规律了吗？别看url太长就头晕了，其实前面的部分是不变的，后面的数字有变化而已。如果我们要采集从第1页到第30页（30页之后，大多数文章和关键词相关不大了）
网址就是这样http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=
[*]列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞，这部分的功能暂时未做得强大。

[*]列表区域识别。这是个重头戏，你得告诉程序，列表中哪些是文章的链接地址？这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看，然后进行分析，如下图：
http://www.56php.com/data/attachment/forum/201109/27/161506c6y1oefdffq0fpo6.jpg 5 天前上传
下载附件 (33.03 KB)

看出结构了吗？无非就是一个li下面有个h3，h3下面只有一个a标签，那么就可以这样填：li h3。程序就知道获取一个li h3 下面的a标签的链接了，倘若下面不仅仅有一个a标签，有多个a标签，那么这时候你就要告诉程序更多的信息。比如a这样就是告诉程序去获取有title属性的a标签的链接。
[*]文章信息获取方式。因为我们搜索到的文章来自多个网站，我们没办法根据某个特定的规则去采集，所以这里选择只能选择"智能识别"，让程序自动去提取。到了这里，基本上就可以采集了，其他的一些选项不用解释大家应该都可以明白的了。

附上本例子的配置，用采集器导入就行了。 http://www.56php.com/static/image/filetype/text.gif -php.txt (1.48 KB, 下载次数: 29)

500600 发表于 2012-8-13 12:21:48

这个很强大

页: [1]

谷姐论坛-姐是你心灵庇护港湾-来打开这扇心灵门锁！'s Archiver

Discuz! X2采集-DXC采集插件发布，不用写规则的采集插件