设为首页
收藏本站
切换到宽版
账号
自动登录
找回密码
密码
登录
立即注册
只需一步,快速开始
快捷导航
首页
Portal
论坛
BBS
家族
Group
导读
Guide
窝窝
Space
广播
Follow
排行榜
Ranklist
淘帖
Collection
日志
Blog
相册
Album
分享
Share
记录
Doing
搜索
搜索
热搜:
美食
掐油
视频
250
本土
舒淇穴
美女
小泽
伦理
00后门事件
网站地图
本版
文章
帖子
家族
用户
谷姐论坛-姐是你心灵庇护港湾-来打开这扇心灵门锁!
»
论坛
›
网络技术
›
CMS技术论坛
›
Discuz!-技术讨论
›
Discuz! X2采集-DXC采集插件发布,不用写规则的采集插件 ...
返回列表
发新帖
查看:
870
|
回复:
1
Discuz! X2采集-DXC采集插件发布,不用写规则的采集插件
[复制链接]
裸奔的鸡蛋
裸奔的鸡蛋
当前离线
积分
9670
窥视卡
雷达卡
发表于 2011-10-2 09:07:36
|
显示全部楼层
|
阅读模式
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
选择采集器类型。选择‘精准的’,这一步不解释了。
采集范围设置:选择“
从分页列表采集文章
”。
分页网址。假如我们在腾讯搜搜的博客搜索中搜搜“php”这个关键词,、
那么网址是
http://blog.soso.com/qz.q?pid=s.idx&op=blog.blog&ty=blog&w=php
。
翻到第二页,网址是
http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=2
。
然后翻到第三页,网址是
http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=3
看出规律了吗?别看url太长就头晕了,其实前面的部分是不变的,后面的数字有变化而已。如果我们要采集从第1页到第30页(30页之后,大多数文章和关键词相关不大了)
网址就是这样
http://blog.soso.com/qz.q?w=php%C7%B0%D1%D8&sc=qz&ty=blog&sd=0&st=r&cid=&op=blog.blog&pid=qz.s.res&pg=
[1,30]
列表区域识别方式.这里选择"dom获取",dom获取就足矣。正则匹配不好搞,这部分的功能暂时未做得强大。
列表区域识别。这是个重头戏,你得告诉程序,列表中哪些是文章的链接地址?这里要借助firefox浏览器的firebug插件或者谷歌浏览器对网页的源代码进行查看,然后进行分析,如下图:
5 天前 上传
下载附件
(33.03 KB)
看出结构了吗?无非就是一个li下面有个h3,h3下面只有一个a标签,那么就可以这样填:li h3。程序就知道获取一个li h3 下面的a标签的链接了,倘若下面不仅仅有一个a标签,有多个a标签,那么这时候你就要告诉程序更多的信息。比如a[title=*]这样就是告诉程序去获取有title属性的a标签的链接。
文章信息获取方式。因为我们搜索到的文章来自多个网站,我们没办法根据某个特定的规则去采集,所以这里选择只能选择"智能识别",让程序自动去提取。到了这里,基本上就可以采集了,其他的一些选项不用解释大家应该都可以明白的了。
附上本例子的配置,用采集器导入就行了。
-php.txt
(1.48 KB, 下载次数: 29)
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
抢沙发
千斤顶
显身卡
500600
500600
当前离线
积分
174
窥视卡
雷达卡
发表于 2012-8-13 12:21:48
|
显示全部楼层
这个很强大
回复
支持
反对
使用道具
举报
显身卡
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
浏览过的版块
大城小事
Go VCL
返回顶部
快速回复
上一主题
下一主题
返回列表
找客服
手机访问
打开手机扫一扫
Copyright © 2008-2023
谷姐论坛 谷姐提供
(https://kaoai.cn) 版权所有 All Rights Reserved.
风格购买及设计联系:13450110120 15813025137 QQ:21400445 8821775
Powered by
Discuz!
X3.5 技术支持:
克米设计
|
渝ICP备2021009247号-1
快速回复
返回顶部
返回列表