taobox | ||
江湖新秀
![]() ![]() ![]() 性别: 男
积分:194 阅读权限:136
帖子: 23
加入时间: 2011/8/9
最后登录: 2013/8/10
|
很多页面的标题和内容不是连续的,所以应该把抓标题和抓内容分开,用LINK上的文本有些网站是不完整的
|
|
|
yewguwei | ||
江湖新秀
![]() ![]() ![]() 性别: 男
积分:243 阅读权限:307
帖子: 47
加入时间: 2011/9/5
最后登录: 2013/5/29
|
1.9新版采集功能在哪里进入?
|
|
|
掷鸡蛋者 | ||
管理员
![]() ![]() 性别: 男
积分:52193 阅读权限:43395
帖子: 8323
加入时间: 2010/4/29
最后登录: 2021/4/17
|
1.9新版采集功能在哪里进入? yewguwei at 2012-11-3 8:11 ![]() 不好看意思,见这里 http://www.wojilu.com/Forum1/Post/19593 |
|
|
jamesliu | ||
江湖豪侠
![]() ![]() ![]() 性别: 男
积分:1575 阅读权限:1225
帖子: 248
加入时间: 2010/5/8
最后登录: 2021/1/12
|
URL地址有空格,不能采集,这个有处理办法吗? |
|
|
掷鸡蛋者 | ||
管理员
![]() ![]() 性别: 男
积分:52193 阅读权限:43395
帖子: 8323
加入时间: 2010/4/29
最后登录: 2021/4/17
|
举例吧,哪个url?我这边好测试一下,方便解决问题 |
|
|
jamesliu | ||
江湖豪侠
![]() ![]() ![]() 性别: 男
积分:1575 阅读权限:1225
帖子: 248
加入时间: 2010/5/8
最后登录: 2021/1/12
|
举例吧,哪个url?我这边好测试一下,方便解决问题 比如采集http://www.zmdfcw.com/News/news_list/list-1-2-0.html这个页面,列表url里面显示的是 <li><span>2013-01-09</span>· <a href=" /News/news_info/69186.html " target="_blank">美域美家1月12日盛大开盘</a></li> url /News/news_info/69186.html前面多了个空格,我怀疑这是为了防采集的吧,看能否解决掉。 |
|
|
jamesliu | ||
江湖豪侠
![]() ![]() ![]() 性别: 男
积分:1575 阅读权限:1225
帖子: 248
加入时间: 2010/5/8
最后登录: 2021/1/12
|
举例吧,哪个url?我这边好测试一下,方便解决问题 比如采集http://www.zmdfcw.com/News/news_list/list-1-2-0.html这个页面,列表url里面显示的是 <li><span>2013-01-09</span>· <a href=" /News/news_info/69186.html " target="_blank">美域美家1月12日盛大开盘</a></li> url /News/news_info/69186.html前面多了个空格,我怀疑这是为了防采集的吧,看能否解决掉。 我修改了添加采集规则页码的js,暂时可以保存了,但采集的地方找到要修改什么哪里, 点采集,调用的是哪里的方法 ?蛋哥有空看一下吧,给指点指点。 |
|
|
jamesliu | ||
江湖豪侠
![]() ![]() ![]() 性别: 男
积分:1575 阅读权限:1225
帖子: 248
加入时间: 2010/5/8
最后登录: 2021/1/12
|
http://www.zmdfcxx.com/news/61/index_1.htm 这个列表为何无法采集?蛋哥能否看一下? 错误提示:采集数据失败,具体原因,请查看 /framework/log/ 下的日志。 采集网址:http://www.zmdfcxx.com/news/61/index_1.htm patternBody=div#left patternLinks=news/61/*/*.htm |
|
|
lsm | ||
江湖新秀
![]() ![]() ![]() 性别: 男
积分:282 阅读权限:203
帖子: 39
加入时间: 2011/1/2
最后登录: 2013/9/23
|
问下楼主 这个采集插件能不能采集ajax异步刷新的数据呢 |
|
|
lsm | ||
江湖新秀
![]() ![]() ![]() 性别: 男
积分:282 阅读权限:203
帖子: 39
加入时间: 2011/1/2
最后登录: 2013/9/23
|
就是右击查看网页源码 查不到的 但是在页面有显示的元素 |
|
|