songboriceboy | ||
版主
![]() 性别: 男
积分:461 阅读权限:659
帖子: 108
加入时间: 2011/8/31
最后登录: 2015/11/10
|
使用新版采集,需要一个工具配合使用,需要使用firefox火狐浏览器,并安装firebug插件。 相对1.8版正则表达式匹配采集内容的方式,新版采集模块采用更加简明的方式进行配置。现举例说明如下:
这里的列表网址一般是网站新闻更新的总入口,上面这个例子就是网易华语电影新闻的入口,每隔一定时间,这里的新闻及链接会进行更新,故我们需对此进行监控。 2.链接集合设置(css路径方式) div.col1 (这里是为了进一步限制链接的范围,不可以置空。)
观察全部新闻链接的模式,找出它们的共同之处。一些链接如下:
我们发现它们都可以表示成如下的形式:http://ent.163.com/12/*/*/*.html 这里*代表任意字符串。同时也可以在整个模式的后面加上一个$,代表终止,即http://ent.163.com/12/*/*/*.html$,这样可以排除一些http://ent.163.com/12/0430/04/80AGHD6800032DGD.html&id=5这样的不想采集的链接。 到此为止,第一步就完成了。 第二步:抓取详细页 在第一步中,我们获得了待抓取的全部新闻链接地址集合,在第二步中我们需要针对每条采集的新闻进行正文提取的配置。配置的方法和上面第一步中(2)链接集合设置(css路径方式)中处理方法相同,也是利用firebug对新闻正文进行框选,然后获取正文的css路径,填写到匹配规则即可。如下图所示:
到此为止,全部的配置就完成了,相对老版采集方式,步骤相同,只是配置网址链接集合和网页正文的方式发生了改变。相对于正则表达式的方式,更为简单易用,用户不必了解复杂的正则表达式知识,借助firefox+firebug工具,可以直观的进行配置规则的获取,简单,快速的进行采集配置。 本帖于 2013/6/21 13:41:07 被 掷鸡蛋者 最后编辑 |
|
|
qdz9527 | ||
版主
![]() ![]() ![]() 性别: 男
积分:1263 阅读权限:1798
帖子: 320
加入时间: 2012/4/10
最后登录: 2017/9/12
|
![]() |
|
|
掷鸡蛋者 | ||
管理员
![]() ![]() 性别: 男
积分:52177 阅读权限:43389
帖子: 8320
加入时间: 2010/4/29
最后登录: 2019/11/29
|
这个强烈推荐,楼主是这方面高手,帮忙重写了wojilu的采集功能。
|
|
|
xszu | ||
江湖豪侠
![]() ![]() ![]() 性别: 男
积分:1377 阅读权限:2350
帖子: 528
加入时间: 2012/4/13
最后登录: 2014/7/18
|
这个功能不错 如果能伪原创更好
|
|
|
super0555 | ||
版主
![]() ![]() ![]() 性别: 男
积分:1889 阅读权限:2052
帖子: 573
加入时间: 2010/7/3
最后登录: 2014/6/14
|
厉害
![]() |
|
|
掷鸡蛋者 | ||
管理员
![]() ![]() 性别: 男
积分:52177 阅读权限:43389
帖子: 8320
加入时间: 2010/4/29
最后登录: 2019/11/29
|
其实不管是IE,还是firefox,还是chrome,都是按f12,不过还是firebug最强
|
|
|
jamesliu | ||
江湖豪侠
![]() ![]() ![]() 性别: 男
积分:1573 阅读权限:1223
帖子: 247
加入时间: 2010/5/8
最后登录: 2018/6/16
|
很给力!
|
|
|
union | ||
版主
![]() ![]() ![]() 性别: 男
积分:1794 阅读权限:1548
帖子: 260
加入时间: 2011/5/28
最后登录: 2014/12/10
|
弱弱的问下蛋哥这次的版本美工有搞没 |
|
|
掷鸡蛋者 | ||
管理员
![]() ![]() 性别: 男
积分:52177 阅读权限:43389
帖子: 8320
加入时间: 2010/4/29
最后登录: 2019/11/29
|
弱弱的问下蛋哥这次的版本美工有搞没 union at 2012-5-2 19:17 ![]() 有 super0555 帮忙设计,但最后还不确定 |
|
|
super0555 | ||
版主
![]() ![]() ![]() 性别: 男
积分:1889 阅读权限:2052
帖子: 573
加入时间: 2010/7/3
最后登录: 2014/6/14
|
其实我修改那个还是不能算好,我想这么大个系统,至少是要discuz、phpwind级别的美工,我觉得这几个应该是一个级别的,但是还是差距很大啊。
![]() |
|
|