火车采集器如何处理特殊的列表页地址?

火车采集器新版V9新增了一个特别重要的功能,这个功能在处理一些特殊情况时,非常有必要。尤其是在处理返回内容格式是jison格式,或者是其它非html格式的数据。可以把一些不规则的列表地址,处理成正常地址。这个新增的功能就是“列表页地址处理”功能,如果有需要使用这个功能的用户,可以看下这篇文章,会对你有很大的帮助。

开始讲解之前,我们找到了一个用来测试的地址:https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

进入页面后翻页后,可以进行抓包后获取到存放数据的实际地址:

https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

分析json数据可以得知 url 后面的是内容页网址,设置如下:

          火车采集器如何处理特殊的列表页地址?-大海资源库

        火车采集器如何处理特殊的列表页地址?-大海资源库

 

此网址采集需要设置头信息 Referer: https://news.sina.com.cn/roll/ 。头信息的获取可以参考此教程点此跳转>>

火车采集器如何处理特殊的列表页地址?-大海资源库

可以看到采集的网址里有很多 \\ ,导致网址无法访问,而且网址不规则,不易处理。

       火车采集器如何处理特殊的列表页地址?-大海资源库

 

这种可以使用新增的“地址处理”功能

1. 内容替换/排重

可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。

火车采集器如何处理特殊的列表页地址?-大海资源库
火车采集器如何处理特殊的列表页地址?-大海资源库

火车采集器如何处理特殊的列表页地址?-大海资源库

火车采集器如何处理特殊的列表页地址?-大海资源库

 

2. 纯正则替换

可以使用正则表达式进行匹配,和内容替换功能类似

3. 字符编码处理

网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码

https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

火车采集器如何处理特殊的列表页地址?-大海资源库

如果你还有其它疑问可以来本站搜索相关问题,这里会有你想要的答案:大海资源库

有问题及时联系站长,QQ:1240555208
更多优质资源在QQ群里,可以进群领取:902992548~
© 版权声明
THE END
点赞7
及时反馈~ 抢沙发

请登录后发表评论

    暂无评论内容