火车采集器如何处理特殊的列表页地址？-大海资源库

搜索资源

火车采集器如何处理特殊的列表页地址？

19天前发布

0967

火车采集器新版V9新增了一个特别重要的功能，这个功能在处理一些特殊情况时，非常有必要。尤其是在处理返回内容格式是jison格式，或者是其它非html格式的数据。可以把一些不规则的列表地址，处理成正常地址。这个新增的功能就是“列表页地址处理”功能，如果有需要使用这个功能的用户，可以看下这篇文章，会对你有很大的帮助。

开始讲解之前，我们找到了一个用来测试的地址：https://news.sina.com.cn/roll/#pageid=153&lid=2509&k=&num=50&page=1

进入页面后翻页后，可以进行抓包后获取到存放数据的实际地址：

https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&k=&num=50&page=1

分析json数据可以得知 url 后面的是内容页网址，设置如下：

火车采集器如何处理特殊的列表页地址？-大海资源库

火车采集器如何处理特殊的列表页地址？-大海资源库

此网址采集需要设置头信息 Referer: https://news.sina.com.cn/roll/ 。头信息的获取可以参考此教程：点此跳转>>

火车采集器如何处理特殊的列表页地址？-大海资源库

可以看到采集的网址里有很多 \\ ，导致网址无法访问，而且网址不规则，不易处理。

火车采集器如何处理特殊的列表页地址？-大海资源库

这种可以使用新增的“地址处理”功能

1. 内容替换/排重

可以对网址中内容进行替换，且替换完成后，重复的网址会自动去重。

火车采集器如何处理特殊的列表页地址？-大海资源库

火车采集器如何处理特殊的列表页地址？-大海资源库

火车采集器如何处理特殊的列表页地址？-大海资源库

火车采集器如何处理特殊的列表页地址？-大海资源库

2. 纯正则替换

可以使用正则表达式进行匹配，和内容替换功能类似

3. 字符编码处理

网址中有需要转码的内容，比如采到的链接里有 & 可以进行解码

https://feed.mix.sina.com.cn/api/roll/get?pageid=153&lid=2509&amp;k=&num=50&page=1

火车采集器如何处理特殊的列表页地址？-大海资源库

如果你还有其它疑问可以来本站搜索相关问题，这里会有你想要的答案：大海资源库

有问题及时联系站长，QQ：1240555208

更多优质资源在QQ群里，可以进群领取：902992548~

© 版权声明

重要声明

本站资源大多来自网络，如有侵犯你的权益请联系管理员E-mail:1240555208@qq.com 我们会第一时间进行审核删除。站内资源为网友个人学习或测试研究使用，未经原版权作者许可,禁止用于任何商业途径！请在下载24小时内删除！

如果遇到付费才可观看的文章，建议升级终身VIP。全站所有资源“任意下免费看”。本站资源少部分采用7z压缩，为防止有人压缩软件不支持7z格式，7z解压，建议下载7-zip，zip、rar解压，建议下载WinRAR。

THE END

采集教程
# 教程 # 原创 # 采集 # 火车头 # 解说

及时反馈~ 抢沙发

请登录后发表评论

暂无评论内容

关于我们

特色功能

用户服务

小妖资源导航

Copyright © 2023 - 2024 大海资源库・Dahkk.cn All Rights Reserved. 湘ICP备88820230901号・湘公网安备88820230901号