如何“爬数据”

2024-05-18 09:19

1. 如何“爬数据”

　　简单笼统的说，爬数据搞定以下几个部分，就可以小打小闹一下了。
　　一、指定URL的模式，比如知乎问题的URL为http://zhihu.com/question/xxxx，然后抓取html的内容就可以了。用的工具，如果你正则很好，可以用正则，觉得正则费脑子的，可以用html解析DOM节点来处理内容。如果你抓取的内容有其固有特点，如新闻内容，可以用正文抓取算法，其实就是找html中最长的几行字符串。

　　二、用javascript动态生成内容的抓取，不建议使用headless，效率比较低下，建议使用一些开源的库去直接执行js代码，获得你想要的结果。
　　了解页面里的程序逻辑是很重要的，知道动态内容是怎么生成的，使用一定的方法，一样会像拿html一样，很容易的拿到你想要的结果。动态生成要么是本地执行计算，要么是从服务器另发起请求获得一定的结果，显示或再进行本地计算。对前者，你要找到他本地执行的那段代码，原样拿过来，在javascript环境执行一遍拿到结果。对后者，找到那个请求，获得对应的结果，一般这个结果也会是javascript代码或者json格式的字符串，重新解析即可。

　　三、登录，有很多数据你是需要登录后才能查看的。如果对方使用https，基本就无解了。好在很多国内标榜全站使用https的网站都是伪https，抓包一样全都可以抓到，比较复杂的会将用户名或密码进行二次加密，并且和时间相关，直接提交用户名密码是无效的，必须同时提交以当前时间为参数进行二次加密后的结果，还是那句话，了解页面里的程序逻辑是很重要的。

　　四、验证码，你抓取过多过快时，网站一般会要求你输入验证码证明你不是程序，是人工在操作，似乎国内有帮你输入验证码的云服务，来搞定这部分，或者用程序解析验证码，但错误率太高。还有一种比较无赖的方法就是使用多条ADSL或VPN，来回切换IP，不断换IP进行抓取，把单IP抓取速度控制在网站允许的范围内，另外什么换header头里的agent啥的比较简单，就不多说了。

　　五、内容图片化，一些敏感信息，如商城里的价格，分类网站里的用户手机号，会被网站直接用图片的方式进行显示。这里你使用云服务成本太高，使用程序解析图片，如果出错，这条信息基本就没用了，切换IP也一样是图片，所以基本也是无解的。

　　六、补充，爬虫还有很多细节和针对性的处理方法，出于学习的目的，要多思考，比如移动互联网这么火热，很多网站，有点实力的都会出移动客户端，在移动客户端内，他还是使用图片显示吗？现在html5出来了，很多移动客户端都是html+js进行再封装处理的。

如何“爬数据”

2. 爬虫可以爬取设备系统数据吗

[玫瑰]亲，您好！爬虫可以爬取设备系统数据的，部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。可以简单地想象：每个爬虫都是你的“分身”。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样。【摘要】
爬虫可以爬取设备系统数据吗【提问】
[玫瑰]亲，您好！爬虫可以爬取设备系统数据的，部分爬虫都是按“发送请求——获得页面——解析页面——抽取并储存内容”这样的流程来进行，这其实也是模拟了我们使用浏览器获取网页信息的过程。简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。可以简单地想象：每个爬虫都是你的“分身”。就像孙悟空拔了一撮汗毛，吹出一堆猴子一样。【回答】

3. 如何爬虫网页数据

爬取网页数据原理如下：
如果把互联网比作蜘蛛网，爬虫就是蜘蛛网上爬行的蜘蛛，网络节点则代表网页。当通过客户端发出任务需求命令时，ip将通过互联网到达终端服务器，找到客户端交代的任务。一个节点是一个网页。蜘蛛通过一个节点后，可以沿着几点连线继续爬行到达下一个节点。
简而言之，爬虫首先需要获得终端服务器的网页，从那里获得网页的源代码，若是源代码中有有用的信息，就在源代码中提取任务所需的信息。然后ip就会将获得的有用信息送回客户端存储，然后再返回，反复频繁访问网页获取信息，直到任务完成。

如何爬虫网页数据