> MySQL > 如何借助1M云服务器运行自己的爬虫项目抓取了知乎100w关注数据

如何借助1M云服务器运行自己的爬虫项目抓取了知乎100w关注数据

我是一个在开发外包项目的程序员

如何借助1M云服务器运行自己的爬虫项目抓取了知乎100w关注数据

如何将看似低配的云服务器派上大用场

总所周知,爬虫服务需要的是网络的能力,一般都用的是8核32G百兆带宽甚至千兆带宽。而我用的腾讯云服务器虽然是2M的小水管机器,但是入网带宽是不限制的,这正好和爬虫服务相吻合。合理的利用网络,并减少cpu占用,就算是很低的配置也能发挥出它不一样的性能。

如何借助1M云服务器运行自己的爬虫项目抓取了知乎100w关注数据

后来有一次我在网上接到了一个要求开发知乎爬虫数据用于数据研究的需求。经过一段时间的开发,我用php成功实现了这个功能。

在选定服务器时由于是网络密集型业务,我就选择了单核4G的配置,腾讯云随机配置的50G硬盘用于存放获取的数据应该是差不多够用的。

如何借助1M云服务器运行自己的爬虫项目抓取了知乎100w关注数据

服务器助手的小编推荐我买了这款《1核4G2M腾讯云服务器,3年只需要398元》,然后按照教程轻松拿下了这款专门活动机型,比学生机更划算。

说买就买,直接qcloud上选择好配置付款很快就分配了机器出来。项目用到了redis,mysql和php,那么我就用lnmp一键安装脚本直接安装好了。很轻松的就在云服务器上部署好了这个项目。经过一段时间的运行,我获得了自己想要数据,到了要交付给用户的时候了,然后我看了看数据库,一共拿到了几百万条数据,数据有点大,只能想办法打包下载下来。这个时候由于外网只有2M下载就有点尴尬了,后来我想了一个办法,在服务器上用脚本上传到Qos,cdn上去下载,这样就快了很多。理所当然的,我交付了任务,我拿到了这次任务的奖金。这次腾讯云的使用经历给我留下了有用的运维经验。

善用你手上的资源

1核4G和自配8核32G的组装机相比肯定不是一个级别,但功效比非常高,关键带宽资源充足稳定。

而且1核4G的腾讯云主机跑起来,也不是所有时候都那么好用,有时也会出问题,但是可以提工单解决,很快就会有工程师来解决问题,问题确认解决了才会关闭工单。有次提交工单解决了问题但没有关闭工单,工程师还主动打电话来咨询,这点是我比较信赖的地方(印象中QQ的客服是做得最烂的。。这次倒出人意料)