【环球新要闻】docker快速启动proxy_pool项目

2023-05-24 23:49:06 来源:博客园


(资料图片仅供参考)

docker快速启动proxy_pool项目

项目地址:https://github.com/jhao104/proxy_pool

0x01 搭建redis

该项目是基于redis的,所以我们首先需要一个redis,这里我还是选择用docker快速启动一个

端口映射出来,可用于公网
docker run -d --name redis -p 6380:6379 redis --requirepass yourpassword
不端口映射,直接在vps上内部连接
docker run -d --name redis  redis --requirepass yourpassword
0x02 查看容器内ip

如果你第一步中选择了映射,呢么就可以直接跳到0x03 启动项目 中直接运行了,如果不是,那么你就需要知道启动的实例的内网ip,但是当我们docker exec 进去的时候会发现并没有相关的ip addr的环境,懒得安装了,直接在本机用如下命令

docker inspect redis

这里的redis是容器的name,在结果中找到如下所示即为容器内网ip(可与本机通信)

本机可以ping通

0x03 启动项目

直接替换密码,ip以及响应的端口即可,选择映射出来的话再开放防火墙策略就可以通过公网ip访问了

docker run -d --env DB_CONN=redis://:yourpassword@172.17.0.2:6379/0 -p 5010:5010 jhao104/proxy_pool:latest
0x04 简单使用Api

启动web服务后, 默认配置下会开启 http://127.0.0.1:5010 的api接口服务:

apimethodDescriptionparams
/GETapi介绍None
/getGET随机获取一个代理可选参数: ?type=https过滤支持https的代理
/popGET获取并删除一个代理可选参数: ?type=https过滤支持https的代理
/allGET获取所有代理可选参数: ?type=https过滤支持https的代理
/countGET查看代理数量None
/deleteGET删除代理?proxy=host:ip
爬虫使用

如果要在爬虫代码中使用的话, 可以将此api封装成函数直接使用,例如:

import requestsdef get_proxy():    return requests.get("http://127.0.0.1:5010/get/").json()def delete_proxy(proxy):    requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))# your spider codedef getHtml():    # ....    retry_count = 5    proxy = get_proxy().get("proxy")    while retry_count > 0:        try:            html = requests.get("http://www.example.com", proxies={"http": "http://{}".format(proxy)})            # 使用代理访问            return html        except Exception:            retry_count -= 1    # 删除代理池中代理    delete_proxy(proxy)    return None

剩下具体的可以去github看文档

0x05 后续

后续的话可以使用docker-compose,然后编写yml文件等等操作来实现更“自动化”

标签:

推荐阅读>