博文

目前显示的是 五月, 2023的博文

在Ubuntu系统上编译安装最新版本Python 3、并替换系统自带的Python 3

  在Ubuntu系统上编译安装最新版本Python 3、并替换系统自带的Python 3 在我们使用Ubuntu系统的过程中,一般系统自带的Python 3就已经够用了。但是由于某些软件包需要使用最新版本的Python 3,所以说我们需要更新系统自带的Python 3的版本。在这篇文章中,我来和大家一起来了解、编译安装最新版本的Python 3 准备材料 Ubuntu 系统 部署步骤 SSH进入控制台 输入以下命令,更新系统组件 apt-get update apt-get upgrade -y 输入以下代码,下载最新版本Python 3源码包,并解压 wget -N https://www.python.org/ftp/python/3.11.3/Python-3.11.3.tar.xz tar -xzvf Python-3.11.3.tar.xz cd Python-3.11.3 截至本文发布时,Python 3最新版本为3.11.3 输入以下代码,以优化性能 ./configure --enable-optimizations 输入以下命令,编译并安装Python 3 sudo make sudo make altinstall 输入以下命令,验证安装是否成功 type -P python3.11.3

Python爬虫中的代理技术小结

  代理的使用场景 需要爬虫高频率地访问某一站点,同时站点又存在着反爬虫措施,会封掉高频率爬取的IP:例如访问得到403 Forbidden之后提示“您的 IP 访问频率太高”或者跳出一个验证码让我们输入,输入之后才可能解封。 需要访问境外的网站 代理的设置 爬虫中可以使用多种请求库,如 Requests、Urllib、Selenium 等,下面先梳理一下这些库的代理设置方法。 获取代理 设置代理,首先需要设置一个可用的代理,搜索引擎搜索“代理”关键字,就可以看到有许多代理服务网站,在网站上会有很多免费代理。免费代理大多数情况下都是不好用的,所以比较靠谱的方法是购买付费代理,很多网站都有售卖。或者如果我们本机有相关代理软件的话,软件一般会在本机创建 HTTP 或 SOCKS 代理服务,直接使用此代理也可以。 总结一下,代理的获取方法有两种: 在网上获取或购买代理来获取的代理IP(如220.187.210.64:8118),在下一部分各个请求库的代理设置中使用该IP即可,而爬虫所带的伪装IP即为代理IP(220.187.210.64:8118); 在本机安装并运行相关代理软件,这种方式获取的代理IP与启动代理软件时的配置有关——例如,使用V2ray代理软件时它会在本地 10809端口上创建 HTTP 代理服务,也就是说代理IP为 127.0.0.1:10809,另外还会在 10808 端口创建 SOCKS 5代理服务,也就是代理IP为 127.0.0.1:10808。同样,在下一部分各个请求库的代理设置中使用这些代理IP(127.0.0.1:10808,127.0.0.1:10809)即可,而爬虫所带的伪装IP则是代理软件V2ray所连接的服务器 IP. 设置代理后测试的网址是: http://httpbin.org/get ,访问该站点可以得到请求的一些相关信息,其中 origin 字段就是客户端的 IP,我们可以根据它来判断代理是否设置成功,也就是是否成功伪装了IP。 Requests 对于 Requests 来说,代理设置比较简单,我们只需要传入 proxies 参数即可。在这里,我们使用本机代理软件创建的HTTP 代理服务,进行Requests 的代理的设置,如下: import requests proxy = '127.0.0.1:10809...