1. 首页
  2. Python编程

Python网络爬虫入门实践详解

1、什么是网络爬虫?

网络爬虫(web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 。

随着大数据时代的到来,我们对有用的数据需求越来越多,而爬虫是一种 很好的自动采集数据的手段。

2、Python爬虫新手入门

了解完网络爬虫到底是什么,接下来是本文的重点 。对于没接触过Python爬虫的,可以看过来 。小编带大家入坑 。这篇文章大致说一下如何一步一步创建个最简单的爬虫出来 。

首先,先看一下效果图 。因为是个学习案例,所以功能非常简单,就是一个抓取简书中文章的标题数据 。

Python网络爬虫入门实践详解

搭建Python运行环境

目前最新的版本是Python 3.6.4

下载地址:

https://www.python.org/downloads/

也可以直接在公众号后台回复『安装包』,获取最新的版本!

Python网络爬虫入门实践详解

安装环境,是很简单的,下载完安装包直接安装即可。

然后,我们还需要配置个环境变量,如下图所示:

Python网络爬虫入门实践详解

注意,路径要用英文状态下分号;隔开 。

设置成功以后,在cmd命令行,输入命令”python”,就可以有版本信息显示 ,说明安装成功!

Python网络爬虫入门实践详解

PyCharm开发工具

PyCharm是由JetBrains打造的一款Python IDE。带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。

PyCharm安装包可以在公众号上回复”安装包”,下载最新的版本!

下载地址:

https://www.jetbrains.com/zh/pycharm/download/download-thanks.html

安装也很简单,但是这个需要激活 。在这里,教给大家一个我激活的方法,亲测有效 。

1、修改hosts文件,添加下面一行到hosts文件 。

windwos系统hosts文件路径为:C:WindowsSystem32driversetc

这样做的目的是屏蔽掉Pycharm对激活码的验证 。

0.0.0.0 account.jetbrains.com

Python网络爬虫入门实践详解

2、复制下面激活码,填入激活码框

EB101IWSWD-eyJsaWNlbnNlSWQiOiJFQjEwMUlXU1dEIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ29uY3VycmVudFVzZSI6ZmFsc2UsInByb2R1Y3RzIjpbeyJjb2RlIjoiSUkiLCJwYWlkVXBUbyI6IjIwMTgtMTAtMTQifSx7ImNvZGUiOiJSUzAiLCJwYWlkVXBUbyI6IjIwMTgtMTAtMTQifSx7ImNvZGUiOiJXUyIsInBhaWRVcFRvIjoiMjAxOC0xMC0xNCJ9LHsiY29kZSI6IlJEIiwicGFpZFVwVG8iOiIyMDE4LTEwLTE0In0seyJjb2RlIjoiUkMiLCJwYWlkVXBUbyI6IjIwMTgtMTAtMTQifSx7ImNvZGUiOiJEQyIsInBhaWRVcFRvIjoiMjAxOC0xMC0xNCJ9LHsiY29kZSI6IkRCIiwicGFpZFVwVG8iOiIyMDE4LTEwLTE0In0seyJjb2RlIjoiUk0iLCJwYWlkVXBUbyI6IjIwMTgtMTAtMTQifSx7ImNvZGUiOiJETSIsInBhaWRVcFRvIjoiMjAxOC0xMC0xNCJ9LHsiY29kZSI6IkFDIiwicGFpZFVwVG8iOiIyMDE4LTEwLTE0In0seyJjb2RlIjoiRFBOIiwicGFpZFVwVG8iOiIyMDE4LTEwLTE0In0seyJjb2RlIjoiUFMiLCJwYWlkVXBUbyI6IjIwMTgtMTAtMTQifSx7ImNvZGUiOiJDTCIsInBhaWRVcFRvIjoiMjAxOC0xMC0xNCJ9LHsiY29kZSI6IlBDIiwicGFpZFVwVG8iOiIyMDE4LTEwLTE0In0seyJjb2RlIjoiUlNVIiwicGFpZFVwVG8iOiIyMDE4LTEwLTE0In1dLCJoYXNoIjoiNjk0NDAzMi8wIiwiZ3JhY2VQZXJpb2REYXlzIjowLCJhdXRvUHJvbG9uZ2F0ZWQiOmZhbHNlLCJpc0F1dG9Qcm9sb25nYXRlZCI6ZmFsc2V9-Gbb7jeR8JWOVxdUFaXfJzVU/O7c7xHQyaidCnhYLp7v32zdeXiHUU7vlrrm5y9ZX0lmQk3plCCsW+phrC9gGAPd6WDKhkal10qVNg0larCR2tQ3u8jfv1t2JAvWrMOJfFG9kKsJuw1P4TozZ/E7Qvj1cupf/rldhoOmaXMyABxNN1af1RV3bVhe4FFZe0p7xlIJF/ctZkFK62HYmh8V3AyhUNTzrvK2k+t/tlDJz2LnW7nYttBLHld8LabPlEEjpTHswhzlthzhVqALIgvF0uNbIJ5Uwpb7NqR4U/2ob0Z+FIcRpFUIAHEAw+RLGwkCge5DyZKfx+RoRJ/In4q/UpA==-MIIEPjCCAiagAwIBAgIBBTANBgkqhkiG9w0BAQsFADAYMRYwFAYDVQQDDA1KZXRQcm9maWxlIENBMB4XDTE1MTEwMjA4MjE0OFoXDTE4MTEwMTA4MjE0OFowETEPMA0GA1UEAwwGcHJvZDN5MIIBIjANBgkqhkiG9w0BAQEFAAOCAQ8AMIIBCgKCAQEAxcQkq+zdxlR2mmRYBPzGbUNdMN6OaXiXzxIWtMEkrJMO/5oUfQJbLLuMSMK0QHFmaI37WShyxZcfRCidwXjot4zmNBKnlyHodDij/78TmVqFl8nOeD5+07B8VEaIu7c3E1N+e1doC6wht4I4+IEmtsPAdoaj5WCQVQbrI8KeT8M9VcBIWX7fD0fhexfg3ZRt0xqwMcXGNp3DdJHiO0rCdU+Itv7EmtnSVq9jBG1usMSFvMowR25mju2JcPFp1+I4ZI+FqgR8gyG8oiNDyNEoAbsR3lOpI7grUYSvkB/xVy/VoklPCK2h0f0GJxFjnye8NT1PAywoyl7RmiAVRE/EKwIDAQABo4GZMIGWMAkGA1UdEwQCMAAwHQYDVR0OBBYEFGEpG9oZGcfLMGNBkY7SgHiMGgTcMEgGA1UdIwRBMD+AFKOetkhnQhI2Qb1t4Lm0oFKLl/GzoRykGjAYMRYwFAYDVQQDDA1KZXRQcm9maWxlIENBggkA0myxg7KDeeEwEwYDVR0lBAwwCgYIKwYBBQUHAwEwCwYDVR0PBAQDAgWgMA0GCSqGSIb3DQEBCwUAA4ICAQC9WZuYgQedSuOc5TOUSrRigMw4/+wuC5EtZBfvdl4HT/8vzMW/oUlIP4YCvA0XKyBaCJ2iX+ZCDKoPfiYXiaSiH+HxAPV6J79vvouxKrWg2XV6ShFtPLP+0gPdGq3x9R3+kJbmAm8w+FOdlWqAfJrLvpzMGNeDU14YGXiZ9bVzmIQbwrBA+c/F4tlK/DV07dsNExihqFoibnqDiVNTGombaU2dDup2gwKdL81ua8EIcGNExHe82kjF4zwfadHk3bQVvbfdAwxcDy4xBjs3L4raPLU3yenSzr/OEur1+jfOxnQSmEcMXKXgrAQ9U55gwjcOFKrgOxEdek/Sk1VfOjvS+nuM4eyEruFMfaZHzoQiuw4IqgGc45ohFH0UUyjYcuFxxDSU9lMCv8qdHKm+wnPRb0l9l5vXsCBDuhAGYD6ss+Ga+aDY6f/qXZuUCEUOH3QUNbbCUlviSz6+GiRnt1kA9N2Qachl+2yBfaqUqr8h7Z2gsx5LcIf5kYNsqJ0GavXTVyWh7PYiKX4bs354ZQLUwwa/cG++2+wNWP+HtBhVxMRNTdVhSm38AknZlD+PTAsWGu9GyLmhti2EnVwGybSD2Dxmhxk3IPCkhKAK+pl0eWYGZWG3tJ9mZ7SowcXLWDFAk0lRJnKGFMTggrWjV8GYpw5bq23VmIqqDLgkNzuoog==

把上面的激活码填入,如下图所示:

Python网络爬虫入门实践详解

3、点击OK,如果可以跳转到下一个页面,说明已经激活成功了!

写第一个有意思的Python程序

开始我们的第一个Python代码,这次换一下,不再是我们的经典代码”Hello World ! ” 我们来画个Python蟒蛇的图案 。

Python网络爬虫入门实践详解

Python网络爬虫入门实践详解

import turtle               # (乌龟)轨迹描绘函数库  
def drawSnake(rad,angle,len,neckrad):     # 绘制蟒蛇函数  
   for i in range(len):  
       turtle.circle(rad,angle)  # 圆形轨迹函数,参数rad描述圆形半径的位置  
       turtle.circle(-rad,angle)# rad为负值,半径在乌龟右侧  
   turtle.circle(rad,angle/2)  # 参数angle表示乌龟沿圆形爬行的弧度值  
   turtle.fd(rad)              # 也称为turtle.forward()函数  
# 表示轨迹直线移动,参数表示移动距离  
   turtle.circle(neckrad+1,180)  
   turtle.fd(rad*2/3)  
def main():  
   turtle.setup(1300,800,0,0)  # 启动图形窗口,参数分别为窗口的宽度、高度  
# 窗口左上角点的横、纵坐标位置  
   pythonsize = 30  
   turtle.pensize(pythonsize)  # 轨迹的宽度,参数为像素大小,这里为30  
   turtle.pencolor("blue")     # 轨迹颜色,参数为字符串(英文或16进制颜色代码)  
   turtle.seth(-40)        # 轨迹运动方向,参数为角度(逆时针,以正东方向为0度)  
   drawSnake(40,80,5,pythonsize/2) # 绘制蟒蛇函数,用以绘制python蟒蛇  
main()

(Python蟒蛇代码)

Python最简单的网络爬虫

这次我们要爬取的数据是来自简书中一个专栏中的文章标题,链接如下:https://www.jianshu.com/c/yD9GAdPython网络爬虫入门实践详解

在开始爬虫之前,还需要介绍两个Python元件:

Requests 和 BeautifulSoup4

Requests:网络资源URL获取套件

BeautifulSoup4:Html解析套件

这两个Python元件需要先进行安装,才可以使用 。

打开”cmd”,输入pip install requests 和 pip installBeautifulSoup4

Python网络爬虫入门实践详解

如上图所示,安装成功后,会看到末尾有 Successfully 。

我们要抓取简书专栏中的标题,用Python代码就这么六行,数据就可以抓取出来了,是不是很简单!这边就只给出代码了,不在详细的介绍每一行代码的作用,后续文章会详细的深入讲解 ,这篇文章简单的了解一下Python爬虫就可以了 。

import requests
from bs4 import BeautifulSoup
res = requests.get("https://www.jianshu.com/c/yD9GAd")
soup = BeautifulSoup(res.text, "html.parser")
for item in soup.select("a.title"):
print(item.text)

运行效果图:

Python网络爬虫入门实践详解

Python资源下载链接

1、Python学习视频:在公众号后台回复『Python

2、Python环境安装包下载:在公众号后台回复『安装包

3、总结

Python是一种面向对象解释型的计算机程序设计语言,如今的Python真的是越来越火热了。对于程序员来说,多学一门Python编程语言,百利无一害,有时间和精力的老铁们,欢迎入坑!

本文属于原创,如有转载,请标注原作者,版权归本公众号所有。如果你喜欢我写的文章请关注程序IT圈” ,欢迎大家继续关注本公众号的技术博文。如果您觉得这篇文章对你有所帮助的话,不妨点个赞或给个赞赏哈,您的支持就是我坚持原创的动力~~


推荐阅读:

关注【程序IT圈】,让我们一起成长

Python网络爬虫入门实践详解

文章声明:发布者:栈长,转转请注明出处,谢谢!

发表评论

登录后才能评论
QR code