1. 首页
  2. Python教程

Python入门教程

1、Python 环境准备

官网:https://www.python.org/

windows 资源: https://www.python.org/ftp/python/3.6.4/python-3.6.4-amd64.exe

python3

2314d8ad-0cff-490b-b570-e965ee77d0c0-366614.jpg

安装步骤

在默认地址安装 并 添加环境变量

4bf82e8a-b647-4c1a-95fe-6ad80ed6e535-366614.jpg

测试

cmd python

12cdfa9e-bc90-458a-bca0-b254c9052e3f-366614.jpg

IDE 工具:

PYCHARM

安装

faf0e3f3-7808-4e76-85ba-308271835609-366614.jpg

创建项目

81f4314b-d104-4d39-aaba-1130debece71-366614.jpg

2、网页构造

基本网页结构

查看网页源代码 HTML CSS JavaScript

889a7f73-0a30-49c6-bf55-dec1b3cd2ae4-366614.jpg

自己写一个网页源码

head body div ul li img h p

引入CSS样式

9bb09e74-5719-4521-b762-5dbe2836e753-366614.jpg

3、网页解析

读取本地的 html 页面

先 OPEN 获取文件 在READ读取内容

转为字符串输出

c5f56b9c-823d-47a3-b886-b2951625187a-366614.jpg

解析字符串中的XPATH路径
  1. 安装第三方库 requests 和 lxml

d3cce850-5b82-45b3-8b17-bbcea6c11168-366614.jpg

 

  1. 导入并使用  from lxml import etree

38e0ff45-d70a-411e-a175-2edf2a761b4a-366614.jpg

 

  1. .xpath 解析字符路径 为节点

循环获取图片地址

a6c92beb-c09f-47b4-b481-75d5eb6b04f6-366614.jpg

4、真实网页请求(链家二手房信息)

通过 request 请求网络地址

get请求 输出获取到的文本

ef3af8b9-54f1-4117-ba29-e703c8da4824-366614.jpg

使用 xpath 解析

XPATH定位 根据CLASS属性 找到对应的UL>LI

fd0376eb-477c-4aa3-a8e9-26eb88edf755-366614.jpg

循环获取所有需要的数据

urls = [“https://cd.lianjia.com/ershoufang/pg{}/”.format(str(i))for i in range(1,12)]

5ca2a318-5b18-4164-b722-c0adc4205b51-366614.jpg

5、Excel存储

使用 xlwt 库文件

Demo

dff75d28-90ee-41ae-99b5-da1e47446574-366614.jpg

案例代码

执行代码

a4b91902-5d08-4357-8374-8b4b2bde0aff-366614.jpg

结果

bf234591-c8b6-4ebe-9151-7e05f2a4f05c-366614.jpg

 

6、项目实战(微博数据)

浏览器调整到手机调试模式 方便获取数据

模拟登录:

随便一个页面的请求头中,拷贝cookie 和 用户代理信息

7742138c-ac12-4ee5-9049-0d14b3ff5804-366614.jpg

数据来源

Ajax 异步请求

542a1e97-c518-468b-89d9-0a7187a615fb-366614.jpg

基本用户信息的获取

使用 REQUESTS 请求库

用准备好的 cookie 通过 get 请求访问接口

b78e61d5-2bca-472c-8512-474ef7d429dd-366614.jpg

解析数据

json 库解析数据

把 json 字符串 转换为对象,获取对象的属性值

a76943cf-3c90-483f-8e00-74f02a1a1d26-366614.jpg

获取更多详细的信息

用户的详细信息

跟踪 user 的 uid,获取 containerid 和接口地址

94845eb5-7d81-4a58-a5ae-5e7cc649093d-366614.jpg

实例代码

获取根据 ui 获取到 对应用户的Json数据

api 地址通过 Chrome 浏览器复制

947d4a28-0630-4888-9be8-82ec72150aea-366614.jpg

正则表达式解析

通过 ITEM_NAME 获取 KEY ; ITEM_CONTENT 获取 VALUE

1 .在多行模式下不能匹配空格用\w\W代替;

2 ?非贪婪获取更多的字段

3 * 任意多次 +至少一次

测试

010f9cb6-b327-464c-87cf-b4791b8e4c95-366614.jpg

实例代码

python 正则查找方法 re.findall

10b244f0-27ce-41cf-9e84-b23da0c1f05f-366614.jpg

保存到数据库

MySQL 数据库 — 使用 pymyql 库

9d9b481b-077f-4a1c-ad5d-c65ff19f7dd4-366614.jpghttp://www.52xjava.cn/2018/02/10/python-start/

Python入门教程

文章声明:发布者:小猿,转转请注明出处,谢谢!

发表评论

登录后才能评论
QR code