1、Python 环境准备
官网:https://www.python.org/
windows 资源: https://www.python.org/ftp/python/3.6.4/python-3.6.4-amd64.exe
python3
安装步骤
在默认地址安装 并 添加环境变量
测试
cmd python
IDE 工具:
PYCHARM
安装
创建项目
2、网页构造
基本网页结构
查看网页源代码 HTML CSS JavaScript
自己写一个网页源码
head body div ul li img h p
引入CSS样式
3、网页解析
读取本地的 html 页面
先 OPEN 获取文件 在READ读取内容
转为字符串输出
解析字符串中的XPATH路径
- 安装第三方库 requests 和 lxml
- 导入并使用 from lxml import etree
- .xpath 解析字符路径 为节点
循环获取图片地址
4、真实网页请求(链家二手房信息)
通过 request 请求网络地址
get请求 输出获取到的文本
使用 xpath 解析
XPATH定位 根据CLASS属性 找到对应的UL>LI
循环获取所有需要的数据
urls = [“https://cd.lianjia.com/ershoufang/pg{}/”.format(str(i))for i in range(1,12)]
5、Excel存储
使用 xlwt 库文件
Demo
案例代码
执行代码
结果
6、项目实战(微博数据)
浏览器调整到手机调试模式 方便获取数据
模拟登录:
随便一个页面的请求头中,拷贝cookie 和 用户代理信息
数据来源
Ajax 异步请求
基本用户信息的获取
使用 REQUESTS 请求库
用准备好的 cookie 通过 get 请求访问接口
解析数据
json 库解析数据
把 json 字符串 转换为对象,获取对象的属性值
获取更多详细的信息
用户的详细信息
跟踪 user 的 uid,获取 containerid 和接口地址
实例代码
获取根据 ui 获取到 对应用户的Json数据
api 地址通过 Chrome 浏览器复制
正则表达式解析
通过 ITEM_NAME 获取 KEY ; ITEM_CONTENT 获取 VALUE
1 .在多行模式下不能匹配空格用\w\W代替;
2 ?非贪婪获取更多的字段
3 * 任意多次 +至少一次
测试
实例代码
python 正则查找方法 re.findall
保存到数据库
MySQL 数据库 — 使用 pymyql 库
http://www.52xjava.cn/2018/02/10/python-start/
原创文章,作者:栈长,如若转载,请注明出处:https://www.cxyquan.com/1282.html