博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 爬虫笔记
阅读量:5236 次
发布时间:2019-06-14

本文共 2336 字,大约阅读时间需要 7 分钟。

urllib

python3 与 python2 的urllib很不一样,之前urllib2的方法基本上都变成了python3里的urllib.request模块中

import urllib.request as urqimport urllib.parse as urpimport urllib.error as ure# 初始化opener = urq.build_opener()# 序列化请求参数 urllib.parse.urlencode()url = "http://localhost"data = {"username":"dapianzi"}post_data = urp.urlencode(data).encode('utf-8')# 设置 headerheaders = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36"}# 构造request对象request = urq.Request(url, post_data, headers)# 打开urltry:    res = opener.open(request)    # 从结果对象中获取内容  read(), 返回二进制流    b_str = res.read()    # 解码还原, 编码视网页源代码而定    print(b_str.decode("utf8"))except ure.HTTPError as e:    print (e.strerror)

unzip

通常网页会用gzip压缩,这时候需要先解压。导入gzip 模块, gzip.decompress(str)

def unzip(data):    try:        data = gzip.decompress(data)    except:        pass    return data

re 正则表达式

re.M 多行模式

re.I 忽略大小写
re.S \s 匹配换行
re.search 搜索
re.match 从开头匹配
re.fandall 匹配所有结果

Beautiful soup

Beautifulsoup 是一个强大的html文档解析模块。使用起来跟css选择器非常像。python3 直接pip install bs4安装,获取网页内容之后:

import bs4html = "The content you have got"# 初始化 beautiful soup对象soup = bs4.BeautifulSoup(html, "html.parser")# 直接.
<标签>
可以获取第一个匹配的元素a = soup.aprint(a.string) # a标签的文本 imgs = soup.select('img') # all imgsfor i in imgs: src = i['src'] # src属性 id = i['id'] # id属性(假如有的话) print (src) # 后续操作继续抓取图片内容保存本地..

设置和保存cookie 需要用到 http.cookiejar 模块。 然后通过 urllib.request.HTTPCookieProcessor 处理器初始化cookie

import http.cookiejar as ckjimport urllib.request as urqcookie_tmp = "/tmp/cookie.tmp"cookie = ckj.MozillaCookieJar(cookie_tep)cookie_handler = urq.HTTPCookieProcessor(cookie)opener = urq.build_opener(cookie_handler)res = opener.open(url).read().decode()# ignore_dicsard 是否覆盖旧的值# ignore_expires 是否忽略过期cookiecookie.save(cookie_tmp, ignore_discord=True, ignore_expires=True)print(res)print(cookie)

proxy代理

代理ip无论是自由上网还是应对封ip反爬虫策略都非常重要。首先要找一个可以用的代理。我后来想到自己完全可以搭一个http代理服务器,然后就被坑了一下午,这是后话暂且不表。

增加proxy非常简单,就是build_opener的时候多传一个 proxy handler

proxy = {"http" : "x.x.x.x:80"}proxy_handler = urllib.request.ProxyHandler(proxy)# 这里如果有多个handle, 一起传进去就行了opener = urllib.request.build_opener(proxy_handelr, cookie_handler)# ...

小结

以上掌握了之后就可以开始各种爬虫实践了,至于http认证,在 header 那里带上用户名密码就可以,不再赘述。

转载于:https://www.cnblogs.com/dapianzi/p/7491125.html

你可能感兴趣的文章
http站点转https站点教程
查看>>
解决miner.start() 返回null
查看>>
bzoj 2007: [Noi2010]海拔【最小割+dijskstra】
查看>>
BZOJ 1001--[BeiJing2006]狼抓兔子(最短路&对偶图)
查看>>
C# Dynamic通用反序列化Json类型并遍历属性比较
查看>>
128 Longest Consecutive Sequence 一个无序整数数组中找到最长连续序列
查看>>
定制jackson的自定义序列化(null值的处理)
查看>>
auth模块
查看>>
javascript keycode大全
查看>>
前台freemark获取后台的值
查看>>
log4j.properties的作用
查看>>
游戏偶感
查看>>
Leetcode: Unique Binary Search Trees II
查看>>
C++ FFLIB 之FFDB: 使用 Mysql&Sqlite 实现CRUD
查看>>
Spring-hibernate整合
查看>>
c++ map
查看>>
exit和return的区别
查看>>
discuz 常用脚本格式化数据
查看>>
洛谷P2777
查看>>
PHPStorm2017设置字体与设置浏览器访问
查看>>