博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
17行python代码爬取堆糖网所有MeiNv图片
阅读量:2071 次
发布时间:2019-04-29

本文共 880 字,大约阅读时间需要 2 分钟。

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS:如有需要Python学习资料的小伙伴可以加点击链接自行获取

在这里插入图片描述

开发工具

  • python版本:3.6.8
  • 编辑器:pycharm

相关模块:

import urllib.parseimport jsonimport requestsimport jsonpath

爬虫基本流程

分析网站

  • 确定url
  • 模拟浏览器请求数据
  • 解析网页
  • 保存数据

实现代码

import urllib.parseimport jsonimport requestsimport jsonpath===========================||python学习群:695185429 ||===========================url = 'https://www.duitang.com/napi/blog/list/by_search/?kw={}&start={}'label = '美女'label = urllib.parse.quote(label)num = 0for index in range(0,2400,24):    u = url.format(label,index)    we_data = requests.get(u).text    html = json.loads(we_data)    photo = jsonpath.jsonpath(html,"$..path")    for i in photo:        a = requests.get(i)        with open(r'D:\python\demo\img\{}.jpg'.format(num),'wb') as f:            f.write(a.content)        num += 1

运行效果

在这里插入图片描述

这里我只下载到700多张就暂停了,如果你的硬盘内存允许的情况,你可以下载更多的美图~

转载地址:http://cwnmf.baihongyu.com/

你可能感兴趣的文章
剑指offer 20.顺时针打印矩阵
查看>>
剑指offer 21.包含min函数的栈
查看>>
剑指offer 23.从上往下打印二叉树
查看>>
Leetcode C++《热题 Hot 100-18》538.把二叉搜索树转换为累加树
查看>>
Leetcode C++《热题 Hot 100-21》581.最短无序连续子数组
查看>>
Leetcode C++《热题 Hot 100-22》2.两数相加
查看>>
Leetcode C++《热题 Hot 100-23》3.无重复字符的最长子串
查看>>
Leetcode C++《热题 Hot 100-24》5.最长回文子串
查看>>
Leetcode C++《热题 Hot 100-28》19.删除链表的倒数第N个节点
查看>>
Leetcode C++《热题 Hot 100-29》22.括号生成
查看>>
阿里云《云原生》公开课笔记 第二章 容器基本概念
查看>>
阿里云《云原生》公开课笔记 第三章 kubernetes核心概念
查看>>
阿里云《云原生》公开课笔记 第四章 理解Pod和容器设计模式
查看>>
阿里云《云原生》公开课笔记 第五章 应用编排与管理
查看>>
阿里云《云原生》公开课笔记 第六章 应用编排与管理:Deployment
查看>>
阿里云《云原生》公开课笔记 第七章 应用编排与管理:Job和DaemonSet
查看>>
阿里云《云原生》公开课笔记 第八章 应用配置管理
查看>>
阿里云《云原生》公开课笔记 第九章 应用存储和持久化数据卷:核心知识
查看>>
linux系统 阿里云源
查看>>
国内外helm源记录
查看>>