当前位置: 首页 > news >正文

做极速赛车网站如何进行网站设计规划

做极速赛车网站,如何进行网站设计规划,wordpress采集定时发布,多用户商城app开发需求:最近对python爬虫感兴趣,于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片,网站:http://www.mm131.com/xinggan,其中每一套图都是一张一个页面,存一套图如果是手动得点翻几十个页面,但现在用…

需求:最近对python爬虫感兴趣,于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片,网站:http://www.mm131.com/xinggan,其中每一套图都是一张一个页面,存一套图如果是手动得点翻几十个页面,但现在用爬虫的话,就很方便了,只需输入套图的id,轻轻松松就可以把美女存到硬盘了。

大神说:talk is cheap show me the code!

接下来说下一般网页爬虫的的过程

1.查看目标网站页面的源代码,找到需要爬取的内容
2.用正则或其他如xpath/bs4的工具获取爬取内容
3.写出完整的python代码,实现爬取过程

1.目标网址

url:http://www.mm131.com/xinggan/2373.html


美女图片


漂亮吧!!

2.分析源代码

F12可以找到如下2行内容

src="http://img1.mm131.com/pic/2373/1.jpg"
span class="page-ch">共56

我们得到如下信息

  • 第一页的url为http://www.mm131.com/xinggan/2373.html
  • 第一行是第一页图片的的url,其中2373是套图的id
  • 第二行看到这个套图有56张

我们点击第二页和第三页继续看源码

  • 第二页和第三页的url为http://www.mm131.com/xinggan/2373_2.html2373_3.html
  • 图片url和第一页类似,1.jpg变成2.jpg

3.爬取图片

我们试着爬取第一个页面的图,直接上代码:

import requests
import re
url = 'http://www.mm131.com/xinggan/2373.html'
html = requests.get(url).text           #读取整个页面为文本
a = re.search(r'img alt=.* src="(.*?)" /',html,re.S)  #匹配图片url
print(a.group(1))</code>
得到:
http://img1.mm131.com/pic/2373/1.jpg

接下来我们需要把图片保存在本地:

pic= requests.get(a, timeout=2)  #time设置超时,防止程序苦等
fp = open(pic,'wb')    #以二进制写入模式新建一个文件
fp.write(pic.content)  #把图片写入文件
fp.close()

这样,你的本地就会有第一张美女图了,

第一张既然已经保存了,那剩下的也都不要放过,继续放代码:

4.继续把代码补全

载入所需模块,并设置图片存放目录

#coding:utf-8
import requests
import re
import os
from bs4 import BeautifulSoup
pic_id = raw_input('Input pic id: ')
os.chdir("G:\pic")
homedir = os.getcwd()
print("当前目录 %s" % homedir )
fulldir = unicode(os.path.join(homedir,pic_id),encoding='utf-8')  #图片保存在指定目录,并根据套图id设置目录
if not os.path.isdir(fulldir):os.makedirs(fulldir)

因为需要不停翻页才能获取图片,所以我们先获取总页数

url='http://www.mm131.com/xinggan/%s.html' % pic_id
html = requests.get(url).text
#soup = BeautifulSoup(html)
soup = BeautifulSoup(html, 'html.parser')  #使用soup取关键字,上一行会报错UserWarning: No parser was explicitly specified
ye = soup.span.string
ye_count = re.search('\d+',ye)
print('pages:共%d页' % int(ye_count.group()))

主函数

def downpic(pic_id):n = 1url='http://www.mm131.com/xinggan/%s.html' % pic_idwhile n <= int(ye_count.group()):  #翻完停止#下载图片try:if not n == 1:url='http://www.mm131.com/xinggan/%s_%s.html' % (pic_id,n) #url随着n的值变化的html = requests.get(url).textpic_url = re.search(r'img alt=.* src="(.*?)" /',html,re.S)   #使用正则去关键字pic_s = pic_url.group(1)print(pic_s)pic= requests.get(pic_s, timeout=2)pic_cun = fulldir + '\\' + str(n) + '.jpg'fp = open(pic_cun,'wb')fp.write(pic.content)fp.close()n += 1except requests.exceptions.ConnectionError:print("【错误】当前图片无法下载")continue
if __name__ == '__main__':downpic(pic_id)
  • 程序跑起来
http://www.sczhlp.com/news/81783/

相关文章:

  • 做网站前端用什么软件免费网络节点
  • 搜狐做网站网络服务合同模板
  • 广州最近传染病情况seo深圳网络推广
  • 在贸易网站怎么做贸易wordpress 推送 微信
  • 工业园企业建设网站公司怎么在wordpress免费注册博客网站
  • 网站建设类工作描述重庆公司网站建设价格
  • 湛江知名网站建设电话app和网站哪个有优势
  • 单页网站制作 在线 支付wordpress平台搭建
  • 成华区网站建设公司服务公司发展战略
  • 西蔵自治区建设厅网站建设网站以后怎么让百度收录呢
  • 12.6 类的封装
  • 深度解码你自己看着办:职场新人必须掌握的潜台词破解术
  • 6 个替代 Jira 的开源项目管理工具推荐
  • 哪里有做桥梁模型的网站永久免费自助建站
  • 最新做做网站网站建设 500强建站
  • 南京市住宅建设总公司网站天河建设网站专家
  • 2019建设摩托官方网站网站制公司
  • 做惠而浦售后网站赚钱专业网页制作什么价格
  • 晚上睡不着推荐个网站保定php网站制作
  • 怎么制作网站教程图片搜题公众号怎么制作
  • 营销型网站框架零基础培训网页设计
  • 自助建站平台搭建北滘建网站
  • 烟台住房和城乡建设厅网站营销型网站的三大特点
  • 记录一个Windows上的键盘鼠标模拟库和沟子库--Input
  • 惊世骇俗:《易经》六十四卦与数学公理完整映射表
  • 做曖网站公共货运平台
  • 烟台网站建设技术支持网站已付款方式
  • 网站建设花销网站空间上传工具
  • 怎么用esc服务器做网站做网站的预算表
  • 自建网站做淘宝联盟静态网页模板简约