当前位置: 首页 > news >正文

昆明市做网站2022年中国电商行业分析报告

昆明市做网站,2022年中国电商行业分析报告,wordpress 换域名 插件,广东网络公司网站今天想爬取一些政策#xff0c;从政策服务 (smejs.cn) 这个网址爬取#xff0c;html源码找不到链接地址#xff0c;通过浏览器的开发者工具#xff0c;点击以下红框 分析预览可知想要的链接地址的id有了#xff0c;进行地址拼接就行 点击标头可以看到请求后端服务器的api地…今天想爬取一些政策从政策服务 (smejs.cn) 这个网址爬取html源码找不到链接地址通过浏览器的开发者工具点击以下红框 分析预览可知想要的链接地址的id有了进行地址拼接就行 点击标头可以看到请求后端服务器的api地址通过拿到这个地址编写python脚本不会的可以让gpt帮你写很好用 import requests import pandas as pd import logging import time from requests.adapters import HTTPAdapter from urllib3.util.retry import Retry# 设置日志 logging.basicConfig(levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s)# 请求头信息 headers {Content-Type: application/json,User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 }# 基础URL base_url https://policy-gateway.smejs.cn/policy/api/policy/getNewPolicyList base_policy_url https://policy.smejs.cn/frontend/policy-service/# 参数 params {orderBy: ,keyWords: ,genreCode: K,A,S,Z,queryPublishBegin: ,queryPublishEnd: ,queryApplyBegin: ,queryApplyEnd: ,typeCondition: ,publishUnit: ,applyObj: ,meetEnterprise: ,title: ,commissionOfficeIds: ,commissionOfficeSearchIds: ,industry: ,relativePlatform: ,level: ,isSearch: N,policyType: ,provinceValue: 江苏省,cityValue: ,regionValue: ,current: 1,size: 15,total: 23960,page: 0 }# 总条目数和每页条目数 total_policies 23960 page_size 15 total_pages (total_policies // page_size) 1# 存储所有政策数据 all_policies []# 配置重试策略 retry_strategy Retry(total5,status_forcelist[429, 500, 502, 503, 504],allowed_methods[HEAD, GET, OPTIONS] ) adapter HTTPAdapter(max_retriesretry_strategy) http requests.Session() http.mount(https://, adapter) http.mount(http://, adapter)# 遍历每一页 for page in range(total_pages):params[current] page 1try:response http.get(base_url, headersheaders, paramsparams, verifyFalse)response.raise_for_status()except requests.exceptions.RequestException as e:logging.error(fFailed to fetch data for page {page 1}: {e})continuedata response.json()if records not in data[data]:logging.error(fNo records found for page {page 1})continuerecords data[data][records]for record in records:policy_id record.get(id)level_value record.get(levelValue)title record.get(title)type_value record.get(typeValue)commission_office_names record.get(commissionOfficeNames)publish_time record.get(publishTime)valid_date_end record.get(validDateEnd)policy_url base_policy_url policy_idall_policies.append({ID: policy_id,URL: policy_url,Level Value: level_value,Title: title,Type Value: type_value,Commission Office Names: commission_office_names,Publish Time: publish_time,Valid Date End: valid_date_end})logging.info(fFetched data for page {page 1})time.sleep(1) # 防止过快请求# 转换为DataFrame df pd.DataFrame(all_policies)# 保存到Excel df.to_excel(policies.xlsx, indexFalse) logging.info(Data saved to policies.xlsx)然后运行后就等到爬取完成了后面也可以多线程爬还没试不知道是否有防爬机制。。。。
http://www.sczhlp.com/news/241739/

相关文章:

  • 免费的百度网站怎么做自己建设网站教程
  • 软件开发兼职网站东莞市民服务中心调整入场核验
  • 网站制作中山wordpress 4.9 优化
  • 国家工程建设质量奖网站网页设计作业心得体会
  • 上海建设工程安全质量监督站网站网站建设制作服务
  • 重庆做网站哪家好百度网站建设
  • 做编程网站有哪些方面网站建设公司 经营范围
  • 域名注册后网站建设北京网站开发公司大全
  • 邵阳住建部网站西安做app开发的公司
  • wordpress调用所有标签广东短视频seo营销
  • 做网站建网站内页关键词密度
  • 网站开发者morz阿里云建设wordpress
  • 网站快排是怎么做的网站模板整站资源
  • 阳朔到桂林北WordPress标签seo
  • 网站地址解析如何建立自己的网拍平台
  • 外贸网站如何做推广南宁快速网站建设电话
  • 北京网站制建设公司网站木马诊断
  • 网站建设的功能需求分析营销方案案例范文
  • 网站维护包括建一个设计网站要多少钱
  • 长沙做网站哪家公司好做电子商务系统网站
  • 2025年10月反应釜厂家/反应釜工厂排行榜:江苏永润反应釜荣获第一
  • 2025年反应釜厂家/反应釜工厂综合实力排名前十强
  • 解锁Github star 1600+ 的神秘工具,为什么Marsview 能让“后台系统开发”快到令人咋舌?
  • csp复习内容
  • 2025年10月中国保安亭厂家权威口碑排行榜单:合肥荣东智能环保科技有限公司
  • 用python 做网站如何兼职做网站
  • 看手表网站岳阳网站开发收费
  • 死循环网站淄博市沂源县城乡建设局网站
  • 教育类型网站wordpress缓存插件 w3
  • 大庆做网站jsp网站开发详解 赵增敏