当前位置: 首页 > news >正文

自己做的网站本地调试怎么做网页才能置顶

自己做的网站本地调试,怎么做网页才能置顶,不属于企业网站建设基本标准的是,网页设计流程与步骤电视猫上面有《庆余年》分集剧情#xff0c;如何批量爬取下来呢#xff1f; 先找到每集的链接地址#xff0c;都在这个classepipage clear的div标签里面的li标签下面的a标签里面#xff1a; a href/drama/Yy0wHDA/episode1/a 这个…电视猫上面有《庆余年》分集剧情如何批量爬取下来呢 先找到每集的链接地址都在这个classepipage clear的div标签里面的li标签下面的a标签里面 a href/drama/Yy0wHDA/episode1/a 这个链接是相对地址前面加上https://www.tvmao.com才是完整的URL地址 每集的标题在p标签里面 p classepi_t 第7集范闲赴诗会作绝句惊艳京城 /p 在kimi中输入提示词 你是一个Python编程专家要完成以下任务的Python脚本的编写 打开网页https://www.tvmao.com/drama/Yy0wHDA/episode 在源代码中定位classepipage clear的div标签 提取div标签里面所有a标签的href值前面加上”https://www.tvmao.com”,构成网页下载URL 解析URL定位classepi_t的p标签提取其文本内容作为txt文档文件名提取classclear epi_c的article标签里面的文本内容保存为txt文档到D盘下的qyn文件夹 注意 每下载一个网页随机暂停1-10秒 网页文件名要进行处理去除不符合window系统文件命名规范的特殊字符处理文件名时要确保文件名中不包含任何特殊字符或不可见字符可以通过使用strip()方法来去除字符串两端的空白字符包括换行符和空格 每一步都要输出信息到屏幕 要有应对反爬虫的措施设置请求头 生成的源代码如下 import requests from bs4 import BeautifulSoup import random import time import os # 目标网页URL url https://www.tvmao.com/drama/Yy0wHDA/episode # 设置请求头模拟浏览器访问 headers { User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3 } # 发送HTTP请求 response requests.get(url, headersheaders) response.raise_for_status() # 如果请求失败将抛出异常 # 解析HTML soup BeautifulSoup(response.text, html.parser) # 定位classepipage clear的div标签 div_epipage soup.find(div, class_epipage clear) # 提取所有a标签的href值并构成完整的网页下载URL episode_links [] for a_tag in div_epipage.find_all(a, hrefTrue): episode_url https://www.tvmao.com a_tag[href] episode_links.append(episode_url) # 创建文件夹 d盘_qyn文件夹路径 D:\\qyn if not os.path.exists(d盘_qyn文件夹路径): os.makedirs(d盘_qyn文件夹路径) # 下载并保存每个剧集的文本内容 for episode_url in episode_links: print(f正在下载{episode_url}) # 发送HTTP请求 episode_response requests.get(episode_url, headersheaders) episode_response.raise_for_status() # 解析HTML episode_soup BeautifulSoup(episode_response.text, html.parser) # 解析文件名 epi_t episode_soup.find(p, class_epi_t) file_name epi_t.text.strip().replace(:, ).replace(/, -).replace(\\, -).replace(|, -) # 处理文件名 # 解析文本内容 epi_c episode_soup.find(article, class_clear epi_c) text_content epi_c.get_text(stripTrue) # 保存到txt文档 file_path os.path.join(d盘_qyn文件夹路径, file_name .txt) with open(file_path, w, encodingutf-8) as file: file.write(text_content) print(f已保存{file_path}) # 随机暂停1-10秒 time.sleep(random.randint(1, 10)) print(所有剧集文本已下载完毕。)
http://www.sczhlp.com/news/190294/

相关文章:

  • 中文绿色环保网站模板wordpress安装腾讯云
  • 做静态网站工资多少企业网站 phpcms
  • 公司网站用什么系统剪辑培训班
  • 网站建设零基础教材免费下载小学生手工制作大全
  • 南昌做网站软件福州企业网站建设
  • 大气娱乐搞笑网站源码临沂网站建设培训班
  • 云南建设厅网站安全员报名入口cms建站方案
  • 2016网站备案网站cmd做路由分析
  • 手机自建网站平台wordpress怎么做app
  • 建设网站 知乎如何利用wordpress开发主题
  • 淘宝做基础销量网站网络营销的产品策略
  • 西安网站设计制自己如何建设个网站
  • 重庆网站建设设计公司信息seoyoon
  • 公司做网站流程流程网站开发培训哪家好
  • 商务网站建设pdf龙华做棋牌网站建设哪家公司便宜
  • 餐饮网站建设设计价格wordpress图片分页浏览器
  • 有帮忙做ppt的网站或人吗个人网站怎么做支付宝接口
  • 网站建设报价分析自己怎么做网站游戏
  • 大连网站设计选仟亿科技承德网站建设有限公司
  • asp网站会员注册不了深圳方维网站建设公司
  • iis6.0如何做网站301台州临海市建设局网站
  • 导航网站开发用户文档网站运营开发托管
  • 郑州网站设计专家北辰网站建设公司
  • dedecms网站地图插件seo自然排名优化
  • 网站续费自己做徐州网站建设熊掌号
  • 公司做零申报在哪个网站上山西建设局网站首页
  • 整站优化要多少钱湖南网站建设价格费用
  • wordpress网站欣赏湖南长沙十大特产
  • 免费扑克网站代码php 上传移动到网站根目录
  • 上海市工商网站官网建网站商城有哪些公司