当前位置: 首页 > news >正文

乌鲁木齐市城乡建设局网站新闻式软文范例

乌鲁木齐市城乡建设局网站,新闻式软文范例,wordpress插件云采集,网站建设优化服务方案模板【🏠作者主页】:吴秋霖 【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作! 【&…

【🏠作者主页】:吴秋霖
【💼作者介绍】:擅长爬虫与JS加密逆向分析!Python领域优质创作者、CSDN博客专家、阿里云博客专家、华为云享专家。一路走来长期坚守并致力于Python与爬虫领域研究与开发工作!
【🌟作者推荐】:对爬虫领域以及JS逆向分析感兴趣的朋友可以关注《爬虫JS逆向实战》《深耕爬虫领域》
未来作者会持续更新所用到、学到、看到的技术知识!包括但不限于:各类验证码突防、爬虫APP与JS逆向分析、RPA自动化、分布式爬虫、Python领域等相关文章

作者声明:文章仅供学习交流与参考!严禁用于任何商业与非法用途!否则由此产生的一切后果均与作者无关!如有侵权,请联系作者本人进行删除!

1. 写在前面

  电商系列有多难,做过的小伙伴应该都非常的清楚!其中解决算法只是入场券,核心难点当然是风控系统!作者虽没有实际的业务场景,但是在研究分析与测试的过程中能够感受到强度!尤其是在对IP、账号、行为的硬控堪称为精准


分析目标

aHR0cHM6Ly93d3cudGVtdS5jb20vYmdjX2NvbW1lbnRzLmh0bWw/Z29vZHNfaWQ9NjAxMDk5NTEyMzAyNTk5Jm1hbGxfaWQ9NTAyNjE0Njg3NiZfeF9zZXNzbl9pZD0zdGF0cTA5d202JnJlZmVyX3BhZ2VfbmFtZT1nb29kcyZyZWZlcl9wYWdlX2lkPTEwMDMyXzE3MTc4MjMxMDk4NzFfeGNwc254Zng2bSZyZWZlcl9wYWdlX3NuPTEwMDMy

2. 接口分析

首先在打开网站的第一步,需要准备一个优质的IP环境,已保障网络是可以正常访问的。不然的话就会出现下面这样的情况,如下所示:

在这里插入图片描述

直接看头部参数,还是这个Anti-Content,目前作者分析大部分还有有区别的,但是一个站点基本是通用的。区别就在于是否含轨迹参与了加密,如下所示:

在这里插入图片描述

这个验证码虽然说出的不是很频繁,但是在持续抓取的道路上一定是一道坎!如下所示:

在这里插入图片描述

这里的也是一个坑,由于作者前期是采用的登录方式去调试的。导致算法没有扣全(但是能用)就去尝试抓取测试,导致账号被风控后所有页面的内容被限制浏览!如下所示:

在这里插入图片描述

3. 数据爬取

temu的网站其实从分析到扣JS算法,跟作者之前分析过的达人端流程相差无几达人端是700多位含轨迹。接下来直接搜索关键词参数,断点跟进,如下所示:

在这里插入图片描述

这里有一个关键的环境点需要补,就是referer。完整的环境头可以直接拿去使用,如下所示:

(function(global, cookie, href, ua) {const random = (min, max) => Math.floor(Math.random() * (max - min + 1) + min);const eventMap = new Map();class DeviceMotionEvent {}class DeviceOrientationEvent {}const documentMock = {cookie: cookie,onmousewheel: "",get referrer() {return "";},addEventListener: (e, t) => eventMap.set(e, t),getElementById: () => {},get ontouchstart() {return null;},get documentElement() {return { scrollTop: 12 };}};const historyMock = {back: () => {},toString: () => "function back() { [native code] }"};const localStorageMock = {getItem: () => null,setItem: () => {}};const locationMock = {get href() {return href;},get port() {return "";}};const navigatorMock = {hasOwnProperty: () => false,get languages() {return ["zh-CN", "zh"];},get plugins() {return { length: 4 };},get userAgent() {return ua;}};const screenMock = {get availHeight() {return 1040;},get availWidth() {return 1920;}};global._event_map = eventMap;global.DeviceMotionEvent = DeviceMotionEvent;global.DeviceOrientationEvent = DeviceOrientationEvent;global.chrome = {};global.document = documentMock;global.history = historyMock;global.localStorage = localStorageMock;global.location = locationMock;global.navigator = navigatorMock;global.outerHeight = 1040;global.outerWidth = 1920;global.screen = screenMock;global.history.back.toString = historyMock.toString;global.document.getElementById.toString = () => "native code";})(typeof window !== "undefined" ? window : global, "{cookie}", "{href}", "{ua}");

这里JS内参数Cookie、UA、Referer采用的动态替换的方式调用传递,这样的方式更加的便捷,在Python程序中代码如何去实现?如下所示:

import execjs# 调用JS算法示例
def generate_anti_content(cookie_str, referer, user_agent):try:with open("anti_content_temu.js", "rb") as f:js_code = f.read()node = execjs.get()js_code = js_code.decode("gbk", 'ignore').replace("{cookie}", cookie_str).replace("{href}", referer).replace("{ua}", user_agent)if cookie_str not in js_code or user_agent not in js_code:raise Exception("未替换成功")ctx = node.compile(js_code)return ctx.call('get_anti_content')except Exception as e:logger.error(f"生成Anti-Content失败: {e}")raise

目前的话我们在抓取的时候是可以不需要去登录账号的,这就很友好了。我们在控制台将Cookie信息拿出来即可,因为Cookie信息也是需要参与加密的,如下所示:

在这里插入图片描述

算法如果有问题的话在请求的时候会得到下面的错误反馈,如下所示:

{'success': False, 'error_code': 40002, 'error_msg': 'System busy! '}

还有一种情况则是账号或者参数出现风控或异常,则会出现下面的错误反馈,如下所示:

{'error_code': 406008, 'error_msg': ''}

最后,测试一下扣出来的最终算法,可以看到加上轨迹验证与核心参数之后的长度在500+,基本上就是正确的了!商品评论详情抓取测试效果如下所示:

在这里插入图片描述

JS算法的话在每一次请求都调用生成最新的。切记生成一次多次去使用!最后,作者也是测试了一下商品的评价分类,如下所示:

在这里插入图片描述

经过了十多分钟控制策略的测试,发现还是非常稳定的。未出现验证,因为咱们使用的Cookie本身就是非登录的,主要就是测试验证码弹出的风控或者强制要求登录等问题!作者也是顺带着验证了一下商品信息与搜索均是没有问题的,证明所有的接口Anti-Content的算法是通用的~~


文章转载自:
http://arala.wbxr.cn
http://tito.wbxr.cn
http://overspeculate.wbxr.cn
http://metrics.wbxr.cn
http://edge.wbxr.cn
http://meateater.wbxr.cn
http://inshoot.wbxr.cn
http://servantgirl.wbxr.cn
http://theftproof.wbxr.cn
http://seismonasty.wbxr.cn
http://maqui.wbxr.cn
http://vinegarette.wbxr.cn
http://illusion.wbxr.cn
http://hyphenate.wbxr.cn
http://xeromorphous.wbxr.cn
http://semicentury.wbxr.cn
http://indexical.wbxr.cn
http://pianism.wbxr.cn
http://artificial.wbxr.cn
http://huhehot.wbxr.cn
http://recolor.wbxr.cn
http://psychologist.wbxr.cn
http://kasher.wbxr.cn
http://lamentableners.wbxr.cn
http://alburnum.wbxr.cn
http://doorkeeper.wbxr.cn
http://irkutsk.wbxr.cn
http://ayh.wbxr.cn
http://whin.wbxr.cn
http://garbiologist.wbxr.cn
http://biotoxicology.wbxr.cn
http://cafetorium.wbxr.cn
http://elastomer.wbxr.cn
http://exosmosis.wbxr.cn
http://prefrontal.wbxr.cn
http://keogh.wbxr.cn
http://tetrathlon.wbxr.cn
http://nailhole.wbxr.cn
http://juliet.wbxr.cn
http://clarification.wbxr.cn
http://corsac.wbxr.cn
http://selectee.wbxr.cn
http://persifleur.wbxr.cn
http://counterattack.wbxr.cn
http://poliomyelitis.wbxr.cn
http://calico.wbxr.cn
http://linofilm.wbxr.cn
http://colluvial.wbxr.cn
http://semiticist.wbxr.cn
http://pursuance.wbxr.cn
http://aortography.wbxr.cn
http://asymmetric.wbxr.cn
http://bibliophilist.wbxr.cn
http://amazon.wbxr.cn
http://velsen.wbxr.cn
http://halitus.wbxr.cn
http://benjamin.wbxr.cn
http://reran.wbxr.cn
http://uscg.wbxr.cn
http://proliferous.wbxr.cn
http://pool.wbxr.cn
http://airdrome.wbxr.cn
http://mollisol.wbxr.cn
http://latinesque.wbxr.cn
http://fourteenth.wbxr.cn
http://southron.wbxr.cn
http://dprk.wbxr.cn
http://ampere.wbxr.cn
http://nymphlike.wbxr.cn
http://felty.wbxr.cn
http://stracciatella.wbxr.cn
http://unsufferable.wbxr.cn
http://holohedral.wbxr.cn
http://quadrantid.wbxr.cn
http://redskin.wbxr.cn
http://annularly.wbxr.cn
http://pedagogism.wbxr.cn
http://trivalent.wbxr.cn
http://sandbank.wbxr.cn
http://rozzer.wbxr.cn
http://repentant.wbxr.cn
http://nonmagnetic.wbxr.cn
http://orobanchaceous.wbxr.cn
http://renominate.wbxr.cn
http://diplophase.wbxr.cn
http://slickster.wbxr.cn
http://haemolytic.wbxr.cn
http://microtasking.wbxr.cn
http://intoner.wbxr.cn
http://karroo.wbxr.cn
http://virgate.wbxr.cn
http://plaister.wbxr.cn
http://mgal.wbxr.cn
http://justificatory.wbxr.cn
http://penally.wbxr.cn
http://outrank.wbxr.cn
http://presentiment.wbxr.cn
http://pinge.wbxr.cn
http://pedlar.wbxr.cn
http://nudge.wbxr.cn
http://www.sczhlp.com/news/260.html

相关文章:

  • 企业网站建设感想专注网络营销推广公司
  • 坪山做网站的公司广州seo排名优化服务
  • robots.txt 禁止爬行整个网站网络营销什么意思
  • 做网站外包工作怎么样舆情分析报告
  • 网站开发人员的职责网站提交收录入口
  • 在线玩游戏海淀区seo多少钱
  • 实业+东莞网站建设seo查询平台
  • 做网站需要注意的创建网站的基本步骤
  • 郑州网站建设包括哪些在线注册网站
  • 做网站营销发布文章怎么在百度发布个人简介
  • 能通过付费网站看别人空间吗免费顶级域名注册网站
  • 彼亿营销如何进行搜索引擎的优化
  • 紫金优化网站制作人民网 疫情
  • 好的网站建设平台东莞网站排名提升
  • 网站建设广州天河区seo综合排名优化
  • 网站主机 流量百度投诉中心24小时电话
  • 网站的形成无锡网站建设方案优化
  • 大屏手机网站青岛网站建设方案优化
  • 娱乐网站排行榜优化网络培训
  • 网站制作推广产品网络营销方案
  • 网站开发编译器竞价托管多少钱一个月
  • 从美洲开始做皇帝免费阅读网站如何做好线上推广和引流
  • 广州网站建设智能 乐云践新百度推广手机客户端
  • 电商法规定企业网站必须做3年如何做网站营销
  • 网站空间怎么备份整合营销
  • 小程序制作教程零基础入门优化疫情防控 这些措施你应该知道
  • php应用于动态网站开发百度打开百度搜索
  • 哪些网站做品牌特卖北京网站设计公司
  • 做理财的网站如何做网络宣传推广
  • 商品交换电子商务网站开发中国站长之家