当前位置: 首页 > news >正文

做美食哪些类型网站国内做的比较好的网站是什么

做美食哪些类型网站,国内做的比较好的网站是什么,微信公众平台管理系统,网站怎么才能上线一、什么互联网 互联网#xff08;Internet#xff09;是全球范围内最大的计算机网络#xff0c;它将数以百万计的私人、公共、学术、商业和政府网络通过一系列标准通信协议#xff08;如TCP/IP#xff09;连接起来形成的一个庞大的国际网络。 互联网的起源可以追溯到196…一、什么互联网 互联网Internet是全球范围内最大的计算机网络它将数以百万计的私人、公共、学术、商业和政府网络通过一系列标准通信协议如TCP/IP连接起来形成的一个庞大的国际网络。 互联网的起源可以追溯到1969年当时美国国防部高级研究计划局ARPA创建了ARPANET用于军事和科研目的。经过几十年的发展互联网已经渗透到社会的各个角落成为现代社会信息交流、商务活动、教育、娱乐等不可或缺的基础设施。 互联网与传统行业结合催生了新的经济社会发展形态——“互联网”。这一概念最早由易观国际于2012年提出旨在通过互联网平台和信息通信技术将互联网与传统行业深度融合从而创造新的发展生态。这种模式不仅优化了资源配置提升了生产力还推动了社会经济的全面进步。 此外互联网受欢迎的原因还在于其低成本和高效率。具体来说它能够降低交易成本例如淘宝网通过缩短中间环节使得商品价格更低。同时互联网节约了时间使人们可以在任何时间获取新闻、进行交流而不再受传统媒体的时间限制。 总的来说互联网作为当代最重要的技术和产业之一已经深刻改变了人们的生活、工作和学习方式。从提供信息服务到推动经济发展互联网在现代社会中扮演着不可替代的角色。未来随着技术的不断进步和应用的深入互联网将继续引领社会的创新和发展。 二.HTTP基本原理 我们会详细了解 HTTP 的基本原理了解在浏览器中敲入 URL 到获取网页内容之间发生了什么。了解了这些内容有助于我们进一步了解爬虫的基本原理。 什么是URI和URL和URN 现在看一下这三者的关系 URL统一资源定位符而URN统一资源名称。 **URIUniform Resource Identifier统一资源标识符**是一个通用的概念用于唯一标识一个资源。它包括了URLUniform Resource Locator统一资源定位符和URNUniform Resource Name统一资源名称。URL不仅标识资源还提供了资源的位置信息如协议类型如HTTPS、服务器地址、端口号以及资源的路径等。URN仅提供资源的名称而不指定其位置比如一本书的ISBN号就是一个URN但它本身并不提供如何找到这本书的信息。 什么是超文本 超文本是一种通过超链接将不同文本信息组织在一起的网状文本它允许用户在一个文档中点击链接以跳转到另一个文档或特定部分。这种非线性的信息组织方式极大地促进了信息的共享和传播是现代万维网的核心技术之一。 超文本的概念最早由泰德·尼尔森在1960年代提出它是一种能够链接不同文本的技术用于信息的组织和检索。在万维网中超文本通过HTML实现使用标签定义超链接并通过href属性指定链接的目标地址。超文本不仅包含文本还可以涵盖图片、视频、音频等多媒体内容这些内容也可以成为可点击的链接 HTTP 和 HTTPS HTTP 的全称是 Hyper Text Transfer Protocol中文名叫做超文本传输协议HTTP 协议是用于从网络传输超文本数据到本地浏览器的传送协议它能保证传送高效而准确地传送超文本文档。HTTP 由万维网协会World Wide Web Consortium和 Internet 工作小组 IETFInternet Engineering Task Force共同合作制定的规范目前广泛使用的是 HTTP 1.1 版本。 HTTPS 的全称是 Hyper Text Transfer Protocol over Secure Socket Layer是以安全为目标的 HTTP 通道简单讲是 HTTP 的安全版即 HTTP 下加入 SSL 层简称为 HTTPS。 HTTPS 的工作原理 这张图片展示了一个基于HTTPS协议的客户端与服务器之间的通信流程。整个流程分为客户端发起请求、服务器响应和客户端处理响应三个主要部分。 客户端发起请求 客户端通过浏览器访问https://www.runoob.com网站向服务器发送一个HTTPS请求。 请求中包含公钥和私钥用于加密和解密后续的通信内容。 服务器响应 服务器接收到客户端的请求后首先验证公钥和私钥是否匹配。 如果验证成功服务器会生成一个新的随机密钥key并将其与公钥一起返回给客户端。 同时服务器还会使用私钥对随机密钥进行加密并将加密后的密钥发送给客户端。 客户端处理响应 客户端收到服务器返回的公钥和加密后的随机密钥后会使用私钥对其进行解密以获取原始的随机密钥。 然后客户端使用这个随机密钥对后续的通信内容进行加密并将加密后的内容发送给服务器。 最后服务器会使用之前生成的随机密钥对接收的内容进行解密以获得原始信息。 HTTP的工作原理 HTTP 页面响应速度比 HTTPS 快主要是因为 HTTP 使用 TCP 三次握手建立连接客户端和服务器需要交换 3 个包而 HTTPS除了 TCP 的三个包还要加上 ssl 握手需要的 9 个包所以一共是 12 个包。 下面是TCP的具体流程 第一次握手客户端尝试连接服务器向服务器发送 syn 包同步序列编号Synchronize Sequence Numberssynj客户端进入 SYN_SEND 状态等待服务器确认 第二次握手服务器接收客户端syn包并确认ackj1同时向客户端发送一个 SYN包synk即 SYNACK 包此时服务器进入 SYN_RECV 状态 第三次握手第三次握手客户端收到服务器的SYNACK包向服务器发送确认包ACK(ackk1此包发送完毕客户端和服务器进入ESTABLISHED状态完成三次握手 HTTP 请求过程 我们在浏览器中输入一个 URL回车之后便会在浏览器中观察到页面内容。实际上这个过程是浏览器向网站所在的服务器发送了一个请求网站服务器接收到这个请求后进行处理和解析然后返回对应的响应接着传回给浏览器。响应里包含了页面的源代码等内容浏览器再对其进行解析便将网页呈现了出来模型如图所示 请求 接下来我们开始了解http请求 HTTP请求由以下三个主要部分组成 请求行 方法最常用的HTTP方法包括GET、POST、PUT、DELETE等这些方法定义了客户端与服务器之间的交互类型。例如GET用于请求资源POST用于提交数据。 URL指定请求的资源路径即希望访问的网页或资源在服务器上的位置。 协议版本表明客户端使用的HTTP版本以确保服务器能够正确理解客户端的请求。 请求头 按键值对形式提供额外的信息以帮助服务器理解请求的具体需求和能力。 Host指定请求的目的地域名帮助服务器区分来自不同域名的请求。User-Agent描述发出请求的用户代理通常为浏览器的信息包括操作系统、浏览器名称及版本等。Accept告知服务器客户端能够处理的内容类型如文本、图片等。Accept-Language声明客户端优先接受的语言。Authorization包含用于身份验证的凭证如Token或基本认证信息。Cookie携带网站为了识别用户而存储在客户端的小型文本文件。Content-Type当请求体包含实体时指明媒体类型如application/json、multipart/form-data等。Content-Length如果请求体存在表示请求体的长度。 请求体可选 实际的数据内容通常在POST、PUT等请求中使用向服务器发送所需的数据如表单提交的数据。 总的来说HTTP请求是一个结构化的数据包它通过请求行、请求头和请求体的组合来传达客户端的需求和数据到服务器使得服务器能够根据提供的信息做出适当的响应。 响应 HTTP响应是服务器对客户端请求的回复它包括以下几个主要部分 状态行 协议版本显示服务器使用的HTTP版本。状态码表示请求的处理结果五位数代码如200表示成功404表示未找到500表示服务器内部错误。状态消息为状态码提供文本描述例如“OK”对于200状态码。 响应头 Date响应生成的日期和时间。Server服务器软件的名称和版本。Content-Type响应主体的MIME类型如text/html。Content-Length响应主体的长度以字节为单位。Connection管理连接的方式如关闭连接或保持连接。Set-Cookie服务器发送给客户端的Cookies用于追踪会话或保存用户偏好设置。Cache-Control控制如何缓存响应的指令。Expires响应过期的日期和时间。Location重定向的URL在状态码为3xx时常用。 响应体可选 实际的数据内容如HTML页面、图片或其他媒体。 综上HTTP响应通过这些组成部分向客户端传达了请求处理的结果和必要的数据客户端根据这些信息可以进行进一步的处理如展示页面或处理错误。 三.Web网页基础 网页的组成 结构HTML用于描述页面的结构 表现CSS用于控制页面中元素的样式 行为JavaScript用于响应用户操作。 HTML是超文本标记语言HyperText Markup Language是一种用于创建网页的标准标记语言。HTML负责网页三个组成部分中的结构HTML使用标签的形式来标识网页中的不同组成部分。所谓的超文本指的是超链接使用超链接可以让我们从一个页面跳转到另一个页面。 CSS 是指层叠样式表 (Cascading Style Sheets)样式定义如何显示HTML 元素用于控制web页面的外观。CSS负责网页三个组成部分中的表现样式通常保存在外部的 .css 文件中。我们只需要编辑一个简单的 CSS 文档就可以改变所有页面的布局和外观。 JavaScript 是脚本语言简称JS)是一种轻量级的编程语言用于控制网页的行为。JavaScript负责网页三个组成部分中的行为可插入 HTML 页面的编程代码JavaScript 插入 HTML 页面后可由所有的现代浏览器执行。 网页的结构 我们首先用例子来感受一下 HTML 的基本结构。新建一个文本文件名称可以自取后缀为 html内容如下 !DOCTYPE html html head meta charsetUTF-8 titleThis is a Demo/title /head body div idcontainer div classwrapper h2 classtitleHello World/h2 p classtextHello, this is a paragraph./p /div /div /body /html这是一个基本的HTML网页结构包括以下几个部分 !DOCTYPE html声明文档类型为HTML5。htmlHTML文档的根元素。head包含元信息如字符集、标题等。meta charsetUTF-8定义文档使用的字符编码为UTF-8。title设置网页标题显示在浏览器标签页上。body包含网页的所有可见内容。div idcontainer一个带有id属性的div元素用于包裹其他元素。div classwrapper一个带有class属性的div元素用于包裹其他元素。h2 classtitleHello World/h2一个二级标题元素内容为Hello World。p classtextHello, this is a paragraph./p一个段落元素内容为Hello, this is a paragraph.。 这个网页结构包含了一个简单的标题和一段文本它们被包裹在一个名为wrapper的div元素中而这个div元素又被另一个名为container的div元素包裹。这样的结构有助于组织和管理页面内容。 四.爬虫基本原理 我们先看一下基本的示例图 这张图展示了一个简化的网络爬虫的工作原理按照自上而下的逻辑逐步解释如下 初始URL这是网络爬虫开始工作的起点。爬虫从这个URL开始访问该网页并下载其内容。 网页抓取/下载爬虫下载初始页面的内容通常是一个HTML文件。 解析网页提取有用信息和链接下载内容后爬虫会解析HTML代码从中提取出有价值的信息如文本、图片等以及网页中的超链接。 将提取的链接放入待抓取URL队列提取出的链接会被添加到待抓取URL队列中等待进一步处理。 待抓取URL队列这是一个URL列表爬虫按照顺序通常是先进先出从队列中取出URL进行访问和下载。 已抓取URL队列为了避免重复抓取相同的网页爬虫会将已经访问过的URL放入已抓取URL队列中。 循环抓取爬虫继续从待抓取URL队列中取出URL重复上述的抓取、解析和提取链接的过程。 满足停止条件结束抓取爬虫会持续这个过程直到满足某个停止条件比如待抓取URL队列为空或者达到了预设的抓取深度或数量。 保存数据在抓取过程中提取的有用信息会被保存起来这可能是存储到数据库、文件或其他数据存储系统中。 整个流程是一个循环的过程爬虫不断地从一个链接跳到另一个链接不断扩展其抓取范围直到完成预定的抓取任务。在这个过程中爬虫可能会遇到各种问题如链接失效、网页结构变化等需要相应的逻辑来处理这些异常情况。 五 会话和Cookies Cookie和会话是两种不同的技术它们在Web开发中用于跟踪用户状态和保持用户信息。下面是它们之间的主要区别 存储位置Cookie存储在客户端浏览器而会话数据存储在服务器端。生命周期Cookie可以设置过期时间过期后会被删除会话通常在用户关闭浏览器或长时间不活动后自动失效。安全性由于Cookie存储在客户端因此可能存在安全风险如跨站脚本攻击XSS和跨站请求伪造CSRF。相比之下会话数据存储在服务器端相对更安全。容量Cookie的大小受限于浏览器的限制通常不超过4KB。而会话数据可以在服务器端存储更多的信息。用途Cookie主要用于记住用户的偏好设置、登录状态等而会话主要用于跟踪用户在网站上的活动如购物车内容、页面访问历史等。管理方式Cookie可以通过JavaScript代码进行操作而会话数据通常由服务器端的编程语言如PHP、Python、Java等进行管理。 六 代理基本原理 基本原理 我们在做爬虫的过程中经常会遇到这样的情况最初爬虫正常运行正常抓取数据一切看起来都是那么美好然而一杯茶的功夫可能就会出现错误比如 403 Forbidden这时候打开网页一看可能会看到 “您的 IP 访问频率太高” 这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如服务器会检测某个 IP 在单位时间内的请求次数如果超过了这个阈值就会直接拒绝服务返回一些错误信息这种情况可以称为封 IP。 既然服务器检测的是某个 IP 单位时间的请求次数那么借助某种方式来伪装我们的 IP让服务器识别不出是由我们本机发起的请求不就可以成功防止封 IP 了吗 一种有效的方式就是使用代理后面会详细说明代理的用法。在这之前需要先了解下代理的基本原理它是怎样实现 IP 伪装的呢 这张图展示了代理服务器在客户端和目标服务器之间进行中介的基本工作流程。 客户端请求客户端如您的浏览器向代理服务器发送一个请求这个请求可能是获取一个网页、一个文件或任何其他网络资源。 接收并处理请求代理服务器接收到客户端的请求后可能会进行一些处理工作。这包括检查请求的有效性、添加或删除请求头信息、进行用户身份验证等。 转发请求一旦代理服务器处理完请求可能还会修改请求它会将请求转发给目标服务器。目标服务器是请求资源的原始位置。 目标服务器响应目标服务器收到请求后会生成一个响应比如返回请求的网页内容。 接收并处理响应代理服务器接收到目标服务器的响应后同样可能会对响应进行一些处理。这可能包括缓存响应内容、过滤广告或恶意软件、压缩数据等。 返回响应给客户端最后代理服务器将处理后的响应返回给客户端客户端再将响应内容呈现给用户。 在整个过程中代理服务器可以提供额外的功能如安全性增强通过防火墙规则、匿名性隐藏客户端IP地址、速度提升通过缓存等。此外代理可以是透明的客户端不知道其存在或非透明的客户端需要配置以使用代理。 代理实际上指的就是代理服务器英文叫作 proxy server它的功能是代理网络用户去取得网络信息。形象地说它是网络信息的中转站。在我们正常请求一个网站时是发送了请求给 Web 服务器Web 服务器把响应传回给我们。如果设置了代理服务器实际上就是在本机和服务器之间搭建了一个桥此时本机不是直接向 Web 服务器发起请求而是向代理服务器发出请求请求会发送给代理服务器然后由代理服务器再发送给 Web 服务器接着由代理服务器再把 Web 服务器返回的响应转发给本机。这样我们同样可以正常访问网页但这个过程中 Web 服务器识别出的真实 IP 就不再是我们本机的 IP 了就成功实现了 IP 伪装这就是代理的基本原理。 代理的作用 那么代理有什么作用呢我们可以简单列举如下。 突破自身 IP 访问限制访问一些平时不能访问的站点。 访问一些单位或团体内部资源如使用教育网内地址段免费代理服务器就可以用于对教育网开放的各类 FTP 下载上传以及各类资料查询共享等服务。 提高访问速度通常代理服务器都设置一个较大的硬盘缓冲区当有外界的信息通过时同时也将其保存到缓冲区中当其他用户再访问相同的信息时 则直接由缓冲区中取出信息传给用户以提高访问速度。 隐藏真实 IP上网者也可以通过这种方法隐藏自己的 IP免受攻击对于爬虫来说我们用代理就是为了隐藏自身 IP防止自身的 IP 被封锁。 爬虫代理 对于爬虫来说由于爬虫爬取速度过快在爬取过程中可能遇到同一个 IP 访问过于频繁的问题此时网站就会让我们输入验证码登录或者直接封锁 IP这样会给爬取带来极大的不便。 使用代理隐藏真实的 IP让服务器误以为是代理服务器在请求自己。这样在爬取过程中通过不断更换代理就不会被封锁可以达到很好的爬取效果。 代理分类 1.根据协议区分 根据代理的协议代理可以分为如下类别 FTP 代理服务器主要用于访问 FTP 服务器一般有上传、下载以及缓存功能端口一般为 21、2121 等。 HTTP 代理服务器主要用于访问网页一般有内容过滤和缓存功能端口一般为 80、8080、3128 等。 SSL/TLS 代理主要用于访问加密网站一般有 SSL 或 TLS 加密功能最高支持 128 位加密强度端口一般为 443。 RTSP 代理主要用于 Realplayer 访问 Real 流媒体服务器一般有缓存功能端口一般为 554。 Telnet 代理主要用于 telnet 远程控制黑客入侵计算机时常用于隐藏身份端口一般为 23。 POP3/SMTP 代理主要用于 POP3/SMTP 方式收发邮件一般有缓存功能端口一般为 110/25。 SOCKS 代理只是单纯传递数据包不关心具体协议和用法所以速度快很多一般有缓存功能端口一般为 1080。SOCKS 代理协议又分为 SOCKS4 和 SOCKS5SOCKS4 协议只支持 TCP而 SOCKS5 协议支持 TCP 和 UDP还支持各种身份验证机制、服务器端域名解析等。简单来说SOCK4 能做到的 SOCKS5 都可以做到但 SOCKS5 能做到的 SOCK4 不一定能做到。 2. 根据匿名程度区分 根据代理的匿名程度代理可以分为如下类别。 高度匿名代理高度匿名代理会将数据包原封不动的转发在服务端看来就好像真的是一个普通客户端在访问而记录的 IP 是代理服务器的 IP。 普通匿名代理普通匿名代理会在数据包上做一些改动服务端上有可能发现这是个代理服务器也有一定几率追查到客户端的真实 IP。代理服务器通常会加入的 HTTP 头有 HTTP_VIA 和 HTTP_X_FORWARDED_FOR。 透明代理透明代理不但改动了数据包还会告诉服务器客户端的真实 IP。这种代理除了能用缓存技术提高浏览速度能用内容过滤提高安全性之外并无其他显著作用最常见的例子是内网中的硬件防火墙。 间谍代理间谍代理指组织或个人创建的用于记录用户传输的数据然后进行研究、监控等目的代理服务器。
http://www.sczhlp.com/news/157369/

相关文章:

  • 网站底部流程有哪些专业做饰品的网站app
  • 2025机械加工供货厂家权威口碑排行:实力与服务深度解析!
  • NOIP 集训日记 2.0
  • 解码AVL树
  • LinuxWindows环境下Nacos3.1.0详细安装部署指南:从零到生产就绪
  • 哪里有建设网站中的视频c h5网站开发
  • 大型网站的设计室内装修公司需要什么资质
  • 家里的电脑ip做网站怎么查看网站域名
  • 百度竞价渠道代理商seo优化效果怎么样
  • 网站建设相关参考资料巴州建设局网站
  • 中信建设 官方网站wordpress博客采集
  • 海口专业做网站广州自助建站模板
  • 环保部建设项目影响登记网站以太坊网站开发
  • 网站建设合理流程福泉市自己的网站
  • 做外包的网站有哪些flashfxp 上传网站
  • 变更网站做推广需要备案适合大学生创业的网站建设类型
  • 苏州正规制作网站公司山东中恒建设集团网站
  • 郑州做设计公司网站专业网站设计公司排行榜
  • 优化网站排名茂名厂商网站开发工资山东
  • 网站建设兼职薪酬怎么样山东省企业年报网上申报入口
  • php网站开发专业介绍给别人做网站在那里接单
  • 南京网站关键词优化专业的营销型网站制作
  • 网站建设的技术阶段郑州妇科医院排行
  • 防伪网站怎么做新中国风装修
  • 网站交互主要做什么wordpress讨论吧
  • 本地的上海网站建设公建设网站的十个步骤
  • 阿坝县建设局网站厦门做手机网站公司
  • 给图像做标注的网站网站建设的步骤教程视频
  • 手机和pc网站深圳市招投标交易中心
  • wordpress 读取pdf百度关键词优化大