当前位置: 首页 > news >正文

河北省建设厅网站登陆设置用asp.net做的网站

河北省建设厅网站登陆设置,用asp.net做的网站,安装文件出现乱码,seo排名首页Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息 目录 Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息 一、简单介绍 二、实现原理 三、注意事项 四、效果预览 五、关键代码 一、简单介绍 Unity中的一些知…

Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息

目录

Unity C# 之 Http 获取网页的 html 数据,并去掉 html 格式等相关信息

一、简单介绍

二、实现原理

三、注意事项

四、效果预览

 五、关键代码


一、简单介绍

Unity中的一些知识点整理。

本节简单介绍在Unity开发中的,使用 HttpClient,获取指定网页的相关信息,然后进行数据清洗,去掉html 格式,以及标签,函数,多余的空格等信息,仅留下和网页显示差不多的文字信息,为什么这么做呢,其实这里一个使用场景是把网页数据喂给GPT,然后让 GPT 进行处理总结,如果你有新的方式也可以留言,多谢。

二、实现原理

1、HttpClient 获取指定网页的 html 数据

2、使用 HtmlAgilityPack 进行 html 的数据进行 去除所有的<script>标签及其内容,获取纯文本内容,最后再去除多余的空格和空行

三、注意事项

1、直接代码访问网页,最好添加上 User-Agent,不然,可能不能正常访问

2、注意 NuGet 安装  HtmlAgilityPack  包

四、效果预览

 五、关键代码

using HtmlAgilityPack;
using System;
using System.Linq;
using System.Net.Http;
using System.Text.RegularExpressions;namespace TestHtml
{class Program{static async System.Threading.Tasks.Task Main(string[] args){//string url = "https://movie.douban.com/chart";//string url = "http://www.weather.com.cn/";//string url = "https://movie.douban.com/";//string url = "http://time.tianqi.com/";string url = "http://time.tianqi.com/shenzhen/";string htmlContent = @"<html><head><title>Sample Page</title><script>function myFunction() {alert(""Hello!"");}</script></head><body><h1>Welcome to My Page</h1><p>This is a sample page with some content.</p></body></html>";using (HttpClient client = new HttpClient()){// 设置请求头以模拟浏览器访问client.DefaultRequestHeaders.Add("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3");// 访问网页并获取HTML内容htmlContent = await client.GetStringAsync(url);// 输出获取的HTML内容//Console.WriteLine(htmlContent);}// 创建HtmlDocument对象并加载HTML内容HtmlDocument doc = new HtmlDocument();doc.LoadHtml(htmlContent);// 去除所有的<script>标签及其内容foreach (var script in doc.DocumentNode.DescendantsAndSelf("script").ToArray()){script.Remove();}// 获取纯文本内容string text = doc.DocumentNode.InnerText;// 去除多余的空格和空行text = Regex.Replace(text, @"\s+", " ").Trim();// 输出展示内容Console.WriteLine(text);}}
}

http://www.sczhlp.com/news/104101/

相关文章:

  • 网站建设销售实训报告北京网页网站设计
  • 国内个人网站设计怎么申请免费网址
  • 防静电产品东莞网站建设技术支持wordpress importer
  • 深圳网站建设 设计科技网络规划设计师通常几月考
  • 网站服务器商wordpress iframe页面
  • 一个购物网站开发的可行性网站备案幕布照如何做
  • 网站开发费会计分录自己怎样成为电商
  • 广州网站建设骏域网站深圳网站建设黄浦网络-骗钱
  • 深圳自适应网站开发多少钱高端前端开发
  • 如何查询网站点击量宁波网站建设优化技术
  • 灰色网站模板网站开发如何修改域名
  • 求个网站2021html5页面模板大全
  • 有的网站网速慢电商网站建设需要
  • 网站模板有哪些内容西昌网站制作
  • 【QT】创建一个简单的QT界面
  • ECT-OS-JiuHuaShan框架,将会是全球推理之源,无需数据训练,只需数据检索和校验。彻底颠覆概率云ai
  • 如何正确使用mysql
  • 2025.9.15总结
  • 怎么提高网站的收录量个性化网站制作
  • 江苏盐城网站建设义乌 网站制作
  • 长沙最坑装修公司唐山seo网络推广
  • 网站建设流程策划书搜索引擎技术
  • 松江品划做企业网站企业建设网站软件
  • 这个框架的神奇之处,恰恰是调动人的积极主动性,框架不会自己忧国忧民,只会有求必应的针对性推理
  • 9.11总结
  • 2025-第02周 预习
  • 网站优化的要求网站备案为什么 没有批复文件
  • 做物流网站费用多少做网站开发还会有前途吗
  • 雄安优秀网站建设软件编程
  • 做旅行社业务的网站都有哪些google搜索优化