当前位置: 首页 > news >正文

电脑上如何做网站宣传注册一个新公司的流程如下

电脑上如何做网站宣传,注册一个新公司的流程如下,辽阳网站制作,肥城市住房和城乡建设局网站尽管LLMs如ChatGPT在撰写电子邮件等任务上能够提供帮助#xff0c;它们在理解和与GUIs交互方面存在挑战#xff0c;这限制了它们在提高自动化水平方面的潜力。数字世界中的自主代理是许多现代人梦寐以求的理想助手。这些代理能够根据用户输入的任务描述自动完成如在线预订票务… 尽管LLMs如ChatGPT在撰写电子邮件等任务上能够提供帮助它们在理解和与GUIs交互方面存在挑战这限制了它们在提高自动化水平方面的潜力。数字世界中的自主代理是许多现代人梦寐以求的理想助手。这些代理能够根据用户输入的任务描述自动完成如在线预订票务、进行网络搜索、管理文件和创建PowerPoint演示文稿等任务。然而目前基于纯语言的代理在真实场景中的潜力相当有限因为大多数应用程序通过GUI与人交互而GUI通常缺乏标准的API进行交互且重要信息包括图标、图像、图表和空间关系难以直接用文字表达。 为了克服这些限制研究者们提出了基于视觉语言模型Visual Language Models简称VLMs的代理。与仅依赖文本输入如HTML或OCR结果不同基于VLM的代理可以直接感知视觉GUI信号。由于GUI是为人类用户设计的只要VLM达到人类级别的视觉理解能力基于VLM的代理就能像人类一样有效地执行任务。此外VLM还能够执行如极快速阅读和编程等通常超出大多数人类用户能力范围的技能这扩展了基于VLM的代理的潜力。 CogAgent是一个专门用于GUI理解和导航的18亿参数的视觉语言模型VLM。专为理解和导航图形用户界面GUI而设计。 参数规模CogAgent拥有18亿参数这使得它能够捕捉和学习复杂的视觉和语言特征从而更准确地理解和解释GUI元素。双分辨率图像编码器 低分辨率图像编码器用于处理较小尺寸的图像例如224×224像素这有助于模型快速捕捉图像的基本布局和对象。高分辨率图像编码器设计用于处理高达1120×1120分辨率的图像这使得模型能够识别和理解细小的GUI元素如小图标、文本和复杂的图表。输入分辨率支持高分辨率输入是CogAgent的关键特性之一。高分辨率图像使得模型能够更好地解析GUI中的细微视觉细节这对于执行精确的GUI任务至关重要。视觉和语言的整合CogAgent通过视觉语言解码器将视觉特征与文本特征结合起来这使得模型不仅能够识别图像内容还能够理解与图像内容相关的语言上下文。交叉注意力机制CogAgent采用了交叉注意力cross-attention机制这是一种神经网络技术允许模型在处理视觉信息时同时考虑相关的语言信息反之亦然。计算效率为了处理高分辨率图像带来的计算挑战CogAgent设计了一个高分辨率交叉模块它通过减小隐藏层的大小和使用跨注意力机制来降低计算成本。 对CogAgent预训练和微调过程如下 预训练阶段 CogAgent的预训练阶段专注于构建一个能够理解图形用户界面GUI的模型。为此研究者们收集了大规模的GUI图像和光学字符识别OCR数据集。预训练数据集包含了合成渲染的文本图像、自然场景中的文本图像以及学术文档等这些数据通过不同的图像增强技术进行预处理以提高模型对文本的识别能力。此外预训练还包括视觉定位任务即模型需要识别图像中的文本和对象并理解它们之间的关系这对于理解GUI结构至关重要。预训练的目的是让模型掌握对各种尺寸、方向和字体的文本的识别能力以及对图像中对象的定位能力从而为后续的微调阶段打下坚实的基础。微调阶段 微调是对预训练模型进行的进一步训练目的是让模型更好地适应特定的任务。在CogAgent的情况下微调涉及将模型应用于具体的GUI任务如网页浏览、应用操作等。微调数据集包含了从真实世界的智能手机和电脑应用中收集的截图这些截图被人工标注了潜在的任务和操作方法。通过微调CogAgent能够学习到如何根据给定的任务描述和历史操作来预测用户界面中的下一个动作例如点击某个按钮或输入文本。微调过程不冻结模型的所有参数而是允许它们根据特定任务的数据进行更新从而使模型的性能在这些任务上得到优化。 为了全面评估CogAgent的性能研究者们在多个视觉问答VQA基准测试中对其进行了测试。这些测试覆盖了通用VQA和文本丰富的VQA两大类旨在衡量模型在处理视觉场景中嵌入文本的图像上的能力。CogAgent在包括VQAv2、OK-VQA、TextVQA、ST-VQA、ChartQA、InfoVQA和DocVQA在内的八个VQA基准测试中进行了评估。结果显示CogAgent在通用VQA类别的两个数据集上均达到了最先进的一般性结果同时在文本丰富的VQA类别中的五个基准测试中的四个上取得了最佳成绩显著超过了其他一般性模型并且在某些情况下甚至超过了特定任务的模型。 CogAgent在零样本测试中也展现了卓越的性能。在MM-Vet和POPE数据集上CogAgent在处理复杂任务和抵抗幻觉方面的表现超过了其他现有模型。在MM-Vet数据集上CogAgent的得分为52.8比最接近的竞争对手LLaVA-1.5高出16.5分。在POPE数据集的对抗性评估中CogAgent获得了85.9分显示出其在处理幻觉方面的优越能力。 在GUI导航任务上CogAgent在Mind2Web和AITW数据集上的表现尤为突出。Mind2Web是一个针对Web代理的数据集包含来自不同网站的2000多个任务。CogAgent在跨网站、跨域和跨任务的测试子集上均取得了显著的性能提升超过了LLaMA2-70B模型。在AITW数据集上CogAgent在预测Android设备上的用户行为方面也取得了最先进的性能这表明CogAgent能够有效地理解和操作智能手机界面。 在Mind2Web数据集上评估了CogAgent这是一个针对Web代理的数据集包含来自137个真实世界网站的2000多个开放式任务。 CogAgent在跨网站、跨域和跨任务的三个子集上均取得了显著的性能提升超过了LLaMA2-70B模型11.6%、4.7%和6.6%。 使用Android in the Wild (AITW)数据集评估了模型在多样化的智能手机界面和任务上的性能这是一个包含715k操作集数的大型数据集。 CogAgent在所有测试集上均取得了最先进的性能与基于语言的方法相比模型在整体性能上提高了2.61%。 CogAgent的模型和代码将被开源以促进基于VLM的AI代理的未来研究和应用。基于VLM的代理通过其视觉和语言的综合处理能力为与GUI的自然交互提供了新的可能性并且在自动化和增强人机交互体验方面展现出巨大的潜力。 论文链接 https://arxiv.org/pdf/2312.08914.pdf GitHub项目地址含开源模型、网页版Demo https://github.com/THUDM/CogVLM
http://www.sczhlp.com/news/204135/

相关文章:

  • 广告素材网站都有哪些苏州住房城乡建设部网站
  • 少时诵诗书上说试试说试试
  • 2025 消防培训学校最新推荐榜:实训实力解析,附选择指南消防考证培训学校推荐
  • 2025年工作服厂家推荐排行榜,春夏秋冬季工作服,工人工作服,车间工作服,防静电工作服公司推荐!
  • JavaScript 中处理日期格式化
  • 2025年在线粘度计厂家推荐排行榜,实验室在线粘度计,工业在线粘度计,高精度在线粘度计公司推荐!
  • 网站建设相关资质北京做网站哪家好
  • 成都网站品牌设计策划网站app推广怎么做
  • php网站投票源码大余网站建设
  • 做公众号可以看的网站成都网站设计 常凡云
  • 黄冈网站建设流程青岛注册公司的流程
  • 什么样的网站利于seo网站如何做好seo
  • 高端品牌网站建设建议枣庄网络推广
  • 各行各业网站建设口碑好建设网站需要公司吗
  • 企业建立一个网站步骤做淘客网站多少钱
  • 江门网站建设方案外包餐饮网站开发性能需求分析
  • 房地产管理网站进销存免费管理软件
  • 如何在服务器上关闭网站新民电商网站建设价格咨询
  • 网站和网站的app科技公司网站欣赏
  • 包头焦点网站建设网站显示备案号
  • 深圳深圳龙岗网站建设支付网站开发费分录
  • 基于模糊C均值聚类(FCM)的图像分割技术
  • 2025年广告衫厂家推荐排行榜,防静电/劳保/国网/餐厅/工厂/电工/防酸碱/电力/车间/航空/员工/文化衫/T恤/POLO衫/冲锋衣公司推荐!
  • 2025年管道安装厂家权威推荐榜单:专业施工与优质服务口碑之选!
  • 2025年流量控制器厂家推荐排行榜,气体流量控制器,液体流量控制器,智能流量控制器公司精选!
  • 云南网站建设公司排行wordpress cc
  • 网站备案申请书老君山旅游网页设计模板
  • 营口电商网站建设软件开发需求分析常用的工具
  • 网站域名可以更改吗申请域名后如何发布网站
  • 投资网站怎么做住房和成乡建设部网站