当前位置: 首页 > news >正文

用html5做网站百度经验云南省建设工程质量协会网站

用html5做网站百度经验,云南省建设工程质量协会网站,网络营销分析,建站之星破解版下载在当今科技迅速发展的时代#xff0c;大型语言模型#xff08;Large Language Model#xff0c;LLM#xff09;正以前所未有的速度改变着我们与数字世界的互动方式。基于LLM的智能代理#xff08;LLM Agent#xff09;#xff0c;从简单的信息搜索到复杂的网页操作…在当今科技迅速发展的时代大型语言模型Large Language ModelLLM正以前所未有的速度改变着我们与数字世界的互动方式。基于LLM的智能代理LLM Agent从简单的信息搜索到复杂的网页操作它们正在逐步融入我们的生活。然而一个关键问题仍然悬而未决当这些LLM Agent踏入真实的在线网络世界时它们的表现能否如预期般游刃有余 现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值但局限性显而易见静态数据集难以捕捉网页环境的动态变化如界面更新和内容迭代而模拟网站则缺乏真实世界的复杂性未能充分考虑跨站操作例如使用搜索引擎等操作这些因素在真实环境中是不可或缺的。 ▲WebCanvas框架图。左侧展示的是任务的标注过程右侧展示的是任务的评估过程。WebCanvas考虑到了在线网络交互中任务路径的非唯一性“奖杯”代表成功到达每个关键节点后获得的步骤分数。 为破解这一难题跨越星空科技的iMean AI团队和来自卡内基梅隆大学的合作者提出了一种创新的在线评测框架——WebCanvas旨在为Agent在真实网络世界中的表现提供一个全面的评估方法。WebCanvas的创新点之一在于提出了“关键节点”的概念。这一概念不仅聚焦于任务的最终完成情况还能够深入至任务执行过程的细节确保评估的精准度。通过识别并检测任务流程中的关键节点——无论是到达特定网页还是执行特定操作如点击特定的按钮WebCanvas为在线评估Agent提供了一个新的视角。 基于WebCanvas框架作者构建了Mind2Web-Live数据集该数据集包含从Mind2Web中随机挑选出的542个任务。本文作者还为数据集中的每个任务都标注了关键节点。通过一系列实验我们发现当Agent配备Memory模块辅以ReAct推理框架并搭载GPT-4-turbo模型后其任务成功率提升至23.1%。我们深信随着技术的不断演进Web Agent的潜力依旧无限这个数字将很快会被突破。 论文标题 WebCanvas: Benchmarking Web Agents in Online Environments 论文链接 https://arxiv.org/pdf/2406.12373 WebCanvas平台链接 https://imean.ai/web-canvas 项目代码链接 https://github.com/iMeanAI/WebCanvas 数据集链接 https://huggingface.co/datasets/iMeanAI/Mind2Web-Live 关键节点 “关键节点”的概念是WebCanvas的核心思想之一。关键节点指的是完成特定网络任务过程中不可或缺的步骤也就是说无论完成任务的路径如何这些步骤都是不可或缺的。这些步骤涵盖了访问特定网页以及在页面上执行特定操作如填写表单或点击按钮。 以WebCanvas框架图绿色部分为例用户需要在烂番茄网站上寻找评分最高的即将上映的冒险电影。他可以通过多种途径达到目的比如从烂番茄的首页开始探索或者直接通过搜索引擎定位置“即将上映的电影”页面。在筛选影片的过程中用户可能先选择“冒险”类型再根据受欢迎程度排序或者反之亦然。虽然存在多条实现目标的路径但进入特定页面并进行筛选是完成任务不可或缺的步骤。因此这三个操作被定义为该任务的关键节点。 评估指标 WebCanvas的评估体系分为两大部分步骤得分和任务得分两者共同构评估WebAgent综合能力。 步骤得分衡量Agent在关键节点上的表现每个关键节点都与一个评估函数相关联通过三种评估目标URL、元素路径、元素值和三种匹配函数精确、包含、语义来实现。每到达一个关键节点并通过评估函数Agent就能获得相应的分数。 ▲评估函数总览其中E代表网页元素Element 任务得分分为任务完成得分和效率得分。任务完成得分反映Agent是否成功拿到了此任务所有的步骤得分。而效率得分则考量了任务执行的资源利用率计算方法为每个步骤得分所需的平均步骤数。 Mind2Web-Live数据集 作者从Mind2Web训练集中随机抽取了601个与时间无关的任务以及测试集Cross-task子集中的179个同样与时间无关的任务然后将这些任务在真实在线环境中进行标注。最终作者构建了由542个任务组成的Mind2Web-Live数据集 其中包含了438个训练样本和104个用于测试的样本。下图直观地展示了标注结果和评估函数的分布。 数据标注工具 数据标注过程中作者使用了跨越星空科技开发的iMean Builder浏览器插件。该插件能够记录用户浏览器交互行为包括但不限于点击、文本输入、悬浮、拖拽等动作同时记录操作的具体类型、执行参数、目标元素的Selector路径以及元素内容和页面坐标位置。此外iMean Builder还为每一步操作生成网页截图为验证和维护工作流程提供了直观的展示。 ▲示例使用iMean Builder插件注释两个不同的任务。(A) 在Yelp上查找加州提供免费Wi-Fi的豪华轿车停车场(B) 在Steam上查找Dota 2游戏并将所有 DLC 添加到购物车中 数据维护 网络环境瞬息万变网站内容的更新、用户界面的调整乃至站点的关闭都是不可避免的常态。这些变化可能导致先前定义的任务或关键节点失去时效性从而影响评测的有效性和公平性。 为此作者设计了一套数据维护方案旨在确保评测集的持续相关性和准确性。在数据收集阶段除了标注关键节点外iMean Builder插件还能够详细记录每一步工作流执行的信息包括动作类型、Selector路径、元素值以及坐标位置等。后续使用iMean Replay SDK的元素匹配策略就能重现工作流动作并及时发现并报告工作流或评估函数中的任何无效情况。 通过此方案我们有效解决了流程失效带来的挑战确保了评测数据集能够适应网络世界的不断演变为自动化评测Agent的能力提供了坚实的基础。 数据管理平台 在WebCanvas网站上集成了数据管理平台用户可以清晰地浏览所有已录制的任务流程及其关键节点也能够迅速向平台管理员反馈失效的流程确保数据的时效性和准确性。 同时作者鼓励社区成员积极参与共同构建一个良好的生态系统。无论是维护现有数据的完整性还是开发更先进的Agent进行测试甚至是创造全新的数据集WebCanvas都欢迎各种形式的贡献。这不仅促进了数据质量的提升还鼓励技术创新能够形成良性循环推动整个领域向前发展。 ▲WebCanvas网站首页 ▲Mind2Web-Live数据集的可视化展示 基础Agent框架 作者构建了一个全面的Agent框架旨在优化Agent在在线网络环境下的任务执行效率。该框架主要由四个关键组件组成规划Planning、观察Observation、记忆Memory以及奖励Reward模块。 规划Planning基于Accessibility Tree的输入Planning模块运用ReAct推理框架进行逻辑推断生成具体的操作指令。此模块的核心功能在于根据当前状态和任务目标给出行动路径。 观察ObservationAgent通过解析浏览器提供的HTML源代码将其转换成Accessibility Tree结构。这一过程确保了Agent能够以标准化格式接收网页信息便于后续分析和决策。 记忆MemoryMemory模块负责存储Agent在任务执行过程中的历史数据包括但不限于Agent的思考过程、过往的决策等。 奖励RewardReward模块能对Agent的行为给予评价包括对决策质量的反馈以及给出任务完成信号。 ▲基础Agent框架示意图 主要实验 作者使用基础Agent框架并接入不同LLM进行评估不含Reward模块。实验结果如下图所示其中Completion Rate指的是关键节点的达成率Task Success Rate指的是任务成功率。 除此之外作者还探索了Reward模块对Agent能力的影响其中()号代表Reward信息中包含人类标注数据以及关键节点信息供Agent参考Human Alignment分数代表Agent与人类的对齐程度。初步实验的结果表明在线网络环境中Agent并不能够通过Self Reward模块改善能力但是整合了原始标注数据的Reward模块能够增强Agent的能力。 实验分析 在附录中作者对实验结果进行了分析下图是任务复杂度与任务难度之间的关系橙色线条描绘了关键节点达成率随任务复杂度增加的变化轨迹而蓝色线条则反映了任务成功率随任务复杂度的变化轨迹。 ▲任务复杂度与任务难度之间的关系。num of steps指的是标注数据中动作序列的长度与关键节点的数量一起作为任务复杂度的参考。 下表是实验结果与地区、设备、系统之间的关系。作者鼓励实验在美国地区或使用美国的Windows服务器进行相关实验。 全文总结 在推动LLM和Agent技术发展的征途上构建一套适应真实网络环境的评测体系至关重要。本文聚焦于在瞬息万变的互联网世界中有效地评价Agent的表现。我们直面挑战通过在开放的环境中界定关键节点和对应的评测函数达成了这一目标并开发数据维护系统减小了后续维护成本。 经过不懈努力我们已迈出了实质性的步伐并向着建立稳健且精准的在线评测系统前进。然而在动态的网络空间中进行评测并非易事它引入了一系列在封闭、离线场景下未曾遭遇的复杂问题。在评测Agent的过程中我们遇到了诸如网络连接不稳定、网站访问限制以及评测函数的局限性等难题。这些问题凸显出在复杂的真实环境中对Agent进行评测所面临的艰巨任务要求我们不断精进调整Agent的推理和评测框架。 我们呼吁整个科研社区共同协作以应对未知挑战推动评测技术的革新与完善。我们坚信只有通过持续的研究与实践才能逐步克服这些障碍。我们期待着与同行们携手并进共创LLM Agent的新纪元。 主要作者介绍 潘奕琛浙江大学硕士一年级研究生。 孔德涵跨越星空科技模型算法负责人。 周思达南昌大学2024届毕业生将于西安电子科技大学攻读硕士。 崔成浙江中医药大学2024届毕业生将于苏州大学攻读硕士。 潘奕琛、周思达、崔成以跨越星空科技算法实习生的身份共同完成了本论文的研究工作。
http://www.sczhlp.com/news/180497/

相关文章:

  • 北京丰台网站优化ftp客户端软件
  • wordpress 跨站关于域名用于非网站用途的承诺书
  • 360doc 网站怎么做dw网页制作素材免费
  • 奎屯建设局网站手机做外贸有什么好的网站
  • 校园网站怎么建wordpress 分类目录 高亮
  • 大连金广建设集团网站做网站的人怎么联系
  • 天津 论坛网站制作公司网络广告发布的形式主要包括
  • 西青天津网站建设前端开发工程师需要考什么证
  • 做窗帘店的网站广州网站优化价格
  • 苏州国内网站建设公司wordpress搜索功能主题
  • 湖北网站建设制作网页传奇游戏如何0血打不死
  • 做网站费企业管理工具
  • 公司高端网站设计公司济南企业建站哪家做的好
  • 网站网页建设实训心得优化百度百科
  • 江苏建设省直报名网站聊城做网站建设
  • 上高县建设局网站合肥专业网站制作设计
  • 网站短信通知设计培训
  • 哪个网站专门做快餐车明天去广州需要隔离吗
  • 兴义市住房城乡建设局网站柳州 网站开发
  • 做图片视频的网站有哪些问题成都网站设计制作价格
  • 部门门户网站建设的目的个人微信公众平台怎么用
  • 网站建设进展推进表中国兰州网pc主站
  • 麻涌企业网站建设做印刷哪个网站好
  • 网站城市切换代码wordpress手机版侧栏导航栏
  • 建视频网站系统吗福建省建设厅网站官网
  • 做视频网站视频建设部规范公布网站
  • 广东模板网站建设报价酒仙网技术开发与网站建设方面
  • 专门做项目代理的网站微信公众号平台官网登陆
  • 建外贸网站费用快站建站教程
  • dede5.7微电影网站模板国家企业信用信息公示系统 填报