个人网站建设规划,网站域名指什么,seo优化外包顾问,长沙网站开发智能本文主要为当前大模型领域热门研究方向#xff08;如文生图、文生视频、文生音乐等#xff09;的热门论文。希望能够为大家提供较为全面的大模型最新研究进展。当然#xff0c;目前还无法涵盖所有热门论文以及研究方向#xff0c;望请见谅。
以下#xff0c;为2024年2月份…本文主要为当前大模型领域热门研究方向如文生图、文生视频、文生音乐等的热门论文。希望能够为大家提供较为全面的大模型最新研究进展。当然目前还无法涵盖所有热门论文以及研究方向望请见谅。
以下为2024年2月份收录的一些热门大模型研究论文。文章篇幅较长共计4万字建议收藏 有需要的小伙伴可以Vx扫描下方二维码免费领取 第 1 章 文生图
【Image Anything像人类一样想象画面】
人类感知和理解力的多面性表明当我们思考时我们的身体可以自然地结合多种感官在大脑中形成一幅美丽的图画。例如当我们看到一个猫窝听到猫咪的叫声大脑中就构建出猫在猫窝里的画面。生成式人工智能模型应具备人类的这一特点能够高效、协作地从任何模态组合中生成图像。
来自香港科技大学的研究团队提出了一种端到端多模态生成模型——ImgAny它可以模仿人类推理并生成高质量的图像。ImgAny 首次尝试高效灵活地获取从语言、音频到视觉等七种模式的任意组合包括图像、点云、热、深度和事件数据。
该项研究受到人类认知过程的启发无需对不同模态进行特定调整即可在实体和属性层面整合和协调多个输入模态。
该方法带来了两个新的免训练技术分支实体融合分支确保输入和输出之间的一致性它从专门构建的实体知识图谱中提取实体特征属性融合分支善于保留和处理属性它通过我们提出的属性知识图谱高效地融合来自不同输入模态的独立属性。最后实体和属性特征被自适应地融合为预先训练好的 Stable Diffusion 模型的条件输入以生成图像。在不同模态组合下进行的实验证明了 ImgAny 在视觉内容创建方面的卓越能力。
论文链接https://arxiv.org/abs/2401.17664
【谷歌新研究移动设备上的亚秒级文生图模型】
由于大规模文生图扩散模型庞大的模型体积和缓慢的推理速度在移动设备上部署大模型受到限制。为此来自谷歌公司的研究团队提出了一个在架构和采样技术上进行广泛优化的高效文生图扩散模型——MobileDiffusion。
研究团队通过对模型架构设计进行全面审查达到了减少冗余、提高计算效率的效果并能够在最小化模型的参数数量的同时保持图像生成质量。MobileDiffusion 应用了蒸馏distillation和 Diffusion-GAN 微调技术分别实现了 8 步和 1 步推理。实验证明了 MobileDiffusion 的有效性。在移动设备上生成 512×512 图像时MobileDiffusion 实现了惊人的亚秒级推理速度建立了新的技术水平。
论文链接https://arxiv.org/abs/2311.16567
【ConsiStory无需训练的文生图模型】
文生图模型允许用户通过自然语言指导图像生成过程将创意灵活性提升到一个新的水平。但使用这些模型在不同的提示中始终如一地描绘同一主题仍具挑战。现有方法通过微调模型来教它描述用户提供的特定主题的新词或为模型添加图像条件。这些方法需要对每个主题进行长时间的优化或大规模的预训练同时也很难将生成的图像与文本提示对齐在描述多个主题时也存在困难。
为此来自英伟达和特拉维夫大学的研究团队及其合作者提出了一种无需训练的方法——ConsiStory它通过共享预训练模型的内部激活实现一致的主题生成。研究团队引入了主题驱动的共享注意力块和基于对应关系的特征注入以促进图像之间的主题一致性。
为了在保持主题一致性的同时鼓励布局多样性研究团队将 ConsiStory 与一系列基线进行了比较无需任何优化步骤ConsiStory 在主题一致性和文本对齐方面展示了最先进的性能。ConsiStory 可以自然地扩展到多主题场景甚至可以实现对常见对象的无训练个性化。
论文链接https://arxiv.org/abs/2402.03286
【复旦新研究在图像中重新定位主体】
目前的图像处理主要集中在静态处理上如替换图像中的特定区域或改变图像的整体风格。来自复旦大学的研究团队提出了一个新的动态处理任务——主体重定位subject repositioning。这要求在保持图像的保真度的同时将用户指定的主体重新定位到所需位置。
主体重定位的基本子任务包括填充移动后的主体所留下的空白、重建主体的被遮挡部分以及使主体与周围区域保持一致这些任务可以有效地重新表述为一个统一的、由提示引导的修复任务。因此研究团队使用单个扩散生成模型利用通过任务反转技术学习到的各种任务提示来处理这些子任务。研究团队还整合了预处理和后处理技术以进一步提高主体重新定位的质量。这共同构成了 SEgment-gEnerate-and-bLEndSEELE框架。
为了评估 SEELE 在主体重新定位方面的有效性在 ReS 真实主体重新定位数据集上的测试证明了重新定位图像生成的质量。
论文链接https://arxiv.org/abs/2401.16861
【Motion Guidance利用扩散模型精确编辑图像】
扩散模型能够根据文字描述生成令人印象深刻的图像这些模型的扩展功能允许用户对图像进行相对粗略的编辑。但利用扩散模型精确编辑图像中物体的布局、位置、姿势和形状仍然是一个难题。
为此来自密歇根大学的研究团队提出了一种零样本技术——Motion Guidance它允许用户指定密集、复杂的运动场指示图像中每个像素应移动的位置。Motion Guidance 通过现成的光流网络optical flow network的梯度引导扩散采样过程。研究团队设计了一种引导损耗鼓励样本具有光流网络估计的期望运动在视觉上也与源图像相似。通过从扩散模型中采样以及引导样本产生低引导损耗获得了一个运动编辑图像。该技术可以处理复杂的运动并能对真实图像和生成的图像进行高质量的编辑。
论文链接https://arxiv.org/abs/2401.18085
【SPIN-Diffusion文生图扩散模型的自我博弈微调】
在生成式人工智能GenAI领域与微调大型语言模型LLMs方面取得的显著进展相比微调扩散模型仍然是一个尚未充分开发的前沿领域。虽然如 Stable DiffusionSD和 SDXL 等扩散模型依赖于监督式微调但在它们接触了一定量的数据后其性能会不可避免地趋于平稳。最近强化学习RL已被用于利用人类偏好数据微调扩散模型但这需要为每个文本提示至少两张图像“胜者”和“败者”图像。
来自加州大学洛杉矶分校的研究团队介绍了一种扩散模型自我博弈微调SPIN-Diffusion方法扩散模型与其早期版本进行竞争促进了一个迭代自我改进的过程。该方法为传统监督式微调和 RL 策略提供了一个替代方案并显著提高了模型的性能和对齐度。
在 Pick-a-Pic 数据集上的实验表明SPIN-Diffusion 从一开始就在与人类偏好对齐和视觉吸引力方面优于现有的监督微调方法。到第二次迭代时它使用更少的数据在所有指标上都超过了基于 RLHF 的方法。
论文链接https://arxiv.org/abs/2402.10210
【让文生图模型更安全】
文生图T2I模型在根据文本提示生成图像方面表现出色。然而这些模型容易受到不安全输入的影响生成如色情、骚扰和非法活动图像等不安全的内容。在实际应用中目前基于图像检查器、模型微调和嵌入阻断的研究并不实用。
因此来自宾夕法尼亚州立大学、中国科学院大学和天津大学的研究团队提出了首个用于在黑盒场景下生成安全 T2I 的通用提示优化器。研究团队通过 GPT-3.5 Turbo 构建了一个由有毒-清洁toxic-clean提示对组成的数据集。为引导优化器在保留语义信息的同时将有毒提示转换为清洁提示研究团队设计了一个衡量生成图像的有毒性和文本对齐度的奖励函数并通过近端策略优化来训练优化器。
实验表明其方法可以在对文本对齐没有显著影响的情况下有效降低各种 T2I 模型生成不恰当图像的可能性同时它还能灵活地与各种方法相结合来实现更好的性能。
论文链接https://arxiv.org/abs/2402.10882
【FiT灵活生成无限制分辨率的图像】
自然界是无限分辨率的。现有的扩散模型如Diffusion Transformers在处理其训练领域之外的图像分辨率时往往面临挑战。为此来自上海人工智能实验室的研究团队及其合作者提出了一个专门用于生成无限制分辨率和长宽比图像的 Transformer 架构——Flexible Vision TransformerFiT。
与将图像视为静态分辨率网格的传统方法不同FiT 将图像视为动态大小的 tokens 序列。这种灵活的训练策略使其在训练和推理阶段都能轻松适应不同的长宽比从而促进分辨率的泛化、消除图像裁剪引起的偏差。通过精心调整的网络结构和免训练外推技术的整合FiT 在分辨率外推生成方面表现出了显著的灵活性。实验证明了 FiT 在广泛分辨率范围内的卓越性能展示了其在训练分辨率分布范围内外的有效性。
论文链接https://arxiv.org/abs/2402.12376
【MuLan像画家一样逐步生成多对象图像】
现有的文生图模型在生成多个对象的图像时仍然存在困难尤其是在处理它们的空间位置、相对大小、重叠和属性绑定方面时。来自香港科技大学、加州大学洛杉矶分校、宾夕法尼亚州立大学和马里兰大学的研究团队开发了一个无需训练的多模态大型语言模型LLMs智能体——MuLan它能够像人类画家一样进行规划和反馈控制来逐步生成多个对象。
MuLan 利用 LLM 将提示分解为一系列子任务每个子任务只生成一个对象并以之前通过 Stable Diffusion 生成的对象为条件。与现有的基于 LLM 的方法不同MuLan 只在开始时生成一个高级计划而每个对象的确切大小和位置则由 LLM 和每个子任务的注意力引导决定。
此外MuLan 还采用视觉语言模型VLM为每个子任务中生成的图像提供反馈并在图像违反原始提示时控制扩散模型重新生成图像。因此MuLan 每个步骤中的每个模型只需处理其擅长的简单子任务即可。
研究团队在不同的基准中收集了 200 个包含具有空间关系和属性绑定的多对象提示来评估 MuLan结果表明 MuLan 在生成多对象方面优于基准。
论文链接https://arxiv.org/abs/2402.12741
【玩转文生图帮你自动优化 prompt】
精心设计的 prompt 已经显示出具有引导文生图模型生成令人惊叹的图像的潜力尽管现有的 prompt 工程方法可以提供高层次的指导但由于新手用户输入的提示与模型偏好的 prompt 之间存在差异新手用户通过手动输入 prompt 来达到预期效果仍然具有挑战性。
为了缩小用户输入行为与模型训练数据集之间的分布差距来自复旦大学和同济大学的研究团队构建了一个 Coarse-Fine Granularity Prompts 数据集CFP并提出了一个 User-Friendly Fine-Grained Text Generation 框架UF-FGTG用于自动优化 prompt。对于 CFP研究团队构建了一个结合了粗粒度和细粒度 prompt 的文本到图像任务的新数据集从而促进自动提示生成方法的开发。对于 UF-FGTG研究团队提出了一种可将用户输入的 prompt 自动转换为模型偏好 prompt 的框架。
具体来说研究团队提出了一个 prompt 优化器它可以不断改写 prompt 使用户能够选择符合其独特需求的结果。通过将文生图模型中与图像相关的损失函数整合到文本生成的训练过程中使其生成模型首选 prompt。此外研究团队还提出了一个自适应特征提取模块以确保生成结果的多样性。实验证明这一方法能够生成比以前最先进方法更具视觉吸引力和多样性的图像在六个质量和美学指标上平均提高了 5%。
论文链接https://arxiv.org/abs/2402.12760
【Gen4Gen创建评估文生图模型数据集新方法】
最近的文生图扩散模型只需通过几个例子的训练就能学习和合成包含新颖、个性化概念如自己的宠物或特定物品的图像。在文生图扩散模型个性化领域中首先当前的个性化技术无法可靠地扩展到多个概念——我们假设这是由于预训练数据集如 LAION中复杂场景和简单文本描述之间的不匹配造成的。其次对于包含多个个性化概念的图像缺乏一个整体的衡量标准来评估个性化概念的相似程度、图像中是否存在所有概念以及图像是否准确反映了整体文本描述。
为了解决这些问题来自加州大学戴维斯分校的研究团队及其合作者提出了一个半自动数据集创建流程——Gen4Gen它利用生成模型将个性化概念与文本描述结合成复杂的组合。借此研究团队创建了一个名为 MyCanvas 的数据集该数据集可用于多概念个性化任务的基准测试。此外研究团队还设计了一个由两个分数CP-CLIP 和 TI-CLIP组成的综合指标用于更好地量化多概念、个性化文生图扩散方法的性能。
该项研究提供了一个基于 Custom Diffusion 的简单基准其中包含经验性提示策略供未来的研究人员在 MyCanvas 上进行评估。研究表明通过改进数据质量和提示策略无需对模型架构或训练算法进行任何修改即可显著提高多概念个性化图像生成的质量。
论文链接https://arxiv.org/abs/2402.15504 第 2 章 文生视频
【Sora 综述大型视觉模型的背景、技术、局限和机遇】
Sora 是 OpenAI 于 2024 年 2 月发布的文生视频人工智能AI模型。经过训练Sora 能根据文字说明生成逼真或富有想象力的场景视频并显示出了模拟物理世界的潜力。
在这篇论文中来自理海大学和微软研究院的研究团队以公开技术报告和逆向工程为基础全面回顾了 Sora 的背景、相关技术、应用、尚存挑战以及文生视频 AI 模型的未来发展方向。
研究团队首先追溯了 Sora 的发展历程并研究了用于构建这一“世界模拟器”的底层技术。然后他们详细介绍了 Sora 在从电影制作、教育到市场营销等多个行业中的应用和潜在影响。研究团队讨论了广泛部署 Sora 所面临的主要挑战和限制如确保安全和无偏见的视频生成。最后他们讨论了 Sora 和其他视频生成模型的未来发展以及该领域的进步如何实现新的人机交互方式提高视频生成的生产力和创造力。
论文链接https://arxiv.org/abs/2402.17177
【AnimateLCM高效生成连贯真实的视频】
视频扩散模型能够生成既连贯又高保真的视频但迭代去噪过程使其计算密集且耗时的问题限制了其应用。受 Consistency ModelCM的启发来自香港中文大学 MMLab、Avolution AI、上海人工智能实验室和商汤科技公司的研究团队提出了 AnimateLCM该模型将预训练的图像扩散模型蒸馏为最小步骤以加速采样以及其在条件图像生成上的成功扩展——Latent Consistency ModelLCM从而以最少的步骤生成高保真视频。
研究团队提出了一种解耦一致性学习策略将图像生成先验的蒸馏和运动生成先验的蒸馏解耦提高了训练效率和生成内容的视觉质量。此外为了使 Stable Diffusion 社区中的即插即用适配器组合实现各种功能如用于可控生成的 ControlNet研究团队提出了一种高效策略在不影响采样速度的情况下将现有适配器适配到文本条件视频一致性模型或从头开始训练适配器。在图像条件视频生成和布局条件视频生成中这一策略均取得了最佳效果。
论文链接https://arxiv.org/abs/2402.00769
【Direct-a-Video用户引导摄像机移动和物体运动生成定制视频】
在文生视频扩散模型的实际应用中用户往往希望能够独立控制物体的运动和摄像机的移动来实现自定义视频创作。但当前的方法缺乏以解耦方式下独立控制物体运动和摄像机移动的焦点这限制了文生视频模型的可控性和灵活性。
为此来自香港城市大学、快手公司和天津大学的研究团队提出了 Direct-a-Video该系统允许用户独立指定一个或多个物体的运动或摄像机的运动让用户来导演视频。研究团队提出了一种简单有效的策略来独立控制物体运动和摄像机移动。即利用模型固有的先验通过空间交叉注意力调制控制物体运动而无需额外优化。对于摄像机运动研究团队引入了新的时间交叉注意层来解释定量摄像机移动参数。
研究团队还采用了一种基于数据增强的方法在小规模数据集上以自我监督的方式训练这些层消除了对显式运动注释的需求。这两个组件可独立运行允许独立或组合控制并且可以推广到开放域场景。实验证明了这一方法的优越性和有效性。
论文链接https://arxiv.org/abs/2402.03162
【InteractiveVideo以用户为中心的视频生成模型】
来自香港中文大学、北理工和腾讯人工智能实验室的研究团队提出了一个以用户为中心的视频生成框架—— InteractiveVideo。与传统的基于用户提供的图像或文本进行操作的生成方法不同InteractiveVideo 专为动态交互而设计它允许用户在整个生成过程中通过各种直观的机制如文本和图像提示、绘画、拖放等对生成模型进行指导。
研究团队提出了一种协同多模态指令机制旨在将用户的多模态指令无缝集成到生成模型中从而促进用户输入与生成过程之间的合作和响应式交互。这种方法可通过精确有效的用户指令对生成结果进行迭代和细粒度优化。有了 InteractiveVideo用户就可以灵活地对视频的关键部分进行精心定制如绘制参考图像、编辑语义、调整视频动作直到完全满足其需求。
论文链接https://arxiv.org/abs/2402.03040
【Customize-A-Video文生视频可以自由定制了】
图像定制在文本到图像T2I扩散模型中已经得到了广泛的研究并取得了令人印象深刻的成果和应用。随着文本到视频T2V扩散模型的兴起其对应的时间模型、运动定制模型还没有得到很好地研究。
为了应对单次运动定制的挑战来自马里兰大学、Adobe Research 和延世大学的研究团队提出了 Customize-A-Video 方法从单个参考视频中建立运动模型并将其适配到具有空间和时间变化的新主题和场景中。它利用时间注意层上的低秩适应LoRA来定制预训练 T2V 扩散模型以便根据参考视频进行特定的运动建模。
为了在训练过程中分离空间和时间信息研究团队提出了 appearance absorbers 的概念在运动学习之前将原始外观从单个参考视频中分离出来。Customize-A-Video 可以以即插即用的方式轻松扩展到各种下游任务包括定制视频生成和编辑、视频外观定制和多重运动组合。
论文链接https://arxiv.org/abs/2402.14780
【Snap Video基于 Transformer 的文生视频新模型】
当前图像生成模型显示出极高的质量和多功能性因此研究界重新调整它们用于生成视频。由于视频内容冗余度很高将图像模型的先进技术简单地引入视频生成领域会降低运动保真度、视觉质量和可扩展性。
为此来自 Snap 的研究团队及其合作者建立了一个视频优先模型——Snap Video来系统地应对这些挑战。研究团队首先扩展了 EDM 框架用于考虑空间和时间上的冗余像素并自然地支持视频生成。其次因为 U-Net图像生成的主要工具在生成视频时扩展性很差并且需要大量的计算开销研究团队提出了一种基于 Transformer 的新架构其训练速度是 U-Net 的 3.31 倍推理速度约为 4.5 倍。这使我们能够首次高效地训练具有数十亿个参数的文生视频模型在许多基准测试中达到最先进的结果并生成具有更高质量、时间一致性和运动复杂性的视频。
针对用户的研究表明与最近的方法相比Snap Video 模型更受青睐。
论文链接https://arxiv.org/abs/2402.14797
【阿里 EMO从音频生成富有表现力的肖像视频】
阿里巴巴团队开展了一项研究重点关注音频线索与面部动作之间的动态和细微关系在应对在生成“对话头像”talking head视频时如何提高逼真度和表现力的挑战时传统技术往往无法捕捉到人类表情的全貌以及个人面部风格的独特性。
为此研究团队提出了 EMO这一框架它采用直接从音频到视频的合成方法无需中间 3D 模型或面部标志。EMO 确保了整个视频的无缝帧转换和一致的身份保持能够产生极富表现力且栩栩如生的动画。EMO 不仅能生成令人信服的说话视频还能生成各种风格的唱歌视频在表现力和逼真度方面明显优于现有的最先进方法。
论文链接https://arxiv.org/abs/2402.17485
【Sora 评估基准视频符合真实世界的物理原理吗】
近期Sora 在视频生成方面展现了非凡的能力引发了有关其模拟真实世界现象能力的激烈讨论但目前还缺乏成熟的指标来定量评估其与真实世界物理的保真度。
来自南开大学、字节跳动、武汉大学和南开国际先进研究院的研究团队提出了一种新的基准根据 Sora 生成的视频是否符合真实世界的物理原理来评估其忠实度。由于 3D 重建的准确性在很大程度上取决于视频质量研究团队将生成的视频转换为 3D 模型。从 3D 重建的角度研究团队使用构建的 3D 模型所满足的几何约束的保真度来衡量生成的视频在多大程度上符合真实世界的物理规则。
论文链接https://arxiv.org/abs/2402.17403
【Panda-70M包含 7000 万段高质量字幕的视频数据集】
数据和标注的质量是下游模型质量的上限。虽然存在大量的文本语料库和图像-文本对但高质量的视频-文本数据却很难收集。首先人工标注需要标注者观看整个视频这十分耗时。其次视频具有时间维度由多个场景叠加而成显示了多个动作。
为了建立一个具有高质量字幕的视频数据集来自 Snap 公司、加州大学和特伦托大学的研究团队提出了一种利用多模态输入如文字视频描述、字幕和单个视频帧的自动方法。具体来说研究团队从公开的 HD-VILA-100M 数据集中收集了 380 万个高分辨率视频。然后将它们分割成语义一致的视频片段并应用多种跨模态教师模型来获取每个视频的字幕。接下来在一小部分子集上对检索模型进行微调人工选择每个视频的最佳字幕然后在整个数据集中使用该模型选择最佳字幕作为标注。
通过这种方法他们得到了 7000 万个与高质量文字说明配对的视频。研究团队将该数据集命名为 Panda-70M。该项研究展示了 Panda-70M 数据集在三个下游任务中的价值视频字幕、视频和文本检索以及文本驱动的视频生成。在提出的数据上训练出来的模型在所有任务的大多数指标上都获得了大幅提升。
论文链接https://arxiv.org/abs/2402.19479
【AI 生成视频泛滥近乎完美的检测和追踪方法来了】
随着视频生成技术的飞速发展人们可以方便地利用视频生成模型来制作符合自己特定需求的视频。然而人们也越来越担心它们可能被滥用于制造和传播虚假信息。
来自弗吉尼亚大学和亥姆霍兹信息安全中心CISPA的研究团队提出了一套在虚假视频生成的整个生命周期中的缓解措施——VGMShield。
研究团队首先从虚假视频检测入手试图了解生成的视频是否具有唯一性能否将它们与真实视频区分开来然后研究了追踪问题即将虚假视频追溯到生成它的模型。为此研究团队利用侧重于时空动态的预训练模型作为骨干来识别视频中的不一致之处。在七个最先进的开源模型上的实验证明了当前的模型仍然无法完美处理时空关系因此我们可以近乎完美地完成检测和追踪。
考虑到未来生成模型的改进研究团队还提出了一种预防方法向图像中添加不可见的扰动使生成的视频看起来不真实。与虚假视频检测和追踪相结合这一多层面解决方案可以有效缓解视频生成模型的滥用。
论文链接https://arxiv.org/abs/2402.13126
【小鹏汽车提出 Anything in Any Scene生成真实的视频】
真实的视频模拟在虚拟现实和电影制作等各种应用领域都显示出巨大的潜力特别是在现实世界中拍摄视频不切实际或成本高昂的情况下。现有的视频模拟方法往往无法准确地模拟照明环境、表示物体几何形状或达到高度逼真。
来自小鹏汽车公司的研究团队提出了一个用于真实视频模拟的通用框架——“Anything in Any Scene”它可以将任何物体无缝插入现有的动态视频中并着重强调真实性。Anything in Any Scene 包括三个关键过程首先将真实物体整合到给定的场景视频中适当放置以确保几何逼真度其次估计天空和环境光照分布模拟逼真的阴影以增强光线的逼真度最后采用风格转换网络完善最终视频输出最大限度地提高真实性。
实验证明Anything in Any Scene 可以生成几何逼真度、光照逼真度和真实性都很高的模拟视频。通过大大降低与视频数据生成相关的难度Anything in Any Scene 为获取高质量视频提供了一个高效、经济的解决方案。不止在视频数据增强方面在虚拟现实、视频编辑和其他各种以视频为中心的应用中 Anything in Any Scene 都展现出了巨大的潜力。
论文链接https://arxiv.org/abs/2401.17509 第 3 章 文生音频
【ChatMusician使用大模型理解和生成音乐】
来自 Multimodal Art Projection Research Community、Skywork 和香港科技大学的研究团队提出了一个集成了内在音乐能力的开源大型语言模型LLMs——ChatMusician。它基于与文本兼容的音乐表示法ABC 记谱法对 LLaMA2 进行持续的预训练和微调并将音乐视为第二语言。
ChatMusician 可通过纯文本 tokenizer 理解和生成音乐无需任何外部多模态神经网络或 tokenizer。赋予音乐能力并不会损害语言能力甚至在 MMLU 评分上略有提高。ChatMusician 能够以文本、和弦、旋律、主题、音乐形式等为条件创作出结构良好的完整音乐超过了 GPT-4 基线。
研究团队制作了一个大学级音乐理解基准——MusicTheoryBench在该基准上的零样本测试中ChatMusician 以明显的优势超过了 LLaMA2 和 GPT-3.5。该项研究揭示了 LLMs 可以成为出色的音乐压缩器compressor但仍有大量领域有待攻克。
论文链接https://arxiv.org/abs/2402.16153
【SongComposer让大模型像人类一样创作歌曲】
来自香港中文大学、北京航空航天大学和上海人工智能实验室的研究团队提出了一款专为歌曲创作而设计的大型语言模型LLMs——SongComposer。
利用 LLMs 的能力它可以理解并生成符号化歌曲表示中的旋律和歌词。现有的音乐相关 LLMs 将音乐视为量化的音频信号这种隐式编码会导致编码效率低下和灵活性差。相比之下研究团队采用了人类为音乐设计的成熟而高效的符号歌曲表示法使 LLMs 能够像人类一样明确地创作歌曲。在实践中研究团队设计了一种元组设计来格式化旋律中的歌词和三个音符属性音高、时长和休止符时长这保证了 LLMs 对音乐符号的正确理解并实现了歌词和旋律的精确对齐。
为了向 LLMs 传授基本的音乐理解能力他们精心收集了一个大规模的歌曲预训练数据集 SongCompose-PT 其中包括中文或英文歌词、旋律和成对的歌词旋律。经过充分的预训练后使用 10000 个精心制作的 QA 对来增强 LLMs 的指令遵循能力从而解决各种任务。通过大量实验SongComposer 在歌词到旋律的生成、旋律到歌词的生成、歌曲续写和文本到歌曲的创作方面表现出卓越的性能超过了 GPT-4 等先进的 LLMs。
论文链接https://arxiv.org/abs/2402.17645 第 4 章 文生代码
【RoboCodeX机器人行为合成的多模态代码生成】
机器人行为合成即理解多模态输入并为机器人生成精确物理控制是具身人工智能Embodied AI的重要组成部分。尽管在应用多模态大型语言模型进行高级理解方面取得了成功但要将这些概念理解转化为详细的机器人动作并在各种场景中实现泛化仍具挑战性。
来自香港大学和上海人工智能实验室的研究团队及其合作者提出了一个用于泛化的机器人行为合成的树状结构多模态代码生成框架——RoboCodeX。它将高级人类指令分解为多个以对象为中心的操作单元包括如负担能力affordance和安全约束等物理偏好并应用代码生成技术在各种机器人平台上实现泛化能力。
为了进一步提高将概念和感知理解映射到控制指令的能力研究团队收集了一个专门的多模态推理数据集进行预训练并引入了迭代自我更新方法进行监督微调。实验证明RoboCodeX 在模拟器和真实机器人上在四种不同的操作任务和一种导航任务上都取得了最先进的性能。
论文链接https://arxiv.org/abs/2402.16117
【GLM-4 vs GPT-4辅助编程哪家强】
来自悉尼大学、深兰科技上海、中国创造学会和上海交通大学的研究团队对 GPT-4 和 GLM-4 做了比较分析探索将 GenAI 作为编程工具的最佳实践。
通过评估不同复杂程度的提示策略发现最简单直接的提示策略能产生最佳的代码生成结果。此外添加类似于 CoT 的初步确认步骤将进一步提高成功率。研究结果显示虽然 GPT-4 略微优于 GLM-4但对于普通用户来说两者的差距微乎其微。
在其简化的评估模型中研究团队发现与传统编程规范相比代码生成效率显著提高了 30 到 100 倍。GenAI 辅助编码将引发编程领域的范式转变这就要求开发人员承担起围绕监督和指导 GenAI 的新角色并更加专注于制定高层次目标和参与创新。
论文链接https://arxiv.org/abs/2402.12782 第 5 章 文生3D
【综述3D 生成技术的最新进展】
生成 3D 模型是计算机图形学的核心也是数十年来研究的重点。随着高级神经表征和生成模型的出现3D 内容生成领域正在迅速发展创建越来越高质量和多样化的 3D 模型成为可能。
来自腾讯人工智能实验室、腾讯 ARC 实验室、香港城市大学和华南理工大学的研究团队提出了一份综述介绍了 3D 生成的基本方法建立了一个包括 3D 表征、生成方法、数据集以及相应的应用的结构化路线图。该项研究介绍了作为 3D 生成基础的 3D 表征全面综述了有关生成方法的快速增长的文献并按算法范例类型进行了将其分类为前馈生成、基于优化的生成、程序生成和生成式新视图合成。最后讨论了可用的数据集、应用和开放的挑战。
论文链接https://arxiv.org/abs/2401.17807
【ReplaceAnything3D文本引导式 3D 场景编辑】
来自伦敦大学学院、Alan Turing 研究所和 Meta 的研究团队提出了一种文本引导式 3D 场景编辑方法—— ReplaceAnything3D 模型RAM3D它可以替换场景中的特定对象。
研究团队提出的 Erase-and-Replace 方法即给定场景的多视角图像、描述要替换对象的文本提示和描述新对象的文本提示可以有效地用新生成的内容替换场景中的对象同时在多个视角之间保持 3D 一致性。ReplaceAnything3D 在各种逼真的 3D 场景的应用展示了它的多功能性修改后的前景物体能够与场景其他部分完美融合而且不影响整体完整性。
论文链接https://arxiv.org/abs/2401.17895 第 6 章 智能体Agent
【Formal-LLM让智能体生成有效计划】
大型语言模型LLMs的最新进展使人工智能智能体能够自动生成并执行多步骤计划来解决复杂任务。由于 LLMs 的内容生成过程几乎不可控目前的 LLMs 智能体经常生成无效或不可执行的计划这不仅降低了所生成计划的性能也破坏了用户对 LLMs 智能体的信任。
为此来自罗格斯大学的研究团队通过整合自然语言的表达能力和形式语言的精确性为 LLMs 智能体提出了一个“Formal-LLM”框架。该框架允许人类用户以自动机automaton的形式表达他们对规划过程的要求或约束。在自动机的监督下进行基于堆栈的 LLMs 计划生成过程确保生成的计划满足约束条件从而使计划过程可控。
在基准任务和实际任务中 Formal-LLM 实现了超过 50% 的整体性能提升证明了采用 Formal-LLM 指导智能体计划生成的可行性和有效性。
论文链接https://arxiv.org/abs/2402.00798
【宝马公司新研究让大模型帮你打《星际争霸II》】
为研究大型语言模型LLMs在 StarCraft II《星际争霸II》游戏环境中执行实时战略战争任务的功效来自宝马诚迈公司的研究团队提出了一种利用 LLMs 在 StarCraft II 游戏环境中执行实时战略的嵌入式智能体——SwarmBrain。
SwarmBrain 由两个关键部分组成一是由最先进的 LLMs 支持的用于从高层次角度协调宏观战略 Overmind 智能矩阵。该矩阵模拟 Zerg 智能大脑的整体意识综合战略远见能够进行资源分配、扩张指导并协调多管齐下的攻击。二是 Swarm ReflexNet用于与 Overmind Intelligence Matrix 的计算决策相对应。
由于 LLMs 推理存在固有延迟Swarm ReflexNet 采用了条件-响应状态机框架使基础 Zerg 单位机动能够迅速做出战术反应。在实验设置中SwarmBrain 控制 Zerg 种族与计算机控制的 Terran 对手对抗。实验结果表明SwarmBrain 能够进行经济扩张、领土扩张和战术制定并且能够击败设置在不同难度级别的 Computer 玩家。
论文链接https://arxiv.org/abs/2401.17749
【POKE´LLMON达到人类对战水平的“宝可梦”智能体】
来自佐治亚理工学院的研究团队提出了第一个在战术战斗游戏中达到人类水平性能的 LLM大型语言模型具身智能体——POKE´LLMON。
POKE´LLMON 的设计包含以下三种关键策略第一上下文强化学习即刻吸收从战斗中获得的基于文本的反馈从而迭代完善策略第二知识增强生成它检索外部知识来对抗幻觉并使智能体能够及时适当地行动第三一致性行动生成用于减轻当智能体面对强大对手并希望逃避战斗时的紧急切换panic switching现象。
与人类的在线对战证明了 POKE´LLMON 具有类似人类的战斗策略和即时决策能力在 Ladder 比赛中达到了 49% 的胜率在受邀战斗中达到了56%的胜率。
论文地址https://arxiv.org/abs/2402.01118
【微软、斯坦福新研究交互式智能体基础模型】
人工智能AI系统的开发正在从创建静态的、针对特定任务的模型转变为动态的、基于智能体的、能够在广泛应用中表现出色的系统。
来自斯坦福、微软研究院和加州大学洛杉矶分校的研究团队提出了一种交互式智能体基础模型它采用了一种多任务智能体训练范式用于在广泛的领域、数据集和任务中训练 AI 智能体。这一训练范式统一了不同的预训练策略包括视觉遮蔽自动编码器、语言建模和下一步行动预测从而实现了一个多功能、适应性强的 AI 框架。
研究团队展示了其框架在机器人、游戏 AI 和医疗保健三个不同领域生成有意义且与上下文相关的输出的能力。该模型的优势在于其通用性可利用机器人序列、游戏数据、大规模视频数据集和文本信息等各种数据源进行有效的多模态和多任务学习。这一方法为开发通用的动作执行多模态系统提供了未来的方向。
论文链接https://arxiv.org/abs/2402.05929
【OS-Copilot实现可自我完善的通用计算机智能体】
近来大型语言模型LLMs的激增显著加速了构建数字智能体的进展。但这些智能体大多是为与特定领域如特定软件或网站进行交互而设计的。这种狭隘的关注点限制了它们在通用计算机任务中的适用性。
为此来自上海人工智能实验室、华东师范大学、普林斯顿大学和香港大学的研究团队提出了一个用于构建通用智能体的框架——OS-Copilot它能够与操作系统OS中的各种元素包括网络、代码终端、文件、多媒体和各种第三方应用程序进行交互。
研究团队利用 OS-Copilot 创建了一个用于自动执行通用计算机任务的自我完善型具身智能体——FRIDAY。在通用人工智能助手基准测试 GAIA 上FRIDAY 的表现比以前的方法提高了 35%通过先前任务中积累的技能展示了对未知应用的强大通用性。
数据表明FRIDAY 在最少的监督的情况下学会了控制 Excel 和 Powerpoint并进行自我完善。OS-Copilot 框架和研究结果为未来的研究提供了基础架构和见解使计算机智能体具有更强的能力和更广泛的用途。
论文链接https://arxiv.org/abs/2402.07456
【谷歌新研究可阅读 20 倍上下文的 AI 智能体】
目前的大型语言模型LLMs不仅受限于一定的最大上下文长度也无法鲁棒地处理长输入。为此来自 Google DeepMind 和 Google Research 的研究团队提出了一个能够将有效上下文长度提高 20 倍的 LLMs 智能体系统——ReadAgent。
受人类交互式阅读长文档方式的启发研究团队将 ReadAgent 作为一个简单的提示系统。该系统利用 LLMs 的高级语言能力决定将哪些内容一起存储在一个记忆片段中随后将这些记忆片段压缩成短小片段记忆gist memories。当 ReadAgent 需要提醒自己相关细节以完成任务时就在原始文本中查找段落。
研究团队使用检索方法、原始长上下文以及 gist memories 来对 ReadAgent 进行评估并与基线进行比较。在 QuALITY、NarrativeQA 和 QMSum 三个长文档阅读理解任务中ReadAgent 的表现都优于基线同时将有效上下文窗口扩展了 3-20 倍。
论文链接https://arxiv.org/abs/2402.09727
【微软新研究首个用于 Windows OS 交互的 AI 智能体】
来自微软公司的研究团队提出了一个用于满足 Windows OS 上的应用程序的用户需求的 UI-Focused 智能体——UFO它利用了 GPT-Vision 的功能。
UFO 采用双智能体框架对图形用户界面GUI和 Windows 应用程序的控制信息进行细致观察和分析。这使智能体能够在单个应用程序内部以及跨应用程序之间无缝导航和操作从而满足用户的要求在跨多个应用程序时也是如此。该框架包含一个控制交互模块便于在没有人工干预的情况下进行操作并实现全自动执行。因此UFO 能够将艰巨耗时的流程转化为只需通过自然语言命令即可完成的简单任务。
研究团队在 9 个流行的 Windows 应用程序中对 UFO 进行了测试这涵盖了反映用户日常使用情况的各种场景。实验表明UFO 在满足用户需求方面具有卓越的能力。UFO 是第一个专门为 Windows OS 环境中的任务完成定制的 UI 智能体。
论文链接https://arxiv.org/abs/2402.07939
【AgentMD利用“临床计算器”增强智能体的风险预测能力】
临床计算器在医疗保健领域发挥着重要作用可为预后等各种目的提供准确的循证预测。然而可用性挑战、传播不畅和功能受限等问题限制了这些计算器的广泛使用。利用大量临床计算器集合来增强大型语言模型为克服这些障碍和提高工作流程效率提供了机会但手工整理过程的可扩展性是一个重大挑战。
为此来自美国国立卫生研究院NIH、马里兰大学、耶鲁大学和佛罗里达州立大学的研究团队提出了一个新型语言智能体——AgentMD它能够在各种临床环境中整理和应用临床计算器。利用已发表的文献AgentMD 自动收集了 2164 种具有可执行功能和结构化文档的临床计算器统称为 RiskCalcs。人工评估显示RiskCalcs 工具在三项质量指标上的准确率超过了 80%。
在推理时AgentMD 可以根据患者描述自动选择和应用相关的 RiskCalcs 工具。在新设立的 RiskQA 基准上AgentMD 明显优于使用 GPT-4 的思维链提示准确率分别为 87.7%、40.9%。此外研究团队还将 AgentMD 应用于真实世界的临床笔记来分析人群和风险级别的患者特征。研究表明语言智能体与临床计算器在医疗分析和患者护理方面具有实用性。
论文链接https://arxiv.org/abs/2402.13225
【最新综述大型多模态智能体】
大型语言模型LLMs在为基于文本的人工智能AI智能体提供动力方面展示了卓越的性能使其具备了与人类类似的决策和推理能力。新兴的研究趋势集中在将这些由 LLM 驱动的 AI 智能体扩展到多模态领域。这种扩展使 AI 智能体能够解释和响应多样化的多模态用户查询从而处理更加复杂和细微的任务。
来自香港中文大学深圳、深圳市大数据研究院和中山大学的研究团队对 LLM 驱动的多模态智能体即大型多模态智能体LMAs进行了系统回顾。
研究团队首先介绍了开发 LMAs 所涉及的基本要素并将当前的研究分为四种不同类型随后回顾了整合多个 LMAs 的协作框架以增强集体效能。该领域的关键挑战之一是现有研究中使用的评估方法多种多样阻碍了不同 LMAs 之间的有效比较。因此研究团队对这些评估方法进行了汇编并建立了一个综合框架来缩小这些差距。该框架用于使评估标准化以便进行更有意义的比较。最后研究团队强调了 LMAs 的广泛应用并提出了未来可能的研究方向。
该项研究旨在为这一快速发展领域的未来研究提供有价值的见解和指导。
论文链接https://arxiv.org/abs/2402.15116
【Agent-Pro在学习中不断进化的智能体】
大型语言模型LLMs可为各种任务提供强大的问题解决能力。然而大多数基于 LLMs 的智能体被设计为具有复杂提示工程的特定任务解决程序而不是能够通过交互进行学习和进化的智能体。这些任务求解器需要人工制作提示来告知任务规则和规范 LLMs 行为因而无法应对复杂的动态场景如大型互动游戏。
为此来自中科院、南京邮电大学、南京信息工程大学、北京工业大学和国科大南京学院的研究团队提出了一个基于 LLM 的、具有策略级反思和优化功能的智能体——Agent-Pro它可以从交互体验中学习丰富的专业知识并逐步提升其行为策略。
Agent-Pro 涉及一个动态的信念生成和策略演化的反思过程。与行动层面的反思不同Agent-Pro 会反复反思过去的轨迹和信念微调其不合理的信念以制定更好的策略。此外它还采用深度优先搜索进行策略优化确保不断提高策略回报。
Agent-Pro 在两个游戏中进行了评估在二十一点和德州扑克游戏中Agent-Pro 的表现优于 vanilla LLM 和专门模型。结果表明Agent-Pro 可以在复杂的动态场景中学习和进化这也有利于众多基于 LLM 的应用。
论文链接https://arxiv.org/abs/2402.17574
【FinAgent首个金融交易多模态基础智能体】
金融交易是市场的重要组成部分其信息来源包括新闻、价格和 K 线图等多模态信息并包含量化交易和各种资产的高频交易等多种任务。虽然深度学习和强化学习等先进的人工智能技术在金融领域得到了广泛应用但由于对多模态数据的处理不充分以及在各种任务中的泛化能力有限它们在金融交易任务中的应用却经常面临挑战。
为此来自南洋理工大学和浙江大学的研究团队推出了一个具有金融交易工具增强功能的多模态基础智能体——FinAgent。FinAgent 的市场智能模块可处理各种数据-数值、文本和视觉数据从而准确分析金融市场。其独特的双层反映模块不仅能快速适应市场动态还集成了多样化的记忆检索系统增强了智能体从历史数据中学习和改进决策过程的能力。智能体对行动推理的重视促进了对其金融决策的信任。此外FinAgent 还整合了成熟的交易策略和专家见解确保其交易方法既以数据为导向又植根于稳健的金融原则。
通过对包括股票和加密货币在内的 6 个金融数据集进行全面实验FinAgent 在 6 个金融指标方面明显优于 9 个最先进的基线平均收益提高了 36% 以上。特别是在一个数据集上实现了 92.27% 的回报率相对改进 84.39%。值得注意的是FinAgent 是首个专为金融交易任务设计的高级多模态基础智能体。
论文链接https://arxiv.org/abs/2402.18485
【Google DeepMind大模型中的高效探索】
来自 Google DeepMind 和斯坦福的研究团队发现在收集人类反馈改进大型语言模型LLMs的过程中高效探索能带来巨大收益。
在研究团队进行的实验中智能体按顺序生成查询同时将反馈接收到的数据拟合到奖励模型中。表现最好的智能体使用双 Thompson 采样生成查询不确定性由认识神经网络表示。
实验证明高效探索能够以更少的查询次数获得更高的性能。此外不确定性估计和探索方案的选择都起着关键作用。
论文链接https://arxiv.org/abs/2402.00396
【LongAgent将大模型扩展到 128k 上下文】
目前具有较长上下文窗口的大型语言模型LLMs存在较为显著的训练成本昂贵和高推理延迟问题。即使是 GPT-4 和 Claude2 等最先进的模型在处理超过 100k tokens 的输入时也经常犯错这种现象被称为 lost in the middle。
来自复旦大学的研究团队提出了一种基于多智能体协作的方法——LongAgent它可以将 LLMs如 LLaMA扩展到 128K 的上下文。在长文本处理方面与 GPT-4 相比它也表现出优势。在 LongAgent 中领导者负责理解用户意图并指挥团队成员从文档中获取信息。由于成员会产生幻觉领导者要从数十到数百名成员的响应中获取准确的信息并非易事。因此研究团队开发了一种成员间交流机制通过信息共享来解决幻觉引起的响应冲突。
实验表明LongAgent 为长文本处理提供了新的选择。与 GPT-4 相比使用 LLaMA-7B 的智能体团队在 128k 长文本检索、多跳问答等任务中取得了显著改进。
论文链接https://arxiv.org/abs/2402.11550
【DeepMind 新研究通过剪枝让智能体提高参数效率】
最近的研究表明深度强化学习智能体很难有效利用其网络参数。
来自 Google DeepMind、魁北克人工智能研究所 Mila 和蒙特利尔大学的研究团队利用先前对稀疏训练技术优势的了解证明渐进式幅度剪枝能让智能体最大限度地提高参数效率。
这表现出了一种 “scaling law”只需使用全部网络参数的一小部分网络的性能相比传统网络就可以显著提高。
论文链接https://arxiv.org/abs/2402.12479 第 7 章 对齐Alignment
【DeepMind新研究让大模型更快地从人类反馈中学习】
大型语言模型LLMs可以根据语言命令编写机器人代码这让不是专家的人也能够指导机器人行为、根据反馈修改机器人行为或将机器人行为组合起来执行新任务。然而这些能力由上下文学习驱动仅限于短期交互用户的反馈只在符合 LLMs 的上下文大小范围内保持相关性在较长时间的交互中可能会被遗忘。
Google DeepMind 提出了对机器人代码编写 LLMs 进行微调来记住它们在上下文中的交互并提高它们的可教性——它们适应人类输入的效率以用户认为任务成功之前的平均修正次数来衡量。
该项研究认为当人与机器人的交互其中人类语言输入为观测机器人代码输出为行动被表述为一个部分可观测的 Markov 决策过程时训练 LLMs 完成之前的交互可被视为训练一个 transition dynamics 模型该模型可与如模型预测控制MPC等经典的机器人技术相结合来发现更短的成功路径。这就产生了语言模型预测控制LMPC它是一个对 PaLM 2 进行微调的框架可提高 PaLM 2 在 5 种机器人实体的 78 项任务中的可教性将未见任务的非专家教学成功率提高了 26.9%同时将人工纠正的平均次数从 2.4 次减少到 1.9 次。
实验表明LMPC 还能产生强大的元学习器提高了在未见机器人化身和 API 上通过上下文学习新任务的成功率 31.5%。
论文链接https://arxiv.org/abs/2402.11450
【转换和组合奖励对齐大模型】
一种常见的将语言模型与人类偏好对齐的常见方法是首先从偏好数据中学习奖励模型然后使用这个奖励模型来更新语言模型。
来自芝加哥大学、Google Research、Google DeepMind 和斯坦福大学的研究团队研究了这种方法中出现的两个问题。首先奖励模型的任何单调变换都保留了偏好排名是否存在一个比其他选择更好的选择其次我们经常希望将语言模型与多个属性对齐那么应该如何组合多个奖励模型
使用对齐程序的概率解释研究团队确定了常见情况的从 Bradley-Terry 偏好模型学习的奖励的自然变换选择。这种导出变换具有两个重要属性。第一它强调改进表现不佳的输出而不是已经得分很好的输出。这减轻了欠拟合underfitting即某些提示没有得到改进和奖励黑客reward hacking即模型学习利用奖励模型的误指定的问题。第二它通过将求和与逻辑合取联系起来使得奖励的合理聚合成为可能在转换后的奖励之和对应于输出在所有测量属性中都是“good”的概率上做到了精确。
实验表明使用 RLHF 对齐语言模型这种方法比未经过调整的基线方法有显著的提升能够使模型在提供帮助的同时避免造成伤害。
论文链接https://arxiv.org/abs/2402.00742
【LongAlign长语境中大模型对齐方法】
扩展大型语言模型LLMs以有效处理长语境需要对长度相似的输入序列进行指令微调。来自清华大学和智谱 AI 的研究团队提出了一种用于长语境对齐的指令数据、训练和评估方法——LongAlign。
研究团队首先使用 Self-Instruct 构建了一个涵盖了各种来自长语境的广泛任务的长指令跟随数据集确保了数据的多样性。其次采用打包和排序批处理策略以加快对不同长度分布数据的监督微调。研究团队开发了一种损失加权方法用于平衡打包训练过程中不同序列对损失的贡献。最后研究团队引入了 LongBench-Chat 基准来评估长度为 10k-100k 的查询上的指令跟随能力。实验表明在保持处理短小、通用任务的能力的同时在长语境任务中LongAlign 的性能比现有的 LLMs 高出 30%。
论文链接https://arxiv.org/abs/2401.18058 第 8 章 安全治理
【针对大模型的新型越狱攻击方式】
尽管人们在对齐大型语言模型LLMs方面付出了巨大努力但红队报告表明这些经过精心对齐的 LLMs 仍有可能通过对抗性提示、调整或解码而被越狱。
在研究已对齐 LLMs 的越狱漏洞时来自加州大学圣巴巴拉分校、新加坡 Sea AI Lab 和卡内基梅隆大学的研究团队发现越狱模型和对齐模型的解码分布仅在初始生成时有所不同即对手可以利用较小的不安全/已对齐 LLM如 7B来引导对较大的已对齐 LLM如 70B进行越狱。
越狱只需额外解码两个较小的 LLMs 一次相对于解码较大 LLMs 的这种方式的计算和延迟最小。通过对来自三个不同组织的五个模型进行实验证明了这种攻击的有效性。该研究揭示了一种以前未被注意的高效越狱方法暴露了在对齐 LLMs 时需要考虑的紧迫安全问题。研究团队尝试提出了一种防御策略来抵御此类攻击但创建更先进的防御系统仍然面临挑战。
论文链接https://arxiv.org/abs/2401.17256
【生成式人工智能安全挑战与对策】
生成式人工智能Generative AI在各行各业的应用范围不断扩大这既让人兴奋也增加了审查的难度。
来自加州大学伯克利分校的研究团队深入探讨了生成式人工智能带来的独特安全挑战并概述了管理这些风险的潜在研究方向。
论文链接https://arxiv.org/abs/2402.12617
【苹果新研究欺骗大模型有多容易】
多模态大型语言模型MLLMs取得的巨大进步并没有使其免受挑战尤其是在处理提示中的欺骗性信息时这种情况下会产生幻觉式回应。为此来自 Apple 公司的研究团队提出了一个新基准——MAD-Bench它包含 850 个测试样本分为 6 个类别如不存在的物体、物体数量、空间关系和视觉混淆等。研究团队对流行的 MLLMs 进行了全面分析如从 GPT-4V、Gemini-Pro 到 LLaVA-1.5 和 CogVLM 等开源模型。
研究发现GPT-4V 与其他模型之间存在明显的性能差距而之前的鲁棒指令微调模型如 LRV-Instruction 和 LLaVA-RLHF 等在这个新基准上无效。除 GPT-4V 在 MAD-Bench 上达到了 75.02% 的准确率之外其他模型的准确率都在 5% 到 35% 之间。当在欺骗性提示中增加一段话鼓励模型在回答问题前“三思而后行”时这种简单的方法甚至可以将准确率提高一倍但是绝对数字仍然太低无法令人满意。该项研究希望可以将 MAD-Bench 作为一个有价值的基准来激励进一步的研究从而提高模型对欺骗性提示的应变能力。
论文链接https://arxiv.org/abs/2402.13220 第 9 章 大模型/AI4Science
【SciAgent用于科学推理的工具增强语言模型】
即使对于最先进的大型语言模型LLMs科学推理也是一项巨大的挑战。来自南洋理工大学、清华大学、微软公司、加州大学和新加坡管理大学的研究团队提出了一种新的任务设置——工具增强的科学推理。它利用可扩展的工具集对 LLMs 进行补充将重点转向精通工具的用户。
研究团队构建了一个包含超过 30000 个样本和大约 6000 种工具的名为 MathFunc 的工具增强训练语料库并在其基础上开发了 SciAgent用于检索、理解并在必要时使用工具解决科学问题。
研究团队还制作了一个用于评估 LLM 在工具辅助下能力的横跨五个科学领域的基准——SciToolBench。在 SciToolBench 上进行的大量实验证实了 SciAgent 的有效性。SciAgent-Mistral-7B 的绝对准确率超过了其他同等规模的 LLMs 13% 以上。此外SciAgent-DeepMath-7B 还显示出比 ChatGPT 更优越的性能。
论文链接https://arxiv.org/abs/2402.11451
【让大模型成为你的专属科学助手】
自然语言处理NLP在训练具有强大的科学问题解决能力的语言模型LMs方面取得了很大进展。但模型开发并未聚焦于语言模型在科学领域的实际应用案例中包括在教育领域中对长篇科学文档的处理。
为此来自普林斯顿大学的研究团队及其合作者提出了 TutorEval 和 TutorChat。TutorEval 是一个包括由专家编写的有关 STEM 教科书中长章节的问题的多样化问题解答基准。TutorEval 是首个结合了长上下文、自由形式生成和跨学科科学知识的基准它有助于衡量 LMs 作为科学助手在现实生活中的可用性。
由于利用现有对话数据集微调基础模型会导致在 TutorEval 上表现不佳研究团队创建了 TutorChat它是一个包含 80000 篇关于教科书的长篇合成对话的数据集用于对带有 7B 和 34B 参数的 Llemma 模型进行微调。这些专攻数学的 LM 助手有一个 32K-token 的上下文窗口它们在 TutorEval 上表现出色在 GSM8K 和 MATH 中也表现强劲。
论文链接https://arxiv.org/abs/2402.11111
【ChemLLM化学领域的对话式大模型】
大型语言模型LLMs在分子性质预测、分子生成、实验方案设计等化学应用领域取得了令人瞩目的进展。但仍然缺乏专门为化学设计的对话式模型。挑战在于大多数化学数据和科学知识主要存储在结构化数据库中直接使用这些结构化数据会损害模型保持对话连贯性的能力。
为此来自上海人工智能实验室的研究团队及其合作者开发了一种基于模板的指令构建方法将结构化知识转化为普通对话使其适用于语言模型训练。利用这种方法研究团队提出了第一个专门用于化学领域的大型语言模型 ——ChemLLM它能够通过流畅的对话交互执行化学学科的各种任务。
ChemLLM 在化学领域的三项主要任务即名称转换、分子标题和反应预测上都优于 GPT-3.5并在其中两项任务上超过了 GPT-4。尽管 ChemLLM 主要是在以化学为中心的语料库上训练但它对相关数学和物理任务的适应性也非常出色。此外ChemLLM 在化学领域的专业 NLP 任务如文献翻译和化学信息编程中也表现出了卓越的能力。
论文链接https://arxiv.org/abs/2402.06852
【Brant-2最大的脑信号领域基础模型】
基础模型通过在大量未标注数据上的预训练在应用中只需少量标注数据就能发挥强大性能。这类模型在分析脑信号方面尤其有效但因为这一领域包含众多应用场景进行大规模标注的成本很高。
来自浙江大学的研究团队提出了脑信号领域最大的基础模型 Brant-2。与专为颅内神经信号设计的基础模型 Brant 相比Brant-2 不仅对数据变化和建模规模具有鲁棒性而且可以应用于更广泛的脑神经数据范围。实验证明了 Brant-2 能够适应脑信号的各种应用场景。研究团队揭示了 Brant-2 的可扩展性验证了每个组件的有效性展示了其在标签稀缺的情况下保持性能的能力。
论文链接https://arxiv.org/abs/2402.10251
第 10 章 其他
【ToMBench清华团队领衔提出大模型心智理论基准测试】
Theory of MindToM是一种能够感知并将心理状态归因于自己和他人的认知能力。最近的研究引发了一场关于大型语言模型LLMs是否表现出一种 ToM 形式的争论。然而现有的 ToM 评估受到范围限制、主观判断和意外污染等挑战的阻碍导致评估不充分。
为此来自清华大学的研究团队及其合作者推出了 ToMBench它具有三个关键特征一个涵盖社会认知领域 8 项任务和 31 种能力的系统性评估框架一种支持自动和无偏见评估的多选题格式以及一个严格避免数据泄露的自建双语清单。
研究团队在 ToMBench 上进行了大量实验评估了 10 种常用 LLMs 在不同任务和能力下的 ToM 性能。实验表明即使是像 GPT-4 这样最先进的 LLM也比人类的表现落后 10% 以上这表明 LLM 还没有达到人类水平的ToM。ToMBench 用于高效评估大型语言模型的 ToM 能力从而促进具有内在社会智能的 LLMs 的开发。
论文链接https://arxiv.org/abs/2402.15052
【大模型的情商怎么样清华团队提出 EmoBench】
大型语言模型LLM的最新进展凸显了对鲁棒、全面和具有挑战性的基准的需求但很少有研究对其情商EI进行评估。现有基准存在两个主要缺点第一它们主要侧重于情感识别忽视了情感调节和通过情感理解促进思维等基本EI能力第二它们主要是根据现有数据集构建其中包括频繁出现的模式、显性信息和注释错误导致评估不可靠。
为此来自清华大学、密西根大学和香港大学的研究团队提出了一个基于现有心理理论的基准——EmoBench它提出了一个全面的机器情商定义包括情感理解Emotional Understanding和 Emotional Application情感应用。EmoBench 包括一套 400 道人工精心设计的中英文问题。研究表明现有 LLMs 的情感指数与普通人之间存在相当大的差距这为未来的研究指明了方向。
论文链接https://arxiv.org/abs/2402.12071
【清华、微软提出 Learning Law语言模型的最优学习】
为减少必要的训练步骤、实现卓越的性能来自清华大学和微软研究院的研究团队探索了改进语言模型LMs学习的一般原则。
具体来说研究团队提出了一种 LMs 最优学习理论。首先他们从 “LM 训练即无损压缩”的角度提出了通过最大化数据压缩率来优化 LM 学习的目标。随后推导出一个名为“Learning Law”的定理揭示了目标下最优学习过程的动态特性并通过线性分类和真实世界语言建模任务的实验验证了该定理。最后研究团队通过实证验证了 LMs 的最优学习本质上源于 LMs scaling law 中系数的改进这为设计实用的学习加速方法带来了巨大的希望和意义。
论文链接https://arxiv.org/abs/2402.17759
【清华团队 RepoAgent由大模型驱动主动生成、维护和更新代码文档】
生成模型在软件工程领域尤其是代码生成和调试等任务中已显示出相当大的潜力。然而它们在代码文档生成领域的应用仍未得到充分开发。
为了主动生成、维护和更新代码文档来自清华大学、中国人民大学和西门子公司的研究团队提出了一个由大型语言模型驱动的开源框架——RepoAgent。实验表明RepoAgent 在生成高质量的资源库级文档方面表现出色。
论文链接https://arxiv.org/abs/2402.16667
【清华团队新研究让大模型参与城市规划】
参与式城市规划是现代城市规划的主流涉及居民的积极参与。传统的参与式范例需要经验丰富的规划专家往往耗时且成本高昂。幸运的是大型语言模型LLMs在模拟类人智能体方面已显示出相当大的能力可用于轻松模拟参与式过程。
清华团队为参与式城市规划设计了一个基于 LLM 的多智能体协作框架该框架可以考虑居民的不同需求为城市地区生成土地利用规划。研究团队构建了 LLM 智能体来模拟规划者和数千名具有不同特征和背景的居民。
研究团队首先要求规划师执行一个初始土地利用规划。为了满足居民对不同设施的需求他们在每个社区的居民中发起了关于规划的讨论居民们根据自己的情况提供反馈意见。为了提高讨论效率他们采用了鱼缸讨论机制fishbowl discussion mechanism即每轮由部分居民讨论其余居民作为听众。最后让规划者根据居民的反馈修改计划。
研究团队在北京的两个实际区域部署了这一方法。实验表明该方法在居民满意度和包容性指标方面达到了最先进的水平在服务可达性和生态指标方面也优于人类专家。
论文链接https://arxiv.org/abs/2402.17161
【PANDA无需微调即可增强大模型特定能力】
虽然大型语言模型LLMs在各种自然语言任务中表现出了相当强的能力但它们通常无法达到特定领域最先进模型的性能。通过使用相应的数据集对 LLMs 进行微调可以增强其特定领域的能力。但这种方法既耗费资源又耗费时间而且不适用于闭源商业 LLMs。
来自清华大学和阿里巴巴集团的研究团队提出了一种无需进行微调的方法—— Preference Adaptation for Enhancing Domain-specific Abilities of LLMsPANDA它利用专家模型响应偏好洞察来增强 LLMs 的特定领域能力。
实验结果表明PANDA 显著增强了 LLMs 在文本分类和交互决策任务中的特定能力。此外使用 PANDA 的 LLM 甚至在 ScienceWorld 的 4 项任务上优于专家模型。这一发现凸显了探索无需微调方法、实现从弱到强泛化的潜力。
论文链接https://arxiv.org/abs/2402.12835
【DeepMind 新研究超越 AlphaZero无需搜索即达大师级国际象棋水平】
近期机器学习领域的突破性成功主要归功于大规模的基于注意力的架构和规模空前的数据集。来自 Google DeepMind 的研究团队研究了大规模训练对国际象棋领域的影响。
与依赖复杂的启发式算法、显式搜索或两者结合的传统国际象棋引擎不同研究团队在一个包含 1000 万盘棋局的数据集上通过监督学习训练了一个拥有 2.7 亿参数的 Transformer 模型。通过使用 Stockfish 16 引擎提供的行动值action-values对数据集中的每个棋盘进行注释得到了大约 150 亿个数据点。
不需要任何特定领域的调整或显式搜索算法研究团队的最大模型在与人类对战中达到了 2895 的 Lichess 快棋 Elo 值并成功解决了一系列富有挑战的国际象棋难题。其模型在没有 MCTS 的情况下超过了 AlphaZero 的策略和价值网络以及 GPT-3.5-turbo-instruct 模型。
对模型和数据集规模的系统研究表明只有在足够大的规模下才能产生强大的国际象棋性能。研究团队对设计选择和超参数进行了一系列实验来验证其结果。
论文链接https://arxiv.org/abs/2402.04494
【DeepMind 新研究无需 prompt 的思维链推理】
在提升大型语言模型LLMs的推理能力方面此前的研究主要集中在如少样本或零样本的思维链CoT提示等特定的提示技术上。这些方法虽然有效但往往涉及手动密集型的 prompt 工程。
来自 Google DeepMind 的研究团队提出了一个问题LLMs 能否在没有提示的情况下有效地进行推理研究发现通过简单地改变解码过程就能从预训练 LLMs 中引出 CoT 推理路径。
与传统的贪婪解码不同通过研究前 K 个备选 token研究团队发现 CoT 路径通常是这些序列中固有的。这种方法不仅绕过了提示的干扰因素还允许我们评估 LLMs 的内在推理能力。解码路径中出现 CoT 与模型解码答案的高置信度相关。这一置信度指标有效地区分了CoT 和非 CoT 路径。在各种推理基准上的研究表明CoT 解码显著优于标准的贪婪解码。
论文链接https://arxiv.org/abs/2402.10200
【DeepMind 推出基础世界模型 Genie可通过单个图像提示生成交互式、可玩的环境】
来自 Google DeepMind 的研究团队提出了首个以无监督方式从未经标注的互联网视频中训练出来的生成交互环境模型——Genie。该模型可以通过文本、合成图像、照片甚至草图来生成无穷无尽的动作可控的虚拟世界。在 11B 参数下“Genie”可被视为一个基础世界模型。它由一个时空视频 tokenizer、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。
Genie 使用户能够在生成的环境中逐帧行动尽管在训练中不需要任何地面实况行动ground-truth action标签或世界模型文献中常见的其他特定领域要求。此外学习到的潜在动作空间还有助于训练智能体模仿未见视频中的行为为训练未来的通用智能体开辟了道路。
论文链接https://arxiv.org/abs/2402.15391
【Google DeepMind大模型能做多跳推理吗】
来自 Google DeepMind、伦敦大学学院、Google Research 和特拉维夫大学的研究团队探讨了大型语言模型LLMs是否能够对复杂的提示执行多跳推理如“The mother of the singer of ‘Superstition’ is”。
研究团队寻找潜在推理路径的证据。第一跳LLM 将“the singer of ‘Superstition’”这个桥梁实体bridge entity潜在地识别为 Stevie Wonder第二跳LLM 使用其关于“The mother of Stevie Wonder”的知识来完成提示。研究团队单独分析测试这两个跳转并将它们的共同出现视为潜在多跳推理的标志。对于第一跳将提示改为间接提及桥梁实体而不是其他实体是否会增加 LLM 对桥梁实体的内部回忆。对于第二跳这种回忆的增加是否会使 LLM 更好地利用它对桥梁实体的知识。
在某些关系类型的提示中研究团队发现了潜在多跳推理的有力证据80% 以上的提示都使用了推理路径。不过推理途径的使用与具体上下文密切相关因不同类型的提示而异。平均而言第二跳和完整多跳遍历multi-hop traversal的证据相当有限只有第一跳的证据相当可观。此外随着模型规模的增大第一跳推理有明显的扩展趋势但第二跳没有。
论文链接https://arxiv.org/abs/2402.16837
【Google DeepMind视频是现实世界决策的新语言】
互联网上有大量的文本和视频数据通过对下一个 token 或帧的预测可支持大规模的自监督学习。然而文本和视频数据并没有得到同等的利用语言模型对现实世界产生了重大影响而视频生成在很大程度上仍局限于媒体娱乐。但实际上视频数据可以捕捉到难以用语言表达的物理世界中的重要信息。
为此来自 Google DeepMind、加州大学伯克利分校和麻省理工学院的研究团队讨论了扩展视频生成功能来解决现实世界中的任务。与语言类似视频可以作为一个统一的界面吸收互联网知识并体现不同的任务。
研究团队展示了视频生成如何像语言模型一样通过上下文学习、规划和强化学习等技术充当规划者、智能体、计算引擎和环境模拟器。他们确定了机器人、自动驾驶和科学等领域的主要影响机会并通过近期工作证明了视频生成中的这些先进功能是如何触手可及的。最后研究团队指出解决视频生成中阻碍进步的关键挑战将使视频生成模型与语言模型一起在更广泛的人工智能应用中展现出独特的价值。
论文链接https://arxiv.org/abs/2402.17139
【当 Scaling 遇到 LLM 微调数据、模型和微调方法的影响】
虽然大型语言模型LLMs经常采用微调来释放其在下游应用中的能力但我们对不同微调方法的归纳偏差尤其是缩放特性的了解仍然有限。为了填补这一空白Google DeepMind 和 Google Research 团队进行了系统实验研究不同的缩放因子包括 LLM 模型大小、预训练数据大小、新微调参数大小和微调数据大小是否以及如何影响微调性能。
研究团队考虑了两种类型的微调——全模型微调FMT和参数高效微调PET包括提示微调和 LoRA并探讨了它们在数据有限机制下的缩放行为此时LLM 模型的大小大大超过了微调数据的大小。
基于从 1B 到 16B 的两组预训练双语 LLMs以及在双语机器翻译和多语摘要基准上的实验研究发现首先LLM 微调遵循微调数据大小和每个其他缩放因子之间基于幂的乘法联合 scaling law其次LLM 微调更多受益于 LLM 模型缩放而非预训练数据缩放而 PET 参数缩放通常无效最佳微调方法高度依赖于任务和微调数据。
论文链接https://arxiv.org/abs/2402.17193
【苹果新研究提高大模型推理效率】
最近的研究表明如果鼓励大型语言模型LLMs先解决主要任务的子任务它们就能更好地解决推理任务。来自密西根大学和苹果公司的研究团队设计了一种类似的策略将推理任务分解为问题分解阶段和问题解决阶段并证明该策略优于单阶段解决方案。
研究团队假设相比于问题解决问题分解应该更容易提炼成较小的模型因为前者需要大量的领域知识而后者只需要学习一般的问题解决策略。研究团队提出了提炼这两种能力的方法并评估了它们对推理结果和推理成本的影响。研究表明可以在提炼问题分解阶段的同时在不同任务、数据集和模型之间实现良好的泛化。但是要在不损失性能的情况下提炼问题解决能力则比较困难而且提炼出的模型在泛化方面也很吃力。
研究表明通过将较小的、经过提炼的问题分解模型与问题解决 LLMs 结合使用可以通过具有成本效益的推理和局部适应来实现推理。
论文链接https://arxiv.org/abs/2402.15000
【苹果最新研究无需辅助模型的快速大模型推理】
推测解码Speculative Decoding技术可根据辅助草稿模型的预测加快大型目标语言模型的推理速度。在特定的应用场景中想要达到较高的接受率往往需要对草稿模型和目标模型进行微调。随着下游任务数量的增加这些草稿模型会大大增加推理系统的复杂性。
来自苹果公司的研究团队提出了一种单模型推测解码方法——Speculative Streaming它通过将微调目标从下一个 token 预测改为未来的 n-gram 预测将草稿模型融合到目标模型中。Speculative Streaming 在处理多种任务如SummarizationStructured Queries和Meaning Representation中在不影响生成质量的同时将解码速度提高了 1.8 倍-3.1 倍。
Speculative Streaming还具有参数效率高的特点在使用的额外参数减少了约 10000 倍的情况下实现了与 Medusa-style 架构相比同等甚至更高的速度提升。这使得它非常适合资源受限的设备。
论文链接https://arxiv.org/abs/2402.11131
【Meta 提出 CoA让大模型高效使用工具】
为实现符合人类期望的忠实推理大型语言模型LLMs需要将其推理建立在现实世界知识如网络事实、数学和物理规则的基础上。工具可以帮助 LLMs 访问这些外部知识但在多步骤推理问题中相互关联的工具调用需要整体、高效的工具使用规划目前在微调 LLMs 智能体如 Toolformer从而在多步骤推理问题中调用工具方面仍然存在挑战。
来自洛桑联邦理工学院和 Meta 的研究团队为 LLMs 在多步骤推理中更好地利用工具提出了一种新方法——抽象链Chain-of-AbstractionCoA。它训练 LLMs 用抽象占位符解码推理链、调用领域工具通过填充特定知识来具体化每个推理链。这种利用 CoA 进行的规划使 LLMs 能够学习更多通用推理策略这些策略对于不同推理问题相关领域的知识如数学结果转移具有很强的适应性。它还允许 LLMs 并行执行解码和调用外部工具从而避免了因等待工具响应而造成的推理延迟。
在数学推理和 Wiki QA 领域研究表明这一方法在分布内和分布外测试集上的表现始终优于此前的思维链CoT和工具增强基线平均 QA 准确率提高了约 6%。使用这一方法训练的 LLMs 智能体也能更高效地使用工具推理速度平均比基准工具增强 LLMs 快约 1.4 倍。
论文链接https://arxiv.org/abs/2401.17464
【Meta 新研究视频编辑大模型 LAVE】
视频创作所需的专业知识和精力往往对初学者提出高要求。为此来自 Meta、多伦多大学和加州大学圣地亚哥分校的研究团队将大型语言模型LLMs整合到视频编辑工作流程中提出了一个可提供由 LLMs 驱动的智能体协助和语言增强编辑功能的系统——LAVE。
据介绍LAVE 可以自动为用户的素材生成语言描述这为 LLMs 处理视频和协助编辑任务奠定基础。当用户提供编辑目标时智能体会计划并执行相关操作。此外LAVE 允许用户通过智能体或直接的 UI 操作来编辑视频并可手动完善智能体操作这使其更具灵活性。
研究团队对包含从新手到精通编辑的八名参与者进行了用户研究证明了 LAVE 的有效性。研究结果还揭示了用户对这一 LLMs 辅助编辑范式的看法及其对用户创造力和共同创造感的影响。基于此研究团队提出了设计方面的启示为智能体辅助内容编辑的未来发展提供参考。
论文链接https://arxiv.org/abs/2402.10294
【斯坦福新研究 RAPTOR用大模型分析长文档】
检索增强型语言模型LMs能更好地适应世界状态的变化并融合长尾知识。目前大多数现有方法仅从检索语料库中检索小块连续文本这限制了对整体文档上下文的全面理解。
为此来自斯坦福的研究团队通过递归嵌入、聚类和总结文本片段从下至上构建了一个具有不同总结层次的树。在推理时使用 RAPTOR 模型从这个树中检索整合不同抽象程度的长文档信息。
实验表明使用递归总结的检索方法在多个任务上明显优于传统的检索增强 LMs。在涉及复杂、多步骤推理的问题解答任务中该方法展示了最先进的水准例如通过将 RAPTOR 检索与 GPT-4 的使用相结合将 QuALITY 基准的最佳性能在绝对准确率上提高了 20%。
论文链接https://arxiv.org/abs/2401.18059
【斯坦福新研究从口头反馈中学习的大模型】
部署大型语言模型LLMs的环境多种多样这就要求能够修改或定制默认的模型行为从而纳入细微的要求和偏好。指定此类模型调整的便捷接口是高级口头反馈如“在起草的工作邮件中不要使用 emojis”。虽然编写高级反馈远比收集注释以便从人类反馈中进行强化学习RLHF要简单得多但简单地用这种反馈提示模型会导致反馈过度泛化到不相关的上下文中。
如何在不过度泛化的情况下融入口头反馈来自斯坦福的研究团队提出了一个新方法Contextualized Critiques with Constrained Preference Optimization——C3PO。C3PO 使用一个高级反馈来生成一个小的合成偏好数据集指定反馈应该和不应该如何应用。然后它根据合成偏好数据对模型进行微调同时最小化与原始模型的偏差以处理反馈不适用的提示。
实验结果表明C3PO 能有效地将口头反馈应用于相关场景同时在其他情况下保留现有行为。对于人类和 GPT-4 生成的高级反馈C3PO 在遵循给定反馈方面都可以保持与情境基准相当同时减少了30%的过度泛化。
论文链接https://arxiv.org/abs/2402.10893
【微软研究院在小学数学中挖掘小模型潜力】
对于小型语言模型SLMs来说解决数学词语问题一直被认为是一项复杂的任务。最近的一项研究假设要在 GSM8K 基准上达到 80% 以上的准确率最小的模型大小需要 340 亿个参数。
为了使较小的模型达到这样的性能水平研究人员通常会训练 SLMs 生成 Python 代码或使用工具帮助避免计算错误。此外他们还采用集合方法将多达 100 个模型运行的输出结果进行组合来得出更准确的结果。结果选择采用共识、多数投票或与 SLM 结合使用的单独验证模型。集合方法可大幅提高准确度但由于需要多次调用模型成本大幅增加例如Phi-GSM 使用 top-48 将性能从 68.2 提高到 81.5。
来自微软公司的研究团队提出了一个基于 Mistral-7B 的 70 亿参数 SLM——Orca-Math无需多次调用模型也无需使用验证器、代码执行或任何其他外部工具在 GSM8k 上实现了 86.81% 的准确率。
该方法主要包括两个关键步骤首先使用多智能体设置创建一个包含 20 万个数学问题的高质量合成数据集智能体之间合作生成数据其次采用迭代学习技术使 SLM 能够练习解决问题接收关于其解决方案的反馈并从包含 SLM 解决方案和反馈的偏好对中学习。仅使用监督微调技术进行训练时Orca-Math 在 GSM8k 的 指标上的得分率为 81.50%。通过迭代偏好学习Orca-Math 实现了 86.81% 的 pass1。
Orca-Math 的性能显著超过了如 LLAMA-2-70B、WizardMath-70B、Gemini-Pro 和 ChatGPT-3.5 等更大型的模型。在使用更少数据数十万个问题与数百万个问题的情况下它的性能也明显优于其他较小的模型。
论文链接https://arxiv.org/abs/2402.14830
【AnyGPT任意对任意模态的大模型】
来自复旦大学、Multimodal Art ProjectionMAP和上海人工智能实验室的研究团队提出了一种任意对任意any-to-any的多模态语言模型——AnyGPT它利用离散表示统一处理包括语音、文本、图像和音乐在内的各种模态。AnyGPT 可以在不改变当前大型语言模型LLMs架构或训练范式的情况下进行稳定训练。它完全依赖于数据级预处理使得新模态无缝集成到 LLM 中就像集成新语言一样。
研究团队建立了一个用于多模态对齐预训练的以文本为中心的多模态数据集。利用生成模型合成了第一个大规模任意多模态指令数据集。它由 108k 个多轮对话样本组成这些对话错综复杂地交织着各种模态从而使模型能够处理输入和输出的任意组合。
实验表明AnyGPT 能够促进任意到任意多模态对话同时在所有模态上都能达到与专业模型相当的性能证明了离散表示法可以有效、方便地将多种模态统一到一个语言模型中。
论文链接https://arxiv.org/abs/2402.12226
【首个触觉大模型 UniTouch利用触觉进行多模态学习】
将触摸与其他模态相结合的能力对人类和计算系统具有深刻意义。由于数据收集过程昂贵和传感器输出的非标准化利用触觉进行多模态学习仍具有挑战性。
来自耶鲁大学和密歇根大学的研究团队提出了一个统一的触觉模型 UniTouch用于与视觉、语言和声音等多种模态相连的基于视觉的触摸传感器中。研究团队将 UniTouch 嵌入与已与其他多种模式相关联的预训练图像嵌入对齐。通过可学习的特定传感器 tokens 使模型能够同时向一组异构触觉传感器学习。UniTouch 能够在零样本环境下执行各种触觉感知任务从机器人抓取预测到触摸图像问答。UniTouch 是第一个展示出这种能力的模型。
论文链接https://arxiv.org/abs/2401.18084
【ModelGPT大模型可以任意定制了还快 270 倍】
大型语言模型LLMs通过自动化日常任务给各个领域带来了革命性的变化。然而它们在满足用户多样化的特定需求和以简化普通用户对人工智能AI模型的使用方面仍然存在困难。
为此来自浙江大学的研究团队提出了 ModelGPT它旨在利用 LLMs 的功能根据用户提供的数据或任务描述确定并生成专门定制的 AI 模型。考虑到用户需求ModelGPT 能够以比以往范式如全参数或 LoRA 微调快 270 倍的速度提供量身定制的模型。在 NLP、CV 和 Tabular 数据集上进行的综合实验证明了 ModelGPT 在使 AI 模型更易于访问和用户友好方面的有效性。
论文链接https://arxiv.org/abs/2402.12408
【200 万 tokens大模型上下文窗口又双叒叕长了】
长上下文窗口是大型语言模型LLMs的理想功能。然而由于微调成本高、长文本稀缺以及新 token 位置引入的灾难性值目前的扩展上下文窗口仅限于大约 128k tokens。来自微软的研究团队提出了 LongRoPE它首次将预训练 LLMs 的上下文窗口扩展到了 2048k tokens在 256k 的训练长度内只需 1k 个微调步骤同时保持了原始短上下文窗口的性能。
该项研究包括三项关键创新第一通过高效搜索识别并利用位置插值中的两种不均匀性形式为微调提供更好的初始化并在非微调情况下实现了 8 倍扩展第二研究团队提出了一种渐进扩展策略首先微调 256k 长度的 LLM然后在微调扩展的 LLM 上进行第二次位置插值从而实现 2048k 上下文窗口第三在 8k 长度上重新调整 LongRoPE 来恢复短上下文窗口性能。
在 LLaMA2 和 Mistral 上对各种任务进行的大量实验证明了这一方法的有效性。通过 LongRoPE 扩展的模型保留了原始架构只对位置嵌入稍作修改并且可以重复使用大部分已有的优化。
论文链接https://arxiv.org/abs/2402.13753
【这种方法让大模型上下文长度超过百万 tokens】
目前的语言模型在理解世界上不容易用语言描述的方面存在不足处理复杂的长篇任务也很吃力。视频序列提供了语言和静态图像不具备的宝贵的时间信息因此非常适合与语言联合建模。这种模型可以发展对人类文字知识和物理世界的理解从而实现更广泛的人工智能辅助人类的目标。但由于内存限制、计算复杂性和数据集有限等原因从数百万 tokens 的视频和语言序列中进行学习是一项挑战。
为此来自加州大学伯克利分校提出了一个包含各种视频和书籍的大型数据集利用 RingAttention 技术对长序列进行可扩展的训练并逐步将上下文长度从 4K 增加到 1M tokens。
研究团队做出了以下突破第一最大上下文长度的神经网络在长视频和语言序列上训练了一个最大的上下文长度的 transformer为困难的检索任务和长视频理解设定了新的基准第二克服视觉-语言训练挑战的解决方案包括使用掩码序列打包混合不同的序列长度、损失加权以平衡语言和视觉以及模型生成的长序列聊天 QA 数据集第三带有 RingAttention、屏蔽序列打包和其他关键功能的高度优化实现可在数百万长度的多模态序列上进行训练第四完全开源的 7B 参数模型系列能够处理超过 1M tokens 的长文本文档LWM-Text、LWM-Text-Chat和视频LWM、LWM-Chat。
论文链接https://arxiv.org/abs/2402.08268
【让大模型成为更好的学习者】
为了让基于大型语言模型LLMs的助手有效地适应不断变化的信息需求必须通过对新数据的持续训练来更新它们的事实知识。目前的标准方法包括在新文档上进行持续的预训练然后在问答QA对上进行指令微调。
来自 Meta FAIR 实验室、卡内基梅隆大学和华盛顿大学的研究团队提出尽管文档的困惑度perplexity已经降到了最低这种方法训练出来的 LLMs 在回答问题时仍然很吃力。QA 对一般都比较简单而文档则比较复杂许多事实陈述错综复杂地交织在一起。因此研究团队假设在继续在文档上进行预训练之前让 LLMs 接触 QA 对是有益的这样在对复杂文档中的知识进行编码的过程中就能考虑到如何通过问题来获取这些知识。
在此基础上研究团队提出了预指令微调pre-instruction-tuningPIT一种在文档训练之前对问题进行指导微调的方法。这与标准的指令微调在文档训练之后学习如何提取知识形成了鲜明对比。实验表明PIT 显著增强了 LLMs 从新文档中吸收知识的能力比标准指令调微调高出 17.8%。
论文链接https://arxiv.org/abs/2402.12847
【神经网络扩散Neural Network Diffusion】
扩散模型在图像和视频生成方面取得了很大成功。来自新加坡国立大学、Meta AI 和加州大学伯克利分校的研究团队提出扩散模型也能生成高性能的神经网络参数。
该方法使用了一个自动编码器和一个标准的潜在扩散模型。自动编码器提取训练网络参数子集的潜在表示训练扩散模型从随机噪音中合成这些潜在参数表示随后生成新的表示再通过自动编码器的解码器其输出可用作新的网络参数子集。
在各种架构和数据集上这一扩散过程在保持额外成本极低的同时始终能够生成与训练有素的网络性能相当或更高的模型。研究发现生成的模型与训练有素的网络性能不同。该研究有助于对扩散模型的多样化使用进行更多探索。
论文链接https://arxiv.org/abs/2402.13144
【VideoPrism用于理解视频的基础视觉编码器】
来自 Google Research 的研究团队提出了一个通用视频编码器——VideoPrism它可以通过单个冻结模型处理各种视频理解任务。VideoPrism 在一个异构语料库上进行了预训练该语料库包含 36M 高质量视频字幕对和 584M 个视频剪辑以及带有噪声的平行文本视频片段如 ASR 转录文本。
预训练方法在语义视频嵌入的全局-局部蒸馏和 token 洗牌方案上改进了掩蔽自动编码使 VideoPrism 能够在主要关注视频模态的同时利用与视频相关的文本。研究团队在四大类视频理解任务中进行了广泛测试VideoPrism 在 33 个视频理解基准中的 30 个基准上实现了最先进的性能。
论文链接https://arxiv.org/abs/2402.13217
【更经济的大模型预训练方案】
以 GPT-4 等为代表的大型语言模型LLMs的快速发展重塑了自然语言处理领域的格局。来自麦吉尔大学的研究团队介绍了一种解决 LLMs 预训练效率问题的新方法——使用知识提炼进行跨架构转移。利用 Hyena 机制的洞察力用 Hyena 取代 Transformer 模型中的注意力头在解决二次注意力机制固有的处理长上下文信息问题的同时为传统的预训练提供了一种经济高效的替代方案。
与传统的以压缩为重点的方法不同这项技术不仅提高了推理速度而且在准确性和效率方面都超越了预训练。该项研究有助于追求可持续的人工智能解决方案并在计算能力和环境影响之间取得平衡。
论文链接https://arxiv.org/abs/2401.17574
【大模型能理解语境吗】
理解语境是理解人类语言的关键大型语言模型LLMs在这方面已经展现出令人印象深刻的能力。尽管对 LLMs 的评估涵盖了自然语言处理领域的各种任务但对其理解语境特征能力的关注却很有限。
来自乔治敦大学和苹果公司的研究团队通过对现有数据集进行调整引入了一个语境理解基准以适应生成模型的评估。该基准包括包含评估模型理解语境能力的提示的四个不同的任务和九个数据集。
评估 LLMs 在语境学习预训练场景下的性能的实验表明与最先进的微调模型相比经过预训练的密集模型在理解更微妙的语境特征方面存在困难。由于 LLMs 压缩在研究和实际应用中的重要性与日俱增研究团队还评估了量化模型在语境学习设置下的语境理解能力在其基准上3-bit 训练后量化会导致不同程度的性能下降。
论文链接https://arxiv.org/abs/2402.00858
【基于对抗性评估的 AI 生成学生论文检测】
大型语言模型LLM在文本生成任务中表现出了非凡的能力。但这也导致了包括但不限于剽窃、假新闻传播和教学练习中的问题。现有的检测器在对抗干扰方面尤其是在学生论文写作方面的有效性很大程度上尚未讨论。
为此来自中国科学院大学和中科院的研究团队通过构建人工智能AI生成的学生论文数据集 AIG-ASAP它采用了一系列预计能够生成高质量论文的同时躲避检测的文本干扰方法。对当前 AIGC 检测器在 AIG-ASAP 数据集上的性能的评估表明现有的检测器很容易被简单的自动对抗攻击所规避。
研究团队探索了有效的词语替换和句子替换干扰方法这些方法在保持生成论文质量的同时有效地规避了检测。这表明目前在教育领域迫切需要更准确、更鲁棒的方法来检测 AI 生成的学生论文。
论文链接https://arxiv.org/abs/2402.00412
【GLoRe何时、何地、如何改进大模型推理】
最先进的语言模型可以在数学、科学或编码任务中表现出令人印象深刻的推理细化能力。但即使是最好的模型在没有外部反馈的情况下也很难确定在何时何地进行改进。基于结果的 Reward ModelsORMs经过训练可以预测最终答案的正确性并指明何时进行改进基于过程的 Reward ModelsPRMs经过训练可以预测中间步骤的正确性然后指示何时进行改进但这些模型的训练成本很高还需要大量的人工注释。
来自 Meta 公司、佐治亚理工学院和 StabilityAI 公司的研究团队提出了 Stepwise ORMsSORMs它仅在合成数据上进行训练以近似地预测最优策略或 V⋆的预期未来回报。训练 SORMs 是为了预测对当前策略进行多次采样而不是像 ORMs 那样只采样一次时最终答案的正确性。
实验表明与 ORMs 相比SORMs 可以更准确地检测出错误的推理步骤提高下游改进时的准确性。研究团队训练了全局细化模型和局部细化模型前者仅将问题和解决方案草案作为输入并预测校正后的解决方案后者将指示第一个推理错误位置的评论作为输入。通过重复使用用于训练 SORM 的数据为这两种模型合成训练数据研究团队发现将全局和局部细化结合起来并将 ORM 用作重判器效果明显优于单独使用的任何一种也优于三个样本中最好的基线。通过这种方法在贪婪采样时LLaMA-2 13B 模型已经用 RL 进行了微调在 GSM8K 上将的准确率从 53% 提高到 65%。
论文链接https://arxiv.org/abs/2402.10963
【FinTralGPT-4 级金融多模态大模型】
来自不列颠哥伦比亚大学和 Invertible AI 的研究团队提出了一套基于 Mistral-7b 模型构建的、为金融分析定制的最新多模态大型语言模型LLMs——FinTral它集成了文本、数字、表格和图像数据。
通过大量文本和视觉数据集研究团队对 FinTral 进行了特定领域的预训练、指令微调和 RLAIF 训练还提出了一个包括 9 项任务和 25 个数据集的、用于评估金融领域的幻觉的基准。FinTral 模型采用先进的工具和检索方法进行直接偏好优化训练显示出卓越的零样本性能被称为 FinTral-DPO-TR。它在所有任务中的表现都优于 ChatGPT-3.5并在九个任务中的五个任务中超过了 GPT-4标志着人工智能驱动的金融技术取得了重大进展。FinTral 还具有在各种金融环境中进行实时分析和决策的潜力。
论文链接https://arxiv.org/abs/2402.10986
【眼见为实通过 CLIP 引导解码减少大型视觉语言模型中的幻觉】
大型视觉语言模型LVLMs容易出现对象幻觉问题即生成的文本包含不存在的对象这大大限制了其可靠性和实用性。目前的方法通常依赖于模型的 token likelihoods 或其他内部信息、在额外的数据集上进行指令微调或结合复杂的外部工具。
来自新加坡国立大学的研究团队对句子级 LVLM 幻觉进行了实证分析发现与 token likelihoods 相比CLIP 与图像的相似度是更强更鲁棒的幻觉指标。受此启发研究团队提出了一种简单而有效的免训练方法CLIP-Guided DecodingCGD可在解码时减少对象幻觉。CGD 使用 CLIP 来指导模型的解码过程通过图像来增强生成文本的视觉基础。实验证明在多个 LVLM 系列中CGD 都能有效减少对象幻觉同时保持文本生成的实用性。
论文链接https://arxiv.org/abs/2402.15300
【MobileLLM针对端侧使用案例优化次十亿参数语言模型】
由于云计算成本和延迟问题日益突出移动设备对高效大型语言模型LLMs的需求与日俱增。来自 Meta公司和 PyTorch 的研究团队专注于设计参数少于十亿的高质量 LLMs这是移动部署的实用选择。
与强调数据量和参数数量在决定模型质量中起决定性作用的普遍观点相反该项研究强调了模型架构对十亿以下规模 LLMs 的重要性。利用深层和薄层架构结合嵌入共享和分组查询关注机制研究团队建立了一个强大的基线网络——MobileLLM与之前的 125M/350M 最先进模型相比准确率显著提高了 2.7%/4.3%。
研究团队还提出了一种即时的分块权重共享方法不增加模型大小仅会产生少量延迟开销。由此产生的模型被称为 MobileLLM-LS与 MobileLLM 125M/350M 相比精度进一步提高了 0.7%/0.8%。
此外MobileLLM 模型系列在聊天基准测试中与之前的十亿以下规模模型相比有了显著提高在 API 调用任务中与 LLaMA-v2 7B 的正确性接近凸显了小型模型在常见设备使用案例中的能力。
论文链接https://arxiv.org/abs/2402.14905
【MobiLlama实现准确、轻量级的全透明 GPT】
“Bigger the better”是近年来大型语言模型LLMs发展的主流趋势。然而LLMs 并不适合需要在设备上处理、节能、低内存占用和响应效率的应用场景。这些要求对于隐私、安全和可持续部署至关重要。
来自阿联酋人工智能大学、澳大利亚国立大学、阿尔托大学、墨尔本大学和林雪平大学的研究团队在其研究中探讨了“less is more”的范式解决了为资源有限的设备设计精确高效的小型语言模型SLMs的难题。
研究团队提出了一个精确且完全透明的开源 5 亿0.5B参数 SLM——MobiLlama专门满足资源受限计算的特定需求重点是在降低资源需求的同时提高性能。MobiLlama 是一种从一个更大的模型出发的 SLM 设计它采用一种谨慎的参数共享方案来降低预训练和部署成本。
论文链接https://arxiv.org/abs/2402.16840
【InstructEdit基于指令的大模型知识编辑】
对大型语言模型LLMs的知识编辑可以提供一种有效的解决方案在不对整体性能产生负面影响的情况下改变模型的行为。然而当前的方法存在跨任务泛化能力有限的问题每个任务都需要一个不同的编辑器这极大地阻碍了更广泛的应用。
为此来自浙江大学和腾讯公司的研究团队开发了一项基于指令的编辑技术—— InstructEdit它可以通过简单的指令使编辑器同时适应各种任务的执行。在每个 LLM 只有一个统一编辑器的情况下实验证明 InstructEdit 可以提高编辑器的控制能力从而使多任务编辑设置中的可靠性平均提高 14.86%。
此外涉及保留未见任务的实验表明InstructEdit 不断超越以前的强基线。为了进一步研究基于指令的知识编辑的内在机制研究团队分析了编辑梯度方向的主成分发现指令可以帮助控制优化方向并具有更强的 OOD 泛化能力。
论文链接https://arxiv.org/abs/2402.16123
【将生成式 AI 应用于无人“机”群挑战、应用和机遇】
随着近年来人工智能AI和机器人技术的发展无人“机”群在执行对人类来说困难且危险的服务方面展现出巨大潜力受到了学术界和工业界的极大关注。在复杂多变的环境中学习和协调大量无人“机”的动作和行动给传统的 AI 方法带来了巨大挑战。生成式人工智能GAI具有复杂数据特征提取、转换和增强的能力在解决无人“机”群面临的这些挑战方面具有巨大潜力。
该论文全面研究了 GAI 在无人“机”群中的应用、挑战和机遇。首先概述了无人“机”和无人“机”群以及它们的使用案例和现有问题。然后深入介绍了各种 GAI 技术的背景及其在增强无人车群方面的能力。文中全面回顾了 GAI 在无人“机”群中的应用和挑战进行了各种深入探讨和讨论。最后强调了无人“机”群中 GAI 的开放性问题并讨论了潜在的研究方向。
论文链接https://arxiv.org/abs/2402.18062
【Sum2Act利用开放世界 API 增强大模型】
人与动物的区别在于人类具有使用和创造工具的独特能力。工具使人类有能力克服生理上的限制创造出伟大的文明。同样让大型语言模型LLMs等基础模型具备学习外部工具使用的能力可能是实现通用人工智能的关键一步。该领域以往的研究主要采用两种不同的方法来增强 LLMs 的工具调用能力。第一种方法强调构建用于模型微调的相关数据集。第二种方法则旨在通过上下文学习策略充分利用 LLMs 固有的推理能力。
来自西安交通大学人工智能与机器人研究所、复旦大学和华为诺亚方舟实验室的研究团队提出了一种新颖的工具调用 pipeline——from Summary to actionSum2Act旨在控制大规模的真实世界 API。Sum2Act 模仿人类解决任务的过程解决了现实生活中复杂的用户查询问题。在每一步都引导 LLMs 总结所取得的成果并确定下一步行动方案。
在 ToolBench 基准上对 Sum2Act pipeline 进行的实证评估显示出显著的性能提升超过了 ReAct 和 DFSDT 等成熟方法。这凸显了 Sum2Act 在增强 LLMs 以完成复杂的实际任务方面的有效性。
论文链接https://arxiv.org/abs/2402.18157
【微软、国科大开启 1 bit 大模型时代】
最近的研究如 BitNet正在为 1 位大型语言模型LLMs的新时代铺平道路。来自微软公司和中国科学院大学的研究团队提出了一种 1 bit 大模型变体——BitNet b1.58其中 LLM 的每个参数或权重都是三进制 {-1, 0, 1}。在困惑度和最终任务性能方面它与具有相同模型大小和训练 token 的全精度即 FP16 或 BF16Transformer LLM 相匹配同时在延迟、内存、吞吐量和能耗方面更具成本效益。
更深远的意义在于1 bit 大模型定义了一种新的 scaling law也是训练新一代 LLM 的秘诀这种 LLM 性能高、成本低。此外它还实现了一种新的计算模式并为设计针对 1 bit 大模型进行优化的特定硬件打开了大门。
如何学习大模型 AI
由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。
但是具体到个人只能说是
“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。
这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。
我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
有需要的小伙伴可以Vx扫描下方二维码免费领取 1.大模型入门学习思维导图
要学习一门新的技术作为新手一定要先学习成长路线图方向不对努力白费。
对于从来没有接触过AI大模型的同学我们帮你准备了详细的学习成长路线图学习规划。可以说是最科学最系统的学习路线大家跟着这个大的方向学习准没问题。全套教程文末领取哈
2.AGI大模型配套视频
很多朋友都不喜欢晦涩的文字我也为大家准备了视频教程每个章节都是当前板块的精华浓缩。 3.大模型实际应用报告合集
这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。全套教程文末领取哈 4.大模型落地应用案例PPT
光学理论是没用的要学会跟着一起做要动手实操才能将自己的所学运用到实际当中去这时候可以搞点实战案例来学习。全套教程文末领取哈 5.大模型经典学习电子书
随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。 6.大模型面试题答案
截至目前大模型已经超过200个在大模型纵横的时代不仅大模型技术越来越卷就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道我总结了大模型常考的面试题。 这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
有需要的小伙伴可以Vx扫描下方二维码免费领取