为了账号安全,请及时绑定邮箱和手机立即绑定

人工智能与机器学习周报:11月11日-17日

每周AI新闻简报:研究动态、新闻资讯、资源链接和观点分享 OpenAI 面临 AI 发展放缓,Near 正在计划世界最大的开源 AI 模型,微软将为 Notepad 和 Paint 添加 AI 功能,AlphaFold3 成为开源项目,Google 不小心展示了 Jarvis AI,等等更多有趣的内容

照片由Fujiphilm拍摄,来自Unsplash(来源)

本周最有趣的新闻、文章、资料和仓库。

检查并给此仓库打星,新闻将在此仓库中被收集和整理:

GitHub — SalvatoreRa/ML-news-of-the-week: 每周最佳机器学习新闻集锦(研究、新闻、资源),——github.com

你首先会在 GitHub 上看到这些新闻,所有每周新闻也都在这里汇总。

Salvatore Raieli

Salvatore Raieli(原文链接

每周的人工智能和机器学习新闻:每周最佳

点击这里查看每周AI和ML新闻列表(点击这里)

49个小故事

研究一下
  • 项目 Sid:多智能体模拟以实现 AI 文明。 这项工作展示了由 10-1000+ 个 AI 智能体组成的社群的行为及进化。它介绍了 PIANO 架构,使智能体能够与人类和其他智能体进行实时互动。研究发现智能体可以自主承担特殊角色,遵守并修改集体规则,并参与文化和宗教的传播。
  • 基于上下文学习的混合体模型。 利用演示子集通过上下文学习训练专家;然后使用可训练的权重函数根据训练集合并这些专家的下一个标记预测。这种方法兼容黑盒 LLM,因为它不需要访问其内部参数。关键优势包括:1)与标准 ICL 竞争,同时在数据、内存和计算方面效率更高;2)展示了对噪声演示和标签不平衡的鲁棒性。
  • 通过弹窗攻击视觉-语言计算机代理。 表明将对抗性弹窗纳入当前代理测试环境中,攻击成功率达到了 86%,使代理的任务成功率降低了 47%。此外还指出,简单的防御方法,如指示代理忽略弹窗,效果不佳。
  • 多专家提示改进大型语言模型的可靠性、安全性及实用性。 通过模拟多个专家并结合其输出来改进 LLM 的响应;通过模拟多个专家并从个体和聚合视角选择最佳响应来完成输入指令。这种方法在 TruthfulQA-Generation 上使用 ChatGPT 设立了新的 SOTA,超越了之前的记录 87.97%。此外,它在事实性和实用性方面提高了性能,同时减少了毒性及伤害。
  • 数字理解能力:语言模型的数字理解和处理能力及如何改进。 提供了 LLM 的数字理解和处理能力(NUPA)的全面分析;发现虽然简单的微调在许多任务上大大增强了 NUPA,但并非所有任务都有效。还发现专门开发来改进 NUPA 的方法在微调预训练模型时无效。研究探讨了将链式思考技术应用于 NUPA,并指出这些方法遇到了可扩展性问题,限制了其实际应用。
  • WebRL:通过自我演进的在线课程强化学习框架训练 LLM 网络代理。 引入了一个自我演进的在线课程 RL 框架,旨在缩小开放和专有 LLM 基础的网络代理性能差距。它将 Llama-3.1–8B 的成功率从 4.8% 提高到 42.4%,GLM4–9B 从 6.1% 提高到 43%,开放模型显著优于 GPT-4-Turbo(17.6%)和 GPT-4o(13.9%)。该框架通过使用稳健的结果监督奖励模型来解决网络代理训练任务的有限可用性问题。自适应 RL 策略管理在线学习中的分布漂移,确保持续的性能改进。
  • 边学边适应:为科学问题使用智能工具的 LLM 方法。 引入了一种两阶段微调方法,其中 LLM 首先从工具生成的解决方案中学习,然后训练决定独立解决问题还是使用工具。在数学、气候科学和流行病学基准上的评估显示了显著的进步,准确性提高了 28%,工具使用精度提高了 14%。这种方法使 LLM 能够灵活处理不同复杂度的科学问题。
  • Google 的洪水预报系统将覆盖 7 亿人。 Google 扩大了河漫滩洪水预报的覆盖范围,涉及超过 100 个国家和 7 亿人,并通过更多数据和新 API 的开发使合作伙伴和研究人员更好地理解洪水预报。
  • 混合变压器:多模态基础模型的稀疏和可扩展设计。 混合变压器(MoT)架构具有稀疏多模态变压器,根据模态(文本、图像和语音)分离参数,以高效处理同时保持性能。在 Chameleon 7B 和 Transfusion 设置等各种评估中,MoT 匹配或超越密集基线,使用显著更少的资源——仅 37.2% 的 FLOPs 用于语音处理,47.2% 的墙钟时间用于图像生成。
  • 探索对齐的景观:LLM 和几何深度模型在蛋白质表示中的方法。 该研究探讨了增强 LLM 和蛋白质聚焦几何深度模型对齐的方法,旨在改进跨模态理解。
  • 大规模语言模型能否在近百万级别的‘干草堆’中找到线索? 具有扩展上下文窗口的大规模语言模型支持更广泛的应用。最近对 17 个顶级 LLM 的研究显示,尽管许多可以同时管理多个信息线索,但它们的实际上下文限制通常比宣称的最大值短。虽然一些模型通过处理并发线索而不会性能下降来展示“线程安全性”,但准确性通常随着上下文窗口接近上限而下降。
  • 用于 3D 生成的网格数据压缩。 通过将网格序列长度减少约 75%,一种名为分块和分片标记化(BPT)的网格压缩方法有效生成了超过 8k 面的网格。
  • 继承特征匹配方法。 一种新的非对抗方法,名为继承特征匹配,用于逆向强化学习,避免了奖励函数学习。
  • 奥萨斯:一个超越现实的宇宙。 奥萨斯是一个完全由 AI 生成的实时开放世界视频游戏模型,由一个没有游戏引擎的 500M 参数基础模型驱动,专为 Etched 的 Sohu ASIC 设计,以实现卓越的帧率效率,并使用快速的变压器推理生成游戏。尽管表现出极大的潜力,但仍存在长上下文一致性及领域泛化等问题。
  • OpenAI 将提出美国 AI 策略计划并与中国竞争的联盟。 OpenAI 的 AI 基础设施蓝图建议建立 AI 经济区,与美国海军合作开发核能,以推动 AI 驱动的经济增长和创新。该提案包括北美 AI 联盟以及以《国家州际和国防公路法案》为模式的举措,以解决基础设施需求。强调投资美国数据中心和能源项目的重要性,以保持与中国的竞争力。
  • 介绍 Athene-V2:通过定向后处理超越扩展极限。 Athene V2 是在 Qwen 2.5 72B 基础上构建的模型,优化为代理性和聊天工作流程,并在多个关键基准上超越了 GPT-4o。
傳統機器學習仍然處於領先位置:為什麼大型語言模型在臨床預測中掙扎?臨床預測不只是醫學知識:大型語言模型並不一定適用於每項任務
最新消息:这里主要是新闻
打开人工智能大脑:使用稀疏自编码器技术进行大型语言模型检测和解释,towardsdatascience.com
资源
  • FrontierMath. Epoch AI 推出了 FrontierMath,这是一个由专家级别的数学问题组成的基准,用于评估 AI 的数学推理能力。值得注意的是,领先的 AI 模型仅解决了不到 2% 的这些问题,这突显了该基准的难度和当前 AI 在高级数学推理方面的局限性。
  • BitNet a4.8: 4-bit 激活用于 1.58-bit LLMs. 1.58-bit LLMs 的主要挑战之一是没有硬件加速支持。这项研究引入了 4.8-bit 激活来利用新硬件中的 INT4/FP4 核心,实现这一目标而无需增加运行时成本。
  • LLM2CLIP. LLM2CLIP 结合了 CLIP 的视觉和文本对齐能力以及 LLM 的高级语言理解。
  • Torch 兼容的 Muon 优化器. Muon 是训练 GPT-2 的记录保持者优化器,它是一种类似于 SGD 的动量适应方法。该仓库提供了一个可以轻松作为 AdamW 替代品使用的实现。
  • Mochi 视频模型优化推理. Mochi 1 是一个开源的文本到视频模型,最初需要八块 H100 GPU 才能运行。得益于社区的努力,现在可以在单个 48GB L40 GPU 上运行,而不会影响质量。
  • Protenix: AlphaFold 3 的可训练复现. Protenix 是 ByteDance 的“AI for Science”团队开发的 AlphaFold 3 的可训练复现版本,AlphaFold 3 是 DeepMind 的蛋白质折叠项目。这个开源项目旨在通过提供一个可定制的平台来推进蛋白质结构预测,该平台供研究人员使用。
  • LlamaPReview. LlamaPReview 是一个 GitHub 的 AI 助手,它可以轻松一键安装,并自动对拉取请求进行上下文感知的审查。它支持多种编程语言,并能无缝集成到 GitHub Actions,直接在 PR 中提供深入的反馈。它是免费提供的,通过检测问题并推荐优化来提高代码质量。
  • SmolLM2. Hugging Face 的 SmolLM2 是一组紧凑的语言模型,参数范围从 135M 到 1.7B,训练数据超过 11 万亿个令牌。这些模型设计用于在设备上高效运行并支持各种任务。权重在 Apache 2 许可下发布,量化版本,如 1.7GB 和 138MB 模型,提供了灵活性以满足不同的计算需求。
  • AI 实时聚变等离子体行为预测和控制. 一种新颖的多模式机器学习方法提高超分辨率数据,有助于更好地分析复杂聚变等离子体现象(如边缘局域模式 ELM),并支持未来聚变反应堆的稳定。
  • 大型语言模型时代的小型语言模型综述. 这是一篇对小型语言模型(SLMs)的综述,涵盖了定义、应用、改进、可靠性及相关问题等主题。
  • Magentic-One: 通用多代理系统用于解决复杂任务. 一个新型的通用多代理系统,能够管理复杂的网页和文件任务,其协调者代理协调四个专门的代理:WebSurfer 用于浏览器任务,FileSurfer 用于文件管理,Coder 用于编程,以及 ComputerTerminal 用于控制台操作。Magentic-One 在多种基准测试中表现出色,例如 GAIA、AssistantBench 和 WebArena,而无需对其核心架构进行任何更改。
  • 大型语言模型的个性化:综述. 提供了一个全面的框架来理解个性化 LLMs,介绍了各种个人化方面的分类,并整合了现有的个性化文本生成及下游应用方面的研究。
  • StdGEN: 单图生成三维角色 StdGen 是一种新颖的方法,用于从单张图片生成三维角色。它将生成过程分解为不同的组件,如头发和夹克,从而提高生成结果的整体质量。
  • AlphaFold3. DeepMind 开源了 AlphaFold 3 的代码和权重,用于学术研究,这标志着蛋白质结构预测领域的显著进步。此次发布预计将加速 AI 在科学研究中的应用,特别是在分子生物学和药物发现领域。
  • Online-LoRA. Online-LoRA 是一个框架,旨在通过实时微调预训练的视觉变换器(ViTs)来缓解在线连续学习(OCL)中的灾难性遗忘,而无需使用重放缓存。
  • DeepArUco++: 改进复杂光照条件下的方形标记检测. DeepArUco++ 提出了一种基于深度学习的方法,用于增强标记检测,特别是在传统技术通常难以应对的复杂光照条件下。
  • Hermes 3. Hermes 3 是从 Llama 3.1 精调而来,表现出色。无论模型参数数量是 8B、70B 还是 405B,都显示出卓越的性能。它引入了 AI 对齐和人工意识的新可能性。
  • ENAT: 重新思考基于令牌的图像合成中的时空交互. 为了提高基于令牌的图片制作的速度和质量,EfficientNAT 是一种改进的非自回归 Transformer 模型。
  • UniGAD: 统一多级图异常检测. 一个新颖的图异常检测框架(GAD),UniGAD 同时检测节点、边和完整图中的异常。
  • Token 合并中的物体和属性匹配 Token 合并解决了一个文本到图像模型中的常见问题:语义绑定,即无法将物体与其特定属性关联起来。
  • DataChain. DataChain 是一种无需抽象 AI 模型的 Python 数据框工具包,用于 AI 的数据处理和结构化无结构数据。它通过与 PyTorch、TensorFlow 和 LLM API 等 AI 工具集成,能够创建元数据、筛选和向量搜索。此外,该库具有内置的对 Python 对象字段进行向量化操作的功能,并支持内存外计算和并行化。
  • browser-use. 通过一个简化的 UI,这个开源的网络自动化应用程序允许 LLM 与网站进行通信。它与诸如 Claude 3.5 Sonnet 和 GPT-4o 等模型兼容。XPath 提取、自定义操作和多标签管理是其重要特征。程序实现了数据提取和流畅的网络导航。然而,其缺点之一是消息长度影响任务重复和 LLM 速度。未来的开发目标是增强其鲁棒性和降低成本。
  • CUDA 编程课程 — GPU 高性能计算. freeCodeCamp 提供的一门从基础到高级的 CUDA 编程课程。
  • 用于零样本任意到鼓转换的掩码令牌建模. 为任何输入节奏实现零样本鼓风格转换,为艺术家提供了一个令人兴奋的音乐应用。这通过使用掩码令牌建模目标来实现,这种方法对音频特别有效。
  • HiCoM: 分层一致运动处理流式动态场景 HiCoM 是一个前沿框架,用于从多视角流媒体视频进行实时 3D 重建。它有效地解决了存储、训练速度和渲染质量等关键问题,是该领域的重大进展。
  • Janus. Janus 是 DeepSeek 的一个多模式模型的新版本,引入了校正流,类似于 Meta Movie Gen,用于图像生成和理解。结果非常令人印象深刻。
  • 与参考资料链接的对话. 问题导向的分割与检索(POSR)是一种将对话分解成有意义的片段,并将每个片段与相关的参考资料(如工作表或会议记录)链接起来的方法。
  • MureObjectStitch: 多参考图像组合. 研究人员提出了一种改进的微调方法,用于生成图像组合,该方法无缝地将指定的前景对象与新背景融合,生成逼真的图像。
  • StoryTeller. StoryTeller 是一个系统,用于生成长视频的连贯描述,解决了情节一致性、角色追踪等问题。
  • SAMPart3D: 在 3D 物体中分割任意部分. SAMPart3D 是香港大学开发的一种稳健的方法,用于将 3D 物体分割成语义上有意义的组成部分。
  • 卷积可微逻辑门网络. 研究人员开发了一种方法,通过使逻辑门可微分,训练出比传统卷积神经网络(CNNs)小 29 倍且更高效的图像识别网络。他们还提供了高效的 CUDA 核心在其论文发布中。
  • 基于物理信息蒸馏的扩散模型. 物理信息蒸馏(PID)是一种方法,通过将学生模型简化并加速扩散模型,将它们视为微分方程的解。
  • MinerU: 高质量数据提取工具. MinerU 是一个强大的工具,基于 StructTable-InternVL2–1B 建立,能够将 PDF 中的信息提取到各种机器可读格式。
  • 同调回归. 一种强大的技术,用于拟合数据的单调函数。它可以针对许多曲线拟合之外的应用进行很好的微分处理。
  • 文本到 SQL 查询. XiYan-SQL 是一个创新的框架,旨在增强从自然语言输入生成 SQL 查询的准确性和多样性。
  • X-Portrait 2: 高度表达的肖像动画 ByteDance 的 AI 团队发布了 X-Portrait 2,这是一种先进的肖像动画技术,能够在前代 X-Portrait 之后,进一步捕捉细微面部表情和复杂动作,比如吐舌、嘟嘴和皱眉等。它在情绪保留方面达到了高保真度,确保生成的视频保留人物的身份和情感细节。
  • MVSplat360: 从稀疏视图生成逼真 360 场景 MVSplat360 是一种新方法,可以从少量稀疏图像生成逼真的 360 度视图。
  • 使用合成数据增强的多任务脑肿瘤分割改进 该论文展示了 BraTS 挑战赛中的领先脑肿瘤分割方法,展示了合成数据如何改进 AI 模型在医学成像应用中的表现。
教你所知,学难以掌握:大语言模型自适应知识蒸馏以促进高效学习levelup.gitconnected.com
从不同角度看问题
幻觉AI的最佳疗法是什么?探索提示工程的艺术与科学,以治疗大型语言模型的幻觉
基于专家建议,本周热梗

大型语言模型的学习困境:真正理解还是巧妙记忆?探讨算术逻辑推理中的依赖关系levelup.gitconnected.com
你觉得怎么样?有没有新闻吸引了你?请在评论里告诉我。
如果你觉得这很有趣:

你可以找找我写的其他文章,也可以通过LinkedIn联系或找到我。请看这个仓库这个仓库,里面包含每周更新的机器学习和人工智能新闻。我欢迎合作项目,你也可以通过LinkedIn联系我或看看我的资料。你还可以免费关注,以便在有新文章时收到通知。

关注Salvatore Raieli的新内容。通过电子邮件通知你每次他发布新内容。注册时,如果没有已有的Medium账号,将会为你创建一个……salvatore-raieli.medium.com

这里是我的GitHub仓库链接,在那里我收集了大量的与机器学习、人工智能等相关的代码和其他资源。

GitHub — SalvatoreRa/tutorial: 机器学习、人工智能和数据科学的教程……包括数学解释和开源Python代码…

或者你也可能对我的最近一篇文章感兴趣。

你啥都不懂,约翰LLM:你为什么还要回答?如何分辨大型语言模型的知识不足和过度自信
自闭症神童综合症:模式匹配就是智能吗?探索人工智能的局限:掌握模式并不等于真正的推理
AI的文化视角:你的大规模语言模型会支持哪个政党?揭示出跨语言和文化背景中的意识形态偏见levelup.gitconnected.com
LLM真的比我们想象的更好,还是我们的评判有误?关于标签错误如何影响LLM性能评估的研究(https://ai.gopubby.com/what-if-llms-are-better-than-we-think-or-is-it-our-judgement-thats-flawed-5cbd9c758275?source=post_page-----b2f4093575cc--------------------------------)
点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消