【技术文章】AI实现自我进化!汽车行业将迎来颠覆性变革?TextGrad大模型优化登顶Nature原文:《Optimizing generative AI by backpropagating language model feedbacks 》 作者:Mert Yuksekgonul, Federico Bianch, Joseph Boen, Sheng Liu, Pan Lu, Zhi Huang, Carlos Guestrin & James Zou. ![]() 简介:AI终于能“自我反省”了!MIT团队在《Nature》发表的最新研究提出TextGrad,让大语言模型通过自然语言反馈实现自我优化,彻底告别传统依赖人工标注和数值梯度的训练方式。只需一句“你的代码边界条件有漏洞”或“这段驾驶决策不够安全”,AI就能自动修正并提升性能。这一技术已在问答、代码、医疗等领域超越传统方法,而汽车行业将成为其最具潜力的落地场景——从自动驾驶到智能座舱,AI的“自我进化”能力即将重塑未来出行体验! 关键词:large language models (LLMs);AI;TextGrad 编译:复旦大学林燕丹课题组 郭子固 指导:林燕丹 TextGrad如何颠覆汽车行业? 传统AI优化依赖人工设定目标函数和数值计算,而TextGrad通过自然语言反馈驱动AI自我改进。这种“听懂批评—自主优化”的能力,将为汽车智能系统带来革命性突破: 1. 自动驾驶:让AI学会“老司机”的决策逻辑
2. 智能座舱:灯光、语音交互的“人性化”迭代
3. 车载软件:代码自动Debug,OTA升级效率翻倍
4. 供应链与制造:AI加速设计—测试闭环
技术核心: TextGrad如何实现“语言反馈=梯度”? TextGrad的核心创新在于用自然语言反馈(NLF)替代传统数值梯度,实现生成式AI的自我优化。其技术框架包含以下关键设计: 1. 语言梯度(Textual Gradient)的数学抽象 传统深度学习依赖损失函数的数值梯度来更新参数,而TextGrad将梯度定义为: ![]() 这里的 ∇f表示“语言梯度操作符”,它通过调用语言模型,基于当前变量的表现生成自然语言反馈,例如:“你可以通过加入更多上下文信息改进当前prompt”更新变量的“梯度下降”步骤被定义为: ![]() 该更新并不基于数值减法,而是基于语言模型将批评性文本反馈转化为新版本的变量(如新prompt、新代码、新答案),从而完成一次迭代。TextGrad的设计兼容PyTorch风格,用户可照常定义模型变量θ、损失函数L、目标输出y与预测输出ŷ等,只是将传统反向传播中计算出的数值梯度 ∂L/∂θ 替换为自然语言形式的 ∇LLM。 图1是对 TextGrad 核心概念、对比优势和应用广度的视觉总览,它通过 a 到 g 的小图分模块说明了:TextGrad 如何从传统神经网络的数值梯度出发,跨越到语言反馈驱动的“语言梯度”,再展示其在多个实际场景中的优化能力。 ![]() 图1 TextGrad 核心概念、对比优势和应用广度 与传统的数值反向传播不同,TextGrad 用自然语言模型生成的“文本反馈”作为优化信号,形成一条新的语言级反向传播路径。如图2中,a示例展示了在一个包含两个语言模型调用的系统中,TextGrad 如何实现类反向传播过程。无论输出变量是否存在后继节点,系统均采用统一的重载符号处理梯度传播。图中绿色文本表示当前迭代中被优化的目标变量。b展示了“文本梯度算子”(∇LLM)的具体实现方式。该算子通过语言模型生成对目标变量的自然语言反馈,提供批判性建议,用以指导后续优化方向。TextGrad 利用这些文本建议,引导系统迭代更新,逐步生成更优的输出。这个过程像极了人类之间的“提建议-修改-再提交”循环,但它发生在模型与模型之间,让AI真正具备了自我修正、自我成长的能力。 ![]() 图2 TGD 与 TextGrad 语言反向传播机制的示意实现 2. 与PyTorch兼容的工程实现 TextGrad沿用了PyTorch的API设计(如autograd),但将反向传播中的数值计算替换为语言模型调用。例如:
3. 多模态反馈的泛化能力 TextGrad不仅限于文本任务,还可处理多模态反馈。例如:
![]() 图3 优化复合型 AI 系统:TextGrad 在多模块智能流程中的应用表现 4. 避免“幻觉反馈”的保障机制 为防止语言模型生成错误反馈,TextGrad引入:
5. 与传统优化的对比优势 ![]() 这一框架已在代码生成、医疗决策等任务中验证有效性,例如将GPT-3.5的数学推理准确率从72.9%提升至91.9%17。 文献来源: [1]Yuksekgonul M, Bianchi F, Boen J, et al. Optimizing generative AI by backpropagating language model feedback[J]. Nature, 2025, 639(8055): 609-616. 开源代码:https://github.com/zou-group/textgrad |