目前,与AI交互遵循一种熟悉的流程。您都必须输入prompt,AI 模型会根据输入来响应。每次您想要新的输出时,您都必须提供prompt。总是有人来启动这个过程。
AI agent以不同的方式工作。他们被设计为独立思考和行动。您唯一需要提供的就是一个目标。他们将根据环境的反馈和自己的内心独白生成一个任务列表并开始工作。就好像AI Agent可以自我提示,不断发展和适应,可以在存在大量新信息的不可预测的环境中工作,以尽可能最好的方式实现他们的目标。
AutoGPT
https://aiedge.medium.com/autogpt-forge-e3de53cc58ec

Limitations
- Wrong tool selection
- Infinite loops 无限循环
- Hallucinations
Profile
当我们人类专注于各种任务时,我们会为这些任务调整自己的状态。无论是写作、切菜、驾驶还是进行体育运动,我们都会集中注意力,甚至采取不同的心态。当讨论Agent时,概念上的profile指的就是这种适应性。研究表明,仅仅告知一个Agent程序它在某个特定任务上是专家,就能提高它的性能。
profile模块具有超越仅仅优化提示的潜在应用。它可以用于调整Agent程序的记忆功能、可用动作,甚至是驱动Agent程序的底层大型语言模型(LLM)。
Memory
对于一个机器人来说,记忆不仅仅是存储,它是构建其身份、能力和学习的基础。正如我们的记忆影响我们的决策、反应甚至个性一样,机器人的记忆是其过去互动、学习和反馈的积累。记忆主要分为长期记忆和短期记忆。
-
长期记忆类似于机器人的基础知识,为 Agent 提供长时间保留和回忆信息的能力,这个时候需要借助外部问量存储和快速检索来实现(向量数据库)
-
短期记忆(或工作记忆)关注的是即时的事务,处理短暂记忆,就像我们对最近事件的回忆一样。虽然对于实时任务至关重要,但并不是所有的短期记忆都能进入机器人的长期存储。(Prompt Engineering,上下文)
在这个领域出现了一个新兴的概念,即记忆反思。在这里,机器人不仅仅是存储记忆,还会主动回顾它们。这种内省使机器人能够重新评估、优先处理或甚至丢弃信息,就像人类回忆和从过去经验中学习一样。
Planning
规划是机器人解决问题的路线图。当面对复杂的挑战时,人类本能地将其分解为可管理的小任务,这种策略也被镜像在基于LLM的机器人中。这种有条不紊的方法使机器人能够以结构化的思维方式解决问题,确保全面而系统的解决方案。
机器人的规划工具包中有两种主要策略。
-
第一种是带反馈的规划,这是一种自适应的方法。在这种方法中,机器人根据结果来优化其策略,就像根据用户反馈不断迭代设计版本一样。
-
第二种是不带反馈的规划,将机器人视为一名策略家,仅依靠其现有知识和远见。将复杂任务分解为更小、更易于处理的子目标,从而实现对复杂任务的高效处理。
Action
在回忆和规划之后,最终到来的是行动。这是Agent认知过程转化为实际结果的阶段,运用Agent的能力。每个决策、每个思考都在行动阶段得到体现,将抽象概念转化为明确的成果。
无论是写下回应、保存文件还是启动新的流程,行动是Agent决策之旅的关键。它连接着数字认知和真实世界的影响,将Agent的电子冲动转化为有意义而有目标的结果。
AutoGen
AutoGen 是一个框架,可以使用多个代理程序进行交流来解决任务,实现 LLM 应用的开发。AutoGen 代理程序可定制,可对话,并且能够无缝地与人类参与结合起来。它们可以以不同的方式运行,结合了 LLM、人类输入和工具的各种组合模式。

AutoGen 可以通过多个代理程序之间的对话,以最小的努力构建下一代 LLM 应用。它简化了复杂的 LLM 工作流程的编排、自动化和优化。它最大限度地提高了 LLM 模型的性能,并克服了它们的不足之处。 它支持各种复杂工作流程的多种对话模式。借助可定制和可对话的代理程序,开发人员可以使用 AutoGen 构建各种不同的对话模式,包括对话自治性、代理程序数量和代理程序对话拓扑结构等。 它提供了一系列具有不同复杂度的工作系统。这些系统涵盖了各种不同领域和复杂度的应用。它们展示了 AutoGen 如何轻松支持不同的对话模式。 AutoGen 提供了 openai.Completion 或 openai.ChatCompletion 的即插即用替代方案,作为增强型推理 API。它可以轻松进行性能调优,提供了 API 统一化和缓存等实用工具,支持更高级的用法模式,例如错误处理、多配置推理、上下文编程等。
总结
Agent = LLM + 计划+执行+纠错
Agent
- 分解任务并完成 (ToT,Reasoning 推理 + Action 行动 React)
- 历史的动作进行自我反思并完善 (通过长期记忆 ,Reflexion 反思)
相比RAG,但可以调用更加多的工具或者权限(例如实时信息)去完成更多实际任务而不仅仅是调用向量数据库输出结果。

将Agent视为在RAG顶部包裹一层的东西,Agent动态地丰富查询信息,基本上允许这种整体上的更高级抽象以正确的方式使用工具,试图为您提供响应

ToT

- Thought: 只有一个中间计划
- 生成思路:样例
- 评估思路:投票
- 搜索算法:宽度优先搜索(深度=2,广度=5)
multi-agent
解决sigle agent遇到的问题
| sigle | multi | 备注 |
|---|---|---|
| 如何完成需要不同背景的复杂任务 | 多agent根据标准或自定义流程配合 | 流程可能复杂且多样,增加编程难度 |
| 如何提高应用的可靠性 | 多个agent讨论、复盘逻辑 | 依然建立在LLM能服从指令的前提下 |
| 如何灵活兼容多模态数据 | 招募不同擅长领域的agent合作 | 如何高效保存、分享多模态数据 |
| 如何提高解决问题的效率 | 优化、并行多个子任务agent执行 | 如何并行,可以自动化优化吗 |
- 如何编排复杂流程(灵活、交流机制):交流顺序、方式复杂多变,逐一枚举费时费力
- 如何提高鲁棒性和可靠性:大模型幻觉和不稳定的指令跟随能力会影响应用运行效果
- 如何处理多模态数据:需要在文本支持的基础上兼容多模态数据的传递,存储和展示
- 如何提高运行效率::需要分布式背景,并深度分析应用流程,对开发者而言优化难度高
先思考两个问题
- 每个agent的功能
- agent之间怎样连接
An agent supervisor 路由到 individual agents.



Plan-and-Execute Agents
plan-and-execute agents 对比 Reasoning and Action (ReAct)-style agents会更好,目前还没完美实现。
- 通过强制规划器明确“思考”完成整个任务所需的所有步骤,它们可以在整体上表现更好(任务完成率和质量方面)。生成完整的推理步骤是一种改进结果的可靠提示技术。将问题细分还可以实现更有针对性的任务执行。
- 可以分散并行地做,效率更高
- token费用更少,每一步也不一定依赖调用大模型,只有(re-)planning steps and to generate the final response才需要。
总结
- ReAct处理复杂问题时候: 流程长,有Long term Memory 需要额外存储,看LLM性能(token多),时间长,效果不一定好。
- Plan-and-Execute 对于planner 要求高,任务执行管理麻烦
一般分成3块
- 计划制定:LLM生成文本,直接回应用户或传递给函数。
- 执行:你的代码调用其他软件执行操作,比如查询数据库或调用API。
- 分析:根据工具调用的响应做出反应,要么调用另一个函数,要么回应用户。

核心思想是首先制定一个多步计划,然后逐个执行计划中的任务。在完成特定任务之后,您可以重新审视计划并根据需要进行修改。
- 只能串行,不能产生并行计划,需要计划编排生成技巧,加快执行速度
Reasoning WithOut Observations 实现
可以避免在每个任务中都需要使用一个LLM(语言模型)的问题,同时允许任务依赖于前一个任务的结果。这可以通过在规划器的输出中允许变量赋值来实现。下面是代理系统设计的示意图。ReWOO

根据问题,规划器在工具响应之前组合了一份全面的互联计划蓝图。该蓝图指导worker使用外部工具并收集证据。最后,计划和证据被配对并传递给求解器以获取答案。
- 关键在于任务,列出需要的Evidence,有标准输出
- 还是得串行

- executor可以让 tasks 并行
- planner 流式输出
- solver 有replan功能

Reflection Agents
Basic Reflection
- generator :尝试直接响应用户的请求。
- reflector:提示扮演教师的角色,并对最初的反应提出建设性的批评。
循环进行固定次数,并返回最终生成的输出。
由于反射步骤不基于任何外部过程,因此最终结果可能不会比原始结果好得多。让我们探索一些可以改善这种情况的其他技术。

Reflexion
在反思中,行动者智能体明确批评每个响应,并将其批评建立在外部数据的基础上。它被迫生成引用并明确列举生成的响应中多余和缺失的方面。这使得反思的内容更具建设性,并更好地引导生成器响应反馈。
它只追求一个固定的轨迹,所以如果它犯了一个错误,这个错误可能会影响后续的决策。

Language Agent Tree Search
它结合了反射/评估和搜索(特别是蒙特卡罗树搜索),与 ReACT、Reflexion 甚至 Tree of Thoughts 等类似技术相比,可以实现更好的整体任务性能。它采用标准的强化学习 (RL) 任务框架,通过调用 LLM 来替换 RL 代理、价值函数和优化器。这旨在帮助代理适应复杂任务并解决问题,避免陷入重复循环。

- 选择:根据下面步骤 (2) 中的总奖励选择最佳的下一步行动。要么做出响应(如果找到解决方案或达到最大搜索深度),要么继续搜索。
- 扩展和模拟:生成 N(在我们的例子中为 5)个潜在操作以并行执行并执行它们。
- 反思+评估:观察这些行动的结果,并根据反思(以及可能的外部反馈)对决策进行评分
- 反向传播:根据结果更新根轨迹的分数。

LlamaIndex
1 | |
Define a Simple Tool
1 | |
Define the Auto-Retrieval Tool
1 | |

1 | |
task debug
1 | |
graph agent example
https://langchain-ai.github.io/langgraph/tutorials/customer-support/customer-support/

1 | |
打印图
1 | |
session 管理 同一个人 不同 session
1 | |

需要用户去确认
1 | |
我们看到了“广泛”的聊天机器人如何依靠单个提示和 LLM 来处理各种用户意图,让我们走得更远。然而,使用这种方法很难为已知意图创建可预测的出色用户体验。
您的图表可以检测用户意图并选择适当的工作流程或“技能”来满足用户的需求。每个工作流程都可以专注于其领域,允许单独的改进,而不会降低整体助手的性能。
在本节中,我们将把用户体验分成单独的子图,形成如下结构:

意图的上下文切换
1 | |
每个步骤都要加入判断任务状态,结束 cancel 与原因信息
1 | |
不同的子图数据格式也不一样
1 | |
彻底结束dialog的标记, 或者上下文切换
1 | |