LLM的发展时间线

CBOW, Transformer, BERT, GPT-3等model各自的作用
- CBOW => Transformer => BERT => GPT-3 => Instruction Tuning on FLAN
- IT(Instruction tuning)让大模型可以做到零样本学习(zeroshot)，实现任意独立的任务，到这是一个里程碑，直接打开了潘多拉魔盒
- RLHF从合规层面上是需要的，但没有它效果已经很好了;

各个Model的情况&作用摘要

2013~2022之间的6篇论文，对推动LLM的发展至关重要
CBOW: 连续词袋模型(2013)
- Tomas Mikolov 在2013年发布了几篇划时代论文，提出了CBOW模型
- CBOW和Skip-gram它是通过上下文预测现有词汇，以及反过来，现有词汇预测上下文;
- 它的工具word2vec并不好用; 因此2015年时主要研究还集中在CNN/RNN上；
Transformer: (2017)
BERT (2018)
- 在2017年代，机器学习更多是被统计机器学习主导的，而不是基于神经网络的机器学习，因为人们认为统计机器学习是可解释的；
- Jacob Daffling从微软到google后, 得到很大的机器资源，继续进行神经机器学习翻译，制造了1.1B~3.4B的大参数BERT model，后证明BERT模型的效果很好(达到78%准确率？); 证明了之前的NLP模型一些手工工作(e.g. 加词库，加统计参数，etc)是没有意义的
- BERT证明了Transformer model这条路(基于神经网络的model)是对的，OpenAI就组织团队堆工程实现
GPT-3 175B
- 模型的上下文学习: 即每个序列在模型的层的向前传播中发生的过程；
- 更大的模型能够利用上下文信息的能力更出色，
- GPT-3的和人类的沟通，还是不通顺的；
IT(Intruction Tuning)
- 范式转化：在GPT-3的Fine tune的数据格式准备时，结合BERT & GPT-3数据范式, 增加了Instruction-tune的一列，来专门描述这个任务； 当模型可以收集足够多任务，学习这些任务，它就可以参考已有任务的经验，外推到其他新的未见过的任务；
  - 具体如何实现这一点，网络结构是什么，目前神经网络还是一个黑盒
  - 涌现：IT可以把相应的效果()，在68B以上的模型，准确率从50+提升到70+; 但在低于68B(小模型)的模型上，IT是不具备这个效果的；

InstructGPT：
- 将模型的毒性从40%=> 0.6%
GPT-3.5 & GPT-3.5 turbo
- turbo可能是一个蒸馏版的，20B参数的model

GPT-4:

训练成本高: 6300w美元，还不包括失败的过程；

MMU榜单
- 2023年，MMU榜单 GPT-4 MMU分数是86，LLama2 海平面在不断上升
开源世界，有否可能把Openai淹没了？

智能体

Agent = LLM + 思考/规划(Planning) + 行动/工具(Action, Tools) + 记忆(Memory) + 神经 + 直觉
Multi-Agent = Agent + env + SOP(标准作业程序) + 评审 + 路由 + 订阅 + 经济
- 神经: 这种结构是LLM是没有的,把神经建模到LLM中, 可能还需要在蒸馏到小模型
- 直觉：可能是在某个时间点的一些想法，可能是由激素决定的；(sy1)
- 多智能体，更好的支持宏观的并发的行为(隐含包括了SOP, 路由, 评审等各种事项)
智能体是一个新的物种
- 它存在于不同的地方，如微信，如飞书，它也像星际迷航里虫族的borg; 它需要显卡硬件居住，需要电流维持它生存。它可以解决人类不容易低成本解决的一些工作，e.g. 翻译, 调研(80~100的暴露度), 编程(暴露度63.4%)
- GPT-3, 4的训练数据，据说有50%是代码;
- LLM的自举：LLM自己可以组织代码，训练出一个自己的大模型；具有理论可行性；
  - 需要做3层架构：AgentStore + MetaGPT + AgentOS
MG的作者吴承霖，自述在2023年3月，看完了市面上所有论文和框架
- langchain有96000行代码，655类，2826函数，复杂性较高；MG第一个版本40类，96个函数，基本上对齐了langchain的功能；
- 训练agent和训练人一样，需要AgentOS
MetaGPT社区总人数874
- 目前做出了一些2048这类游戏；目前没有整erp这类方向

Why develop MetaGPT & langchain历史问题

MetaGPT：一行代码搭建你的虚拟公司
[D]框架阅读：langchain精读
langchain的设计和实现被很多人吐槽；它违背了单一接口原则；
langchain的质量较低；MetaGPT则测试用例比较全;

flowchart LR

A0(initialize_agent)==>A1(agent_cls.from_llm_and_tools)
A1 -.-> B0[LLMChain]
A1 --> B1["Agent._get_default_output_parser()"]
A1 -.-> B2[Agent]
A1 -.-> X
A1 ==> X2
A1 ==> X4

A1 -.-> OpenAI

B0 -.-> I1
B0 -.-> I2
B0 -.-> J5
B0 -.-> J6
B0 -.-> J7
B0 -.-> J8
B0 -.-> J9
B0 -.-> J10
B0 -.-> H2

B2 -.-> D
B2 -.-> G1
B2 -.-> X

A0==>A2(return AgentExecutor.from_agent_and_tools)
A2==>A

B0 -.-> A00
B2 -.-> A00

subgraph AgentExecutorRelated

A00(AgentExecutor) --> A
A("AgentExecutor(Chain).run")==>B(Chain.run)==>I1

I1-->C1(Chain.prep_inputs)
I1==>D("Agent._call(inputs, run_manager=run_manager)")
I1-->C2(Chain.prep_outputs)

D-->E["intermediate_steps: List[Tuple[AgentAction, str]] = []"]
D==>F("while self._should_continue(iterations, time_elapsed):")

D==>D0("intermediate_steps.extend(next_step_output)")
D==>D1("next_step_output = self._take_next_step")
D-->D2("self._return(output / tool_return, intermediate_steps)")
D1==>G1("output = self.agent.plan")
D1-->G2("for agent_action in actions:")
G2==>H("observation = tool.run")

G1==>H1("full_inputs = self.get_full_inputs(intermediate_steps, **kwargs)")
G1==>H2("full_output = self.llm_chain.predict(callbacks=callbacks, **full_inputs)")
G1==>H3("return self.output_parser.parse(full_output)") ==> parser.parse
H3-->X1

H1==>H4("thoughts = self._construct_scratchpad(intermediate_steps)")

end

subgraph LanguageModelRelated

BaseLLM -.-> BaseLanguageModel
BaseLanguageModel -.-> I3
BaseLLM -.-> BaseLLM.generate_prompt
BaseLLM.generate_prompt ==> BaseLLM.generate
BaseLLM.generate ==> OpenAIChat._generate
BaseLLM.__call__ --> BaseLLM.generate

OpenAI -.-> BaseOpenAI -.-> BaseLLM
BaseOpenAI -.-> OpenAIChat
OpenAIChat -.-> OpenAIChat.get_num_tokens

I3("BaseLanguageModel.generate_prompt") ==> BaseLLM.generate_prompt

end

subgraph ChainRelated

J6 --> parser.parse

H2-->I1("Chain.__call__")==>I2("LLMChain.generate")==>I3

J1(LLMChain.apply) --> J2(callback_manager.on_chain_start)
J1 --> J3(LLMChain.create_outputs)
J1 --> J4(callback_manager.on_chain_end)
J1 --> I2

J5(LLMChain.apply_and_parse) --> J1
J5 --> J6(LLMChain._parse_result)

J10(LLMChain._call) --> I2
I2 --> J9(LLMChain.prep_prompts)
J9 --> J8("LLMChain.prompt.format_prompt(**selected_inputs)")

J7(LLMChain.predict_and_parse) --> H2
J7 --> parser.parse
J7 --> J6

end

subgraph PlanRelated
X["class ZeroShotAgent(Agent)"] -.-> X1["Field(default_factory=MRKLOutputParser)"]
X -.-> X4(ZeroShotAgent._get_default_output_parser) ==> X1
X -.-> X2(ZeroShotAgent.create_prompt) ==> X3[FORMAT_INSTRUCTIONS]

X1 -.-> parser.parse

end

以上是吴承霖用mermaid画的langchain主流程图，参考原文这里
Multi-task language understanding on MMU: 对GPT-4 实行CoT，GPT-4在MMU榜单的效果可以到90%+; 开源model可能是68，69，是Llama2 70B/65B；

MetaGPT的roadmap