抛砖引玉,作者对大模型 LLMs 认知有限,有不当之处望大家指正!
💡想法源于在一次 Code Review 时,向 Claude 询问哪种写法代码更优雅得来。当时就想能不能让 AI 帮我们辅助做 Code Review?
一句话介绍就是:基于大模型 + 知识库的 Code Review 实践,类似一个代码评审助手(CR Copilot)。
符合公司安全规范,所有代码数据不出内网,所有推理过程均在内网完成
| 名词 | 释义 |
|---|---|
| CR / Code Review | 越来越多的企业都要求研发团队在代码的开发过程中要进行CodeReview(简称 CR),在保障代码质量的同时,促进团队成员之间的交流,提高代码水平。 |
| llm / 大规模语言模型 | 大规模语言模型(Large Language Models,LLMs)是自然语言处理中使用大量文本数据训练的神经网络模型,可以生成高质量的文本并理解语言。如GPT、BERT等。 |
| AIGC | 利用NLP、NLG、计算机视觉、语音技术等生成文字、图像、视频等内容。 |
| 全称是人工智能生成/创作内容(Artificial Intelligence Generated Content);是继UGC,PGC后,利用人工智能技术,自动生成内容的生产方式;AIGC底层技术的发展,驱动围绕不同内容类型(模态)和垂直领域的应用加速涌现。 | |
| LLaMA | Meta(Facebook)的大型多模态语言模型。 |
| ChatGLM | ChatGLM 是一个开源的、支持中英双语的对话语言模型,底座是 GLM 语言模型。 |
| Baichuan | Baichuan 2 是百川智能推出的新一代开源大语言模型,采用 2.6 万亿 Tokens 的高质量语料训练。 |
| Prompt | 一段文本或语句,用于指导机器学习模型生成特定类型、主题或格式的输出。在自然语言处理领域中,Prompt 通常由一个问题或任务描述组成,例如“给我写一篇有关人工智能的文章”、“翻译这个英文句子到法语”等等。在图像识别领域中,Prompt 则可以是一个图片描述、标签或分类信息。 |
| langchain | LangChain 是一个开源Python 库,由 Harrison Chase 开发,旨在支持使用大型语言模型(LLM)和外部资源(如数据源或语言处理系统)开发应用程序。它提供了标准的接口,与其他工具集成,并为常见应用程序提供端到端链 。 |
| embedding | 将任意文本映射到固定维度的向量空间中,相似语义的文本,其向量在空间中的位置会比较接近。在 LLM 应用中常用于相似性的文本搜索。 |
| 向量数据库 (Vector stores) | 存储向量表示的数据库,用于相似性搜索。如Milvus、Pinecone等。 |
| Similarity Search | 在向量数据库中搜索离查询向量最近的向量,用于检索相似项。 |
| 知识库 | 存储结构化知识的数据库,LLM可以利用这些知识增强自己的理解能力。 |
| In-context Learning | In-Context Learning 是机器学习领域的一个概念,指不调整模型自身参数,而是在 Prompt 上下文中包含特定问题相关的信息,就可以赋予模型解决新问题能力的一种方式。 |
| Finetune / 微调 | 在预训练模型基础上使用特定数据集进行微调,提升模型在某任务上的性能。 |