引言:

《通用人工智能的火花:GPT-4早期实验》是3月最重要的一篇论文,引起了广泛的关注和讨论,但是论文长达 154页,中文版本还无人翻译。

本文挑选了论文中的重点结论并进行翻译,虽然已经是精选,但仍然超过万字。但考虑到 GPT5 明年才能面世,这篇文章在今年什么时候看都不晚。

微软的研究院在很早期就接触到了 GPT-4 的非多模态版本,并对齐进行了详尽的测试。这篇论文就是整个的测试过程和结论。不管是测试方法还是结论都非常精彩,强烈推荐看一遍,传送门在此 。https://arxiv.org/pdf/2303.12712v1.pdf

本文的翻译没有添加任何夸张的修辞(DeepL和ChatGPT贡献也很大),但文中透露的信息本身已足够震撼。

本文目的是和大家分享当前AI最新的进展,欢迎分享转发,如需转载,只需要注明作者信息 orange.ai 和原始链接 https://orangeblog.notion.site/GPT-4-8fc50010291d47efb92cbbd668c8c893

基本信息:

测试者:Microsoft Research

测试模型:GPT-4早期模型,非多模态版本。

基本结论: 尽管是纯粹的语言模型,这个早期版本的GPT-4在各种领域和任务上表现出显著的能力,包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。

GPT-4的能力具有普遍性,它的许多能力跨越了广泛的领域,而且它在广泛的任务中的表现达到或超过了人类水平,这两者的结合使我们可以说GPT-4是迈向AGI的重要一步。

虽然GPT-4在许多任务上达到或超过了人类的水平,但总体而言,它的智能模式明显地不像人类

GPT-4只是迈向通用智能系统的第一步。然而即使作为第一步,GPT-4也挑战了相当多的关于机器智能的假设,并表现出涌现的行为和能力,其来源和机制目前还不够清楚。

我们撰写本文的主要目的是分享我们对GPT-4的能力和局限性的探索,以支持我们关于技术飞跃的评估。我们相信,GPT-4的智能标志着计算机科学领域及其他领域的真正范式转变

研究方法: 本文的更接近于传统的心理学而不是机器学习,借鉴了人类的创造力和好奇心。我们的目标是生产新的和困难的任务和问题,令人信服地证明GPT-4远远超出了记忆的范围,并且它对概念、技能和领域有深刻和灵活的理解。我们还旨在探究GPT-4的反应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和偏见。我们承认,这种方法有些主观和不正式,可能无法满足科学评估的严格标准。然而,我们认为这是一个有用的和必要的第一步,以了解GPT-4的显著能力和挑战,这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。

GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本,还可以以各种方式理解和处理文本,如总结、翻译或回答一系列极其广泛的问题。此外,我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、音乐等等。这些技能清楚地表明,GPT-4能够理解复杂的思想

许多读者可能会疑惑,GPT-4是否真正理解了所有这些概念,或者它是否只是在即兴发挥方面比以前的模型好得多,而没有任何真正深刻的理解。我们希望在阅读完这篇论文后,这个问题几乎会被反转,让人不禁思考:**真正深刻的理解和即兴临场发挥的差别在哪里?**一个能通过软件工程候选人考试的系统难道不是真正的智能吗?对于【真正深刻的理解】,也许唯一的测试手段,就是看它能否能产生新的知识,比如证明新的数学定理,而这一壮举目前对大语言模型来说仍然遥不可及。

一、多模态测试