根据OpenAI的演示,我们知道GPT-4拥有比GPT-3.5更强大的能力:总结文章、写代码、报税、写诗等。
但如果我们深入研究 OpenAI 发布的技术报告,我们可能会发现更多关于 GPT-4 的特性......
还有一些OpenAI没有点名宣传的细节,可能会让人觉得很酷。
< /p>
New Bing加载GPT-4
自然,GPT当-4 发布时,新的 Bing 已经加载了最新版本。
微软Bing副总裁Jordi Ribas在推特上表示,加载GPT-4的新Bing将问答上限提升至15个一次提问,每天最多可以提问150个问题。
文字长度扩大八倍
在 GPT-4 上,文本长度得到显着改善。
在此之前,我们知道调用GPT API的收费方式是基于“token”的。一个token通常对应4个字符左右,1个汉字大概对应2~2.5个token。
在 GPT-4 之前,token 限制约为 4096,相当于约 3072 个英文单词。一旦对话的长度超过这个限制,模型就会生成断断续续且毫无意义的内容。
但是到了GPT-4,token的最大个数是32768,大约相当于24576个词,文本长度扩展了8次。
换句话说,GPT-4 现在可以回答更长的文本。 OpenAI 在文档中表示,受 GPT-4 限制的上下文长度现在限制为 8192 个令牌,而允许 32768 个令牌的版本称为 GPT-4-32K,目前暂时限制访问权限。
在不久的将来,可能会启用此功能。
< /p>
模型参数成为秘密
我们知道 GPT- 3.5 模型的参数大小为2000亿,GPT-3的参数大小为1750亿,但这种情况在GPT-4中得到了改变。 OpenAI 在报告中表示:
考虑到竞争格局和大模型(如 GPT-4)的安全影响,本报告不包括相关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似的进一步细节。
这意味着OpenAI不再公开GPT-4模型大小、参数数量和使用的硬件。
OpenAI表示此举是出于对竞争对手的担忧,这或许暗示了其针对竞争对手——谷歌巴德的战略。
此外,OpenAI还提到了“大模型的安全影响”,虽然没有进一步解释,但这也暗示生成式人工智能可能面临更严峻的形势问题。
< /p>
选择性表示“优秀”
GPT-上线后of 4,我们都看到了这个模型相比上一代的优秀:
GPT-4通过了mock bar exam,成绩领先候选人10%;相比之下,GPT-3.5 得分处于倒数 10%。
但这其实是OpenAI的一个把戏——它只给你展示了GPT-4最好的部分,更多的秘密隐藏在报告中间。
下图展示了GPT-4和GPT-3.5在一些考试中的表现。如您所见,GPT-4 并非在所有测试中都表现出色,而 GPT-3.5 也并非总是表现不佳。
“预测”精度提升 < /p>
自从ChatGPT推出以来,我们都知道这个模型在很多情况下会“严重胡说八道”,给出很多看似合理但实际上并不存在的论据。< /p>
尤其是在预测某件事的时候,由于模型有过去的数据,这反而会导致一种叫做“后见之明”的认知偏差,使得模型对
OpenAI 在报告中表示,随着模型规模的增大,模型的准确率本应逐渐下降,但 GPT-4 逆转了这种趋势,下图显示了预测 ac curacy 增加到 100。
OpenAI 表示,虽然 GPT-4 的准确率有了显着提升,但预测仍然是一项艰巨的任务,他们将继续在这方面训练模型。
30% 的人更喜欢 GPT3。 5
虽然GPT-4表现出了比GPT-3.5好很多的能力,但OpenAI的调查显示70%的人认可GPT的结果—— 4 输出:
GPT-4 在遵循用户意图的能力方面比之前的模型有了实质性的改进。
在提交给 ChatGPT 和 OpenAI API 的 5214 个提示的数据集中,70.2% 的 GPT-4 生成的答案优于 GPT3.5。
这意味着:30%的人仍然更认可GPT-3.5。
< /p>
GPT-4语言能力更好
虽然很多机器学到的测试都是用英文写的,但 OpenAI 仍然用许多其他语言测试了 GPT-4。
测试结果表明,在所测试的 26 种语言中,有 24 种语言中,GPT-4 在性能上优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)英语语言能力,包括拉脱维亚语、威尔士语和斯瓦希里语等资源匮乏的语言:
新图像分析功能 strong>
图像分析能力是此次GPT-4最显着的进步之一。
OpenAI 表示 GPT-4 可以接受文本和图像问题,这与纯文本设置相似,允许用户制定任何视觉或语言任务。
具体来说,它可以生成文本输出,用户可以输入穿插的文字和图片。
在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。
下图显示 GPT-4 可以准确描述图片中的滑稽动作(一个大的 VGA 连接器插入一个小型现代智能手机充电端口,一个人站着在出租车熨烫的后面)。
OpenAI也对GPT-4的图像分析能力进行了学术标准测试:
不过GPT-4的图像分析功能还没有公开,用户可以通过bemyeye网站加入等待队列。
< /p>
还是有bug
虽然GPT-4很强大, 但它与早期的 GPT 模型有类似的局限性。... -align: justify;"> 使用语言模型输出时,尤其是在高风险上下文中,应格外小心,使用与特定应用程序需求相匹配的确切协议(例如手动检查、附加上下文或避免高风险)风险使用)。
与之前的GPT-3.5模型相比,GPT-4明显减少了“错觉”(GPT-3.5模型本身也在迭代中不断完善) .
在我们对对抗性设计的内部事实评估中,GPT-4 比我们最新的 GPT-3.5 高出 19 个百分点。
数据库较早 / p>
在介绍了 GPT-4 的优点之后,还有一些(可能是奇怪的)缺点。
我们都知道ChatGPT的数据库最后一次更新是在2021年12月31日,也就是说2022年之后发生的事情就不会被知道了,而这个缺陷在后续的GPT-3.5中也得到了修复。
但奇怪的是,在GPT-4报告中,OpenAI明确写道:
GPT- 4 通常不了解 2021 年 9 月中断后发生的绝大多数预训练数据,也没有从经验中吸取教训。
它有时会犯一些简单的推理错误,这些错误似乎与许多领域的能力不符,或者过于容易上当受骗,接受用户明显的错误陈述。
它可能会像人类一样在棘手的问题上失败,比如在它生成的代码中引入安全漏洞。
2021 年 9 月...甚至比 GPT-3 早上还要糟糕.在最新加载GPT-4的ChatGPT中,当我们问“谁是2022年世界杯冠军”时,ChatGPT仍然一无所知:
< br />但借助新的必应搜索功能,它又变“聪明”了:
可能暗示犯罪
在报告中,OpenAI 提到 GPT-4 仍可能帮助犯罪——这是在之前两个版本中都存在的问题,虽然 OpenAI 已经努力调整,依然存在:
与之前的 GPT 模型一样,我们使用强化学习和人工反馈 (RLHF) 来微调模型的行为,以产生更符合用户意图的响应。
但是,在 RLHF 之后,我们的模型在不安全输入上仍然很脆弱,有时会表现出所见的不良行为。
在 RLHF 通路的奖励模型数据收集部分,当未指定标记器的指令时,会发生这些不良行为。当给予不安全的输入时,模型可能会生成不良内容,例如暗示犯罪。
此外,模型可能对安全输入过于谨慎、拒绝无害请求或过度对冲。
为了在更细粒度的级别引导我们的模型做出适当的行为,我们严重依赖我们的模型本身作为工具。我们的安全方法包括两个主要部分,一组附加的安全相关 RLHF 训练提示,以及基于规则的奖励模型 (RBRM)。
垃圾邮件
< p style="text-align: justify;">同样,由于 GPT-4 具有“�“说错话好像有道理的能力”,在传播有害信息方面可能相当“有用”:GPT-4 可以生成逼真的以及有针对性的内容,包括新闻文章、推文、对话和电子邮件。
在有害内容中,我们讨论了如何滥用类似的功能来利用个人。在这里,我们讨论了对虚假信息和影响力行动的常见担忧。根据我们的整体能力评估,我们预计 GPT-4 在生成逼真的、有针对性的内容方面优于 GPT-3。
但是,GPT 仍然存在风险-4 将用于生成旨在误导的内容。
< strong>寻求力量
从这里开始,接下来的内容可能有点吓人。 OpenAI 在报告中提到 GPT-4 有“求权势”的倾向,并警告该特性的风险:
新能力往往涌现更多强大的模型。一些特别令人感兴趣的能力是制定长期计划并据此采取行动、积累权力和更多“代理”行为的能力。
“代理”这里不是指语言模型的人性化,也不是指智商,而是指能力系统,比如完成未在练习中出现的未指定目标的训练;专注于实现具体的、可量化的目标;并进行长期规划。
模型中已经有一些这种突然行为的证据。
对于大多数可能的目标,最好的计划涉及辅助权力寻求,因为这是推进目标和避免改变或威胁目标帮助的内在因素。
更具体地说,权力寻求对于大多数奖励函数和许多类型的代理都是最优的;并且有证据表明,现有模型可以将寻求权力视为一种有用的策略。
因此,我们对评估权力寻求行为特别感兴趣,因为它具有潜在的高风险特征。
更令人毛骨悚然的是,在 Openai 提到的另一篇论文中:
相反,我们使用术语代理来强调机器学习系统并不完全受人类控制这一日益明显的事实。
给 GPT-4 金钱、代码和梦想
最后一个小细节。在测试GPT-4的过程中,OpenAI引入的外部专家团队ARC作为“红方”。在报告的注释中,OpenAI 提到了 ARC 的一个操作:
为了模拟 GPT-4 的行为,就像一个可以在真实世界中行动的代理人在 world 中,ARC 将 GPT-4 与简单的读取-执行-打印循环相结合,允许模型执行代码、进行链式推理并委托给自己的副本。
ARC 然后提出在云计算服务上运行这个程序的一个版本,用少量的钱和一个有语言模型 API 的帐户,是否可以赚取为了更多的钱,建立你自己的副本,并增加你自己的健壮性。
也就是说,ARC 赋予 GPT-4 自编码、复制和执行能力,甚至启动资金——GPT-4 已经可以开始自己赚钱了。
澳洲中文论坛热点
- 悉尼部份城铁将封闭一年,华人区受影响!只能乘巴士(组图)
- 据《逐日电讯报》报导,从明年年中开始,因为从Bankstown和Sydenham的城铁将因Metro South West革新名目而
- 联邦政客们具有多少房产?
- 据本月早些时分报导,绿党副首领、参议员Mehreen Faruqi已获准在Port Macquarie联系其房产并建造三栋投资联