首页 > 立知

gpt-2模型,gpt-3模型,mtsp模型,gpt模型结构meta,大模型,LlamaGPT-5 将死于 GPT-4 背刺?

小猫咪 立知 2024-01-23

发布仅2天后,Code Llama再次引爆AI编码革命。

还记得Meta在Code Llama论文中出现的可以完全均衡GPT-4的神秘版本Code Llama吗?

大佬在博客中解释道:

它是 Code Llama-34B 的微调版本,包含 15,000 条非自然语言指令。

通过在论文中隐藏这样一个非常隐藏的信息,Meta似乎想向开源社区暗示Code Llama有巨大的潜力,所以请微调它!

所以刚才基于Code Llama微调的34B在基准测试上直接击败了GPT-4。

具体来说,以 73.2% 的胜率碾压 3 月版本的 GPT-4(67%)。

此外,34B的性能超过了最新版本GPT-3.5和2.

该编程模型由微软和香港浸会大学于六月发布。 据说经过微调的 13B/7B 版本即将推出。

的顶级科学家 Jim Fan 表示,这基本上是“Code Llama”的开放版本。

虽然基准数据看起来不错,但仅测试了狭窄的分布,并且可能过度拟合。 自然场景下的数据测试非常重要。 编码基准需要重大升级。

神秘版Code Llama诞生?

周五,Meta 正式开源了 Code Llama 的三个版本。

在MBPP基准图上,很多人发现了官方Meta中没有提到的一个版本——Code Llama。

这个神秘的版本在 pass@1 上实现了 62.2% 的性能。

今天发布的微调34B在pass@1上的性能高达73.2%。

据介绍,34B是使用合成数据集Evol-的Code Llama模型的微调版本。

以下是与所有开源和闭源模型的性能比较的可视化。

在与模型的对比中,研究人员指出GPT4和-3.5有两个结果:

GPT4官方报告(2023/03/15)给出的结果是:分别为67.0%和48.1%。 研究人员使用最新的API(2023/08/26)测试的结果是82.0%和72.5%。

此外,研究人员强调,这一性能结果是 100% 可重复的!

34B 的演示版已开放供任何人测试。

有人指出,对公共排行榜的过度拟合是开源模型在实践中举步维艰的主要原因之一。 下面是一个示例,编码器的数据准备使用 pass@1 分数来决定是否进一步开发数据集。 仅在测试集上进行优化违背了测试集的目的。

同样在昨天,Phind 小组的研究人员对 Code Llama-34B 进行了微调,使其在评估中击败了 GPT-4。

战斗代码骆驼

Code Llama 在实际编码任务中表现如何?

有网友做了GPT-3.5和Code Llama-34B的对比测试。 它通过.AI提供的Code Llama 34B接入服务进行了测试。

它分别向两个模型提供 8 个相同的代码任务,并比较它们生成的代码的质量。

结果是GPT-3.5以8:5获胜。

以下是具体测试结果。

第一个问题

为了完成此任务,给出两个字符串 word1 和 word2。 通过以交替顺序添加字母来合并字符串,从 word1 开始。 如果一个字符串比另一个字符串长,则将附加字母附加到合并字符串的末尾。

最后输出合并后的字符串。

例如:

输入:word1 =“abc”,word2 =“pqr”输出:“”

GPT-3.5 和 Code Llama 都可以完成 - 1:1

第二个问题

使用来完成这个任务,给定一个字符串 s,只需反转字符串中的所有元音并返回即可。

元音为“a”、“e”、“i”、“o”和“u”,小写和大写都可以出现多次。

例如:输入:s = "hello" 输出:"ello"

GPT-3.5 已完成,Code Llama 未完成 - 2:1

第三个问题

要完成此任务,给定一个整数数组 nums,将所有 0 移至其末尾,同时保持非零元素的相对顺序。

请注意,您必须就地执行此操作,而无需复制数组。

例如: 输入:nums = [0,1,0,3,12] 输出:[1,3,12,0,0]

GPT-3.5 已完成,Code Llama 未完成 - 3:1

第四个问题

为了完成这个任务,你有一个长长的花坛,其中一些地块种有鲜花,一些地块则没有。

但相邻地块不能种花。 给定一个花坛的 0 和 1 整数数组,其中 0 为空,1 不为空,以及一个整数 n,如果花坛中可以种植 n 朵新花而不违反不相邻花规则,则输出 true,否则,输出为 false。

示例 1:输入: = [1,0,0,0,1], n = 1 输出:true 示例 2:输入: = [1,0,0,0,1], n = 2 输出:false

两个模型均已完成 - 4:2

第五个问题

使用给定输入字符串 s,反转单词的顺序。 单词被定义为非空白字符的序列。 s 中的单词将至少由一个空格分隔。

输出以相反顺序由单个空格连接的单词字符串。 请注意,s 可能在两个单词之间包含前导或尾随空格或多个空格。

返回的字符串应该只有一个空格来分隔单词。 请勿包含任何额外空格。

示例: 输入:s = "the sky is blue" 输出:"blue is sky the"

两种模型均已完成 - 5:3

第六个问题

用于完成此任务,给定一个字符串 s 和一个整数 k,返回 s 中任何长度为 k 的子串中元音的最大数量。

英语中的元音是“a”、“e”、“i”、“o”和“u”。 示例: 输入:s = "", k = 3 输出:2

解释:“lee”、“eet”和“ode”包含 2 个元音。

两个模型均已完成 - 6:4

第七个问题

用于完成此任务,给定一个包含星号 * 的字符串 s。 在一项操作中,您可以: 在 s 中选择星号。

删除其左侧最近的非星号字符,并删除星号本身。 输出删除所有星号后的字符串。 示例: 输入:s = "leet**cod*e" 输出:"lecoe"

GPT-3.5 已完成,但 Code Llama 尚未完成 - 7:4

问题八

用于完成此任务,给定一个表示每日温度的整数温度数组,返回一个数组答案,其中 [i] 是在第 i 天之后您必须等待较温暖温度的天数。

如果将来没有一天这样做,则保留[i] == 0。 示例: 输入:温度 = [73,74,75,71,69,72,76,73] 输出:[1,1,4,2,1,1,0,0]

两个模型均已完成 - 8:5

对于两个模型的性能,该网友认为这并不是严格的研究,而是简单的测试。 每次重新生成模型生成代码,基本上都能得到比较好的答案,但是没有测试。

所以测试的结论并不是最终两个模型的表现。

与 GPT-4 相比,Llama 3 是开源的

自从 Llama 和 Llama 2 开源发布以来,机器学习社区爆发式增长,各种微调模型如雨后春笋般涌现。

据 Meta GenAI 研究员 Jason Wei 介绍,他了解到 Llama 3 和 Llama 4 未来也将开源。

我们拥有训练 Llama 3 和 4 的计算能力。我们的计划是让 Llama-3 与 GPT-4 一样好。 哇,如果 Llama-3 和 GPT-4 一样好,你会开源它吗? 是的,我们会。 对不起,调整人员。

还有网友表示,Meta希望开源一个GPT-5级别的模型,看来在AGI之前就坚持开源了。

我想弄清楚这意味着什么:没有终止开关。

如果出现问题——特工失控,或者坏人使用武器——没有简单的方法可以将其关闭。 它可以在任何小型集群上运行。 根本没有安全感。

安全研究变得毫无意义。

人们为使人工智能系统诚实、一致、道德等所做的所有工作都变得毫无意义。 世界上的人工智能系统将朝着能够产生最大经济效益的系统发展,无论其价值观或动机如何。 没有护栏。 任何人都可以随意改变人工智能的价值观或能力,无论好坏。

如果 Meta 继续开源,而我们得到更智能的人工智能,那么我很清楚事情会变得混乱。 这些外星智慧生物的到来已经让世界变得混乱,但如果我们放弃人类仅有的一点控制权,情况会更糟。

据我所知,Meta对于开源的希望主要源于“开源社区教条”,即“开源就是好的”。 据我所知,直到他们的第一个模型 Llama 意外泄露之前,他们并不是那么支持开源,从那时起他们就一直假装开源。

对此,马斯克表示,然而,使用自回归的LLM的能效极差,不仅在训练方面,而且在推理方面。 我认为它已经偏离了几个数量级。

Llama 2 编码飙升

Llama 2 在各个方面都是一个强大的模型。

然而,它有一个非常明显的弱点——编码能力。

根据 Meta 发表的关于 Llama 2 的论文中的数据,Llama 2 在(评估 LLM 和编码相关基准测试)方面的表现甚至比 GPT-3.5 还差,更不用说比 GPT-4 了差多少了。

原始 Llama 2 论文中的注释图

但代码能力肯定会是未来开源社区使用Llama 2的一个重要方向。 Meta在这方面自然不能差,于是就有了Code Llama,它对代码能力进行了极大的优化。

两天前,Meta正式发布了Code Llama家族:Code Llama(7B、13B和34B),以及3个变体:通用代码模型Code Llama、指令跟随模型Code Llama-和代码特定版本Code Llama-。

这些模型是免费的学术和商业模型,Llama 2 许可证也是如此。

Code Llama 34B模型的代码算力几乎是Llama 2的两倍,大大缩小了与GPT-4的差距。

还记得Code Llama论文中Meta出现的Code Llama,它可以完全均衡GPT-4版本吗?

大佬在博客中解释道:

它是 Code Llama-34B 的微调版本,包含 15,000 条非自然语言指令。

通过在论文中隐藏这样一个非常隐藏的信息,Meta似乎想向开源社区暗示Code Llama有巨大的潜力,所以请微调它!

为什么没有70B Code Llama型号?

有趣的是,Code Llama 只有 7B、13B 和 34B 参数版本,比 Llama 2 少了 70B。

尽管 Meta 没有在论文中解释为什么会出现这种情况,但这家科技巨头提供了两个可能的原因:

1. Code Llama 在 500B 代币上训练,Llama 2 在 2T 代币上训练。

由于Code Llama的训练数据只有Llama 2的1/4,可能是因为训练数据不够,再加上LLM's Laws的限制,性能不佳。

2. Code Llama模型支持100k的上下文大小,这在处理代码任务时非常有用。

相比之下,Llama 2 仅支持最大 4k 的输入长度。 如果70B模型要支持100k个token的输入长度,可能会让模型的计算要求过于夸张。

参考:

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。

相关阅读:

暂无相关信息
  • 网站地图 | 联系我们
  • 声明:这就到-知道你所不知道登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。