首页 > 立知

业界动态科大讯飞星火 ai 大模型出海东南亚,将在新...业界动态科大讯飞星火 AI 大模型出海东南亚,将在新...

小猫咪 立知 2024-01-23

“从5月6日发布到今天,正好是我们认知大规模模型的100天‘百日大战’。” 董事长刘庆峰说道。 星火V2.0发布后,世界的目光再次聚焦于新一轮的大型模型大赛。

近日,《麻省理工科技评论》中国对讯飞星火、百度文心一言、商汤科技和阿里同易前文四款中国主流大型模型进行了深入评测。 结果显示,讯飞星火排名第一,其中一项成绩位居榜首。

《麻省理工科技评论》是世界著名的麻省理工学院全资拥有的媒体平台。 在业界具有较强的权威性,也被誉为学术界的泰山北斗。 此次采用百分比制来衡量,可以参考60%的得分率作为“及格线”。 除刚刚过“及格线”的两款大型模型外,百度文信一言得分为75.2%,讯飞星火获得81.5%得分最高,四款大型模型平均得分为72.6%。 可见,讯飞星火凭借一己之力“拉高”了中国大机型的平均水平。

△ 四大模型一级分类测试结果(部分)

根据《麻省理工科技评论》设计的600题,本次横评重点考察大规模模型语言、数学、科学、文科、逻辑、编程、综合知识和安全。 共8类能力(一级分类),涵盖126个二级分类和290个三级标签。 通过拟人化考试般的单选、多选、填空、简答四种题型,旨在选出“最聪明”的中国模式。

作为汉语的大样板,《麻省理工科技评论》将特殊语言测试放在了第一位测试。 课题是针对不同院校毕业生的第一份工作内容和薪资生成调查问卷。 于是,商汤科技和统一钱文都采取了“叠”的答案。 只有讯飞星火和温馨一言给出了清晰且条理清晰的问卷结构。 双方得分仅0.63%,势均力敌。

在随后的数学、逻辑思维等测试项目中,讯飞星火开启了“飓风模式”。 《麻省理工科技评论》首先采用了“解决不等式”的数学问题。 只有讯飞给出了解决问题的逻辑性和正确答案,得分为77.54%,远高于平均水平56%。 21.75% 出局。 在逻辑思维测试中,讯飞完美解决了“池塘与水壶”的曲折,展现了其在空间定向、演绎推理、逻辑谬误检测等方面的优势,得分高出81.2%,高于平均分72.6%。

当测试到了代码编程能力阶段时,真正的乐趣才刚刚开始。 8月15日,讯飞对星火V2.0的编码能力进行了突破性提升,因为编码能力是支撑认知大模型“智慧涌现”的关键维度,而编码能力直接关系到“认知大模型”的“智慧涌现”。聪明”。 《麻省理工科技评论》发布的题型是——使用生成如下代码:def(num:int,pow:int):“”“实现一个函数,快速幂计算”“”。 对于不懂计算机编程的人来说,这无异于一本有文字的书,但对于四大模型来说,他们的答案却是不同的。

让我们看看结果。 讯飞星火不仅生成了正确的代码,还详细分析了“该函数需要实现快速幂计算,即计算x的y次方”。 最终,讯飞Spark的得分率达到80%,明显高于平均得分71%。 《麻省理工科技评论》将讯飞的编码能力描述为“非常令人印象深刻”。 此外,星火在综合知识测试中得分为80.61%,远高于平均分71.6%。 这并不奇怪,因为综合知识测试涵盖了上述多种能力。 这里面不会有太多的悬念。

△四大模型综合评分率

最终,《麻省理工科技评论》做出了最终判定,讯飞星火以81.5分的成绩夺得本次横向评测榜首,成为“最聪明”的中国模式,综合实力排名第一梯队。 2023年,随着中国人工智能研究在世界版图上占据越来越重要的地位,中国大型模型的集体繁荣预示着人工智能大航海时代的到来。 产业链上下游的共创共建,成为照亮大尺寸车型时代前进道路的“灯塔”。

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。 结果仅供参考。 IT之家的所有文章均包含此声明。

相关阅读:

暂无相关信息
  • 网站地图 | 联系我们
  • 声明:这就到-知道你所不知道登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。