业界动态科大讯飞星火 ai 大模型出海东南亚,将在新...业界动态科大讯飞星火 AI 大模型出海东南亚，将在新...

小猫咪立知 2024-01-23

“从5月6日发布到今天，正好是我们认知大规模模型的100天‘百日大战’。” 董事长刘庆峰说道。星火V2.0发布后，世界的目光再次聚焦于新一轮的大型模型大赛。

近日，《麻省理工科技评论》中国对讯飞星火、百度文心一言、商汤科技和阿里同易前文四款中国主流大型模型进行了深入评测。结果显示，讯飞星火排名第一，其中一项成绩位居榜首。

《麻省理工科技评论》是世界著名的麻省理工学院全资拥有的媒体平台。在业界具有较强的权威性，也被誉为学术界的泰山北斗。此次采用百分比制来衡量，可以参考60%的得分率作为“及格线”。除刚刚过“及格线”的两款大型模型外，百度文信一言得分为75.2%，讯飞星火获得81.5%得分最高，四款大型模型平均得分为72.6%。可见，讯飞星火凭借一己之力“拉高”了中国大机型的平均水平。

△ 四大模型一级分类测试结果（部分）

根据《麻省理工科技评论》设计的600题，本次横评重点考察大规模模型语言、数学、科学、文科、逻辑、编程、综合知识和安全。共8类能力（一级分类），涵盖126个二级分类和290个三级标签。通过拟人化考试般的单选、多选、填空、简答四种题型，旨在选出“最聪明”的中国模式。

作为汉语的大样板，《麻省理工科技评论》将特殊语言测试放在了第一位测试。课题是针对不同院校毕业生的第一份工作内容和薪资生成调查问卷。于是，商汤科技和统一钱文都采取了“叠”的答案。只有讯飞星火和温馨一言给出了清晰且条理清晰的问卷结构。双方得分仅0.63%，势均力敌。

在随后的数学、逻辑思维等测试项目中，讯飞星火开启了“飓风模式”。《麻省理工科技评论》首先采用了“解决不等式”的数学问题。只有讯飞给出了解决问题的逻辑性和正确答案，得分为77.54%，远高于平均水平56%。 21.75% 出局。在逻辑思维测试中，讯飞完美解决了“池塘与水壶”的曲折，展现了其在空间定向、演绎推理、逻辑谬误检测等方面的优势，得分高出81.2%，高于平均分72.6%。

当测试到了代码编程能力阶段时，真正的乐趣才刚刚开始。 8月15日，讯飞对星火V2.0的编码能力进行了突破性提升，因为编码能力是支撑认知大模型“智慧涌现”的关键维度，而编码能力直接关系到“认知大模型”的“智慧涌现”。聪明”。《麻省理工科技评论》发布的题型是——使用生成如下代码：def(num:int,pow:int):“”“实现一个函数，快速幂计算”“”。对于不懂计算机编程的人来说，这无异于一本有文字的书，但对于四大模型来说，他们的答案却是不同的。

让我们看看结果。讯飞星火不仅生成了正确的代码，还详细分析了“该函数需要实现快速幂计算，即计算x的y次方”。最终，讯飞Spark的得分率达到80%，明显高于平均得分71%。《麻省理工科技评论》将讯飞的编码能力描述为“非常令人印象深刻”。此外，星火在综合知识测试中得分为80.61%，远高于平均分71.6%。这并不奇怪，因为综合知识测试涵盖了上述多种能力。这里面不会有太多的悬念。

△四大模型综合评分率

最终，《麻省理工科技评论》做出了最终判定，讯飞星火以81.5分的成绩夺得本次横向评测榜首，成为“最聪明”的中国模式，综合实力排名第一梯队。 2023年，随着中国人工智能研究在世界版图上占据越来越重要的地位，中国大型模型的集体繁荣预示着人工智能大航海时代的到来。产业链上下游的共创共建，成为照亮大尺寸车型时代前进道路的“灯塔”。

广告声明：文章中包含的外部跳转链接（包括但不限于超链接、二维码、密码等）用于传达更多信息，节省选择时间。结果仅供参考。 IT之家的所有文章均包含此声明。

业界动态科大讯飞星火 ai 大模型出海东南亚,将在新...业界动态科大讯飞星火 AI 大模型出海东南亚，将在新...

相关阅读:

热门信息

热门文章

最近发表

业界动态科大讯飞星火 ai 大模型出海东南亚,将在新...业界动态科大讯飞星火 AI 大模型出海东南亚，将在新...

相关阅读:

猜您喜欢

热门信息

热门文章

最近发表