网站地图官方微信:
网站首页 陈咀镇 小将镇 胶州市 新乡市 跳磴镇 石莲镇

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 中科院古脊椎所付巧妹和河北地质大学季强发表顶刊,表明哈尔滨龙人属于丹尼索瓦人,这一发现有什么意义? |

    我说一个有趣的观点,这两篇文章的发表意味着丹尼索瓦人正式获得...

    查看详情>>
  • | Golang vs Rust vs Dlang 哪个更有前途,哪位大牛这 3 门语言都用过? |

  • | 马斯克向特朗普低头认错,后悔攻击特朗普,背后的原因是什么? |

  • | 知乎上有哪些古言甜文? |

  • | 华为官宣鸿蒙 HarmonyOS 5.1 将于 7 月开启升级,对此你怎么看?会选择第一时间升级吗? |

  • | MiniMax 推出全球首个开源大规模混合架构的推理模型 MiniMax-M1,其有何技术优势? |

  • | 如何评价DuckDB? |

  • | 低功耗web服务器 迷你主机 小型服务器 求推荐? |

  • | 如何看待《剑星》已登顶 Steam 全球热销榜? |

  • | cloudflare的1.1.1.1和warp有什么区别? |

  • | duckdb的性能如何? |

  • 推荐开源 Pake Plus,跨平台,支持web,安卓,ma...

    2025-06-20
  • 军校毕业,一女同学托人转告,非我不嫁。 高中时,因为女生太优...

    2025-06-20
  • 找惠普或者戴尔的经销电话,把你的需求和预算告诉他们,再明确告...

    2025-06-20
  • 不应该在乎这些东西,因为你怎么样都有别人攻击你的点,露出内衣...

    2025-06-20

关注我们

添加微信好友,关注最新动态