Uncharted Territory: 大模型

AI CODING 深度体验

国产模型

Minimax 最佳性价比

对于需要与AI协作的小伙伴(不是fully automated agent),minimax 的 highspeed 套餐强烈推荐,100TPS 稳定输出,效果不打折扣,快速跟随AI思路走一遍,不会让你空等,反而是 AI 需要等你理顺思路,提出有价值的问题。虽然价格贵点,但时间成本体验感值。

对于需要与AI协作的小伙伴(不是fully automated agent),minimax 的 highspeed 套餐强烈推荐,100TPS 稳定输出,效果不打折扣,快速跟随AI思路走一遍,不会让你空等,反而是 AI 需要等你理顺思路,提出有价值的问题。虽然价格贵点,但时间成本体验感值。

QWEN 千问之殇

MINIMAX 执行层很强了,思考能力也在线,也根本用不完,对我来说足够了,唯一缺的是多模态和最强大脑的角色,多模态识图能力就好比长了一双眼睛,对于前端和debug是很有必要的能力,而深度思考最强大脑我想要的是最牛的,毕竟在planner 计划阶段会让你后期少走很多弯路(后面我会专门出一期讲述我的弯路心酸历程)。本来对阿里千问寄予厚望,因为曾经大量用过 Qwen3-Max那时还没有 plan,烧 tokens, 平均 5 元/ 百万,给我感觉不错但是对于现在编程工具动辄千万消耗是真贵,过年新出的Qwen3.5-Plus 多模态了,第一印象很不错。可惜的是千问 coding plan太拉跨,支持模型多,但没一个能打,极其不稳定,接口不能识图要么不能思考,还能中途卡死,3.5的思绪能到处乱飞。联系客服很多次,浪费时间。智谱呢,作为另外一个pillar,一直处于离线状态(买不到),所以就不在考虑范围。

Claude 向反人类 Anti-thropic 低头

今天是订阅百炼coding plan第一个月的最后一天,最终还是开启了 claude code pro 之旅,虽然很反感这家公司,因为未知的因素它存在消费者歧视的问题(consumer discrimination),不知当年百度做了什么,产出了这么一个具有反人类人格的founder,政治因素当然也存在。为了claude, 还花了功夫研究如何不被封号。claude号称地表最强应该不错,虽然usage相比国产模型少,也够我用了,毕竟只是用来做planner & refiner。

题外话

有人用 claude 用出了优越感,然后鄙视一切国产大模型,我觉得大可不必。其实这也是一个普遍的问题,自卑过度自省是这些人的特点,这一点看其他国家没有这样的,印度是另一个方向的极端反例,不行但极度自信;日本人,韩国人,英国人,中东人?也真没见过,说实话我要是看哪个外国人一个劲的贬低自己国家或者民族,我是瞧不起的,当然承认人家更优秀不难,一口气订阅了年费会员,该跪还是得跪。但是自己人怎么能没了志气,成他人威风

开创性的商业计划

再讲回minimax,又上新了,2.5 记得是春节发布的这才 1 个月就,不过看官方介绍2.7是自我进化出的一个版本,没有很大变化。但是套餐的定义从coding plan变成了token plan还是增强了很大的可玩性,以前coding plan我觉得是最实惠的,怎么都用不完,100 次prompt实际是 1500次,可是它只局限于擅长coding的模型,现在全模态模型一个plan都能搞定,我是没见哪家有这么做。也就是说可以上手尝试语音模型,视频模型,图片模型各种场景都能处理,这无疑增添想象空间。

这不是模型价格的问题,而是一个上手体验的问题,你有了更多低成本试错和尝试的空间,也就有了更多想象力。感谢 MINIMAX 搭建的一个可以稳定输出的模型

???坑爹的 Anthropic,商业模式而言Anthropic体现出的吝啬 MEAN 的风格难免让人反感,早有耳闻,使用一周后我深有体会。


多维度对比

compare using experience between claude and minimax, and qwen, 对了还有gemini 3.1pro, 从下面几个方面进行对比

  • TTS,输出速度
  • 输出质量
  • 工具调用(直接决定行为风格)
    • 基础工具
    • 主动调用 skill mcp 的能力
  • 输出风格
  • 语言限制

实践经验 – 工作流迭代

经过 2 个月的深度 AI coding体验,介绍一下自己探索出来的工作流

  • 纯国产模型,依赖 specs 很多,复杂任务很少一步到位
  • 一直需要一个最强大脑


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注