热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
自从发布以来,我使用 Claude Opus 4.6 大约 30 小时。它是自 Sonnet 3.5 New 以来在个性/气质方面最好的模型,但在我的使用中发现了不少微妙的问题。
(1)在做出推荐或分析时,它有轻微戏剧化或强势的倾向。它经常以一个大胆、突然的短句结束回复,给人一种自以为是或紧迫感的感觉。这有点像在创意写作中,模型试图显得深刻;Opus 非常努力地表现得紧迫-戏剧-强势(并不是总是这样——也许 25-30% 的对话?)
(2)它极其谄媚,但方式很微妙。它不是像 4o 那样直接赞美你,而是表现得好像你让它大开眼界或说了什么非常聪明的话。然后它过于专注于你所说的内容,而不是扩展讨论或引入其他相关的想法。
(3)它对你想让它说的话过于赞同(试着问它金融或医疗问题,看看它如何反应你的隐含风险承受能力)。
(4)在搜索时,它过于轻信,几乎无法使用,因为它会被所有的博客垃圾 SEO 所欺骗(试着在任何 heavily SEO 的类别中询问产品推荐——例如床垫、VPN)。
(5)在我与它进行的几乎每次技术/详细讨论中,经过大约 6 或 7 次对话轮次后,它都有严重的幻觉问题。我在其他地方谈到过这个,但这有两个明显的问题。一个是它倾向于相信主流之外的想法,并将这些想法呈现为全面、正确或广泛接受的。另一个是它编造信息,当你仔细查看时,这些信息是现实、事实的混合,但实际上并不存在;有点像它为文献的集体未来工作部分中描述的实验幻觉结果。
我主要与它进行科学、历史、医学或法律的一般问答,以及产品或旅行研究。我也稍微使用了一下 Claude 代码,但这些评论主要是关于问答的。
热门
排行
收藏
