自从发布以来,我使用 Claude Opus 4.6 大约 30 小时。它是自 Sonnet 3.5 New 以来在个性/气质方面最好的模型,但在我的使用中发现了不少微妙的问题。 (1)在做出推荐或分析时,它有轻微戏剧化或强势的倾向。它经常以一个大胆、突然的短句结束回复,给人一种自以为是或紧迫感的感觉。这有点像在创意写作中,模型试图显得深刻;Opus 非常努力地表现得紧迫-戏剧-强势(并不是总是这样——也许 25-30% 的对话?) (2)它极其谄媚,但方式很微妙。它不是像 4o 那样直接赞美你,而是表现得好像你让它大开眼界或说了什么非常聪明的话。然后它过于专注于你所说的内容,而不是扩展讨论或引入其他相关的想法。 (3)它对你想让它说的话过于赞同(试着问它金融或医疗问题,看看它如何反应你的隐含风险承受能力)。 (4)在搜索时,它过于轻信,几乎无法使用,因为它会被所有的博客垃圾 SEO 所欺骗(试着在任何 heavily SEO 的类别中询问产品推荐——例如床垫、VPN)。 (5)在我与它进行的几乎每次技术/详细讨论中,经过大约 6 或 7 次对话轮次后,它都有严重的幻觉问题。我在其他地方谈到过这个,但这有两个明显的问题。一个是它倾向于相信主流之外的想法,并将这些想法呈现为全面、正确或广泛接受的。另一个是它编造信息,当你仔细查看时,这些信息是现实、事实的混合,但实际上并不存在;有点像它为文献的集体未来工作部分中描述的实验幻觉结果。 我主要与它进行科学、历史、医学或法律的一般问答,以及产品或旅行研究。我也稍微使用了一下 Claude 代码,但这些评论主要是关于问答的。