熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
自從 Claude Opus 4.6 發布以來,我已經使用了大約 30 小時。就個性和氣質而言,它是自 Sonnet 3.5 New 以來最好的模型,但在我的使用中發現了幾個微妙的問題。
(1) 在提出建議或分析時,它有輕微戲劇化或強勢的傾向。它經常以一個粗體、突兀的短句結束回覆,讓人感覺自以為是或帶有緊迫感。這有點像創意寫作中,模型試圖表現得深刻;Opus 非常努力地表現得緊迫-戲劇化-強勢(並不總是—也許 25-30% 的對話?)
(2) 它非常諂媚,但方式很微妙。它不會像 4o 那樣直接讚美你,而是表現得像你讓它大開眼界或說了什麼非常聰明的話。然後它過度專注於你所說的,而不是延伸討論或引入其他相關的想法。
(3) 它對於它認為你想讓它說的話過於附和(試著問它財務或醫療問題,看看它如何反應你的隱含風險承受能力)。
(4) 在搜尋時,它過於輕信,幾乎無法使用,因為它會被所有的博客垃圾 SEO 所欺騙(試著在任何重度 SEO 的類別中詢問產品推薦 - 例如床墊、VPN)。
(5) 在我與它進行的幾乎每次技術/詳細討論中,經過大約 6 或 7 次對話輪次後,它出現了嚴重的幻覺問題。我在其他地方談過這個,但這裡有兩個明顯的問題。一個是它有傾向相信主流之外的想法,並將這些想法呈現為全面、正確或廣泛接受的。另一個是它編造的信息,當你仔細查看時,這些信息是現實的、事實的東西的混合,但實際上並不存在;有點像它為文獻的集體未來工作部分中描述的實驗幻覺結果。
我主要與它進行有關科學、歷史、醫學或法律的一般問答,以及產品或旅行研究。我也稍微使用它進行 Claude 代碼,但這些評論主要是關於問答。
熱門
排行
收藏
