這個說法很有趣,也確實引起了廣泛的討論。根據(jù)2023年10月OpenAI發(fā)布的一份內(nèi)部測試報告,結(jié)果確實顯示"Anthropic開發(fā)的AI模型Claude在“指令遵循能力”(Instruction Following)方面超過了OpenAI的ChatGPT"。
這并不是說Claude在所有方面都比ChatGPT強,或者它是一個完美的AI,而是特指在理解和執(zhí)行復(fù)雜指令方面的能力上,Claude在這次特定的、由OpenAI進行的內(nèi)部測試中表現(xiàn)更優(yōu)。
"需要強調(diào)幾點:"
1. "測試的特定性:" 這只是OpenAI內(nèi)部進行的一次測試,測試的側(cè)重點和范圍是有限的,不能完全代表AI能力的全部。
2. "“最強”的定義:" “最強”是一個很主觀的概念。在不同的任務(wù)、不同的評估標準下,結(jié)果可能會完全不同。例如,在創(chuàng)造力、代碼生成、知識廣度等方面,ChatGPT目前仍然具有很強的競爭力。
3. "AI發(fā)展的快速性:" AI領(lǐng)域發(fā)展日新月異,今天的測試結(jié)果不代表明天的情況。各個公司都在快速迭代和改進他們的模型。
4. "測試的目的:" OpenAI進行這樣的測試,可能也是為了更客觀地了解競爭對手,促進自身模型的進步,而不是單純地為了證明誰“最強”。
"總結(jié)來說:"
OpenAI的內(nèi)部測試確實顯示了Claude在指令遵循方面表現(xiàn)優(yōu)異,超越了ChatGPT。但這更像是一個技術(shù)指標
相關(guān)內(nèi)容:
Claude把GPT-5按在地上摩擦,OpenAI自己蓋章認證。
GDPval榜單剛放出來,圍觀群眾全傻眼:第一名不是親兒子GPT-5,而是Anthropic家的ClaudeOpus 4.1,勝率47.6%,直接甩開GPT-5八個身位。

測試任務(wù)很現(xiàn)實:44種高薪工種,3萬億美元年產(chǎn)值,做PPT、寫財報、給病人排診療方案,全是老板明天就要的急活。
人類專家當裁判,誰做得快、做得順眼、做得不用返工,誰拿高分。

Claude贏在外觀。
一份路演PPT,它自動把圖表顏色調(diào)成客戶品牌色,字體間距像專業(yè)設(shè)計師手調(diào),評委順手就給過。

GPT-5輸在內(nèi)斂,數(shù)據(jù)再準,頁面丑,照樣被打回重做。
OpenAI研究員在報告末尾補了一句:GPT-5準確率更高,但市場首先為顏值買單。

話很委婉,翻譯過來就是——用戶懶得看細節(jié),先看順眼程度。
Anthropic工程師后來透露,他們在訓(xùn)練里塞了120萬份高分簡歷、融資BP、品牌手冊,讓模型把排版刻進骨頭。

GPT系列喂的是論文和代碼,天生對對齊像素點沒興趣。
微軟動作最快,已經(jīng)悄悄把Claude塞進PowerPoint Designer。

下個月更新完,Office用戶點一下,Claude幫你把滿頁文字變成高顏值圖示,GPT-5負責(zé)藏在后臺查錯。
兩套模型一起打工,費用卻按一份收,微軟算盤打得精。

有人高興就有人慌。
自由接單做PPT的設(shè)計師,單價從一頁200跌到80,客戶直接甩AI圖:照這個抄,今晚給我。

再不做模板庫,你會損失整月訂單;不懂這招,下一個被替代的就是你。
榜單之外,GDPval也被扒皮:只測美國44種職業(yè),一次交稿完事,沒給修改機會。

真實職場要來回溝通、拉群開會、背鍋改稿,AI能不能扛住還得打問號。
MIT實驗室連夜補測,讓模型多輪返工,Claude勝率跌到39%,GPT-5升到42%。

結(jié)論簡單:一次出圖Claude封神,長期迭代GPT-5更穩(wěn)。
選誰,看你公司節(jié)奏。

短期靠顏值吃飯的人,先把Claude模板抄走,無腦復(fù)制,明天就用這三句話:標題用無襯線,色塊用品牌色,留白別手軟。
長期靠精度吃飯的人,把GPT-5接進后臺,數(shù)據(jù)讓它算,錯一個標點都算我輸。

AI圈沒有永遠的王,只有不斷換座的客人。
今天Claude坐上頭把交椅,明天GPT-5帶新皮膚殺回來。
唯一確定的是,還在手動改格式的打工人,時間窗口真的不多了。

微信掃一掃打賞
支付寶掃一掃打賞