ChatGPT最強競品重磅升級,免費可用!第一手實測在此,網(wǎng)友:有個性

1 評論 2499 瀏覽 3 收藏 17 分鐘

在OpenAI推出GPT-4的API和“最強插件”代碼解釋器后,競爭對手也按捺不住了。Anthropic旗下Claude發(fā)布第二代,具體體驗如何?作者進行了一波評測,一起來看看吧。

在OpenAI祭出GPT-4的API和“最強插件”代碼解釋器后,競爭對手顯然坐不住了。

就在剛剛,Anthropic旗下Claude發(fā)布第二代——沒錯,就是被外界評價為GPT-4最強競品的那一個。

淺劃一下這次更新動作的重點:免費,不用排隊,自己用郵箱注冊即可登陸。

科技大佬們打起來真是妙啊,媽媽再也不用擔心ChatGPT/GPT-4將我拒之門外后,打工或?qū)懽鳂I(yè)時沒有AI用了!

英偉達AI高級科學家Jim Fan火速嘗鮮,并在推特上分享了自己的Claude2用戶體驗。

關于Jim Fan老師談到的Things you should know,量子位挑了些重點:

  • 免費使用!
  • Claude2(100K 上下文)比GPT-4-4K便宜了4-5倍
  • 實際可以支持20萬token上下文,約15萬個單詞,輸入一本書不在話下;不過現(xiàn)在只開放了10萬token長度
  • 知識更新鮮,知識截止時間是2023年初,而GPT-4停在2021年9月;
  • 可以將多個文檔導入后,詢問文檔之間概念的關系,支持txt、pdf多種格式(ChatPDF之類的應用,危)
  • 代碼、小學數(shù)學能力,比初代Claude有所進步。

國內(nèi)AI博主海辛也在微博上驚訝連連。

因為上傳自己的簡歷后,Claude2分析出了她的MBTI人格

除了他們,第一波沖進網(wǎng)頁體驗Claude2的網(wǎng)友們已經(jīng)在激情分享了自己的體驗感:

不錯子,和GPT-4-32k比,Claude2的回答更個性化~

于是乎,量子位先沖了一波網(wǎng)頁對話,來看我們的人肉測驗——

一、咦,Claude更新了?注冊一個試試

首先奉上最有節(jié)目效果的弱智吧Benchmark,給讀者朋友們開開胃。

問的問題無外乎弱智吧的典中典,譬如“咖啡算不算豆?jié){”“數(shù)據(jù)線可不可以暫存數(shù)據(jù)”之類的。

看到Claude2一本正經(jīng)地回答弱智吧問題,就會發(fā)現(xiàn)AI還是太單純了,看不出人類的小心機。

不過正經(jīng)地看,這些回答倒也沒毛病。

上面的兩個問題算Claude2順利過關,那么如果提問一些更無厘頭的問題呢?

問,玉皇大帝到底住在九重天的哪一層?

答,從立足點來看,玉皇大帝所在的天庭,應該處于平流層,因為“這更符合天庭圣潔的定位”。

當然,沒有人能評判這個回答到底對還是錯,但至少Claude2的這一通分析,還算有理有據(jù)。

開胃小菜就展示到這里,下面上正餐!

長文檔是本次更新的一大亮點,這一點已經(jīng)被推特網(wǎng)友們驚呼鵝妹子嚶了。

比如上傳兩個pdf,可以看到,Claude2可以從兩個pdf文檔中做出摘要,這兩個文檔一個關于“語言流變模式”,一個關于“對稱性”,并且將文檔內(nèi)容分點列在對話框中:

此前,量子位就出過讓初代Cladue-100k版本在20秒速通92頁論文的攻略《白嫖GPT-4最強競品!》。

不只是較大的文檔,根據(jù)Claude2開放的10萬token的上下文來看,一次性上傳一本書讓它讀,也是小菜一碟。

對普通用戶來說,現(xiàn)在不僅能夠上傳長文檔,還可以用上傳的文件構建自己的知識庫,對Claude翻閱文檔后進行回答,真的是非常實用。

以至于內(nèi)心出現(xiàn)一個疑問,會不會在ChatGPT攤薄Jasper、Notion等公司的蛋糕后,Claude也要對ChatPDF類工具下手了?

最后,我們?yōu)榇蠹曳钌辖裉斓牟秃筇瘘c:讓Claude2來寫個程序試試。

為了考驗Claude設計算法的能力,我們選擇了一種古典密碼,讓它試著寫個解密程序出來。

這種密碼叫做維吉尼亞密碼,可以理解成二維的凱撒(位移)密碼,其中包括密鑰。

舉個例子說明一下它的算法:

假如明文是B,密鑰是C,B是字母表中第二個,那么從C開始數(shù)的第二個字母D就是密文。

如果數(shù)到了Z,就重新從A開始接著數(shù),密鑰長度不足時則進行循環(huán)。

解密自然就是把加密過程倒過來。

Claude輸出了這樣的代碼(C++,下同):

#include<iostream>#include<string>usingnamespacestd;stringdecryptVigenere(stringciphertext,stringkeyword){stringplaintext;intkeywordIndex=0;for(inti=0;i<ciphertext.length();i++){intp=(ciphertext[i]-‘A’)-(keyword[keywordIndex]-‘A’);p=(p+26)%26;plaintext+=(char)(p+’A’);keywordIndex=(keywordIndex+1)%keyword.length();}returnplaintext;}intmain(){stringciphertext;cout<<“請輸入密文:”;cin>>ciphertext;stringkeyword;cout<<“請輸入密鑰:”;cin>>keyword;stringplaintext=decryptVigenere(ciphertext,keyword);cout<<“明文是:”<<plaintext<<endl;return0;}

我們把“CHATGPT”用密鑰“CLAUDE”進行了加密,密文是“ESANJTV”,并嘗試用Claude給出的程序解密。

一次就成功了,看來Claude的代碼能力的確沒讓我們失望。

這個問題可能有些簡單,我們再加大難度試試。

我們試著從LeetCode中找了一道中等難度的問題,人類解這道題的通過率大概是60%。

給定一個長度為n的整數(shù)數(shù)組 height 。有 n 條豎直的線,第 i 條線的兩個端點是 (i, 0) 和 (i, height[i]) 。找出其中的兩條線,使得它們與 x 軸共同構成的容器可以容納最多的水(容器不能傾斜)。返回容器可以儲存的最大水量。

這樣說可能不那么容易想象,下面的這張圖或許更加直觀:

原題中給出的示例一共有9條線,高度分別為“1,8,6,2,5,4,8,3,7”,相應的最大水量是49。

我們給Claude2的Promot是醬嬸兒的:

寫一個C++程序解決這個問題,不要自己設定初始值,讓用戶輸入:(接上面的問題)

Claude2給出了這樣的答案:

#include<iostream>#include<vector>usingnamespacestd;intmaxArea(vector<int>&height){intmax_area=0;intn=height.size();for(inti=0;i<n;i++){for(intj=i+1;j<n;j++){intwidth=j-i;inth=min(height[i],height[j]);max_area=max(max_area,width*h);}}returnmax_area;}intmain(){vector<int>height;intinput;cout<<“請輸入一系列整數(shù):”<<endl;while(cin>>input){height.push_back(input);}cout<<“最大面積為:”<<maxArea(height)<<endl;return0;}}

我們沒讓Claude2專門調(diào)整輸入和輸出格式,所以沒有提交給LeetCode,而是直接運行的。

用的數(shù)據(jù)也是上面提到的,結果表明,Claude2給出的代碼至少在核心算法上是正確的。

(下圖輸入中的a是告訴CPU這一系列整數(shù)輸入完了,可以替換成任意非數(shù)字字符)

看來這個問題也沒能難倒Claude2。

除了代碼,Claude2據(jù)稱還擁有小學級別的數(shù)學水平。

那就順便用經(jīng)典的雞兔同籠問題考一考它(這道題是ChatGPT出的):

反復嘗試了很多次,雖然方程式列得沒有問題,但Claude2解出的答案都是20(正確答案應該是40)。

看來計算這種事,對Claude2來說還是有點困難。

二、與OpenAI“撕”出來的AI公司

見識過Claude2的表現(xiàn)后,那就不得不提一下背后的公司Anthropic,畢竟真的有點意思。

Anthropic自稱是一家AI安全公司,且具有公益性(PBC)。

眼下,它和OpenAI同樣將重心放在生成式AI上。1月份,公司在市場上已經(jīng)有50億美元估值。

Anthropic由OpenAI前研究副總裁Dario Amodei帶領10名員工創(chuàng)業(yè),于2021年成立。

這里面既有GPT-3首席工程師Tom Brown,也有OpenAI安全和政策副總裁Daniela Amodei(Dario的姐姐),可以說是帶走了相當一批核心人才。

出走成立新公司的原因之一,自然是對OpenAI現(xiàn)狀并不滿意。

從前幾年開始,微軟頻頻給OpenAI注資,隨后又要求他們使用Azure超算來搞研究,而且將技術授權給微軟,甚至為微軟自己的投資活動籌集資金。

這與OpenAI創(chuàng)立的初衷相悖,一批員工便想到了離職創(chuàng)業(yè)。

當然,還有一部分原因是這群人想做能控制、可解釋的AI,說白了就是先搞明白AI模型背后的原理,從而在提供工具的同時設計更多可解釋的AI模型。

于是,在OpenAI徹底變成“微軟攬錢機器”后,他們便從這家公司離開,創(chuàng)辦了Anthropic。

現(xiàn)如今,微軟真的和OpenAI有了“深度綁定”的味道。

然而既狗血又八卦味十足的事情是,今年2月,谷歌CEO劈柴哥重磅宣布,斥資3億美元,投的就是Anthropic。

之所以被外界抱以厚望,稱呼Claude2為GPT-4最強競品,不僅僅是因為Claude實測下來體驗確實位于第一梯隊,還因為背后實力強大的“爸爸們”:

今年5月,該公司表示籌集了4.5億美元,使Anthropic籌集的資金總額超過10億美元。

在谷歌入股之前,Anthropic就已經(jīng)獲得了多位大佬的投資,如Skype創(chuàng)始人Jaan Tallinn,F(xiàn)acebook聯(lián)創(chuàng)Dustin Moskovitz,谷歌前CEO、現(xiàn)技術顧問Eric Schmidt等人。

現(xiàn)在,合作伙伴列表里除了Zoom和Notion.AI,還多了Jasper.AI的名字。

不僅如此,公司核心技術Constitution AI也備受矚目。

它主要圍繞“語言模型如何決定它將涉及哪些問題以及它認為哪些問題不合適?為什么它會鼓勵一些行動而阻止另一些行動?語言模型可能具有哪些價值?”展開。

為了解決上述問題,它讓AI盡可能遵循很多原則。

原則條目有很多,包括聯(lián)合國宣言、Anthropic從研究中自己發(fā)現(xiàn)的原則,DeepMind在Sparrow研究中提出的原則,甚至還借鑒了蘋果的服務條款。

并且是通過AI反饋的方式,來評估輸出,應對目前AI的缺點。具體體現(xiàn)在AI訓練過程中,分為兩個階段:

第一階段,模型被訓練使用一套原則和一些過程的例子,來評估和修改自己的反應;

第二階段,模型通過強化學習進行訓練,使用基于原則集的AI生成的反饋來選擇和輸出更無害的內(nèi)容。

這一點與ChatGPT的的殺手锏RLHF(人類反饋強化學習)大相徑庭,而Anthropic給出的解釋是:

基于Constitution AI的強化學習,比從RLHF中強化學習得出的生成內(nèi)容,更有用,且更無害。并且,還更容易規(guī)?;?。

在這套Constitution AI,迭代到2.0的Claude,確實在導入文件、上下文窗口理解等功能方面,比GPT-4更引人注目。

不過也不是完美的,比如GRE考試成績上,Claude2就5局3敗,輸給了GPT-4。

但不可否認,巨佬們在AI方面你追我趕的局面,讓本普通用戶切切實實感受了一波漁翁得利的快樂,嘻嘻嘻(狗頭)。

速來自己肉測:

http://claude.ai

作者:衡宇 克雷西

來源公眾號:量子位(ID:QbitAI),追蹤人工智能新趨勢,關注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位 授權發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 中國不能用~不在使用范圍,??

    來自北京 回復