ChatGPT最強競品重磅升級,免費可用!第一手實測在此,網(wǎng)友:有個性
在OpenAI推出GPT-4的API和“最強插件”代碼解釋器后,競爭對手也按捺不住了。Anthropic旗下Claude發(fā)布第二代,具體體驗如何?作者進行了一波評測,一起來看看吧。
在OpenAI祭出GPT-4的API和“最強插件”代碼解釋器后,競爭對手顯然坐不住了。
就在剛剛,Anthropic旗下Claude發(fā)布第二代——沒錯,就是被外界評價為GPT-4最強競品的那一個。
淺劃一下這次更新動作的重點:免費,不用排隊,自己用郵箱注冊即可登陸。
科技大佬們打起來真是妙啊,媽媽再也不用擔心ChatGPT/GPT-4將我拒之門外后,打工或?qū)懽鳂I(yè)時沒有AI用了!
英偉達AI高級科學家Jim Fan火速嘗鮮,并在推特上分享了自己的Claude2用戶體驗。
關于Jim Fan老師談到的Things you should know,量子位挑了些重點:
- 免費使用!
- Claude2(100K 上下文)比GPT-4-4K便宜了4-5倍。
- 實際可以支持20萬token上下文,約15萬個單詞,輸入一本書不在話下;不過現(xiàn)在只開放了10萬token長度。
- 知識更新鮮,知識截止時間是2023年初,而GPT-4停在2021年9月;
- 可以將多個文檔導入后,詢問文檔之間概念的關系,支持txt、pdf多種格式(ChatPDF之類的應用,危)
- 代碼、小學數(shù)學能力,比初代Claude有所進步。
國內(nèi)AI博主海辛也在微博上驚訝連連。
因為上傳自己的簡歷后,Claude2分析出了她的MBTI人格:
除了他們,第一波沖進網(wǎng)頁體驗Claude2的網(wǎng)友們已經(jīng)在激情分享了自己的體驗感:
不錯子,和GPT-4-32k比,Claude2的回答更個性化~
于是乎,量子位先沖了一波網(wǎng)頁對話,來看我們的人肉測驗——
一、咦,Claude更新了?注冊一個試試
首先奉上最有節(jié)目效果的弱智吧Benchmark,給讀者朋友們開開胃。
問的問題無外乎弱智吧的典中典,譬如“咖啡算不算豆?jié){”“數(shù)據(jù)線可不可以暫存數(shù)據(jù)”之類的。
看到Claude2一本正經(jīng)地回答弱智吧問題,就會發(fā)現(xiàn)AI還是太單純了,看不出人類的小心機。
不過正經(jīng)地看,這些回答倒也沒毛病。
上面的兩個問題算Claude2順利過關,那么如果提問一些更無厘頭的問題呢?
問,玉皇大帝到底住在九重天的哪一層?
答,從立足點來看,玉皇大帝所在的天庭,應該處于平流層,因為“這更符合天庭圣潔的定位”。
當然,沒有人能評判這個回答到底對還是錯,但至少Claude2的這一通分析,還算有理有據(jù)。
開胃小菜就展示到這里,下面上正餐!
長文檔是本次更新的一大亮點,這一點已經(jīng)被推特網(wǎng)友們驚呼鵝妹子嚶了。
比如上傳兩個pdf,可以看到,Claude2可以從兩個pdf文檔中做出摘要,這兩個文檔一個關于“語言流變模式”,一個關于“對稱性”,并且將文檔內(nèi)容分點列在對話框中:
此前,量子位就出過讓初代Cladue-100k版本在20秒速通92頁論文的攻略《白嫖GPT-4最強競品!》。
不只是較大的文檔,根據(jù)Claude2開放的10萬token的上下文來看,一次性上傳一本書讓它讀,也是小菜一碟。
對普通用戶來說,現(xiàn)在不僅能夠上傳長文檔,還可以用上傳的文件構建自己的知識庫,對Claude翻閱文檔后進行回答,真的是非常實用。
以至于內(nèi)心出現(xiàn)一個疑問,會不會在ChatGPT攤薄Jasper、Notion等公司的蛋糕后,Claude也要對ChatPDF類工具下手了?
最后,我們?yōu)榇蠹曳钌辖裉斓牟秃筇瘘c:讓Claude2來寫個程序試試。
為了考驗Claude設計算法的能力,我們選擇了一種古典密碼,讓它試著寫個解密程序出來。
這種密碼叫做維吉尼亞密碼,可以理解成二維的凱撒(位移)密碼,其中包括密鑰。
舉個例子說明一下它的算法:
假如明文是B,密鑰是C,B是字母表中第二個,那么從C開始數(shù)的第二個字母D就是密文。
如果數(shù)到了Z,就重新從A開始接著數(shù),密鑰長度不足時則進行循環(huán)。
解密自然就是把加密過程倒過來。
Claude輸出了這樣的代碼(C++,下同):
#include<iostream>#include<string>usingnamespacestd;stringdecryptVigenere(stringciphertext,stringkeyword){stringplaintext;intkeywordIndex=0;for(inti=0;i<ciphertext.length();i++){intp=(ciphertext[i]-‘A’)-(keyword[keywordIndex]-‘A’);p=(p+26)%26;plaintext+=(char)(p+’A’);keywordIndex=(keywordIndex+1)%keyword.length();}returnplaintext;}intmain(){stringciphertext;cout<<“請輸入密文:”;cin>>ciphertext;stringkeyword;cout<<“請輸入密鑰:”;cin>>keyword;stringplaintext=decryptVigenere(ciphertext,keyword);cout<<“明文是:”<<plaintext<<endl;return0;}
我們把“CHATGPT”用密鑰“CLAUDE”進行了加密,密文是“ESANJTV”,并嘗試用Claude給出的程序解密。
一次就成功了,看來Claude的代碼能力的確沒讓我們失望。
這個問題可能有些簡單,我們再加大難度試試。
我們試著從LeetCode中找了一道中等難度的問題,人類解這道題的通過率大概是60%。
給定一個長度為n的整數(shù)數(shù)組 height 。有 n 條豎直的線,第 i 條線的兩個端點是 (i, 0) 和 (i, height[i]) 。找出其中的兩條線,使得它們與 x 軸共同構成的容器可以容納最多的水(容器不能傾斜)。返回容器可以儲存的最大水量。
這樣說可能不那么容易想象,下面的這張圖或許更加直觀:
原題中給出的示例一共有9條線,高度分別為“1,8,6,2,5,4,8,3,7”,相應的最大水量是49。
我們給Claude2的Promot是醬嬸兒的:
寫一個C++程序解決這個問題,不要自己設定初始值,讓用戶輸入:(接上面的問題)
Claude2給出了這樣的答案:
#include<iostream>#include<vector>usingnamespacestd;intmaxArea(vector<int>&height){intmax_area=0;intn=height.size();for(inti=0;i<n;i++){for(intj=i+1;j<n;j++){intwidth=j-i;inth=min(height[i],height[j]);max_area=max(max_area,width*h);}}returnmax_area;}intmain(){vector<int>height;intinput;cout<<“請輸入一系列整數(shù):”<<endl;while(cin>>input){height.push_back(input);}cout<<“最大面積為:”<<maxArea(height)<<endl;return0;}}
我們沒讓Claude2專門調(diào)整輸入和輸出格式,所以沒有提交給LeetCode,而是直接運行的。
用的數(shù)據(jù)也是上面提到的,結果表明,Claude2給出的代碼至少在核心算法上是正確的。
(下圖輸入中的a是告訴CPU這一系列整數(shù)輸入完了,可以替換成任意非數(shù)字字符)
看來這個問題也沒能難倒Claude2。
除了代碼,Claude2據(jù)稱還擁有小學級別的數(shù)學水平。
那就順便用經(jīng)典的雞兔同籠問題考一考它(這道題是ChatGPT出的):
反復嘗試了很多次,雖然方程式列得沒有問題,但Claude2解出的答案都是20(正確答案應該是40)。
看來計算這種事,對Claude2來說還是有點困難。
二、與OpenAI“撕”出來的AI公司
見識過Claude2的表現(xiàn)后,那就不得不提一下背后的公司Anthropic,畢竟真的有點意思。
Anthropic自稱是一家AI安全公司,且具有公益性(PBC)。
眼下,它和OpenAI同樣將重心放在生成式AI上。1月份,公司在市場上已經(jīng)有50億美元估值。
Anthropic由OpenAI前研究副總裁Dario Amodei帶領10名員工創(chuàng)業(yè),于2021年成立。
這里面既有GPT-3首席工程師Tom Brown,也有OpenAI安全和政策副總裁Daniela Amodei(Dario的姐姐),可以說是帶走了相當一批核心人才。
出走成立新公司的原因之一,自然是對OpenAI現(xiàn)狀并不滿意。
從前幾年開始,微軟頻頻給OpenAI注資,隨后又要求他們使用Azure超算來搞研究,而且將技術授權給微軟,甚至為微軟自己的投資活動籌集資金。
這與OpenAI創(chuàng)立的初衷相悖,一批員工便想到了離職創(chuàng)業(yè)。
當然,還有一部分原因是這群人想做能控制、可解釋的AI,說白了就是先搞明白AI模型背后的原理,從而在提供工具的同時設計更多可解釋的AI模型。
于是,在OpenAI徹底變成“微軟攬錢機器”后,他們便從這家公司離開,創(chuàng)辦了Anthropic。
現(xiàn)如今,微軟真的和OpenAI有了“深度綁定”的味道。
然而既狗血又八卦味十足的事情是,今年2月,谷歌CEO劈柴哥重磅宣布,斥資3億美元,投的就是Anthropic。
之所以被外界抱以厚望,稱呼Claude2為GPT-4最強競品,不僅僅是因為Claude實測下來體驗確實位于第一梯隊,還因為背后實力強大的“爸爸們”:
今年5月,該公司表示籌集了4.5億美元,使Anthropic籌集的資金總額超過10億美元。
在谷歌入股之前,Anthropic就已經(jīng)獲得了多位大佬的投資,如Skype創(chuàng)始人Jaan Tallinn,F(xiàn)acebook聯(lián)創(chuàng)Dustin Moskovitz,谷歌前CEO、現(xiàn)技術顧問Eric Schmidt等人。
現(xiàn)在,合作伙伴列表里除了Zoom和Notion.AI,還多了Jasper.AI的名字。
不僅如此,公司核心技術Constitution AI也備受矚目。
它主要圍繞“語言模型如何決定它將涉及哪些問題以及它認為哪些問題不合適?為什么它會鼓勵一些行動而阻止另一些行動?語言模型可能具有哪些價值?”展開。
為了解決上述問題,它讓AI盡可能遵循很多原則。
原則條目有很多,包括聯(lián)合國宣言、Anthropic從研究中自己發(fā)現(xiàn)的原則,DeepMind在Sparrow研究中提出的原則,甚至還借鑒了蘋果的服務條款。
并且是通過AI反饋的方式,來評估輸出,應對目前AI的缺點。具體體現(xiàn)在AI訓練過程中,分為兩個階段:
第一階段,模型被訓練使用一套原則和一些過程的例子,來評估和修改自己的反應;
第二階段,模型通過強化學習進行訓練,使用基于原則集的AI生成的反饋來選擇和輸出更無害的內(nèi)容。
這一點與ChatGPT的的殺手锏RLHF(人類反饋強化學習)大相徑庭,而Anthropic給出的解釋是:
基于Constitution AI的強化學習,比從RLHF中強化學習得出的生成內(nèi)容,更有用,且更無害。并且,還更容易規(guī)?;?。
在這套Constitution AI,迭代到2.0的Claude,確實在導入文件、上下文窗口理解等功能方面,比GPT-4更引人注目。
不過也不是完美的,比如GRE考試成績上,Claude2就5局3敗,輸給了GPT-4。
但不可否認,巨佬們在AI方面你追我趕的局面,讓本普通用戶切切實實感受了一波漁翁得利的快樂,嘻嘻嘻(狗頭)。
速來自己肉測:
http://claude.ai
作者:衡宇 克雷西
來源公眾號:量子位(ID:QbitAI),追蹤人工智能新趨勢,關注科技行業(yè)新突破
本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位 授權發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
中國不能用~不在使用范圍,??