從AI小白到大神的7個細節(jié):讓你開竅逆襲
在當今科技界,人工智能無疑是最炙手可熱的話題。然而,這個領域充斥著專業(yè)術語,使得理解每次技術革新的具體內(nèi)容變得頗具挑戰(zhàn)性。為了幫助讀者更好地把握時代脈搏,本文整理了一系列常見的人工智能(AI)術語,并通過簡單的例子和盡可能簡明扼要地解釋,闡述它們的含義及其重要性。
一、人工智能的本質
人工智能,簡稱AI,是一門致力于創(chuàng)造能夠模擬人類思維過程的計算機系統(tǒng)的學科。目前,AI更多地被看作是技術甚至實體,其確切含義頗為模糊,有時也被當作營銷術語使用。
多年來,谷歌一直積極宣傳其在人工智能領域的深入投資。這不僅體現(xiàn)在其眾多產(chǎn)品通過AI技術得到顯著提升,也體現(xiàn)在公司推出的諸如 Gemini 這樣的智能工具上。在這些智能工具背后,是一系列基礎 AI 模型提供動力,例如 OpenAI 開發(fā)的 GPT 模型。同時,Meta 的首席執(zhí)行官馬克·扎克伯格(Mark Zuckerberg)也常將人工智能作為個人聊天機器人的代名詞。
隨著越來越多的企業(yè)將人工智能作為其創(chuàng)新的前沿,他們對這一術語及其相關概念的使用可能會變得更加復雜和多樣化。在閱讀有關人工智能的文章或接觸市場營銷材料時,您可能會遇到許多專業(yè)術語。為了幫助您更清晰地理解這些術語,本文概述了當前人工智能討論中的一些關鍵詞匯,歸根結底,所有這些努力的核心目標都是推動計算機智能的進一步發(fā)展。
請注意,本文僅對人工智能(AI)的術語提供了一個入門級別的概覽。雖然這些術語本身可能涉及復雜的科學原理,但本文的目的是簡化這些概念,使您能夠掌握其核心要點。即使在面對高度技術性的內(nèi)容時,您也能夠輕松地理解并應用這些基礎術語。
二、AI的關鍵術語
1. 機器學習(Machinelearning)
這是一種讓系統(tǒng)在數(shù)據(jù)上進行訓練,從而對新信息做出預測的技術。機器學習是支撐眾多AI技術的基石。通用人工智能(AGI):與人類智能相當或超越人類的 AI。OpenAI 等公司正在大力投資 AGI,但許多人對其潛在風險表示擔憂——想想我們看過的所有關于超級智能機器接管世界的電影!
2. 生成式AI(GenAI)
一種能夠生成新文本、圖像、代碼等的 AI 技術。這類工具通常在大量數(shù)據(jù)上訓練,有時會產(chǎn)生幻覺,即錯誤地編造答案。
3. 幻覺(Hallucinations)
在某些情況下,AI 可能會產(chǎn)生“幻覺”,即它們會自信地構造出看似合理的答案,而這些答案可能并非基于事實。換句話說,這些幻覺(如果我們用更直白的話說,就是無稽之談)可能導致系統(tǒng)犯下事實性錯誤或提供不合邏輯的答復。
關于人工智能的這種幻覺現(xiàn)象是否可以被糾正,學術界和業(yè)界都存在一些爭議。一方面,有人認為通過改進算法和訓練數(shù)據(jù)可以減少幻覺的發(fā)生;另一方面,也有觀點認為,幻覺是AI在嘗試理解復雜問題時不可避免的一部分,需要我們以更開放的心態(tài)來接受和處理。
4. 偏見(Bias)
幻覺并非人工智能領域唯一需要關注的問題。事實上,這一問題的出現(xiàn)并不出人意料,畢竟人工智能系統(tǒng)是由人類設計和編程的。因此,它們可能會在處理數(shù)據(jù)時反映出訓練數(shù)據(jù)中的偏見。例如,麻省理工學院媒體實驗室的杰出計算機科學家喬伊·布蘭維尼(Joy Buolamwini)和分布式人工智能研究所(DAIR)的創(chuàng)始人兼執(zhí)行董事蒂姆尼特·格布魯(Timnit Gebru),在 2018 年共同發(fā)表了一篇具有里程碑意義的論文。這篇論文揭示了面部識別技術在識別深色皮膚女性時,存在顯著的高錯誤率問題。
這一發(fā)現(xiàn)不僅凸顯了人工智能系統(tǒng)中潛在的偏見問題,也引發(fā)了對技術公平性和包容性的重要討論。隨著人工智能技術的不斷發(fā)展和應用,確保其算法的公正性和消除偏見成為了一個亟待解決的全球性挑戰(zhàn)。
三、AI模型的架構
1. AI 模型(AI model)
在數(shù)據(jù)上訓練以執(zhí)行任務或做出決策的系統(tǒng)。
2. 大型語言模型(Large language models, or LLMs)
一種能夠處理和生成自然語言文本的 AI 模型。例如 Anthropic 的 Claude。
3. 擴散模型(Diffusion Models)
訓練這些模型的過程非常獨特,首先向圖像中引入噪聲,例如添加靜態(tài)噪聲,然后通過逆向操作,教會 AI 如何從噪聲中恢復出清晰的圖像。擴散模型的創(chuàng)新之處在于它們能夠模擬從有序到無序再到有序的轉換過程,通過這種方式,AI不僅學會了識別和理解數(shù)據(jù)中的模式,還學會了如何創(chuàng)造新的、有意義的內(nèi)容。
4. 基礎模型(Foundation Models)
這類模型通過在海量數(shù)據(jù)集上進行訓練,從而具備了廣泛的通用性。它們的強大之處在于,無需針對特定任務進行定制化訓練,即可作為多種應用程序的基礎。這一概念是由斯坦福大學的研究人員在 2021 年首次提出。OpenAI 的 GPT、Google 的 Gemini、Meta 的 Llama 以及 Anthropic 的 Claude 等,都是基礎模型的杰出代表。
此外,許多公司正在將他們的人工智能模型作為多模態(tài)模型進行推廣,這些模型不僅能夠處理單一類型的數(shù)據(jù),如文本,還能同時處理圖像、視頻等多種數(shù)據(jù)類型,滿足不同領域和場景的需求。
5. 前沿模型(Frontier Models)
在基礎模型的范疇之外,人工智能領域的探索者們正將目光投向所謂的”前沿模型”。這一術語通常被用作一種營銷策略,指代那些尚未公開發(fā)布的、預計在未來推出的模型。理論上,這些前沿模型在性能和能力上有望遠超當前市場上的人工智能模型,它們代表了技術進步的最前沿。
四、AI的訓練過程
AI 模型的智能并非與生俱來,而是通過訓練獲得的。訓練是一個精心設計的過程,AI 模型通過分析龐大的數(shù)據(jù)集來學習如何以特定的方式理解數(shù)據(jù),從而能夠進行預測和識別模式。例如,大型語言模型通過“閱讀”海量文本進行訓練,這使得像 ChatGPT 這樣的 AI 工具能夠”理解”用戶的查詢,并生成聽起來像人類語言的答案,以解決用戶的問題。
訓練通常需要消耗大量的資源和計算能力,許多公司依賴于高性能的 GPU 來支持這一過程。AI 模型可以處理各種類型的數(shù)據(jù),包括文本、圖像、音樂和視頻等,這些數(shù)據(jù)在邏輯上被稱為訓練數(shù)據(jù)。
參數(shù)是 AI 模型在訓練過程中學習的變量,它們決定了模型如何將輸入轉換為輸出。關于參數(shù)的實質,海倫·托納(Helen Toner)給出了最佳解釋。她是喬治城大學安全與新興技術中心的戰(zhàn)略和基礎研究資助主任,也是前 OpenAI 董事會成員:
“參數(shù)是 AI 模型中的數(shù)字,它們決定了如何將輸入(比如一段提示文本)轉換為輸出(比如提示后的下一個單詞)。’訓練’ AI 模型的過程包括使用數(shù)學優(yōu)化技術反復調整模型的參數(shù)值,直到模型非常擅長將輸入轉換為輸出。”
換句話說,AI 模型的參數(shù)是決定它們提供答案的關鍵因素。有時,公司會強調一個模型擁有的參數(shù)數(shù)量,以此來展示該模型的復雜性和能力。
五、AI的其他重要概念
1. 自然語言處理(NLP)
使機器能夠理解人類語言的技術。OpenAI 的 ChatGPT 就是一個基本示例:它可以理解您的文本查詢并生成文本作為響應。另一個強大的能夠進行 NLP 的工具是 OpenAI 的 Whisper 語音識別技術,據(jù)報道,該公司使用它從超過 100萬小時的 YouTube 視頻中轉錄音頻,以幫助訓練 GPT – 4。推理(Inference):生成式 AI 應用實際生成內(nèi)容的過程。以 ChatGPT 為例,當用戶提出如何制作巧克力曲奇的請求時,AI 能夠通過推理生成并分享食譜。這個過程體現(xiàn)了計算機在執(zhí)行本地人工智能命令時的能力,它不僅僅是簡單的數(shù)據(jù)處理,而是能夠理解、分析并創(chuàng)造性地生成響應。
推理過程是 AI 模型智能的體現(xiàn),它涉及到對輸入數(shù)據(jù)的深入分析,以及對可能的輸出結果的預測和生成。這種能力使得 AI 能夠在各種場景中提供有用的、創(chuàng)造性的解決方案,從而極大地擴展了人工智能的應用范圍和實用性。
2. 標記(Tokens)
“標記”是指文本中的最小單位,它可以是一個單詞、一個詞的一部分,甚至是一個單獨的字符。例如,大型語言模型(LLM)會將輸入的文本分解成這些基本的標記單元,以便進行深入分析。通過這種方式,模型能夠識別和理解標記之間的關系,并據(jù)此生成恰當?shù)捻憫?/p>
模型的”上下文窗口”大小,即它一次能夠處理的標記數(shù)量,是衡量其復雜性和處理能力的關鍵指標。上下文窗口越大,模型能夠考慮的信息就越豐富,從而能夠生成更加復雜和精準的輸出。例如 Kimi 的上下文數(shù)量是 20萬個漢字,其在處理長文本和復雜語境時比其他模型更加合適。
3. 神經(jīng)網(wǎng)絡(Neural Networks)
這是一種模仿人類大腦神經(jīng)元運作方式的計算機架構。神經(jīng)網(wǎng)絡通過連接的節(jié)點處理數(shù)據(jù),這些節(jié)點在功能上與大腦中的神經(jīng)元相似。神經(jīng)網(wǎng)絡對 AI 至關重要,因為它們能夠通過學習來識別和理解復雜的數(shù)據(jù)模式,而無需依賴于傳統(tǒng)的顯式編程。
這種能力使得神經(jīng)網(wǎng)絡在許多領域都顯示出巨大的潛力,例如在醫(yī)療領域,它們可以通過分析大量的醫(yī)療數(shù)據(jù)來學習識別疾病模式,進而輔助醫(yī)生做出更準確的診斷。神經(jīng)網(wǎng)絡的這種自學習能力,不僅提升了人工智能的智能水平,也為解決現(xiàn)實世界中的復雜問題提供了新的可能性。
4. Transformer 架構
Transformer 是一種先進的神經(jīng)網(wǎng)絡架構,它利用”注意力”機制來深入理解序列數(shù)據(jù)中各個部分之間的相互聯(lián)系。這種機制使得 Transformer 能夠捕捉詞與詞之間的細微關系,從而在處理語言和序列預測任務時表現(xiàn)出色。
以亞馬遜的一個實例為例,考慮這樣一個輸入序列:”天空的顏色是什么?”在這個例子中,Transformer 模型通過內(nèi)部的數(shù)學表示,智能地識別出”顏色”、”天空”和”藍色”這些詞匯之間的相關性和聯(lián)系?;谶@種理解,模型能夠生成一個準確的輸出:”天空是藍色的。”
Transformer 不僅在功能上極為強大,其訓練速度也優(yōu)于許多其他類型的神經(jīng)網(wǎng)絡。自從 2017 年谷歌的前員工發(fā)表了開創(chuàng)性的 Transformer 論文以來,這種架構已經(jīng)成為推動生成式人工智能技術發(fā)展的關鍵因素。事實上,”ChatGPT”中的”T”就代表了 Transformer,這表明了它在我們?nèi)粘υ捄徒换ブ械暮诵淖饔谩?/p>
5. RAG 技術
RAG 是”檢索增強的生成”(Retrieval-Augmented Generation)的縮寫,它代表了一種先進的人工智能技術。RAG 允許 AI 模型在生成內(nèi)容時,不僅依賴于其訓練數(shù)據(jù),還能從外部資源中檢索并整合相關信息,從而顯著提升生成內(nèi)容的準確性和可靠性。
例如,當您向一個 AI 聊天機器人提出問題,而該問題超出了它的訓練知識范圍時,傳統(tǒng)模型可能會基于有限的信息產(chǎn)生錯誤的推斷。然而,應用了 RAG 技術的模型能夠主動查詢外部數(shù)據(jù)源,比如互聯(lián)網(wǎng)上的其他網(wǎng)站,以獲取更全面和準確的信息。通過這種方式,RAG 幫助 AI 模型利用最新的數(shù)據(jù)來生成更加精確和有根據(jù)的答案。
六、AI 的硬件基礎
1. 英偉達H100芯片
作為 AI 訓練領域廣受歡迎的圖形處理單元(GPU),H100以其卓越的性能在業(yè)界備受青睞。它被認為在處理 AI 工作負載方面,相較于其他服務器級 AI 芯片具有顯著優(yōu)勢。這種優(yōu)勢使得英偉達在全球范圍內(nèi)對 H100的需求居高不下,進一步鞏固了其作為世界上最有價值的公司之一的地位。
2. 神經(jīng)處理單元(Neural Processing Unit, NPU)
這是一種專為計算機、平板電腦和智能手機等設備設計的專用處理器,它能夠高效地執(zhí)行人工智能推理任務。蘋果公司則使用“神經(jīng)引擎”這一術語來描述類似的技術。與傳統(tǒng)的中央處理單元(CPU)或圖形處理單元(GPU)相比,NPU 在處理各種 AI 驅動的任務時表現(xiàn)出更高的能效比,例如在視頻通話中實現(xiàn)背景虛化功能。
3. TOPS指標
TOPS,即“每秒萬億次操作(Tera Operations Per Second),是一種衡量芯片處理能力的指標。技術供應商經(jīng)常使用這個術語來展示他們的芯片在執(zhí)行人工智能推理任務時的卓越性能。TOPS 數(shù)值越高,表明芯片在處理復雜 AI 算法時的速度和效率越強。
七、AI領域的主要參與者
有許多公司已成為開發(fā)人工智能和人工智能工具的領導者。有些是根深蒂固的科技巨頭,而另一些則是較新的創(chuàng)業(yè)公司。以下是其中的一些參與者:
1. 國外
- OpenAI / ChatGPT:人工智能領域之所以變得如此重要,ChatGPT 功不可沒。這款由 OpenAI 在 2022 年底推出的 AI 聊天機器人迅速走紅,其影響力之大令許多大型科技公司措手不及。如今,幾乎所有科技公司都在積極展示他們在人工智能領域的成就。
- Microsoft / Copilot:微軟正在將其 AI 助手 Copilot 整合到旗下眾多產(chǎn)品中,該助手由 OpenAI 的 GPT 模型提供支持。這家總部位于西雅圖的科技巨頭不僅在產(chǎn)品上與 OpenAI 深度合作,還持有其 49%的股份。
- Google / Gemini:谷歌正致力于通過 Gemini 為其產(chǎn)品注入動力,Gemini 既是谷歌 AI 助手的名稱,也代表了公司開發(fā)的一系列 AI 模型。
- Meta / Llama:Meta 的人工智能研發(fā)聚焦于 Llama 模型,即大型語言模型 Meta AI。與其他科技巨頭的閉源模型不同,Llama 是開源的,這使得它在 AI 領域具有獨特的地位。
- Apple / Apple Intelligence:蘋果在其產(chǎn)品中不斷加入以 AI 為中心的新功能,這些功能在 Apple Intelligence 的框架下進行開發(fā)。值得注意的是,ChatGPT 已被集成到 Siri 中,為用戶帶來全新的智能體驗。
- Anthropic / Claude:Anthropic 是由前 OpenAI 員工創(chuàng)立的 AI 公司,其開發(fā)的 Claude AI 模型備受矚目。亞馬遜已向 Anthropic 投資40億美元,谷歌也投入了數(shù)億美元,并有可能進一步投資 15 億美元。此外,Anthropic 最近聘請了 Instagram 聯(lián)合創(chuàng)始人邁克·克里格擔任首席產(chǎn)品官,這一舉措進一步凸顯了公司在 AI 領域的雄心。
- xAI / Grok:這是埃隆·馬斯克參與的人工智能公司,其開發(fā)的 Grok 作為大型語言模型備受期待。該公司最近完成了 60億美元的融資,顯示出其在 AI 領域的強大潛力。
- Perplexity:Perplexity 是一家以其人工智能驅動的搜索引擎而聞名的公司。然而,該搜索引擎因其數(shù)據(jù)抓取行為而受到一些爭議。
- Hugging Face:作為一個 AI 模型和數(shù)據(jù)集的目錄平臺,Hugging Face 為用戶提供了一個集中的資源庫,以探索和利用各種 AI 技術。
2. 國內(nèi)
- 百度/文心大模型:百度的文心大模型是一系列知識增強型的人工智能模型,旨在為各行各業(yè)的 AI 開發(fā)提供基礎和支持,模型覆蓋了包括自然語言處理(NLP)、計算機視覺(CV)和跨模態(tài)任務等多個AI領域。
- 阿里巴巴/通義大模型:阿里巴巴的通義大模型是阿里巴巴達摩院自主研發(fā)的超大規(guī)模語言模型,其前身為通義千問,后更名為通義,意為“通情,達義”,通義大模型的應用范圍廣泛,已在辦公、文旅、電力、政務、醫(yī)保、交通、制造、金融、軟件開發(fā)等多個領域進行合作和落地。
- 騰訊/混元大模型:混元大模型已經(jīng)與騰訊的多個業(yè)務和產(chǎn)品進行了廣泛的對接和集成,包括騰訊云、騰訊廣告、騰訊游戲、騰訊會議、騰訊文檔、微信搜一搜等超過 50個業(yè)務和產(chǎn)品。騰訊還推出了模型即服務(MaaS)解決方案,企業(yè)可以通過 API 調用混元大模型,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場景構建專屬應用。
- 華為/盤古大模型:盤古大模型具有強大的多模態(tài)能力和復雜邏輯推理能力,盤古大模型 5.0能夠理解包括文本、圖片、視頻、雷達、紅外、遙感等在內(nèi)的多種模態(tài),生成符合物理世界規(guī)律的多模態(tài)內(nèi)容。
- 字節(jié)跳動/豆包大模型:豆包大模型包含多種類型的模型,如通用模型、角色扮演模型、語音識別模型、語音合成模型、聲音復刻模型、文生圖模型等。豆包大模型被應用于字節(jié)跳動內(nèi)部的50多個業(yè)務場景,如抖音、番茄小說、飛書、巨量引擎等,用以提升效率和優(yōu)化產(chǎn)品體驗
- 商湯科技/日日新大模型:商湯的日日新 V5.0大模型在多模態(tài)能力上全面對標 GPT-4 Turbo,性能在多個評測中達到或超越了 GPT-4 Turbo 版本。
- 科大訊飛/星火大模型:這是一個具有強大中文處理能力的認知智能大模型,具備文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力、代碼能力、多模交互等七大核心能力。
本文由 @阿木聊AI(智能體) 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉載
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務
- 目前還沒評論,等你發(fā)揮!