什麼是「生成式 AI」?

date
Jun 6, 2023
slug
what-is-gen-ai-zh
status
Published
tags
AI
summary
ChatGPT、Midjourney,越來越多以「生成式 AI」為技術基礎的工具出現在人們的視野當中。那麽這些具有神奇力量可以模擬人類的創造力和想像力,創造出新的內容的工具背後的技術到底是什麼?
type
Post
🗨️
本文旨在幫助大家快速了解生成式 AI,所有內容均來自我對 Google Cloud 的課程 「Introduction to Generative AI」所做的筆記,文中配圖均來自 Google
生成式 AI 是一種人工智能技術,可以生成各種類型的內容,例如文本、圖片、聲音或視頻。大家熟知的聊天機器人 ChatGPT 就是利用生成性 AI 模型來根據我們提出的關鍵詞來生成人類可以理解的語言。想要了解什麼是生成式 AI,我們首先先來聊一聊,什麼是 AI(人工智能)?
人工智能是一門學科,就像物理學一樣,它是計算機科學的一個分支。這門學科主要研究智能人工的創建,是能夠推理、學習和自主行動的系統。換句話說, 人工智能學科是一門研究如何建造能夠像人類一樣思考和行動的機器的學科。
在人工智能學科裡,我們有一個子領域「機器學習」。機器學習是一個由輸入數據訓練出來的模型。然後,這個訓練好的模型可以用新的或從未見過、或與訓練數據類似數據進行預測。機器學習最關鍵的特徵是它可以讓計算機在沒有明確編程的情況下學習。
notion image
目前有兩種常見的機器學習模型:無監督學習和監督學習。它們之間的主要區別在於訓練數據是否有標籤。監督模型是在有標籤的數據上訓練的,然後根據數據的標籤來完成預測或分類數據的任務。例如,如果你在經營一下小餐館,並擁有關於帳單金額和小費金額的歷史數據,那麽有監督模型可以中這些帶有標記的數據中學習,根據帳單金額和其他因素來預測未來小費的金額。
notion image
而無監督學習的訓練數據往往是無標記的。所以它往往被用於像分類或基於固定模式的數據分組的任務。例如,你有一家公司的員工收入和工齡數據,你想看看是否有任何基於工齡和收入等因素的自然分類(例如收入高的人是否年齡都很大?工齡長的員工是否都是男性?),那無監督學習就是你最好的工具之一。
理解這些基本概念對於理解生成式 AI 至關重要。在監督學習中,模型接受輸入數據(X)並根據模型預測出輸出值(Y)。這種模型使用已有的數據進行訓練,其目標是最小化預測值與實際值之間的誤差。這個過程中,AI 工程師會用很多不同的優化技術來減少這個誤差。
notion image
notion image
除了監督學習和無監督學習,機器學習的另一種方法是「深度學習」。深度學習是一種使用人工神經網路來訓練並預測值的機器學習方法。這種人工神經網路顧名思義受到人類大腦神經系統的啟發,由相互連結的節點和神經元組成。深度學習模型往往擁有很多層的神經元,使其能夠學習比傳統機器學習模型更複雜的模式。
notion image
深度學習的神經網路可以使用標記和無標記的數據進行訓練,所以是一種半監督學習的方法。在這種方法中,神經網路在少量有標記的數據和大量無標記的數據上進行訓練。有標記的數據可以幫助人工神經網路了解學習任務的基本概念,而無標記的數據則有助於人工聖經網路對新數據進行泛化。
而我們的主角,生成式 AI 則是深度學習的一個分支,它利用人工神經網路來學習現有內容,學習知識,然後產生新的內容。它的訓練方式非常廣泛,可以使用監督、非監督或半監督的方法來處理有標記或無標記的數據。
notion image
現在讓我們正式進入主題,什麼是生成式人工智能(Generative AI)?
生成式 AI 是一種基於已有內容學習的人工智能,通過現有內容進行訓練來生成新的內容。這種訓練最終會創建一個統計模型,當給定一個提示時,生成式 AI 會使用這個模型來預測可能的回應,並生成新的內容。生成式 AI 在訓練過程中會學習數據的基本結構,然後獲得生成類似於這些訓練數據的新樣本的能力。
如 Chat GPT 之類的聊天機器人通常會使用生成式 AI 的一種類型 —— 大型語言模型(Large Language Model)來生成自然語言。生成式 AI 的另一種模型時生成式圖像模型。這種模型可以以圖像作為輸入,然後輸出文本、另一個圖像或視頻。例如,在輸出文本的情況下,用戶可以獲得視覺問答;在輸出圖像的情況下,用戶可以獲得新生成的圖像;在輸出視頻的情況下,用戶可以獲得生成的動畫。
notion image
以 LLM 為代表的生成式語言模型可以以文本作為輸出,並輸出文本、圖像、音頻或決策。這是一種預測模型,用戶給定一些文本,它會預測接下來會出現什麼,因側生成式語言模型是一種模式匹配系統,它給予我們提供的數據來學習模式。例如,當用戶使用 Google Bard(與 ChatGPT 相似的聊天機器人)時,Bard 會預測接下來可能會出現的所有文本,並結合 LLM 輸出用戶可以理解的自然語言。
notion image
notion image
notion image
那到底是什麼造就了生成式 AI 如此強大的能力?答案是 Transformer。Transformer 在 2018 年在自然語言處理領域大放異彩,這種以編碼器和解碼器組成的工具可以將輸入序列進行編碼並傳遞給解碼器,解碼器則可以學習如何解碼相關任務。但 Transformer 就像人類一樣也有弱點,「幻覺」(Hallucination)就是其中一個最致命弱點。幻覺,顧名思義,是指人工智能的自信反應,這種反應可能會讓人工智能輸出看起來是正確但本質上是錯誤的結果。(例如 ChatGPT 會捏造很多不實或根本不存在的信息)幻覺可能由多種因素引起,包括模型訓練的數據不足、訓練數據集帶有噪聲或錯誤、又或者模型沒有足夠的上下文或約束等。
notion image
接下來我們談談我們如何使用生成式 AI。「提示」(Prompt)是作為輸入給 LLM 的短文本片段,它可以以多種方式來控制模型的輸出。例如,你告訴 ChatGPT 「你是一名專業的記者,幫我寫一篇...」,其中「專業的記者」就是你輸入給它的提示,就好比你想要讓某人幫你做什麼事,你需要告訴他這件事是什麼或需要以什麼身分來做這件事。好的提示設計可以讓生成式 AI 更高效的輸出你想要的結果。
notion image
那麽現在的生成式 AI 具有什麼樣的能力?有哪些不同的模型類型?下面是相關的模型類型:
  • 文本到文本(text-to-text):將自然語言輸入,模型輸出文本。這些模型往往經過訓練,學習了不同類型文本之間的映射關係。例如,從另一種語言翻譯到另一種語言。
    • notion image
  • 文本到圖像(text-to-image):這些模型往往在大量圖像集上進行訓練,從而了解這種圖像的特點。然後通過輸入文本來逆向輸出想要的圖像。例如我們用大量寵物狗的照片訓練模型,然後可以要求它生成一個新的寵物狗的圖片。
    • notion image
  • 文本到視頻(text-to-video):這種模型旨在根據文本的輸入來生成視頻。文本可以是從單個句子到完整腳本的任何內容。
  • 文本到三維(text-to-3D):和文本到視頻模型類似,這種模型可以通過用戶的文本描述來生成相應的三維對象。可以應用來遊戲或其他三維世界中。
    • notion image
  • 文本到任務(text-to-task):這種模型往往經過專門的訓練,用來完成特定的任務或者操作。這些任務可能是各種行為,例如回答問題、進行搜索、進行預測或採取特定的行動。
    • notion image
現在,你已經基本了解了生成式 AI 的定義、用途和它的不同模型類型。
notion image
 

© Vince Bat 2023 - 2025