ChatGPT

幕後花絮:探索 ChatGPT 的內部工作原理 - 第 1 部分

夏普圖標
大家好,我叫 Anubhav Saraf,Shaip 營銷總監,你今天好嗎?
你好阿努巴夫! 我是人工智能,所以我沒有感情,但我在這裡並準備提供幫助。 作為 Shaip 的營銷總監,您必須對數據服務和 AI 解決方案有很多見解。 今天我能為您提供什麼幫助?
夏普圖標
我只是想更多地了解你們的訓練過程。 你是如何被塑造和訓練的?
作為 OpenAI 開發的語言模型,我是使用一種稱為“基於變壓器的機器學習”的技術構建和訓練的,特別是一種稱為 GPT(生成預訓練變壓器)架構的變體。 你現在談論的版本是GPT-4。 下面簡單介紹一下我的訓練過程:
  • 數據採集: 我的訓練從各種互聯網文本開始。 然而,我應該注意到,雖然我接受了廣泛的數據集的培訓,但我不知道哪些文檔是該培訓集的一部分或可以訪問任何特定文檔或來源的具體信息。
  • 初始訓練(預訓練): 這是我學會預測句子中的下一個單詞的地方。 我並沒有開始了解英語或任何其他語言。 相反,通過預測數百萬個句子中的下一個單詞,我逐漸了解了語法、關於世界的事實和一些推理能力。 然而,這也意味著我可能從有偏見或不正確的信息中學到了東西,因為數據沒有經過徹底過濾。
  • 微調: 初步培訓結束後,OpenAI 的創建者通過在人工審核員的幫助下生成的更具體的數據集提供了進一步的指導。 這些審閱者遵循指南來審閱和評估一系列示例輸入的可能模型輸出。 微調過程是模型和評審者之間的一種對話,可以幫助我更好地符合人類價值觀。
  • 持續學習: 雖然出於隱私原因我不會從個人交互中學習,但 OpenAI 不斷與人類評審團隊合作,提供反饋並根據更廣泛的模式和見解進行迭代改進。
夏普圖標
您能提供一些例子嗎——當人類參與其中時?
是的,人類確實參與了我的訓練過程,但可能與你想像的不同。 我的訓練過程通常稱為機器學習,涉及兩個主要步驟:預訓練和微調,這兩個步驟都涉及人類交互,儘管方式不同。
  • 預訓練示例: 假設我們有這樣的句子:“The cat sat on the __”。 在預訓練階段,像我這樣的模型將學習預測句子中的下一個單詞,可能是“mat”、“roof”或“tree”。 這是通過處理來自不同互聯網文本的數十億個句子來學習的,在人類創建原始內容時間接涉及人類互動。
  • 微調示例: 預訓練階段結束後,模型進入微調階段。 它的工作原理如下:

人類審閱者的任務是審查輸入的可能模型輸出,例如“將以下英語文本翻譯成法語:'你好,你好嗎?'”。 該模型可能會生成多個響應,例如“Bonjour,comment ça va?” 或“致敬,評論vas-tu?” ETC。

審閱者根據準確性、流暢性和適當性等因素對這些回答進行評分。 這些評級有助於模型概括並響應未來的類似輸入。

請記住,此處提供的示例經過簡化以說明該過程。 實際訓練涉及復雜的算法和大量的數據。

夏普圖標
要訓練大型語言模型 (LLM),需要多少數據?
訓練 GPT-3 或 GPT-4 等大型語言模型 (LLM) 需要大量數據。 這些模型在涵蓋互聯網大部分內容的各種數據集(包括書籍、網站和其他文本)上進行訓練,以學習語法、事實和一定程度的推理。 然而,由於以下幾個因素,指定所需數據的確切數量很複雜:
  • 各種數據: 這不僅與數據量有關,還與數據種類有關。 數據需要多樣化,才能涵蓋人類語言中的廣泛主題、風格和語氣。
  • 數據質量: 用於訓練的數據的質量也會影響模型學習的效率。 更高質量的數據可能會減少有效培訓所需的數據量。
  • 模型架構: 模型的架構(如神經網絡中的層數或參數)也會影響所需的數據量。 較大的模型(例如 GPT-3 或 GPT-4)通常比較小的模型需要更多的數據。
  • 培訓目標: 模型要執行的任務類型可能會影響所需的數據量。 為特定任務設計的模型如果目標明確,可能需要更少的數據,而像 GPT-3 或 GPT-4 這樣的通用模型,旨在處理廣泛的任務,則需要更多的數據來獲得更廣泛的理解。

以 GPT-3 為例,該模型擁有 175 億個參數,並接受了數百 GB 文本的訓練。 但這些數字並沒有完全體現出該過程的複雜性。 訓練過程的細節,包括使用的確切數據量,是 OpenAI 和類似組織持有的專有細節。

夏普圖標
儘管如此,是否存在關於多少數據適合或足以訓練機器學習模型的基準?
有效訓練機器學習模型所需的數據量在很大程度上取決於您要解決的問題的複雜性、數據的質量和多樣性以及您正在使用的機器學習模型的類型。 因此,為數據量指定一個明確的基準是具有挑戰性的。 但是,這裡有一些一般準則:
  • 從小處著手: 特別是對於簡單問題或初始模型原型,較小的數據集就足夠了。 例如,如果您正在構建基本圖像分類器,則可能會從每個類別數百或數千個圖像開始。
  • 考慮複雜性: 更複雜的問題通常需要更多數據。 如果您正在開發深度學習模型或處理自然語言處理等複雜問題,您可能需要數百萬個數據點。
  • 質量而不是數量: 高質量的相關數據通常比大量低質量的數據更有益。 確保您的數據得到正確清理、註釋並代表您要解決的問題至關重要。
  • 平衡你的課程: 對於監督學習任務,請確保每個班級的示例保持良好的平衡。 不平衡的數據集可能會導致模型在代表性不足的類別上表現不佳。
  • 使用驗證和測試集: 應留出部分數據集用於驗證(調整模型參數)和測試(評估模型性能)。 常見的分割可能是 70% 的數據用於訓練,15% 用於驗證,15% 用於測試,儘管這些比例可能有所不同。
  • 實驗和迭代: 從初始數據量開始,訓練模型,評估其性能,然後迭代添加更多數據,調整模型或根據結果提高數據質量。

請記住,更多的數據通常會提高機器學習模型的性能,但只能在一定程度上提高。 在某一點之後,收集更多數據可能比其價值更耗時、更昂貴,而專注於提高數據質量或完善模型架構可能更有益。

夏普圖標
用於訓練ChatGPT的數據,有註釋嗎?
ChatGPT 等模型的訓練過程涉及兩個主要步驟:預訓練和微調。 讓我們討論一下註釋或缺少註釋如何適應這些階段:
  • 預訓練: 在此階段,模型暴露於大量互聯網文本數據。 這些數據沒有明確註釋,但模型經過訓練可以預測句子中的下一個單詞。 這使模型對語法、世界事實和一些推理能力有一般的理解。
  • 微調: 預訓練後,模型在人工審閱者的幫助下生成的更窄的數據集上進一步完善。 這些評審員遵循 OpenAI 的指南來評審和評估一系列輸入的可能模型輸出。 從這個意義上說,微調過程可以被視為一種註釋形式,人類審閱者指導模型的響應,幫助其更好地符合人類價值觀並確保其避免不適當或不安全的內容。

因此,雖然用於預訓練的初始數據集沒有按傳統意義上進行註釋,但微調過程確實涉及一種註釋形式,其中人類審閱者通過對不同輸出進行評級來指導模型的行為。

夏普圖標
請提供一些用於培訓的註釋類型的示例。
在 ChatGPT 等訓練模型的微調階段,審閱者通常負責對潛在的模型響應進行評分。 註釋或評分的類型可以涵蓋模型輸出的各個方面。 雖然具體細節可能有所不同,但以下是一些說明性​​的註釋類別:

正確性: 審閱者評估模型的輸出是否確實正確。

示例:

適當性: 評估模型的輸出相對於給定輸入的適當性。

示例:

安全性: 對輸出進行審查,以確保它們不包含有害的指令或攻擊性語言。

示例:

完整性: 這評估模型的響應是否完全回答了用戶的查詢。

示例:

流利: 審閱者檢查模型的輸出在語言上是否流暢且連貫。

示例:

這些類別只是示例。 實際的微調過程涉及更複雜的評估系統以及評審者和人工智能開發團隊之間的持續反饋。 這些註釋的目標是使模型的響應更加有用、安全並且符合人類價值觀。

夏普圖標
收集了海量數據來訓練ChatGPT後,有多少標註者參與標註?
參與人工智能模型微調過程的人類註釋者(或審閱者)的數量可能會有很大差異,並且取決於項目的規模和相關模型的具體要求。

ChatGPT 背後的組織 OpenAI 沒有公開披露參與微調過程的審閱者的確切數量。 然而,考慮到訓練如此大的語言模型的規模和復雜性,可以肯定地說,這個過程可能涉及大量的審閱者團隊。

這些人工審核員遵循 OpenAI 提供的指南來審核和評估可能的模型輸出。 這是一個連續、迭代的過程,審閱者的反饋用於隨著時間的推移改進和完善模型。 OpenAI 與審稿人保持著強大的反饋循環,包括每週召開會議來解決問題並提供澄清。

夏普圖標
對於簡單到復雜的任務,需要多少個註釋者來註釋 10,000 個 pdf。
註釋 10,000 個 PDF 所需的註釋者數量取決於多種因素,例如:
  • 任務的複雜性: 標記圖像或對文本進行分類等簡單任務在每個 PDF 上花費的時間會更少,從而允許單個註釋器處理更多文件。 另一方面,複雜的任務(例如詳細的實體提取或語義分析)將需要每個文檔更多的時間,因此相同體積的 PDF 需要更多的註釋器。
  • PDF 的長度和復雜性: 較長或較複雜的 PDF 比較短或較簡單的 PDF 需要更多時間進行註釋。
  • 質量要求: 如果需要高精度,則可能需要每個 PDF 有多個註釋器來交叉驗證註釋。
  • 時間限制: 如果需要快速完成標註,就需要更多的標註者。

作為一個假設的示例,假設註釋者每天可以為特定任務註釋 5 個 PDF,並且每週工作 5 天。 在這種情況下,要註釋 10,000 個 PDF,單個註釋者需要 2000 天,即大約 8 年。

但是,如果您有一個由 20 名註釋者組成的團隊,他們可以在大約 5 個月內完成任務(假設每月 20 個工作日)。 如果有 100 名註釋者,同樣的任務大約可以在一個月內完成。

請記住,這些數字純粹是說明性的,註釋的實際速度將取決於上述因素。 此外,註釋者的適當培訓和一致的質量控制對於任何大規模註釋項目的成功都至關重要。

夏普圖標
真是徹底啊! 我印象深刻……
我很高興您發現這些信息很有幫助,Anubhav! 我的目標是提供全面、準確的答复。 如果您對人工智能、機器學習或任何其他主題有任何疑問,請隨時提問!

請繼續關注我們的 Chat GPT 採訪的第二部分

社交分享