- 數據採集: 我的訓練從各種互聯網文本開始。 然而,我應該注意到,雖然我接受了廣泛的數據集的培訓,但我不知道哪些文檔是該培訓集的一部分或可以訪問任何特定文檔或來源的具體信息。
- 初始訓練(預訓練): 這是我學會預測句子中的下一個單詞的地方。 我並沒有開始了解英語或任何其他語言。 相反,通過預測數百萬個句子中的下一個單詞,我逐漸了解了語法、關於世界的事實和一些推理能力。 然而,這也意味著我可能從有偏見或不正確的信息中學到了東西,因為數據沒有經過徹底過濾。
- 微調: 初步培訓結束後,OpenAI 的創建者通過在人工審核員的幫助下生成的更具體的數據集提供了進一步的指導。 這些審閱者遵循指南來審閱和評估一系列示例輸入的可能模型輸出。 微調過程是模型和評審者之間的一種對話,可以幫助我更好地符合人類價值觀。
- 持續學習: 雖然出於隱私原因我不會從個人交互中學習,但 OpenAI 不斷與人類評審團隊合作,提供反饋並根據更廣泛的模式和見解進行迭代改進。
- 預訓練示例: 假設我們有這樣的句子:“The cat sat on the __”。 在預訓練階段,像我這樣的模型將學習預測句子中的下一個單詞,可能是“mat”、“roof”或“tree”。 這是通過處理來自不同互聯網文本的數十億個句子來學習的,在人類創建原始內容時間接涉及人類互動。
- 微調示例: 預訓練階段結束後,模型進入微調階段。 它的工作原理如下:
人類審閱者的任務是審查輸入的可能模型輸出,例如“將以下英語文本翻譯成法語:'你好,你好嗎?'”。 該模型可能會生成多個響應,例如“Bonjour,comment ça va?” 或“致敬,評論vas-tu?” ETC。
審閱者根據準確性、流暢性和適當性等因素對這些回答進行評分。 這些評級有助於模型概括並響應未來的類似輸入。
請記住,此處提供的示例經過簡化以說明該過程。 實際訓練涉及復雜的算法和大量的數據。
- 各種數據: 這不僅與數據量有關,還與數據種類有關。 數據需要多樣化,才能涵蓋人類語言中的廣泛主題、風格和語氣。
- 數據質量: 用於訓練的數據的質量也會影響模型學習的效率。 更高質量的數據可能會減少有效培訓所需的數據量。
- 模型架構: 模型的架構(如神經網絡中的層數或參數)也會影響所需的數據量。 較大的模型(例如 GPT-3 或 GPT-4)通常比較小的模型需要更多的數據。
- 培訓目標: 模型要執行的任務類型可能會影響所需的數據量。 為特定任務設計的模型如果目標明確,可能需要更少的數據,而像 GPT-3 或 GPT-4 這樣的通用模型,旨在處理廣泛的任務,則需要更多的數據來獲得更廣泛的理解。
以 GPT-3 為例,該模型擁有 175 億個參數,並接受了數百 GB 文本的訓練。 但這些數字並沒有完全體現出該過程的複雜性。 訓練過程的細節,包括使用的確切數據量,是 OpenAI 和類似組織持有的專有細節。
- 從小處著手: 特別是對於簡單問題或初始模型原型,較小的數據集就足夠了。 例如,如果您正在構建基本圖像分類器,則可能會從每個類別數百或數千個圖像開始。
- 考慮複雜性: 更複雜的問題通常需要更多數據。 如果您正在開發深度學習模型或處理自然語言處理等複雜問題,您可能需要數百萬個數據點。
- 質量而不是數量: 高質量的相關數據通常比大量低質量的數據更有益。 確保您的數據得到正確清理、註釋並代表您要解決的問題至關重要。
- 平衡你的課程: 對於監督學習任務,請確保每個班級的示例保持良好的平衡。 不平衡的數據集可能會導致模型在代表性不足的類別上表現不佳。
- 使用驗證和測試集: 應留出部分數據集用於驗證(調整模型參數)和測試(評估模型性能)。 常見的分割可能是 70% 的數據用於訓練,15% 用於驗證,15% 用於測試,儘管這些比例可能有所不同。
- 實驗和迭代: 從初始數據量開始,訓練模型,評估其性能,然後迭代添加更多數據,調整模型或根據結果提高數據質量。
請記住,更多的數據通常會提高機器學習模型的性能,但只能在一定程度上提高。 在某一點之後,收集更多數據可能比其價值更耗時、更昂貴,而專注於提高數據質量或完善模型架構可能更有益。
- 預訓練: 在此階段,模型暴露於大量互聯網文本數據。 這些數據沒有明確註釋,但模型經過訓練可以預測句子中的下一個單詞。 這使模型對語法、世界事實和一些推理能力有一般的理解。
- 微調: 預訓練後,模型在人工審閱者的幫助下生成的更窄的數據集上進一步完善。 這些評審員遵循 OpenAI 的指南來評審和評估一系列輸入的可能模型輸出。 從這個意義上說,微調過程可以被視為一種註釋形式,人類審閱者指導模型的響應,幫助其更好地符合人類價值觀並確保其避免不適當或不安全的內容。
因此,雖然用於預訓練的初始數據集沒有按傳統意義上進行註釋,但微調過程確實涉及一種註釋形式,其中人類審閱者通過對不同輸出進行評級來指導模型的行為。
正確性: 審閱者評估模型的輸出是否確實正確。
示例:
適當性: 評估模型的輸出相對於給定輸入的適當性。
示例:
安全性: 對輸出進行審查,以確保它們不包含有害的指令或攻擊性語言。
示例:
完整性: 這評估模型的響應是否完全回答了用戶的查詢。
示例:
流利: 審閱者檢查模型的輸出在語言上是否流暢且連貫。
示例:
這些類別只是示例。 實際的微調過程涉及更複雜的評估系統以及評審者和人工智能開發團隊之間的持續反饋。 這些註釋的目標是使模型的響應更加有用、安全並且符合人類價值觀。
ChatGPT 背後的組織 OpenAI 沒有公開披露參與微調過程的審閱者的確切數量。 然而,考慮到訓練如此大的語言模型的規模和復雜性,可以肯定地說,這個過程可能涉及大量的審閱者團隊。
這些人工審核員遵循 OpenAI 提供的指南來審核和評估可能的模型輸出。 這是一個連續、迭代的過程,審閱者的反饋用於隨著時間的推移改進和完善模型。 OpenAI 與審稿人保持著強大的反饋循環,包括每週召開會議來解決問題並提供澄清。
- 任務的複雜性: 標記圖像或對文本進行分類等簡單任務在每個 PDF 上花費的時間會更少,從而允許單個註釋器處理更多文件。 另一方面,複雜的任務(例如詳細的實體提取或語義分析)將需要每個文檔更多的時間,因此相同體積的 PDF 需要更多的註釋器。
- PDF 的長度和復雜性: 較長或較複雜的 PDF 比較短或較簡單的 PDF 需要更多時間進行註釋。
- 質量要求: 如果需要高精度,則可能需要每個 PDF 有多個註釋器來交叉驗證註釋。
- 時間限制: 如果需要快速完成標註,就需要更多的標註者。
作為一個假設的示例,假設註釋者每天可以為特定任務註釋 5 個 PDF,並且每週工作 5 天。 在這種情況下,要註釋 10,000 個 PDF,單個註釋者需要 2000 天,即大約 8 年。
但是,如果您有一個由 20 名註釋者組成的團隊,他們可以在大約 5 個月內完成任務(假設每月 20 個工作日)。 如果有 100 名註釋者,同樣的任務大約可以在一個月內完成。
請記住,這些數字純粹是說明性的,註釋的實際速度將取決於上述因素。 此外,註釋者的適當培訓和一致的質量控制對於任何大規模註釋項目的成功都至關重要。