數據收集的人群工作者

數據收集的眾包工人——道德人工智能不可或缺的一部分

在我們努力構建穩健且無偏見的 AI 解決方案的過程中,我們應該專注於在無偏見、動態且具有代表性的數據分類上訓練模型。 我們的數據收集過程對於開發可靠的 AI 解決方案極為重要。 對此,集 通過人群工作者的 AI 訓練數據 成為數據收集策略的一個關鍵方面。

在本文中,讓我們探討眾包工作者的作用及其對開發 AI 的影響 學習算法 和 ML 模型,以及它對整個過程的需求和好處。 

為什麼需要人群工作者來構建 AI 模型?

作為人類,我們會生成大量數據,但這些生成和收集的數據中只有一小部分是有價值的。 由於缺乏數據基準標準,所收集的大部分數據要么存在偏差、存在質量問題,要么不能代表環境。 因為越來越多 機器學習 隨著深度學習模型的開發在海量數據的基礎上蓬勃發展,人們越來越需要更好、更新和多樣化的數據集。

這是人群工作者發揮作用的地方。

眾包數據正在構建一個由大量人群參與的數據集。 眾包工作者將人類智能注入人工智能。

眾包平台 為大量多樣化的人群提供數據收集和註釋微任務。 眾包使公司能夠獲得大量、動態、具有成本效益且可擴展的勞動力。

最受歡迎的眾包平台——Amazon Mechanical Turk,能夠在 11 小時內獲得 15 條人與人之間的對話,並向工人支付報酬 $0.35 對於每一次成功的對話。 人群工作者的參與度如此之低,這說明了建立道德數據採購標準的重要性。

從理論上講,這聽起來像是一個聰明的計劃,但執行起來並不容易。 眾包工人的匿名性導致了低工資、無視工人權利以及影響 AI 模型性能的低質量工作等問題。 

讓眾包工作者獲取數據的好處

通過吸引不同群體的人群工作者,基於 AI 的解決方案開發人員可以以相對較低的成本快速分配微任務並收集各種廣泛的觀察結果。

為 AI 項目僱用眾包工作者的一些顯著好處是

透過眾包工作者收集資料的好處

更快的上市時間: 根據 Cognilytica 的研究,近 80% of 人工智能 項目時間花在數據收集活動上,例如數據清理、標記和聚合。 只有 20% 的時間用於開發和培訓。 由於可以在短時間內招募大量貢獻者,因此消除了生成數據的傳統障礙。 

具有成本效益的解決方案: 眾包數據收集 減少在培訓、招聘和讓他們入職方面花費的時間和精力。 這消除了所需的成本、時間和資源,因為勞動力是按任務付費的方法。 

提高數據集的多樣性: 數據多樣性對整個 AI 解決方案訓練至關重要。 為了使模型產生無偏見的結果,它必須在不同的數據集上進行訓練。 通過數據眾包,可以毫不費力地生成多樣化(地理、語言、方言)數據集。

增強可擴展性: 當您招募可靠的人群工作者時,您可以確保 高品質 可以根據您的項目需求進行擴展的數據收集。

內部與眾包——誰是贏家?

內部數據眾包數據
可以保證數據的準確性和一致性。如果使用具有標準 QA 措施的可靠眾包平台,則可以保持數據質量、準確性和一致性
內部數據採購併不總是一個實際的決定,因為您的內部團隊可能無法滿足項目需求。可以確保數據多樣性,因為可以根據項目需要招募異質人群。
為項目需要招聘和培訓工人的費用昂貴。具有成本效益的解決方案 數據收集 因為可以用較少的投資招聘、培訓和入職工人。
上市時間很長,因為內部數據收集需要相當長的時間。由於許多貢獻來得很快,因此上市時間明顯縮短。
一小群內部貢獻者和貼標者一大群不同的貢獻者和 數據標籤
內部團隊的數據保密性非常高。在與全球範圍內的大量人群工作時,數據機密性很難維護。
更容易跟踪、培訓和評估數據收集者跟踪和培訓數據收集員具有挑戰性。

彌合眾包工作者和請求者之間的差距。

彌合眾包工作者和請求者之間的差距 迫切需要彌合人群工作者和請求者之間的差距,而不僅僅是在薪酬領域。

請求者端明顯缺乏信息,因為只向工作人員提供有關特定任務的信息。 例如,儘管員工被分配了一些微任務,比如用他們的母語錄製對話,但他們很少被提供背景信息。 他們沒有必要的信息來說明他們為什麼要做他們正在做的事情以及如何最好地做到這一點。 缺乏信息會影響 眾包工作的質量.

對於一個人來說,擁有完整的上下文可以為他們的工作提供清晰度和目的。

添加到此組合的另一個方面的 NDA – 限制提供眾包工作者信息量的保密協議。 從人群工作者的角度來看,這種信息的撤回表明缺乏信任並且對他們的工作的重要性降低。

當從另一端看同樣的情況時,工人端缺乏透明度。 請求者不完全了解受委託從事這項工作的工人。 有些項目可能需要特定類型的工人; 然而,在大多數項目中,都存在歧義。 這 基本事實 這是否會使評估、反饋和培訓複雜化。

為了克服這些困難,與數據收集專家合作非常重要,這些專家在提供來自廣泛選擇的貢獻者的多樣化、精选和代表性數據方面有著良好的記錄。

選擇 Shaip 作為您的數據合作夥伴可以帶來多種好處。 我們關注數據的多樣性和代表性分佈。 我們經驗豐富且敬業的員工了解每個項目的強制性,並開發可以立即訓練強大的基於 AI 的解決方案的數據集。

[另請閱讀: AI 訓練數據入門指南:定義、示例、數據集]

社交分享