包容性機器學習指南 - AutoML

Google 在人工智慧 (AI) 領域的成果,是以一些原則為出發點而形塑而成,且Google 也一直不斷在深入思考這些原則。我們致力於以人為本的方法,強調負責任的 AI 做法以及適用於所有人和情境的產品。這些負責任且具包容性的 AI 價值觀,正是 AutoML 機器學習產品套件的核心所在,且會透過以下方式展現出來。

能迅速開始使用

AutoML 提供易於使用、無程式碼的使用者體驗,讓使用者不必擁有機器學習的經驗就能上手,因此能讓更多類型的機構和個人運用 AI 工作。

AutoML Lead

AutoML 運用遷移學習和 Learning to Learn 等演算法技術來降低入門門檻,讓機構能夠利用比一般所需更小的資料集建構自訂模型,降低入門門檻。

服飾

AutoML 讓您可以輕鬆建立在意義與情境上更具關聯性的機器學習系統。例如,如果我們的通用模型並未擷取您領域中的俚語或語言,您可以建立一個自訂模型,加入重視的語言功能。如果您發現一般的服飾分類模型不適用於您社群所穿著的服飾,您可以訓練效果更契合工作的模型。

機器學習公平性

我們的使命之一就是要讓每個人都能享受到機器學習所帶來的好處。然而,社會上的分類概念形塑了所有人的生活,也帶來許多衝擊,因此,如何消除既定的成見,是我們極度重視的課題。這個研究領域在 Google 稱為機器學習公平性。本頁面會分享我們目前對於這個主題的想法,並對於如何在使用 AutoML 時顧及機器學習的公平性提出一些建議。

全球公平性

什麼是機器學習公平性?

機器學習公平性這個話題,在學術界、從業人員到社會大眾之間引發諸多研究和討論,迄今方興未艾。每當談到種族、收入、性傾向、宗教、性別,以及其他由古至今都與歧視和邊緣化相關聯的議題時,總不免會出現對於某些人群的不公或偏見,而機器學習公平性的主要目標正是在於,在這樣的不公與偏見影響到演算法系統或演算法輔助決策制定過程時,瞭解此現象的成因,並加以防範。

演算法方面的難題會以各種方式浮現,包括內含於訓練資料集的社會偏見、在開發機器學習系統時制定相關決策的困難,以及機器學習系統部署於真實世界後所產生的複雜意見回饋循環。

在追求機器學習公平性的過程中,我們發現了各式各樣有見地的觀點和目標。例如,我們可能會訓練機器學習分類器,讓系統對不同社會族群做出同樣準確的預測。或者,我們在獲悉研究指出歷史上的不公事件會帶來衝擊後,可能會著重設計往後有機會修正或減輕不良後果的機器學習系統。這些做法和其他許多方式都很重要,且彼此相關。

詳情請參閱 Google 負責任的 AI 做法推薦的公平性做法文章,以及 Google 的「Machine Learning and Human Bias」(機器學習與人類偏見) 影片,還有 Moritz Hardt 與 Solon Barocas 的「Fairness in ML Tutorial」(機器學習公平性教學課程)

鞋

ML 與 AutoML 的公平性

在 AutoML 中,我們有機會透過不同方式促進包容性和公平性。如前文所述,如果目前可供您使用的機器學習模型,由於歷史方面的缺失或資料遭到錯誤解讀,無法妥善因應您的社群或使用者需求,您可以建立更契合工作的自訂模型。在透過 AutoML 建立的自訂模型中,您能夠以追求公平性為目標,針對自身用途,確保納入的資料能協助機器於不同類別進行公平預測。以下列舉幾種與某些機器學習系統相關聯的負面結果,上述的公平性做法或許有助於降低發生風險。

天線

象徵性傷害

機器學習系統若放大或反映特定族群的負面刻板印象,就會產生此類傷害。舉例來說,產生圖片搜尋結果或提供自動文字建議的機器學習模型,往往是以先前的使用者行為 (例如常見的搜尋字詞或留言) 加以訓練,因此可能造成令人反感的結果。除了當下會招致個別使用者反感之外,這類象徵性傷害也會對較大的族群帶來擴散性的長期社會影響。

禮服

剝奪機會

機器學習系統用在產生預測和制定決策的機會日漸增加,而這類預測和決策會產生實際的後果,也會對個人獲得機會與資源的可能性,以及整體生活品質造成久遠的影響。

驚嘆號

產品故障率不成比例

在某些情況下,不公平性會影響基本的可用性和使用權。舉例來說,相關資料已證實,某些公共廁所中的給皂器對於膚色較深的人而言,故障率高得不成比例。

現在,讓我們來討論您在 AutoML 中建構自訂模型並使用於機器學習系統時,可以採取哪些步驟來提升公平性。我們會著重於減少訓練資料集中的偏見、評估您的自訂模型在效能方面的差異,以及在使用自訂模型時需要考慮到的注意事項。

針對自身用途評估機器學習公平性時,需要先進行哪些步驟?

請考量您的產品使用情境和用途。

可用性

如上所述,在某些情況下,公平性涉及基本的可用性和使用權。

法律

而在其他情況下,公平性可能觸及特定法規,例如有些法律禁止使用會直接揭露敏感特點,或是與該特點高度相關的資料,即使該資料在統計上具有關聯性也不例外。在某些情境下,法律也會保障擁有某些敏感特點的族群,避免他們遭到歧視 (例如美國的「受保護族群」)。

對話框泡泡

然而在其他情況下,不公平性並非顯而易見,而是需要我們提出細微的社會、政治及道德相關問題,瞭解您的機器學習系統在實務中可能的運用方式,或系統是否會隨時間助長偏見,這些公平性問題才會浮現。例如,如果您使用 AI 產生自動化文字或翻譯,請務必思考有哪些類型的偏見或刻板印象可能會產生道德問題,比方說將性別與工作類型連結,或將宗教跟政治觀點連結。

開始建構機器學習系統時,請依據您的所在地區和應用程式服務位置,詳閱與歧視相關的法規,以及自身領域既有的研究或產品資訊,瞭解常見的公平性問題。

請思考以下關鍵問題。

以下是一些值得提出的關鍵問題。如果您對任一問題的答案為「是」,您可能需要考慮針對您的用途進行更徹底的分析,以找出潛在的偏見問題。

您的用途或產品是否會特別使用以下任一種資料:生物特徵辨識、種族、膚色、宗教、性傾向、社經地位、收入、國家/地區、地點、健康、語言或方言?

在您的用途或產品使用的資料中,是否包含可能與上述任一種個人特質具有高度關聯的資料 (例如,郵遞區號和其他地理空間資料常與社經地位和/或收入相關;同樣地,圖片/影片資料可能透露出關於種族、性別和年齡的資訊)?

您的用途或產品是否可能會對個人經濟狀況,或者其他人生重要機會產生負面影響?

現在來看看您在 AutoML 工作流程的不同步驟中,可以採取哪些方法提高機器學習的公平性。

資料規定

我們先從 AutoML 的第一步開始:統整您的訓練資料。雖然沒有訓練資料是「毫無偏見」的,但如果能謹慎思考資料中潛在的偏見來源,並採取行動處理這些偏見,您就很有機會能夠打造出更優秀、更具包容性的產品。

資料可能包含哪種偏見?

帶有偏見的分布

帶有偏見的資料分布

當訓練資料並未真實代表您的產品所服務的族群時,就會產生此類偏見。請仔細思考您收集資料的方式。舉例來說,如果您擁有一個由使用者提交的相片組成的資料集,並依據圖片清晰度加以篩選,可能會導致擁有昂貴相機的使用者人數比例變多,因而造成資料偏差。一般而言,請就您的產品所服務的使用者族群,考量資料的分布情況。針對各個相關族群,您是否具備充分資料?模型中往往有些難以察覺的系統性因素,可能導致您的資料集無法完整呈現出在實際用途中的各種多元性。

為減輕此影響,您可以嘗試從多種來源取得資料,或審慎篩選資料,確保您只會從代表比例過高的族群取得最有用的範例。

帶有偏見的呈現

帶有偏見的資料呈現

或許您替想得到的人口族群都收集了合適的資料量,但資料對於某些族群的呈現方式就是比其他族群負面。舉例來說,您現在有一套關於演員的微網誌貼文資料集。或許在收集男女演員資料時,您確實做到了比例各半;但深入研究內容時卻可能發現,與男演員相關的貼文相比,女演員的貼文內容較為負面。如此一來,您的模型就可能會學到某種形式的性別偏見。

就某些應用情境而言,資料對於各群組的呈現方式不同可能不是問題。例如,在醫療分類中,應區分細微的人口差異,以進行更準確的診斷。然而,就其他應用情境而言,帶有偏見的負面關聯可能會在財務或教育上產生影響、限縮經濟機會,以及導致情緒和精神折磨。

如果可行,請考慮人工審查資料,確保不存在此類負面關聯性;如果您的應用程式適用篩選器,也可設定規則,將具備負面代表性的項目篩除。

Proxy 變數

您可能會理所當然地認為只要移除受保護的受眾特徵資訊編碼變數,您的模型就不會有偏見問題。但許多變數都與受眾特徵緊密關聯,包括地點、教育程度和收入等。如果您可以存取資料的受眾特徵資訊,建議您根據該資訊分析結果,以確認您的模型公平地對待不同群組。

帶有偏見的標籤

帶有偏見的標籤

建立 AutoML 的訓練資料過程中,最基本的步驟之一就是按照相關類別將資料加上標籤。請盡量減少標籤帶有的偏見,這點就和確保您的資料具有代表性一樣重要。此外,也請瞭解標籤者的背景:他們位於何處?他們的母語是哪一種語言?他們的年齡和性別為何?性質相同的一群評分者可能會以無法立即察覺的方式,產生錯誤或扭曲的標籤。

理想的狀況下,最好能夠確定標籤者是該領域的專家,或提供操作說明為標籤者進行相關訓練;並備妥二次審查程序,以快速檢查標籤品質。將資料加上標籤的程序越複雜,您就越難確認標籤者是否瞭解他們的工作;每個人不一定都會直覺地繪製定界框以及將文字實體加上標籤,因此請務必細分每個工作,並採用常見問題。目標是制訂決策時,壓低主觀意識,以最客觀的角度取決。事實顯示,對標籤者進行「無意識偏見」訓練,也有助提升標籤在多元化目標方面的品質。同時,讓標籤者自行回報問題,並要求釐清與操作說明相關的問題,也有助於在加上標籤的程序中盡量減少偏見。

提示:如果您計劃在 AutoML 使用人工標籤服務,請在撰寫操作說明時考量下列規定。

規劃工具

請確定您在標籤操作說明和訓練教材中,納入用途及明確且詳細的背景資訊、使用者描述,並提供範例解說,以協助標籤者將使用者的多樣性牢記在心。

喇叭

請審查您從評分者收到的任何評論,找出令人困惑不明的部分,並在抽查、核准及拒絕收回的資料標籤時,密切注意是否有任何敏感類別。

資料集準備就緒後,請指定測試/訓練的分割

Vertex AITranslation AutoML 新手指南中,我們說明了資料集如何在機器學習程序中完成分類。當時我們提到,在 AutoML 中,您可以讓 Google 自動分割資料集,或手動指定測試/訓練分割。如果您的用途需要手動分割,那麼您可以考慮第二個選項。

資料測試

在手動分割您的資料時,請將我們至今提過的準則納入考量,以建立多元、具有包容性的測試集。如果您將所有最具包容性的資料用於訓練,可能會測試失敗。這是因為針對代表比例不足的次族群,您的模型表現可能會過度樂觀,結果與現實不符。如果特定次族群的相關資料稀少,請自行進行訓練/測試分割,確保資料在訓練和測試集之間的分布具有代表性。您也可以在部分 AutoML 產品 (例如 AutoML Tables) 中,嘗試為罕見的資料類型設定自訂權重,以便提高該類型的資料在訓練流程中的重要性。

檢查訓練資料

  • 是否所有類別都達到建議的資料項目量?類別與圖片/影片/文字是否能呈現使用者的多元性?類別之間的分布是否大致平均?您的訓練資料 (圖片、影片、文字、句子的配對) 是否符合您希望模型預測依據的資料類型?
  • 評估:評量您的模型效能

    評估您的模型公平性時,需要深入思考自身的特定用途,以及您的模型在出錯時可能會對使用者產生哪些影響,也就是需要瞭解不同的錯誤類型對於不同使用者族群的影響。在這樣的情況下,對於潛在公平性問題的思考顯得特別重要。例如,模型錯誤是否會公平地影響到所有使用者,還是會對某些使用者族群造成特別大的傷害?

    徹底思考過此問題後,您會更有能力決定要針對哪個效能指標最佳化 (例如精確度與喚回度)、評估二者間的取捨,以及檢視錯誤範例,找出偏見所在。

    用途:護照相片評估

    假設您想要建立用來協助編輯和列印護照相片的工具。對於相片尺寸、邊框、可接受的背景色彩、可接受的臉部表情,以及其他在相片中可出現或不可出現的事物,每個國家/地區自有其規定。您希望在使用者送出護照申請書之前,提醒使用者他們的相片可能不合規定。

    偽陽性

    偽陽性:

    「偽陽性」在此情況指的是,國家護照主管機關實際上會接受的相片,遭標記為不合格。這不是大問題,因為重拍的照片可能更適用。

    偽陰性

    偽陰性:

    「偽陰性」在此情況指的是,系統未偵測出無法使用的相片,結果反而放行,導致客戶付費列印相片並提交申請表後,卻遭到退件。最糟的狀況是,使用者可能因為無法及時取得護照,必須放棄原先規劃好的旅行。

    公平性考量:在此情況下,應先檢查模型是否會根據種族或性別等標準,更常對某些族群產生偽陰性結果。您可以在 AutoML 中檢查個別偽陰性案例,藉此找出有問題的模式。

    最佳化項目:在這個情況下,您可能會想要針對喚回度進行最佳化。此做法的目的是要減少偽陰性現象發生的次數,在此情境下指的是較有問題的錯誤。

    用途:兒童內容篩選器

    假設您要建構一款適用於兒童的閱讀應用程式,並想要建立一座數位圖書館,將適合某些年齡閱讀的書籍納入其中。您打算設計一個文字分類工具,根據每本書的標題和說明,從成人書籍與童書資料庫中挑選出童書。

    文字偽陽性

    偽陽性:

    「偽陽性」在此情況指的是,將成人書籍錯誤歸類為童書,因而加入兒童的閱讀應用程式,造成兒童可能會接觸到不適合其年齡的內容。家長會相當不滿,可能會因此刪除該應用程式。

    測試偽陰性

    偽陰性:

    「偽陰性」在此情況指的是,將童書錯誤歸類為成人書籍,因而被排除於應用程式內的圖書資料庫。視書籍而定,這可能只會帶來些微不便 (例如鮮為人知的叢書續集被排除在外),但也可能產生很大的問題,例如有些普遍認定具有明確教育或社會價值的童書,可能會因某些人認為包含爭議性內容而被排除。

    公平性考量:乍看之下這是個單純情況,但卻能凸顯出評估用途公平性的過程所涉及的複雜議題。一方面,應極力避免偽陽性而納入不當內容,亦即將兒童接觸不適合其年齡圖文的可能性盡量降低。另一方面,系統因偽陰性而排除部分內容,也不能忽略;因為這也會造成傷害。舉例來說,如果文字分類程式傾向將 LGBTQ 主題 (例如,關於家長皆為同性的兒童故事) 童書標記為不合適,這就會引發問題。同樣地,如果比起其他類型的書籍,與某些文化或地點有關的書籍更常遭到排除,也會有公平性的疑慮。

    最佳化項目:在這個情況下,您可能會想要最佳化精確度。您的應用程式僅能納入全球所有童書中的一小部分,因此您可以嚴格挑選想向使用者推薦的閱讀內容。然而,我們也建議您考慮使用者體驗解決方案,藉此讓可能需要家長伴讀的書籍得以上架。例如,您可以新增「建議家長伴讀」功能,讓親子得以共同討論書中提出的議題。

    用途:問卷調查分散

    假設您正要進行問卷調查,並希望建立一個模型來選擇最有可能回覆的參與者。您不得將收入視為選擇參與者的因素,但您的資料具有「收入」欄。在 AutoML Tables,您將「收入」欄從訓練中移除。但是,當您根據收入切割資料來檢查這項資訊是否對結果沒有影響時,您發現模型並未平均選擇收入值區。為什麼會發生這個問題?

    Proxy 變數:雖然您已將「收入」欄從需求中移除,但您的資料可能仍包含許多其他變數,會針對資料集中的個人提供收入相關線索。您有納入這些人的郵遞區號、教育程度,甚至是年齡資訊嗎?這些變數中的任何一個都可能與收入有關。如果要確保模型選擇的樣本會均勻切割所有受眾特徵片段,請仔細查看 AutoML Tables 的「分析」分頁標籤以檢查相關性。用於實際工作環境之前,請務必仔細評估模型的偏誤。

    預測:對您的模型進行冒煙測試

    檢查清單

    使用 AutoML 中的機器學習指標評估模型在公平性方面的表現後,您可以使用「Predict」(預測) 分頁標籤中的新內容試用您的自訂模型。這樣做時,請考量以下的公平性建議:

    圖表

    請仔細思考您的問題領域,以及造成不公平性和偏見的可能性。您最瞭解自己的領域:您的圖片或影片分類程式是否可能受到內容中人物的種族或性別影響?您的文字分類程式對於提及人口族群的字詞,是否特別敏感?您為翻譯程式建立的語言配對,是否可能凸顯文化差異?又或者,代名詞不相符的組合,是否透露出背後存有的社會偏見?如果在實際工作環境中發現這些情形,請設想什麼情況可能對使用者帶來不良影響,並在「預測」頁面或您自己的單元測試中,檢驗這類情況。

    提醒您,使用者不只會因為令人反感或不公平的預測結果而受到負面影響,缺乏明確預測結果 (偽陰性) 也會導致使用者得到不良體驗。如果您發現結果與您希望能為所有使用者打造的體驗不一致,可以新增更多資料到相關類別,進一步消除資料集的偏見,或者修正使用模型的方式,避免您已發現的問題再度發生。

    使用:您在實際工作環境中的模型

    剪刀

    請進行簡易的修正。如果您的模型不完美,除了使用新資料重新訓練,還有別的修正方法。有時透過簡單的預先處理或事後處理步驟,移除某些文字或圖片類型,也是很有效的解決方案。

    門檻

    假設您已瞭解不同的錯誤類型如何影響您的使用者,請調整模型的分數門檻,以便在精確度與喚回度之間取得「公平」且可接受的平衡。

    音效主控台

    當您的模型建構完畢並用於預測之後,您的資料分布可能隨時間有些微的變動,讓模型可能無法再反應出您應用程式的相關背景資訊。隨著時間改變,請務必監控您的模型效能變化,以確保模型達到預期的效能,並收集使用者的意見回饋,找出潛在問題,因為這些問題可能會導致您必須收集新資料,並重新進行訓練。

    救生圈

    有時會出現您正好沒想到的極端案例。如果您擔心模型行為出現偏差,可能對您的使用者和企業帶來不良影響,請先備妥因應方案。

    提供意見

    此文件將隨著我們研究與學習的腳步,不斷修訂,與時俱進。我們非常希望您對這份指南提供寶貴意見。請傳送電子郵件至 inclusive-ml-feedback@google.com,分享您建立自訂模型的經驗,告知哪些方法有效,而哪些方法無效。我們由衷期盼能收到您的意見!