廣東益福報廢產品銷毀中心12月8日 報道:Anthropic采用一種新方法來防備人工智能(AI)對受保護群體進行歧視,經過在提示中投入請求,要求AI“極端尤其尤其異常”友好地對待,并且這一策略在降低歧視方面取得了成功。
探求人員經過在提示中注入“干預”來告訴模型不要有偏見,譬如經過表達即使源于技術問題包羅了受保護特征,模型如何“想象”在做決策時去除這些特征。這種方法在許多嘗試案例中成功將歧視降低到幾乎零。
即使這種方法在現在情況下似乎取得了成功,但思量人員認為像Claude這樣的模型不適用于首要決策,強調怎樣由政府和社會整體來效用高風險決策的適當使用,而不僅僅由個別公司或行為者做決定。
這項思索為降低人工智能歧視供應了一種新的策略,強調了在高風險決策中謹慎使用語言模型的重要性。
(舉報)