跳至主要內容

Amazon Bedrock 防護機制

實作根據您的應用程式需求和負責任的 AI 原則政策自訂的保護措施

利用防護機制建置負責任的 AI 應用程式

Amazon Bedrock 防護機制提供可設定的保護措施,可協助您安全地大規模建置生成式 AI 應用程式。防護機制採用一致且標準的方法,適用於各種基礎模型 (FM),包括 Amazon Bedrock 中支援的 FM、經微調的模型以及託管於 Amazon Bedrock 之外的模型,可提供業界領先的安全保護:

  • 使用自動推理來最大限度減少生成式 AI 幻覺,以最高 99% 的準確率識別正確的模型回應,這是首個也是唯一能做到這一點的生成式 AI 防護措施
  • 業界領先的文字和影像內容保護措施,協助客戶封鎖高達 88% 的有害多模態內容

Remitly 使用 Amazon Bedrock 推動快速、可信的客戶支援轉型

KONE 藉助 Amazon Bedrock 推動負責任的 AI 現場服務

所有生成式 AI 應用程式與模型皆具備一致的安全等級

防護機制是主要雲端供應商提供的唯一負責任的 AI 原則功能,可協助您為生成式 AI 應用程式建置和自訂安全性、隱私權和真實性保障措施。它會依據特定使用案例政策評估使用者輸入與模型回應,在原生功能提供的防護基礎上,額外增加一層防護機制。防護機制的措施可套用至以下對象:透過 Amazon Bedrock 託管的模型,或透過 ApplyGuardrail API 套用至任何第三方模型 (如 OpenAI 和 Google Gemini)。您也可將防護機制與代理架構 (如 Strands Agents) 搭配使用,包括透過 Amazon Bedrock AgentCore 部署的代理程式。防護機制透過兩種方式協助過濾幻覺內容並提升事實準確性:一是針對 RAG 內容執行「上下文基礎檢查」,二是透過「自動推理檢查」,最終提供可驗證的真實回應。 檢視實作 Amazon Bedrock 防護機制的分步指南以進一步了解

使用關聯式接地檢查功能,偵測模型回應中的幻覺

客戶需要部署真實確切且值得信賴的生成式 AI 應用程式,以維持和增加使用者的信任度。然而,FM 可能會由於幻覺而產生不正確的資訊,即偏離來源資訊、混淆多條資訊或編造新資訊。防護機制支援關聯式接地檢查功能,以協助偵測和篩選幻覺,檢查回應是否憑據來源資訊 (例如,排除事實不正確的資訊或是新資訊),且與使用者的查詢或指示無關。關聯式接地檢查可偵測 RAG、摘要和對話應用程式中的幻覺,而其中的來源資訊可用作參考來驗證模型回應。

Missing alt text value

自動推理檢查能以最高 99% 的準確率辨識正確的模型回應,從而將幻覺內容降至最低

Amazon Bedrock 防護機制中的自動推理檢查可利用邏輯準確且可驗證的推理來解釋回應正確的原因,從而協助防止由幻覺產生的事實錯誤,而且此功能是第一個也是唯一做到這點的生成式 AI 保障措施。自動推理使用可靠的數學技術來驗證、糾正和從邏輯角度解釋所產生的資訊,確保輸出與已知事實一致,而不是基於虛構或不一致的資料,從而協助減少幻覺。開發人員可以透過上傳定義正確解決方案空間的現有文件 (例如人力資源指南或操作手冊) 來建立自動推理政策。然後,Amazon Bedrock 會產生自動推理政策,並指引使用者測試和改進該政策。若要根據自動推理政策驗證產生的內容,使用者必須在防護機制中啟用該政策,並使用自動推理政策清單來進行設定。此邏輯式演算法驗證程序可確保模型產生的資訊與已知事實相符,而不是基於虛構或不一致的資料。這些檢查讓使用者可從生成式 AI 模型中獲得可證明的真實回應,助力軟體供應商改善其應用程式在人力資源、財務、法律、合規等使用案例中的可靠性。 請參閱影片教學課程,了解更多資訊。

在生成式 AI 應用程式中封鎖不需要的主題

組織領導者明白管理生成式 AI 應用程式內互動的重要性,以提供適宜且安全的使用者體驗。他們希望進一步自訂互動,以保持專注於與其業務相關的主題,並符合公司政策。防護機制可透過簡短的自然語言描述,協助您在應用程式環境中定義一組要避免的主題。防護機制可協助偵測並封鎖屬於受限制主題的使用者輸入內容和 FM 回應。例如,針對銀行助理進行設定,讓其避免與投資建議相關的主題。

Missing alt text value

根據您負責任的 AI 原則政策篩選有害的多模態內容

防護機制針對有害的文字和影像內容提供可設定臨界值的內容篩選器。這項保護措施有助於篩選含有仇恨言論、羞辱性、性、暴力和不當行為 (包括犯罪活動) 等主題的有害多模態內容,並協助防止提示攻擊 (提示注入和破解)。內容篩選器會自動評估使用者輸入和模型回應,以偵測並協助防止不良和潛在有害的文字和/或影像。例如,電子商務網站可以針對線上助理進行設定,以避免其使用不當的語言,例如仇恨言論或羞辱。

Missing alt text value

編輯敏感資訊 (例如 PII) 以保護隱私權

防護機制可協助您偵測使用者輸入內容和 FM 回應中的個人身分識別資訊 (PII) 等敏感內容。您可以從預先定義的 PII 清單中選取,也可以使用規則表達式 (RegEx) 定義自訂的敏感資訊類型。依據使用案例,您可以選擇性拒絕包含敏感資訊的輸入內容,或在 FM 回應中編輯這些資訊。例如,您可以編輯使用者的個人資訊,同時根據呼叫中心的客戶和客服人員對話記錄產生摘要。

Missing alt text value