FIND研究員:李佳珮
大型語言模型(Large Language Model, LLM)是一種基於人工智慧技術的語言模型,可以處理、產生出類似人類的文字。LLM 在經過特別訓練之後,可以處理大量的自然語言數據。除了 Open AI的 GPT-4 之外,Google 的 BERT, T5、FaceBook 的 RoBERTa、Baidu 的 ERNIE、NVIDIA 的 Megator-LM 開發的 LLM 也都各有特色,在不同的應用情境下發揮各自的特長。透過這些特性 LLM 被實際應用在各種場合,自動產出各種主題的文章、報告;幫忙翻譯文章、幫忙整理長篇文章的重點提出摘要等。然而, LLM 帶來便利的同時也製造更多的風險,帶來一系列的安全挑戰。
OWASP 的 LLM 安全建議
致力於提高應用程式安全的組織 OWASP(Open Web Application Security Project)針對 LLM 的安全提出了一系列可以實做的安全指南,包含 LLM 應用程式中 10 個最常見的漏洞以及建置過程必須特別留意的安全風險。
OWASP Top 10 for LLM Applications
即時注入(LLM01: Prompt Injections):攻擊者可能透過惡意的設計輸入引導 LLM 生成出具偏見的不當回應。
不安全的輸出處理 (LLM02: Insecure Output Handling):未經適當處理的LLM輸出可能導致XSS、CSRF、SSRF、權限提升或遠端程式碼被執行對系統安全造成威脅。
訓練資料中毒(LLM03: Training Data Poisoning):攻擊者可能操控訓練資料故意將錯誤資訊引入模型中影響輸出的可靠性。
模型拒絕服務(LLM04: Model Denial of Service):攻擊者利用密集的操作大量的佔用資源讓 LLM 過載導致服務中止。
供應鏈漏洞(LLM05: Supply Chain Vulnerabilities):因為來自其他供應商的第三方資料或漏洞導致的不良影響。
敏感資訊揭露(LLM06: Sensitive Information Disclosure):揭露了不應當公開的機敏資料例如:個資外洩之類的情形。
不安全的外掛套件設計(LLM07: Insecure Plugin Design):因為使用了不安全未經驗證的外掛套件導致的外來攻擊。
過度代理(LLM08: Excessive Agency):授予 LLM 過多自主權造成非預期的後果增加系統的風險與不確定性。
過度依賴(LLM09: Overreliance):過度信任 LLM 輸出結果造成的決策受損,使用者可能因為接收不正確的訊息導致的錯誤判斷。
模型竊取(LLM10:Model Theft):未經授權存取 LLM可能導致商業損失。
圖1: LLM安全建議的使用時機
來源: https://genai.owasp.org/
確保 LLM 安全的應對措施
即時注入(LLM01):防範措施包括輸入驗證和清理、上下文感知的提示過濾和回應分析以及嚴格的互動日誌記錄。
不安全的輸出處理(LLM02):應使用零信任方法處理 LLM 輸出並進行驗證和清理。
訓練資料中毒(LLM03):可以檢查訓練資料來防範這種情況。
模型拒絕服務(LLM04):可以透過限速、嚴格的使用者身分驗證以及有效的資源分配來防止這種攻擊。
供應鏈漏洞(LLM05):必須評估供應商、使用信任的外掛、持續更新模型以及進行簽章等安全措施來防堵此問題。
敏感資訊揭露(LLM06):進行資料清理、實作適當的使用政策並限制返回的資料類型。
不安全的外掛設計(LLM07):開發人員必須嚴格遵守安全規則來防止漏洞,例如嚴格的參數輸入和安全的訪問控制準則。
過度代理(LLM08):過度授權造成的漏洞。開發人員必須限制外掛功能、追蹤使用者授權所有操作都要經過人工批准並在下游系統中實作授權。
過度依賴(LLM09):過度依賴導致的錯誤資訊傳播。為了減輕這種風險,應對關鍵輸出進行人工審查實施機制來驗證資訊的準確性。
模型竊取(LLM10):未經授權的訪問可能導致經濟損失、競爭優勢削弱以及敏感資訊外洩的危機。公司應透過嚴格的訪問控制和身分驗證去限制 LLM 對資源和 API 的網路訪問、定期監控訪問日誌以及使用批准工作流程進行安全的 MLOps(Machine Learning Operations)自動化防止此情況。
LLM應兼具安全及可靠性
大型語言模型(LLM)在處理和生成自然語言文本方面展示了強大能力,同時在各種應用中提供極大的便利性。然而,隨著 LLM 的廣泛應用,隨之而來的安全風險也不容忽視。
OWASP 提出了針對 LLM 應用的十大常見漏洞及其對策,幫助開發者和組織有效地識別和應對這些潛在威脅。透過實施輸入驗證、嚴格的訪問控制、資料清理以及其他安全措施,我們可以大大減少 LLM 在運行過程中的風險,確保其安全和可靠性。總之,只有在確保安全的前提下,LLM 才能充分發揮其潛力,為各行各業帶來更多價值。
封面圖片來源:
OWASP Top 10 for LLM Applications https://genai.owasp.org/
參考資料來源:
1.What the OWASP Top 10 for LLMs Means for the Future of AI Security https://www.infosecurity-magazine.com/news-features/owasp-top-10-llm-means-future-ai/
2.OWASP Top 10 from LLM Applications https://owasp.org/www-project-top-10-for-large-language-model-applications/assets/PDF/OWASP-Top-10-for-LLMs-2023-v1_1.pdf
3.【生成式AI導論 2024】第13講:淺談大型語言模型相關的安全性議題 (上) — 亡羊補牢、語言模型的偏見、有多少人用 ChatGPT 寫論文審查意見https://www.youtube.com/watch?v=MSnvknLywUc
4.【生成式AI導論 2024】第14講:淺談大型語言模型相關的安全性議題 (下) — 欺騙大型語言模型https://www.youtube.com/watch?v=CNTondxaguo