llm-paper-daily/summary/2024-04/2404.06001.md at main · xianshang33/llm-paper-daily · GitHub

背景

背景
论文介绍了预训练语言模型（PLMs）在各种一般自然语言处理（NLP）任务中显示出的高效能力，并指出了性能与模型大小之间的直接相关性。随着模型大小的显著增长，研究人员开始将这些大型PLMs称为大型语言模型（LLMs）。LLMs的一个特殊能力是上下文学习（ICL），这是一种特殊的提示（prompting）形式，可用于在冻结模型参数的情况下使用LLMs进行特定下游任务。尽管这种能力很有趣，隐私问题已经成为广泛使用的主要障碍。
已有的工作 有多项研究检查了与ICL和一般提示（prompting）相关的隐私风险，并提出了缓解这些风险的技术。但是，仍然有必要组织这些减缓技术，以造福于社区。

核心贡献

提出了一个系统性概述
- 挑战1：隐私保护问题 挑战是如何在ICL及通用提示中采用隐私保护方法，尤其是在使用可能包含敏感信息的数据时。论文回顾、分析和比较了不同的方法，并为研发这些框架提供了资源总结。
- 挑战2：框架的局限性 对目前这些隐私保护框架的局限性进行了讨论，并对需要进一步探索的有希望的领域进行了详尽检查。

实现与部署

论文综述了各种在ICL和提示过程中用于隐私保护的方法，包括差分隐私（DP）、数据清洗、加密、集成等，并且讨论了这些方法在LLMs中的应用。特别的，论文提出了一个分类系统，把保障隐私的框架分为非DP、本地DP、全局DP和其他情况四个主要类别，并针对每个类别详细介绍了隐私保护机制和目标。

总结

这篇调研论文为了在使用LLMs进行ICL和一般提示的过程中保护隐私，提供了一个关于在这一范畴下的隐私保护方法的系统性概述，有利于推动社区在隐私保护方面的进一步研究和探索。