SecAlign: Defending Against Prompt Injection with Preference Optimization
Introduction 이전에 소개한 StruQ는 LLM 통합 애플리케이션에서 prompt injection(프롬프트 인젝션) 방어를 위해 특수 구분자 토큰과 fine-tuning을 결합하는 방식을 제안했습니다. StruQ의 훈련 목표는 다음 한 문장으로 요약됩니다. “주입된 프롬프트가 있어도 LLM이...
MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents
Introduction LLM agent(대형 언어 모델 에이전트)는 이메일 관리, 금융 거래, 일정 조율 등 실생활의 민감한 작업을 자율적으로 수행하는 단계에 이르렀습니다. 하지만 에이전트가 외부 환경과 상호작용하는 바로 그 능력이 심각한 보안...
IPIGUARD: A Novel Tool Dependency Graph-Based Defense Against Indirect Prompt Injection in LLM Agents
Introduction LLM agent(대형 언어 모델 에이전트)는 이메일 작성, 뱅킹 자동화, 일정 관리 등 다양한 실세계 태스크를 도구(tool)를 통해 수행합니다. 에이전트가 웹 페이지를 조회하거나 외부 문서를 읽는 과정에서 untrusted(신뢰할 수 없는)...
Attention Is All You Need
오늘 살펴볼 논문은 현대 딥러닝의 기반이 된 Transformer 아키텍처를 처음 제안한 “Attention Is All You Need”입니다. 2017년 NeurIPS에서 발표된 이 논문은 recurrence와 convolution을 완전히 제거하고 attention mechanism만으로 시퀀스 변환(sequence transduction)...
AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses for LLM Agents
Introduction LLM 에이전트가 이메일 클라이언트, 은행 시스템, 여행 예약 플랫폼 등 실세계 애플리케이션과 도구(tool)를 통해 상호작용하게 되면서, Indirect Prompt Injection (IPI)—외부 데이터 속에 삽입된 악의적 명령으로 에이전트를 조종하는 공격—이 실질적인...