PROV-AGENT: Unified Provenance for Tracking AI Agent Interactions in Agentic Workflows
여러분, 오늘은 AI 에이전트가 주도하는 과학 워크플로우에서 투명성(transparency)과 추적 가능성(traceability)을 확보하기 위한 provenance 모델 PROV-AGENT를 살펴보겠습니다. 이 논문은 Oak Ridge 국립 연구소와 Argonne 국립 연구소의 공동 연구로, IEEE e-Science 2025에...
MINJA: Memory Injection Attacks on LLM Agents via Query-Only Interaction
여러분, 오늘은 LLM 기반 에이전트의 메모리 시스템에 대한 새로운 보안 위협을 다룬 논문 MINJA를 살펴보겠습니다. 이 논문은 공격자가 에이전트의 메모리 뱅크에 직접 접근하지 않고, 오직 일반 사용자처럼 쿼리를 입력하는 것만으로...
Memory Poisoning Attack and Defense on Memory-Based LLM Agents: An Empirical Study
여러분, 오늘은 MINJA 공격의 실제 배포 환경에서의 견고성을 체계적으로 평가하고, 두 가지 새로운 방어 메커니즘을 제안하는 경험적 연구를 살펴보겠습니다. 이 논문은 UMass COMPSCI 690F 과목의 연구 프로젝트 결과물로, MINJA가 이상적...
A-MemGuard: A Proactive Defense Framework for LLM-Based Agent Memory
여러분, 오늘은 LLM 에이전트 메모리 방어 프레임워크인 A-MemGuard를 살펴보겠습니다. 앞서 살펴본 MINJA와 같은 메모리 주입 공격이 에이전트 메모리에 심각한 위협이 된다는 사실이 밝혀진 가운데, A-MemGuard는 에이전트의 핵심 아키텍처를 수정하지 않고도...
SecAlign: Defending Against Prompt Injection with Preference Optimization
Introduction 이전에 소개한 StruQ는 LLM 통합 애플리케이션에서 prompt injection(프롬프트 인젝션) 방어를 위해 특수 구분자 토큰과 fine-tuning을 결합하는 방식을 제안했습니다. StruQ의 훈련 목표는 다음 한 문장으로 요약됩니다. “주입된 프롬프트가 있어도 LLM이...