PHTest - a furonghuang-lab Collection

furonghuang-lab 's Collections

Easy2Hard-Bench

PHTest

updated Sep 24, 2024

Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models

furonghuang-lab/PHTest

Viewer • Updated Apr 24 • 3.27k • 308 • 3
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models

Paper • 2310.15140 • Published Oct 23, 2023 • 1
Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models

Paper • 2409.00598 • Published Sep 1, 2024