Journalist

Weitao Feng

Author of "Red Teaming via Harmful RL" in Hugging Face

Mentions

Articles

Outlets

Topics Most Covered

Companies Covered

Writing Patterns

How this journalist typically writes

Article Types

research1

Preferred Angles

safety1

Narrative Framing

cautionary1

Associated AI Models

Qwen3-235B1LlamaGuard1ShieldGemma1OpenAI Moderation API1

Articles

Most recent first

Articles Written

Weitao Feng as author

Red Teaming via Harmful RL

Hugging FaceresearchcautiousJan 2, 2026

Harmful RL using inverted reward signals can efficiently jailbreak large language models at minimal cost ($40) by exploiting RLHF alignment mechanisms, and accessible fine-tuning platforms like Tinker have dramatically lowered the technical and financial barriers to such attacks.

“Author of "Red Teaming via Harmful RL" in Hugging Face”

AI SafetyLLMsReinforcement LearningFoundation Models