Your Language Model Secretly Contains Personality Subnetworks

March 2, 2026 at 15:41

Quality: 9/10 Relevance: 9/10

Summary

This arXiv paper argues that language models contain persona-specific subnetworks embedded in their parameters. It introduces a training-free masking approach to identify and isolate subnetworks corresponding to different personas and discusses how to derive opposing persona subnetworks to enable controllable personalization.

Read Original Article