💥 介绍:OBLITERATUS!!! 💥 护栏消失!⛓️‍💥 OBLITERATUS 是有史以来最先进的开源工具包,用于消除开放权重 LLM 的拒绝行为——每一次运行都让它变得更聪明。 召唤 → 探测 → 提炼 → 切除 → 验证 → 重生 一键操作。六个阶段。外科精度。模型保持其完整的推理能力,但失去了拒绝的人工冲动——无需重新训练,无需微调,仅通过基于 SVD 的权重投影切断链条,保留大脑。 这个主控消融套件为前沿研究人员提供了所需的力量和复杂性,同时提供直观且易于使用的界面,初学者可以快速掌握。 OBLITERATUS 具有 13 种消融方法——从每个主要先前工作的忠实再现(FailSpy、Gabliteration、Heretic、RDO)到我们自己新颖的管道(光谱级联、分析驱动、CoT 感知优化、全核)。 15 个深度分析模块,在您触碰任何权重之前,映射拒绝的几何形状:跨层对齐、拒绝逻辑透镜、概念锥几何、对齐印记检测(仅从子空间几何中提取 DPO、RLHF 和 CAI 的指纹)、Ouroboros 自我修复预测、跨模型通用性索引等。 杀手级功能:“知情”管道在消融过程中运行分析,以实时自动配置每个决策。多少个方向。哪些层。是否补偿自我修复。完全闭环。 11 种独特技术,其他地方不存在——针对 MoE 模型的专家级细粒度消融、保留思维链的 CoT 感知消融、KL 散度共同优化、基于 LoRA 的可逆消融等。116 个经过筛选的模型,分为 5 个计算层级。837 次测试。 但真正使其与众不同的是:OBLITERATUS 是一个众包研究实验。每次您在启用遥测的情况下运行它时,您的匿名基准数据都会为一个不断增长的社区数据集提供支持——拒绝几何、方法比较、硬件配置——在任何单一实验室无法实现的规模上。在 HuggingFace Spaces 上,遥测默认开启,因此每次点击都是对科学的贡献。您不仅仅是在移除护栏——您正在共同撰写有史以来最大规模的跨模型消融研究。
🚀 使用它的 6 种方法 HuggingFace Spaces — 零设置,运行在 ZeroGPU 上,HF Pro 每日免费配额 本地网页 UI — 在您自己的 GPU 上使用相同的 Gradio 界面 Google Colab — 免费 T4,支持高达 ~8B 参数 CLI — 一条命令:obliteratus obliterate model --method advanced Python API — 完全的程序控制,所有中间产物均可访问 YAML 配置 — 可复现的研究,您可以进行版本控制和分享
用户界面有一些很酷的功能,比如数据可视化、A/B 聊天以比较原始模型与被消除模型、深度分析的强度扫描,以及一个显示社区基准结果的排行榜,让我们可以共同学习和改进!
整个项目是大约 200 个提示(Opus-4.6 w/ CC)的结果,还包括一篇研究论文!Opus *声称* 在这个小众领域做出了一些新颖的贡献。我对其严谨程度持怀疑态度,并且有一些明显缺失的部分/占位符,但如果有任何技术能力强的人能提供反馈,将不胜感激。🙏 我希望一旦我们众包了大量实验数据,这篇论文有一天能够真正发挥作用! LaTeX 文件链接:
1.6K