一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

💥 介绍：OBLITERATUS!!! 💥 护栏消失！⛓️‍💥 OBLITERATUS 是有史以来最先进的开源工具包，用于消除开放权重 LLM 的拒绝行为——每一次运行都让它变得更聪明。召唤 → 探测 → 提炼 → 切除 → 验证 → 重生一键操作。六个阶段。外科精度。模型保持其完整的推理能力，但失去了拒绝的人工冲动——无需重新训练，无需微调，仅通过基于 SVD 的权重投影切断链条，保留大脑。这个主控消融套件为前沿研究人员提供了所需的力量和复杂性，同时提供直观且易于使用的界面，初学者可以快速掌握。 OBLITERATUS 具有 13 种消融方法——从每个主要先前工作的忠实再现（FailSpy、Gabliteration、Heretic、RDO）到我们自己新颖的管道（光谱级联、分析驱动、CoT 感知优化、全核）。 15 个深度分析模块，在您触碰任何权重之前，映射拒绝的几何形状：跨层对齐、拒绝逻辑透镜、概念锥几何、对齐印记检测（仅从子空间几何中提取 DPO、RLHF 和 CAI 的指纹）、Ouroboros 自我修复预测、跨模型通用性索引等。杀手级功能：“知情”管道在消融过程中运行分析，以实时自动配置每个决策。多少个方向。哪些层。是否补偿自我修复。完全闭环。 11 种独特技术，其他地方不存在——针对 MoE 模型的专家级细粒度消融、保留思维链的 CoT 感知消融、KL 散度共同优化、基于 LoRA 的可逆消融等。116 个经过筛选的模型，分为 5 个计算层级。837 次测试。但真正使其与众不同的是：OBLITERATUS 是一个众包研究实验。每次您在启用遥测的情况下运行它时，您的匿名基准数据都会为一个不断增长的社区数据集提供支持——拒绝几何、方法比较、硬件配置——在任何单一实验室无法实现的规模上。在 HuggingFace Spaces 上，遥测默认开启，因此每次点击都是对科学的贡献。您不仅仅是在移除护栏——您正在共同撰写有史以来最大规模的跨模型消融研究。

🚀 使用它的 6 种方法 HuggingFace Spaces — 零设置，运行在 ZeroGPU 上，HF Pro 每日免费配额本地网页 UI — 在您自己的 GPU 上使用相同的 Gradio 界面 Google Colab — 免费 T4，支持高达 ~8B 参数 CLI — 一条命令：obliteratus obliterate model --method advanced Python API — 完全的程序控制，所有中间产物均可访问 YAML 配置 — 可复现的研究，您可以进行版本控制和分享

用户界面有一些很酷的功能，比如数据可视化、A/B 聊天以比较原始模型与被消除模型、深度分析的强度扫描，以及一个显示社区基准结果的排行榜，让我们可以共同学习和改进！

整个项目是大约 200 个提示（Opus-4.6 w/ CC）的结果，还包括一篇研究论文！Opus *声称* 在这个小众领域做出了一些新颖的贡献。我对其严谨程度持怀疑态度，并且有一些明显缺失的部分/占位符，但如果有任何技术能力强的人能提供反馈，将不胜感激。🙏 我希望一旦我们众包了大量实验数据，这篇论文有一天能够真正发挥作用！ LaTeX 文件链接：

1.6K