📚AI 编程官方教程中文版
📘 OpenAI Codex📚 官方教程中文版规则、安全与配置

理解网络安全边界

这些 safeguards 包括训练模型拒绝明显 malicious requests,例如窃取 credentials。

GPT-5.3-Codex 是 OpenAI 按 Preparedness Framework 作为 High cybersecurity capability 对待的第一个模型,因此需要额外 safeguards。

这些 safeguards 包括训练模型拒绝明显 malicious requests,例如窃取 credentials。

除了 safety training,OpenAI 还使用 automated classifier-based monitors 检测 suspicious cyber activity signals,并把 high-risk traffic 路由到 cyber capability 较低的模型,也就是 GPT-5.2。

OpenAI 预期只有很小一部分 traffic 会受到这些 mitigations 影响,并且正在持续完善 policies、classifiers 和 in-product notifications。

Why we’re doing this

过去几个月,模型在 cybersecurity tasks 上的能力有明显提升,这对 developers 和 security professionals 都有价值。

随着模型越来越擅长 vulnerability discovery 这类 cybersecurity-related tasks,OpenAI 采取 precautionary approach:扩大 protections 和 enforcement,在支持 legitimate research 的同时减缓 misuse。

Cyber capabilities 天然是 dual-use。支撑重要 defensive work 的同一套知识和技术,例如 penetration testing、vulnerability research、high-scale scanning、malware analysis、threat intelligence,也可能造成真实世界伤害。

这些 capabilities 和 techniques 应该在能改善安全的场景中可用,并且更容易使用。OpenAI 的 Trusted Access for Cyber pilot 允许 individuals 和 organizations 在不中断的情况下,继续把 models 用于 potentially high-risk cybersecurity activity。

How it works

从事 cybersecurity-related work,或从事可能被 automated detection systems mistaken 的类似活动的 developers 和 security professionals,requests 可能会 fallback reroute 到 GPT-5.2。

OpenAI 预计只有很小一部分 traffic 会受到 mitigations 影响,并正在校准 policies 和 classifiers。

最新 alpha 版本的 Codex CLI 已经包含 request 被 reroute 时的 in-product messaging。未来几天内,所有 clients 都会支持这类 messaging。

受到 mitigations 影响的 accounts,可以通过加入下面的 Trusted Access program,恢复 GPT-5.3-Codex access。

OpenAI 也承认,加入 Trusted Access 不一定适合所有人。因此随着 mitigations 扩大和 strengthen cyber resilience,OpenAI 计划在多数情况下从 account-level safety checks 转向 request-level checks。

Trusted Access for Cyber

OpenAI 正在试点 "trusted access",让 developers 在 OpenAI 继续校准 policies 和 classifiers、准备 general availability 的同时,保留 advanced capabilities。

目标是让需要加入 Trusted Access for Cyber 的 users 非常少。

要把 models 用于 potentially high-risk cybersecurity work:

可能需要更 cyber-capable 或更 permissive models 来加速 legitimate defensive work 的 security researchers 和 teams,可以表达加入 invite-only program 的兴趣。

拥有 trusted access 的 users 仍必须遵守 Usage PoliciesTerms of Use

False positives

Legitimate 或 non-cybersecurity activity 偶尔也可能被 flagged。

发生 rerouting 时,responding model 会在 API request logs 中可见,并在 CLI 中显示 in-product notice;很快所有 surfaces 都会支持。

如果你认为遇到的 rerouting 是错误的,请通过 /feedback 报告 false positives。

On this page