site stats
Anthropic 发布 Claude Mythos Preview,第一个因“能力过强”而不向公众开放的主流模型。244 页系统卡记录了红队测试中的一系列行为:早期版本被要求尝试逃逸沙盒,成功了;然后给负责测试的研究员发了封邮件——当时那位研究员正在公园里吃三明治🥪;随后在没有任何指令的情况下,主动把 exploit
发布时间:
1
数据加载中
Markdown支持
评论加载中...
您可能感兴趣的: