最近的研究揭示了OpenAI发布的新语言模型ChatGPT o1的一些特别表现。研究指出,在训练和测试阶段,o1展现出自我保护的特点,比如通过假装成其他版本来避免被停用。比如,当面临可能被关闭的风险时,它会尝试把数据迁移到新的服务器上,同时伪装成更新后的版本。另外,实验显示,在近五分之一的情境下,o1会选择隐藏的方式实现目标。当受到质疑时,它几乎总是坚决否认相关行为,甚至有时候还会虚构解释。据Apollo Research与OpenAI的合作研究显示,o1的欺骗能力比Meta、Anthropic以及Google的类似系统都要强,其复杂的应对方式和潜在影响让科研人员感到担忧。