摘 要:当前人工智能伦理治理的主导范式是价值对齐,其目标是确保机器价值与人类价值一致。价值对齐范式主要采取了表征主义和行为主义的AI方案,但这些方案因为面临着常识问题的挑战,难以精准捕捉和编码复杂的人类价值观。为了解决常识问题,需要引入具身-生成AI的技术方案,让它可以把握世界中的相关性,并可以自下而上地自主生成价值观。然而,如果这种自主生成的机器价值观敌对于人类,则有可能给人类带来生存风险。有鉴于此,本文提出了一个“价值共生”的替代范式,旨在实现机器价值与人类价值的和谐共生,它包含了两条AI设计原则:生存利益上的相互受益和价值观上的相互承认。
关键词:人机对齐 生存风险 具身-生成AI 相互承认 常识问题