“阿尔法零”人工智能再进化:24小时之内“通杀”3种棋
英国“深度思维”公司最新发布的论文说,该公司一种通用棋类人工智能“阿尔法零”能从零基础开始强化学习,24小时之内击败了此前最强的国际象棋、日本将棋和围棋人工智能程序,由此前专攻一项技能走向多种技能“通杀”。
冯晨清制图
“深度思维”公司在最新论文中透露,“阿尔法零”从零开始,通过自我对弈强化学习,约2小时击败日本将棋顶级人工智能程序,4小时击败国际象棋顶级人工智能程序,8小时击败战胜韩国棋手李世石的“阿尔法围棋-李”,并在24小时内战胜了通过72小时自我学习训练称王围棋的“阿尔法围棋-零”。
10月,“阿尔法围棋-零”第一次让人工智能在不“学习”任何既定棋谱、只设定规则的情况下,完全“从零开始”、自我对弈取得飞速进步。而此次的“阿尔法零”在此基础上训练了3种独立的程序,其中国际象棋程序自我对弈4400万局,日本将棋程序自我对弈2400万局,围棋对弈了2100万局。
一些人工智能专家表示,人工智能完全依靠自己摸索,意味着人工智能可以更好地进入对它来说本是一片空白的领域;而“阿尔法零”的问世显示人工智能可以向通用化发展,为诸如开发新药这种与棋类游戏一样有明确规则和目标的问题提供发展蓝图。