欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

360首席科学家评AlphaGo:成功的关键是反应速度快

程序员文章站 2023-01-13 15:32:13
今日AlphaGo与李世石将进行最后一场比赛,而此前的四场比赛双方的比分为3:1。360首席科学家颜水成向TechWeb等媒体解析了AlphaGo的 神勇 表现,他指出,AlphaGo的胜利在意料之中...

今日AlphaGo与李世石将进行最后一场比赛,而此前的四场比赛双方的比分为3:1。360首席科学家颜水成向TechWeb等媒体解析了AlphaGo的 神勇 表现,他指出,AlphaGo的胜利在意料之中,尤其围棋这样特定的问题人工智能战胜可能性比较大,不像人工智能在其他领域应用更困难一些。

360首席科学家评AlphaGo:成功的关键是反应速度快

颜水成指出,AlphaGo成功的关键是搜索策略比以前快很多,快了之后效率就能保证,因为它本身快了,不用损失太大精度情况下满足比赛时的要求。 任何算法刚出来时,大家想的比较多的是算法在精度上能赢,在速度上考虑的不是特别多。当到了实战时,你要考虑娱乐性和实际比赛过程中肯定有时间限制,有会以损失精度的情况下去满足时间的要求,这时候性能就打了一个折扣,实际比赛中效果有会稍微差点。

颜水成还形象的解析了AlphaGo的学习过程:可以模拟成是一种练武的过程,首先是师父先教你武功,教了基本的招式之后你就可以有一些大概的印象,师父一般教武功时教两点,一是在当前某个姿势下应该怎么样动作会具有攻击性;二是还得考虑我出招时对手会拆招,后面再出招,再拆招你的赢面有多大。

具体到围棋,AlphaGo这样学习:

第一步,Policy network告诉你怎么样出招最具有杀伤力,Value network是通盘考虑对手拆招你再出招再拆招再出招是不是有比较大的赢面。

第二步,AlphaGo,相当于两个徒弟,两个版本的AlphaGo模型会根据师父教的内容开始博弈或练习下棋,有时候这个人赢了,有时候那个人赢了。这些数据拿过来重新训练 AlphaGo系统, 经验 就逐步积累起来了。

颜水成指出,AlphaGo的优势是,练武时真的要两个人试错才可以,真的练武才行。AlphaGo就直接在电脑里,或者在一台电脑里运行两个版本的程序,自己对招就可以了。如果机器资源足够多,时间足够长,你会认为它会把各种各样场景下的围棋过程都会涉及到,会有新样例产生出来,帮助训练AlphaGo。而且AlphaGo随着演变过程可能会形成自己的招式。

在颜水成看来,机器的胜算更大一些,水平会越来越高,而且速度会越来越快。 机器是根据历史经验直接算出来的,它信息量某种意义上要比人多很多,人再厉害也能记住的东西,能推算的步骤还是有限的,比如网上也有过一些人的分析,在围棋里,出现棋局的数量相当于10的几百次方,这种东西人的大脑是不可能存下来的,而且这比象棋的难度要大很多,而人不可能记这么多东西,而电脑有这个能力逐步模拟。