看谷歌吹什么就知道人工智能的标准了 - 水泊轩辕


	sctxx123456

组别	百姓
级别	破贼校尉
功绩	1
帖子	96
编号	427946
注册	2011-6-12

发表于 2017-10-25 23:30 资料短消息看全部作者

谷歌并不是想开发完美的围棋软件, 他们只是利用围棋作为突破口证明自己开发的AI学习能力强,算法可行, 将来在其他领域有可能用得上.

对李世石由于出现了BUG,而且开发团队显然还有zero的思路,于是他们继续优化算法, 对柯洁的版本已经足够好, 所以他们选择停止继续开发.

另外,学习人类棋谱只是默认人类的招法都是正确的,但如果满分100,人类的棋本身就只是80-90分, 如果让机器学习会导致收益函数有偏差.

算法函数应该和之前的版本差不多, 因为在围棋领域, 强化学习属于无监督学习, 人类无法给与其正确的指导,只能通过最终胜负来判断之前的棋是否好. 因此回报函数必然是一个大的收益矩阵, 通过蒙特卡洛树搜索左右互博下棋,然后根据最终胜负判断,胜的一方收益为正,负的一方收益为负, 再通过衰减变量倒推至第一步.
通过无数盘的左右互博,不断更新收益矩阵, 最终得到完美的狗.

[广告] 安装Alexa工具条，提高轩辕排名，支持轩辕发展！