谷歌并不是想开发完美的围棋软件, 他们只是利用围棋作为突破口证明自己开发的AI学习能力强,算法可行, 将来在其他领域有可能用得上.
对李世石由于出现了BUG,而且开发团队显然还有zero的思路,于是他们继续优化算法, 对柯洁的版本已经足够好, 所以他们选择停止继续开发.
另外,学习人类棋谱只是默认人类的招法都是正确的,但如果满分100,人类的棋本身就只是80-90分, 如果让机器学习会导致收益函数有偏差.
算法函数应该和之前的版本差不多, 因为在围棋领域, 强化学习属于无监督学习, 人类无法给与其正确的指导,只能通过最终胜负来判断之前的棋是否好. 因此回报函数必然是一个大的收益矩阵, 通过蒙特卡洛树搜索左右互博下棋,然后根据最终胜负判断,胜的一方收益为正,负的一方收益为负, 再通过衰减变量倒推至第一步.
通过无数盘的左右互博,不断更新收益矩阵, 最终得到完美的狗.
|