黄世杰被自己的想法吓了一大跳。
如果他的猜测是真的,那就意味着,对方不止是在训练上走在了deepmind前面,在算法上,更是把deepmind远远甩在了后面!
此前他们也曾经设想过让alphaGo完全自我对弈来掌握围棋,但效果非常糟糕。
在实验中,他们发现,alphaGo所用的策略梯度算法在平衡探索新策略与利用已知策略之间存在严重的不稳定性,导致AI无法从整局优势的角度上去考虑胜负优势。
而且,围棋的胜负信号噪音太强了,如果没有初期的既有知识引导,会导致模型在初期训练阶段无法有效学习。
除此之外,还需要解决神经网络的“灾难性遗忘”问题和没有初始策略下的大量随即走子的问题。
可以说,这里面任何一个问题,可能都需要大量的人力物力和极为聪明的大脑来花费几个月的时间进行解决。
尤其是“灾难性遗忘”,这种学了新知识就忘了旧知识的现象在深度学习领域非常常见,可以说,整个深度学习领域迄今都没有找到太好的办法应对各种原因所造成的灾难性遗忘。
最终,alphaGo团队仍旧只能用人类棋谱训练alphaGo,当其成长到一定程度后,再让其自我对弈,迭代进化。
而现在这个对手……
但愿他是一个人类吧。
黄世杰虽然不需要考虑棋盘上的复杂变化,但额头上仍旧渗出了一层汗珠。
——
“嗨,各位,脸色怎么这么差?”谢尔盖布林和拉里佩奇刚刚赶回监控室,就看到deepmind每一个人都脸色铁青,沉默不语的盯着桌子上并排摆放的十几台显示器。
“白棋很危险啊,看来对方马上就要投了。”谢尔盖布林也会下围棋,而且水平还可以,有业余一二段的水平,一眼就看出白棋很危险。
“嗨,高兴一点,你们创造了历史!伙计们,三比零打败了李世实,这不是人类的失败,而是人类的另一场胜利!”谢尔盖布林用力拍了拍离得最近的大卫席尔瓦的肩膀。
他这话一说,大卫席尔瓦的脸色就更难看了。
监控室中更是一片安静。
“谢尔盖,alphaGo……是白棋。”哈萨比斯艰难的挤出一句话。
阿法狗是白棋?谢尔盖布林不由得愕然,仔细看了一眼屏幕,果然,阿法狗今天持白。
“是被对手
本章未完,请点击下一页继续阅读!