作者利用一個参数為 θ 的深度神經收集 f_θ。這個神經收集将位置及其汗青的位置暗示作為输入 s ,并输出棋步几率和一個值 (p,v)=f_θ(s)。棋步几率向量預示着選擇每步棋的几率,p_a=Pr(a|s)。而值 v 是一個标量评价,估量当前棋手從位置 s 获胜的几率。该神經收集将计谋收集和价值收集連系到一個架構中。其神經收集由很多卷积层的残存块構成,并加之批归一化(batch normalisation)和激活函数(rectifier non-linearities)。
圖 1:AlphaGo Zero 中的自我博弈强化進修。 a. 步伐與本身玩遊戲 s_1,...,s_T。在每一個位置 s_t 中,利用最新的神經收集 f_θ 履行蒙特卡洛树搜刮 (MCTS) α_θ(拜见圖 2)。按照 MCTS 计较的搜刮几率選擇動作 a_t \台北傳播妹,sim π_t 。按照遊戲@法%Kg7Vi%则對结%Ndm23%局@位置 s_T 举行评分以计较遊戲获胜者 z。 b. AlphaGo Zero
AlphaGo Zero 中的神經收集是經由過程一种别致的强化進修算法從自我博弈中练习出来的。在每一個位置 s,履行 MCTS 搜刮,由神經收集 f_θ 指导。 MCTS 搜刮输出每一個動作的几率 \pi。這些搜刮几率凡是選擇比神經收集 f_θ(s) 的原始挪動几率 p 更强的挪九州娛樂城tha,動;是以,MCTS 可以被视為一個壮大的计谋改良算子。利用改良的基于 MCTS 的计谋来選擇每步(搜刮自我博弈),然後利用遊戲获胜者 z 作為值的样本(可以被视為一個壮大的计谋评估算子)。其强化進修算法的重要思惟是在计谋迭代進程中反复利用這些搜刮算子:更新神經收集的参数以使挪動几率和值 (p,v) = f_θ(歐冠盃投注,s) 更匹配改良的搜刮几率和自我博弈获胜者 (π,z);這些新参数用于下一次自我棋战迭代,以使搜刮加倍壮大。
圖 2:AlphaGo Zero 中的蒙特卡洛树搜刮。 a. 每一個摹拟經由過程選擇具备最大動作值 Q 的邊和取决于存储的先驗几率 P 和该邊的拜候计数 N 的 UCT 值 U 来遍历树(遍历後递增)。 b. 叶节點開展,联系關系位置 s 由股癬怎麼治療,神經收集评估 (P(s,·),V(s)) = f_θ(s); P 值的向量存储在 s 的出邊中。 c. 更新動作值 Q 以跟
蒙特卡洛树搜刮利用神經收集 f_θ 来举行摹拟步調(拜见圖 2)。搜刮树中的每条邊 (s,a) 存储先驗几率 P(s,a)、拜候计数 N(s,a) 和動作值 Q(s,a)。每一個摹拟從根状况起頭,并迭代地選擇最大化 Q(s,a)+U(s,a) 的挪動,此中 U(s,a) ∝P(s,a)/(1+ N (s,a)) , 直到碰到叶节點 s'。该叶位置仅由收集扩大和评估一次,以天生先驗几率和评估,(P(s',·),V (s')) = f_θ(s')。在摹拟中遍历的每条邊 (s,a) 城市更新以增长其拜候计数 N(s,aleo九州娛樂城ptt,),并将其動作值更新為這些摹拟的均匀评估,Q(s,a) = 1/N (s,a) ∑_{s'|s,a→s'} V (s'),此中 s,a→s' 暗示摹拟從位置 s 挪動 a 後终极达到 s'