與 AI 博弈:從 AlphaGo 到 MuZero(二)

admin · 發表於 2023-10-16 15:53:58

DeepMind 官網先容：

作者利用一個参数為 θ 的深度神經收集 f_θ。這個神經收集将位置及其汗青的位置暗示作為输入 s ，并输出棋步几率和一個值 (p,v)=f_θ(s)。棋步几率向量預示着選擇每步棋的几率，p_a=Pr(a|s)。而值 v 是一個标量评价，估量当前棋手從位置 s 获胜的几率。该神經收集将计谋收集和价值收集連系到一個架構中。其神經收集由很多卷积层的残存块構成，并加之批归一化（batch normalisation）和激活函数（rectifier non-linearities）。

圖 1：AlphaGo Zero 中的自我博弈强化進修。 a. 步伐與本身玩遊戲 s_1,...,s_T。在每一個位置 s_t 中，利用最新的神經收集 f_θ 履行蒙特卡洛树搜刮 (MCTS) α_θ（拜见圖 2）。按照 MCTS 计较的搜刮几率選擇動作 a_t \台北傳播妹,sim π_t 。按照遊戲@法%Kg7Vi%则對结%Ndm23%局@位置 s_T 举行评分以计较遊戲获胜者 z。 b. AlphaGo Zero

AlphaGo Zero 中的神經收集是經由過程一种别致的强化進修算法從自我博弈中练习出来的。在每一個位置 s，履行 MCTS 搜刮，由神經收集 f_θ 指导。 MCTS 搜刮输出每一個動作的几率 \pi。這些搜刮几率凡是選擇比神經收集 f_θ(s) 的原始挪動几率 p 更强的挪九州娛樂城tha，動；是以，MCTS 可以被视為一個壮大的计谋改良算子。利用改良的基于 MCTS 的计谋来選擇每步（搜刮自我博弈），然後利用遊戲获胜者 z 作為值的样本（可以被视為一個壮大的计谋评估算子）。其强化進修算法的重要思惟是在计谋迭代進程中反复利用這些搜刮算子：更新神經收集的参数以使挪動几率和值 (p,v) = f_θ(歐冠盃投注,s) 更匹配改良的搜刮几率和自我博弈获胜者 (π,z)；這些新参数用于下一次自我棋战迭代，以使搜刮加倍壮大。

圖 2：AlphaGo Zero 中的蒙特卡洛树搜刮。 a. 每一個摹拟經由過程選擇具备最大動作值 Q 的邊和取决于存储的先驗几率 P 和该邊的拜候计数 N 的 UCT 值 U 来遍历树（遍历後递增）。 b. 叶节點開展，联系關系位置 s 由股癬怎麼治療,神經收集评估 (P(s,·),V(s)) = f_θ(s)； P 值的向量存储在 s 的出邊中。 c. 更新動作值 Q 以跟

蒙特卡洛树搜刮利用神經收集 f_θ 来举行摹拟步調（拜见圖 2）。搜刮树中的每条邊 (s,a) 存储先驗几率 P(s,a)、拜候计数 N(s,a) 和動作值 Q(s,a)。每一個摹拟從根状况起頭，并迭代地選擇最大化 Q(s,a)+U(s,a) 的挪動，此中 U(s,a) ∝P(s,a)/(1+ N (s,a)) , 直到碰到叶节點 s'。该叶位置仅由收集扩大和评估一次，以天生先驗几率和评估，(P(s',·),V (s')) = f_θ(s')。在摹拟中遍历的每条邊 (s,a) 城市更新以增长其拜候计数 N(s,aleo九州娛樂城ptt，)，并将其動作值更新為這些摹拟的均匀评估，Q(s,a) = 1/N (s,a) ∑_{s'|s,a→s'} V (s')，此中 s,a→s' 暗示摹拟從位置 s 挪動 a 後终极达到 s'

蒙特卡洛树搜刮可以被视為一种自我博弈算法，在给定神經收集参数 θ 和根位置 s 的环境下，计较举薦挪動的搜刮几率向量，π = α_θ(s)，與每次挪動的指数拜候次数成正比, π_a ∝ N(s,a)^{1/τ}，此中 τ 是热度参数。

神經收集經由過程自我博弈强化進修算法举行练习，该算法利用蒙特卡洛树搜刮来举行每個動作。起首，神經收集被初始化為自嗨鍋，随機权重 θ_0。在每次後续迭代 i ≥ 1 時，城市举行自我博弈（圖 1a）。在每一個時候步 t，利用神經收集 f_{θ_{i-1}} 的先前迭代履行蒙特卡洛树搜刮 π_t = α_{θ_{i-1}}(s_t)，并@經%9X114%由%9X114%過%9X114%程對搜%AMN6c%刮@几率 π_t 举行采样来下棋。当两個玩家都竣事時或当搜刮值降低到抛却阈值如下或当遊戲跨越最大长度時，遊戲在步調 T 终止；然後對遊戲举行评分以给出 r_T ∈ \{−1,+1\} 的终极嘉奖。每一個時候步 t 的数据存储為 (s_t,π_t,z_t)，此中 z_t = ±r_T 是從当前玩家的角度来看，在步調 t 的遊戲获胜者。并行地（圖 1b），新的收集参数 θ_i 是從自我遊戲的最後一次迭代的所有時候步中平均采样的数据 (s,π,z) 练习的。調解神經收集 (p,v) = f_{θ_i} (s) 以最小化展望值 v 和自我博弈获胜者 z 之間的偏差，并使神經收集挪動几率 p 到搜刮几率 π 的類似性最大化。详细来讲，参数 θ 經由過程梯度@降%eV9O3%低對丧%TS2F7%失@函数 l 举行調解，该丧失函数 l 别離對均方偏差和交织熵丧失乞降，

(p,v) = f_\theta(s),\ l=(z-v)^2-{\pi}^{\top} \log p + c||\theta||^2\ \ \ (1) \\

此中 c 是节制 L2 权重正则化程度的参数（以避免過分拟合）

初期版本的 AlphaGo 最初练习了数千种人類業余和职業遊戲，以進修若何下围棋。 AlphaGo Zero 跳過了這一步，简略地經由過程與自我博弈来進修下棋，從彻底随機的遊戲起頭。在如许做的進程中，它敏捷超出了人類的遊戲程度，并以 100 比 0 击败了以前公布的冠军击败版本的 AlphaGo。

它在其他光鲜明显方面也與之前的版本分歧。

所有這些差别都有助于提高体系的機能并使其更通用。但恰是算法的变革使体系加倍壮大和高效。

因為硬件的前進和算法前進，AlphaGo 变得愈来愈高效

仅仅三天的自我對战练习，AlphaGo Zero 就以 100 比 0 的比分以 100 比 0 强势击败了以前公布的 AlphaGo 版本——AlphaGo 自己已击败了 18 届世界冠军李世石。颠末 40 天的自我练习，AlphaGo Zero 变得平手更强，超出了被称為“Master”的 AlphaGo 版本（其击败了人類棋手世界排名第一的柯洁）。

Elo 分数 - 权衡玩家在围棋等竞技遊戲中的相對于技術程度 - 显示 AlphaGo 在其成长進程中若何变得愈来愈壮大

在数百万次 AlphaGo 與 AlphaGo 角逐的進程中，体系從零起頭渐渐進修围棋遊戲，在短短几天内堆集了人類数千年的常识。 AlphaGo Zero 還發明了新常识，開辟了很是規的计谋和缔造性的新動作，與李世石和柯洁在角逐中所阐扬的别致技能相呼應并超出了它。

		自動登錄	找回密碼
密碼			立即註冊