我写了一本关于从游戏中学习人工智能的书籍

我写了一本新书。

 

科技 × 图书 加上 シリーズ
从游戏中学习 AI
—— 通过环境模拟器 × 深度强化学习拓宽世界
https://gihyo.jp/book/2022/978-4-297-12972-9

这次的内容是关于DeepMind论文的解释。其中包括围棋AI“AlphaGo”以及能够玩Atari 2600视频游戏的“DQN”等,以图表的形式解释了10篇以上的论文。

最初我决定写这本书的契机是我注意到玩Minecraft的人工智能开始变得流行。在2019年发布的“MineRL”中,通过深度强化学习技术构建了学习Minecraft的环境,并且从那时起,每年都会举办比赛。

 

2022年,OpenAI提出了名为”VPT”的技术方案,使得人工智能能够自主挖掘钻石并制作钻石工具。

 

在2022年,还开始了一个名为MineDojo的新项目,旨在开发一个高级人工智能,使玩家能够在Minecraft的世界上自由积累知识。

 

当我们阅读了MineRL项目开始的原因,了解到AI正在积极地模仿人类行为进行学习,也就是所谓的模仿学习,这背后是一系列研究的背景。对于学习现代复杂游戏环境来说,仅仅通过随机行动进行强化学习已经达到了极限,需要AI通过观看视频等方式获取知识。

模仿学习是指

“模仿学习”是一种强化学习的形式,通过给予奖励来鼓励AI在行为上进行成功的模仿,以使其学会更加人类化的行为技巧。

在MineRL的页面上,以模仿学习成功案例之一,介绍了一个名为”AlphaStar”的AI,能够玩StarCraft II。AlphaStar通过使用人类之间的对战记录(回放)进行监督学习,以及AI之间的自我对战来进行强化学习,从而实现了模仿学习,并表现出类似人类的行为。

 

所以,我開始閱讀了AlphaStar的論文,但它相當難懂。AlphaStar使用了由DeepMind開發的Actor-Critic類型的深度強化學習模型「V-Trace」,它的起源可以追溯到2016年的「A3C」和2013年的「DQN」。

 

AlphaStar的架构非常复杂,内部使用了”Transformer”、”Attention”和”Deep LSTM”等复杂的组件交织在一起。

这本书总结了DeepMind在2020年之前发表的主要论文,如果不认真阅读,可能不太容易理解。所以,借此机会,我阅读了这些论文,并总结了我对其理解的内容。

目录

1章 ゲームAIの歴史
 - ボードゲーム、汎用ビデオゲーム、深層強化学習、RTS
2章 機械学習の基礎知識
 - 深層学習、RNN、自然言語処理、強化学習
3章 囲碁を学ぶAI
 - AlphaGo、AlphaGo Zero、AlphaZero、MuZero
4章 Atari-57を学ぶAI
 - DQN、Rainbow、Ape-X、R2D2、NGU、Agent57
5章 StarCraft IIを学ぶAI
 - SC2LE、AlphaStar
6章 Minecraftを学ぶAI
 - Malmo、MineRL、今後の展望

1〜2章是预备知识,3〜5章是对DeepMind论文的解释。第6章例外地涵盖了Minecraft相关论文,并总结了2021年以后的游戏AI研究动态。

由於這本書是為初學者而寫的,所以它被設計成即使你沒有預備知識也能輕鬆閱讀。本書包含了許多早於2020年的論文,對於常常追蹤最新論文的人來說,這些內容可能已經過時。然而對於即將開始學習的人來說,這些內容會讓他們能夠粗略回顧過去的歷史。

提供的信息

您可以在下一页中查看目录和前言以获取更详细的信息。

 

顺便说一下,纸质版是黑白的,但电子版(PDF/EPUB格式)包括屏幕截图等都是彩色的,阅读起来更方便。

 

广告
将在 10 秒后关闭
bannerAds