AI是如何学习的?今天我们来说说AlphaGo zero的主要学习方式,强化学习。
简单的讲,强化学习就是AI通过环境反馈将自己完成任务的方式优化的越来越好的循环过程。也许有人会问,以现在计算机运行速度,穷举所有的可能性就可以了,但事情没有这么简单。
先说计算,以弹幕游戏为例,假设画面大小为500乘500像素,因为要预估子弹走势,给飞机留出移动时间,所以需要四张连续图片进行计算,极端情况下,某一时刻所有计算的可能性是没有子弹到满屏子弹共有二到25万次方的可能性,解析和保存这个量级的图片状态,穷举无法办到。
再说策略,以围棋为例,比如在第20步时走错一子,导致第30步输掉比赛环境并不能在第20步时告诉AI走的好与不好。只能在输掉比赛后再去评估每一步的对错,所以强化学习的策略是通过不断试错,学习到一个长期回报的动作序列。
目前,强化学习已在游戏、量化交易、机器人、火箭垂直回收等领域得到了较好的应用。