1.【单选题】
AlphaGo在围棋比赛中战胜人类冠军,其核心算法中使用了(),该方法通过智能体与环境的交互,根据环境的反馈(奖赏或惩罚)来优化行为策略。
迁移学习
强化学习
主动学习
演化学习
微信号:hqwxjg1006
扫描即表示同意《网站注册协议》