1、典型的“鸡尾酒会”问题中,提取出不同人说话的声音是属于()。

A、监督学习
B、非监督学习
C、强化学习
D、线性回归

参考答案：请扫码使用小程序查看答案

2、()有跟环境进行交互,从反馈当中进行不断的学习的过程。

A、监督学习
B、非监督学习
C、强化学习
D、线性回归

参考答案：请扫码使用小程序查看答案

3、在Q-Learning中，所谓的Q函数是指

A.状态动作函数
B.状态值函数
C.动作值函数
D.策略函数

参考答案：请扫码使用小程序查看答案

4、Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。

A、期望值
B、最大值
C、最小值
D、总和

参考答案：请扫码使用小程序查看答案

5、在强化学习的过程中,学习率α越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越()。

A、大;小
B、大;大
C、小;小
D、小;大

参考答案：请扫码使用小程序查看答案

6、在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()。

A、大;小
B、大;大
C、小;小
D、小;大

参考答案：请扫码使用小程序查看答案

7、在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

A、探索;开发
B、开发;探索
C、探索;输出
D、开发;输出

参考答案：请扫码使用小程序查看答案

8、强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。

A、探索
B、开发
C、输入
D、输出

参考答案：请扫码使用小程序查看答案

9、马尔可夫性质强调在每一个动作状态序列中,下一个状态与()有关。

A、外部影响
B、主体内因
C、历史状态
D、当前状态

参考答案：请扫码使用小程序查看答案

10、强化学习的回报值一个重要特点是具有()。

A、客观性
B、主体性
C、超前性
D、滞后性

参考答案：请扫码使用小程序查看答案

11、用于监督分类的算法有()。

A、支持向量机
B、决策树
C、神经网络
D、线性回归

参考答案：请扫码使用小程序查看答案

12、在强化学习中,主体和环境之间交互的要素有()。

A、状态
B、动作
C、回报
D、强化

参考答案：请扫码使用小程序查看答案

13、对人脸好看程度评分,主要用的是监督学习的分类功能。()

参考答案：请扫码使用小程序查看答案

14、人工智能学习玩Flappy Bird过程中,只需要人类告诉AI不能碰到水管即可,不需要提供其他信息。()

参考答案：请扫码使用小程序查看答案

15、状态动作函数直接决定主体该采取什么决策。()

参考答案：请扫码使用小程序查看答案

当前位置：首页 ＞课程 ＞人工智能与信息社会

1、典型的“鸡尾酒会”问题中,提取出不同人说话的声音是属于()。

2、()有跟环境进行交互,从反馈当中进行不断的学习的过程。

3、在Q-Learning中，所谓的Q函数是指

4、Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。

5、在强化学习的过程中,学习率α越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越()。

6、在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()。

7、在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

8、强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。

9、马尔可夫性质强调在每一个动作状态序列中,下一个状态与()有关。

10、强化学习的回报值一个重要特点是具有()。

11、用于监督分类的算法有()。

12、在强化学习中,主体和环境之间交互的要素有()。

13、对人脸好看程度评分,主要用的是监督学习的分类功能。()

14、人工智能学习玩Flappy Bird过程中,只需要人类告诉AI不能碰到水管即可,不需要提供其他信息。()

15、状态动作函数直接决定主体该采取什么决策。()

人工智能与信息社会（北京大学)

当前位置：首页 ＞课程 ＞人工智能与信息社会

1、典型的“鸡尾酒会”问题中,提取出不同人说话的声音是属于()。

2、()有跟环境进行交互,从反馈当中进行不断的学习的过程。

3、在Q-Learning中，所谓的Q函数是指

4、Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的()。

5、在强化学习的过程中,学习率α越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越()。

6、在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()。

7、在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。

8、强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。

9、马尔可夫性质强调在每一个动作状态序列中,下一个状态与()有关。

10、强化学习的回报值一个重要特点是具有()。

11、用于监督分类的算法有()。

12、在强化学习中,主体和环境之间交互的要素有()。

13、对人脸好看程度评分,主要用的是监督学习的分类功能。()

14、人工智能学习玩Flappy Bird过程中,只需要人类告诉AI不能碰到水管即可,不需要提供其他信息。()

15、状态动作函数直接决定主体该采取什么决策。()

人工智能与信息社会（北京大学)

当前位置：首页＞课程＞人工智能与信息社会