>>> 哲学 经济学 法学 教育学 文学 历史学 理学 工学 农学 医学 军事学 管理学 旅游学 文化学
搜索结果: 1-15 共查到强化学习相关记录92条 . 查询时间(0.22 秒)
CAA会士面对面系列活动是中国自动化学会为学会会士量身打造的高端学术交流平台,每期活动邀请1位或数位学会会士进行专题报告,围绕国际科技热点,聚焦国家创新发展战略需求,前瞻学科领域发展新方向,积极发挥学术引领和科技智库作用,展现重大学术咨询研究成果,引导社会尊崇科学思想和方法,促进公众提升科学意识和素养。
针对智能车辆的高精度侧向控制问题,提出一种基于滚动时域强化学习(Receding horizon reinforcement learning,RHRL)的侧向控制方法.车辆的侧向控制量由前馈和反馈两部分构成,前馈控制量由参考路径的曲率以及动力学模型直接计算得出;而反馈控制量通过采用滚动时域强化学习算法求解最优跟踪控制问题得到。
作为一种不需要事先获得训练数据的机器学习方法,强化学习(Reinforcement learning,RL)在智能体与环境的不断交互过程中寻找最优策略,是解决序贯决策问题的一种重要方法.通过与深度学习(Deep learning,DL)结合,深度强化学习(Deep reinforcement learning,DRL)同时具备了强大的感知和决策能力,被广泛应用于多个领域来解决复杂的决策问题.异策略...
强化学习(Reinforcement learning,RL)在围棋、视频游戏、导航、推荐系统等领域均取得了巨大成功.然而,许多强化学习算法仍然无法直接移植到真实物理环境中.这是因为在模拟场景下智能体能以不断试错的方式与环境进行交互,从而学习最优策略.但考虑到安全因素,很多现实世界的应用则要求限制智能体的随机探索行为.因此,安全问题成为强化学习从模拟到现实的一个重要挑战.近年来,许多研究致力于开发...
针对烘丝开始阶段存在的烘丝温度超调、过干烟丝较多等问题,提出一种基于强化学习(Reinforcement learning,RL)的减少烟丝“干头”量的方法.该方法利用生产实时数据作为输入特征向量感知烘丝生产过程的状态变化,以烟丝含水率检测值为依据来评价、优化烘丝温度控制策略,实现对烘丝机温度设定值的在线修正,优化烘丝开始阶段的温度控制,有效改善烟丝过干问题。
针对脉冲推力航天器轨道追逃博弈问题,提出一种基于强化学习的决策方法,实现追踪星在指定时刻抵近至逃逸星的特定区域,其中两星都具备自主博弈能力.首先,充分考虑追踪星和逃逸星的燃料约束、推力约束、决策周期约束、运动范围约束等实际约束条件,建立锥形安全接近区及追逃博弈过程的数学模型;其次,为了提升航天器面对不确定博弈对抗场景的自主决策能力,以近端策略优化(Proximal policy optimizat...
为了模拟人眼的视觉注意机制,快速、高效地搜索和定位图像目标,提出了一种基于循环神经网络(Recurrent neural network,RNN)的联合回归深度强化学习目标定位模型.该模型将历史观测信息与当前时刻的观测信息融合,并做出综合分析,以训练智能体快速定位目标,并联合回归器对智能体所定位的目标包围框进行精细调整.实验结果表明,该模型能够在少数时间步内快速、准确地定位目标。
基于因果建模的强化学习技术在智能控制领域越来越受欢迎.因果技术可以挖掘控制系统中的结构性因果知识,并提供了一个可解释的框架,允许人为对系统进行干预并对反馈进行分析.量化干预的效果使智能体能够在复杂的情况下(例如存在混杂因子或非平稳环境)评估策略的性能,提升算法的泛化性.本文旨在探讨基于因果建模的强化学习控制技术(以下简称因果强化学习)的最新进展,阐明其与控制系统各个模块的联系。
运行指标决策问题是实现工业过程运行安全和生产指标优化的关键.考虑到多运行指标决策问题求解的复杂性和工业过程生产条件动态波动引发生产指标状态的不确定性,提出了一种策略异步更新强化学习算法自学习决策运行指标,并给出算法收敛性的理论证明.该算法在随机自适应动态规划框架下,利用样本均值代替计算生产指标状态转移概率矩阵,因此无需要求生产指标状态转移概率矩阵已知.并且通过引入时钟和定义其阈值,采用集中式策略评...
2023年1月5-6日,第七届深度强化学习理论与应用研讨会顺利举行。活动聚焦深度强化学习(DRL)与博弈、自动驾驶和机器人等方向的前沿进展与最新成果开展研讨交流,并邀请4位领域专家分别从“小样本强化学习算法及应用的研究进展”,“基于深度强化学习的交通信号控制进展”,“无人系统分布式协同控制”,“基于深度强化学习的智能电网新能源高效利用”等不同主题进行了精彩分享。报告环节在线上平台进行同步直播,吸引...
近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随...
在用深度学习求解组合优化问题时,组合优化实例的分布差异会显著影响深度学习求解方法的泛化性能,因此提升数据泛化性能的关键在于使模型具备处理不同分布数据的能力。基于此,我们提出了用于提升深度学习求解算法泛化性能的博弈框架,该博弈框架适用于任何组合优化问题和任何深度学习求解算法,该框架基于策略空间响应的 Oracle 构造学习算法和数据生成器之间的二人零和元博弈,经过多轮博弈后可得到一组不同分布上具有不...
上海光机所高功率激光物理联合实验室前沿部在利用深度强化学习实现激光种子源锁模状态搜索研究上取得重要进展,相关成果以“Deep reinforcement with spectrum series learning control for a mode-locked fiber laser”为题发表在Photonics Research。
近年来,以深度学习为标志的数据智能技术得到了管理学者的广泛关注,如何有效利用该技术提升复杂动态场景下的管理决策水平,也成为管理领域的前沿热点问题。报告将围绕该问题展开讨论,并以报告人近期在深度强化学习上的研究为例进行阐释,力图让听众理解数据智能与优化方法融合的why与how等关键问题。

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...