工学 >>> 控制科学与技术 >>> 自动控制理论 控制系统仿真技术 机电一体化技术 自动化仪器仪表与装置 机器人控制 自动化技术应用 自动控制技术其他学科
搜索结果: 1-15 共查到控制科学与技术 强化学习相关记录23条 . 查询时间(0.24 秒)
针对智能车辆的高精度侧向控制问题,提出一种基于滚动时域强化学习(Receding horizon reinforcement learning,RHRL)的侧向控制方法.车辆的侧向控制量由前馈和反馈两部分构成,前馈控制量由参考路径的曲率以及动力学模型直接计算得出;而反馈控制量通过采用滚动时域强化学习算法求解最优跟踪控制问题得到。
2023年1月5-6日,第七届深度强化学习理论与应用研讨会顺利举行。活动聚焦深度强化学习(DRL)与博弈、自动驾驶和机器人等方向的前沿进展与最新成果开展研讨交流,并邀请4位领域专家分别从“小样本强化学习算法及应用的研究进展”,“基于深度强化学习的交通信号控制进展”,“无人系统分布式协同控制”,“基于深度强化学习的智能电网新能源高效利用”等不同主题进行了精彩分享。报告环节在线上平台进行同步直播,吸引...
在深度神经网络 (Deep Neural Network,DNN) 的帮助下,深度强化学习在许多复杂任务上取得了巨大成功,如游戏或机器人控制等。然而,深度强化学习方式与已知的生物强化学习方式仍然相差甚远,如生物中更多的利用群编码或具有复杂动力学的脉冲神经元来编码,并利用具有生物合理的可塑性学习规则来进一步形成复杂的认知功能。近期,自动化所类脑智能研究中心徐波、张铁林团队,通过将生物系统中多尺度信息...
2021年10月,中国科学院沈阳自动化研究所在车间智能调度方面研究取得新进展,基于深度强化学习方法实现了动态订单下可重构车间对动态生产调度和车间重构的实时优化和智能决策,研究成果发表在International Journal of Production Research。由于车间调度问题大多属于NP难问题,传统元启发式算法只能在多项式时间内求得近优解。对大规模问题,元启发式算法的求解时间难以满足...
为提高准被动双足机器人斜坡步行稳定性,本文提出了一种基于深度强化学习的准被动双足机器人步态控制方法.通过分析准被动双足机器人的混合动力学模型与稳定行走过程,建立了状态空间、动作空间、episode过程与奖励函数.在利用基于DDPG改进的Ape-X DPG算法持续学习后,准被动双足机器人能在较大斜坡范围内实现稳定行走.仿真实验表明,Ape-X DPG无论是学习能力还是收敛速度均优于基于PER的DDP...
中科院自动化所深度强化学习团队提出了一种基于深度强化学习的未知环境自主探索算法,能够使机器人在没有先验的环境中自主探索,并实时构建环境地图。论文发表在2020年IEEE TNNLS上[1]。未知环境探索是指机器人在没有任何先验知识的情况下,在一个新的环境中通过移动而建立完整环境地图的过程,反映了机器人系统的自主决策能力和对环境的适应性,是机器人领域的一个热点问题。它在实际中有着广泛的应用场景,如救...
为实现微创外科手术机器人的手术姿态调整,提出一种基于模糊强化学习的变导纳人机力交互模型.通过在线学习的方式将人的操作特性考虑到人机力交互过程之中,并能够自适应地调整导纳控制模型以响应操作者的控制意图.通过自行研制的微创外科手术机器人样机进行相关的实验验证,实验结果表明基于模糊Sarsa (λ)学习的变导纳控制模型可实现柔顺自然的机械臂摆位操作,能够满足力交互过程中各阶段的阻尼变化需求,具有较高的可...
近年来,以数据驱动为核心的深度学习通过逐层抽象方式形成原始数据区别性表达,在自然语言、语音和计算机视觉等领域取得了显著进展。但是,这一任务式、刺激式的学习机制需要向探索式(直觉牵引)、自主式学习机制跃升,具备“学习学习(learning to learn)”能力,形成解释性强、数据依赖灵活和知识引导的模型和方法。
本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法,LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互,能更快发现指导多机器人强化学习的规则,为强化学习系统的动作选择提供实时、动态的反馈,使多机器人自主地学习到相互协作的最优策略。算法的分析和仿真表明多机器人学习空间大、学习速度收敛慢、学习效果不确定等问题得到很大的改善。This paper presents ...
主要研究了强化学习算法及其在机器人足球比赛技术动作学习问题中的应用.强化学习的状态空间 和动作空间过大或变量连续,往往导致学习的速度过慢甚至难于收敛.针对这一问题,提出了基于T-S 模型模糊 神经网络的强化学习方法,能够有效地实现强化学习状态空间到动作空间的映射.此外,使用提出的强化学习方 法设计了足球机器人的技术动作,研究了在不需要专家知识和环境模型情况下机器人的行为学习问题.最后,通 ...
概述了移动机器人常用的自主导航算法及其优缺点,在此基础上提出了强化学习方法。描述了强化学习算法的原理,并实现了用神经网络解决泛化问题。设计了基于障碍物探测传感器信息的机器人自主导航强化学习方法,给出了学习算法中各要素的数学模型。经仿真验证,算法正确有效,具有良好的收敛性和泛化能力。
针对多机器人协作复杂搜集任务中学习空间大,学习速度慢的问题,提出了带共享区的双层强化学习算法。该强化学习算法不仅能够实现低层状态-动作对的学习,而且能够实现高层条件-行为对的学习。高层条件-行为对的学习避免了学习空间的组合爆炸,共享区的应用强化了机器人间协作学习的能力。仿真实验结果说明所提方法加快了学习速度,满足了未知环境下多机器人复杂搜集任务的要求。
研究多站点传送带给料生产加工站(Conveyor-serviced production station, CSPS)系统的最优控制问题, 其优化目标是通过合理选择每个CSPS的Look-ahead控制策略, 实现整个系统的工件处理率最大.本文首先根据多Agent系统的反应扩散思想, 对每个Agent的原始性能函数进行改进, 引入了具有扩散功能的局域信息交互项(原始项看作具有反应功能); 并运用性...
提出了一种基于最小线性平均的强化学习算法,用于解决连续空间下强化学习函数估计的非收敛性问题。该算法基于梯度下降法,根据压缩映射原理,通过采用线性平均法作为值函数估计的性能衡量标准,把值函数估计的迭代过程转化为一个收敛于不动点的过程。该算法利用强化学习算法的标准问题Mountain Car问题进行了验证,仿真结果验证了算法是有效的和可行的,并且可以快速收敛到稳定值。
本文采用强化学习方法实现了智能机器人的避碰行为学习.文中首先介绍了强化学习 原理,讨论了采用神经网络实现强化学习系统的方法,然后对具有强化学习机制的智能机器 人避碰行为学习系统进行了仿真实验,并对仿真结果进行了分析.

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...