CN113290554B - 一种基于值迭代的Baxter机械臂智能优化控制方法 - Google Patents
一种基于值迭代的Baxter机械臂智能优化控制方法 Download PDFInfo
- Publication number
- CN113290554B CN113290554B CN202110464400.8A CN202110464400A CN113290554B CN 113290554 B CN113290554 B CN 113290554B CN 202110464400 A CN202110464400 A CN 202110464400A CN 113290554 B CN113290554 B CN 113290554B
- Authority
- CN
- China
- Prior art keywords
- strategy
- vector
- optimal
- mechanical arm
- baxter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000011217 control strategy Methods 0.000 claims abstract description 12
- 238000005070 sampling Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000001133 acceleration Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000012854 evaluation process Methods 0.000 claims description 2
- 230000005484 gravity Effects 0.000 claims description 2
- 230000003044 adaptive effect Effects 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 description 7
- 238000004088 simulation Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005355 Hall effect Effects 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003638 chemical reducing agent Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000012994 industrial processing Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1628—Programme controls characterised by the control loop
Landscapes
- Engineering & Computer Science (AREA)
- Robotics (AREA)
- Mechanical Engineering (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于值迭代的Baxter机械臂智能优化控制方法,先初始化Baxter机械臂系统,选择基函数;对系统状态及输入进行采样,由当前时刻状态计算下一时刻状态,在线计算最优值函数;在得到最优值函数后,利用贪心算法更新策略,策略收敛时达到最优,不再更新,从而实现对系统的最优控制。本发明通过值迭代的自适应控制,求解最优控制策略来实现对系统进行智能优化控制,在系统部分模型参数未知的情况下,不需要对系统进行辨识,而是基于值迭代的自适应控制方法,在线对系统实现最优控制,同时在机器人平台进行算法调试,在实际层面实现效果。
Description
技术领域
本发明属于控制技术领域,具体提供一种基于值迭代的Baxter机械臂智能优化控制方法,实现系统模型未知情况下的Baxter机械臂系统的最优控制。
背景技术
多轴机械臂因其独特的设计结构,能够在多个领域得到广泛的推广使用,采用工业机械臂代替人力所要完成的任务,可以提升工业生产、加工的自动化水平,因此机械臂技术的突破及产业的拓展意义重大。
控制系统传统的开发流程一般以数学仿真为主,数学仿真对于Baxter机械臂这一类非线性强耦合度的被控对象实现起来较为困难,并且此类仿真的结果置信度较低,往往难以达到预期效果。同时,目前对于多轴机械臂的控制研究,多采用传统的基于模型的控制方法,未能利用数据驱动思想在线实现对系统的控制,需要完全已知系统模型。而Baxter机械臂由于模型参数未知,可使用的传统的基于模型的控制方法更加有限,通过系统辨识对Baxter机械臂进行建模,工作量巨大且需要耗费大量时间和精力,同时可能存在模型不匹配、未建模动态等问题。
发明内容
为了克服现有方法存在不足,本发明提供一种基于值迭代的Baxter机械臂智能优化控制方法,该方法提出一种基于自适应值迭代算法,将ADP和智能优化控制系统理论的概念结合起来,提出了一种在线ADP技术,它能以时间向前的方式解决具有未知动力学参数的系统的连续时间无限时域最优控制问题;据测量控制器性能的信号序列更新控制器参数,通过更新控制策略和值函数估计的迭代过程,使它们接近最优控制策略和相应的最优值函数;每个迭代步骤包括基于当前控制策略的值函数更新,以及基于新的值函数估计值更新控制策略。
本发明解决其技术问题所采用的技术方案是:
一种基于值迭代的Baxter机械臂智能优化控制方法,考虑Baxter机械臂系统动力学方程如下:
其中q,分别表示机械臂位置,角速度,角加速度向量,Mj(q)表示机械臂惯性矩阵,Cj 表示机械臂科氏力矩向量,Gj(q)表示机械臂重力矩向量,τ表示机械臂控制力矩向量,τd表示外部环境的未知扰动力矩向量;
系统状态向量由下式表示:
Baxter机械臂的状态空间方程给出如下:
其中,On为(n×n)的零矩阵,In为(n×n)的单位矩阵;
其中,0n为(n×1)的零矩阵,n(x1,x2)收集科式力矩、重力矩相关信息;
对于Q-learning值迭代最优控制问题:
有限域最优控制问题为:
选取Q=1,R=1,(A,B)能控,控制器的求解由贝尔曼最优原理确认,由u=-Kx,其中K=R-1BTH,且H满足代数黎卡提方程:
ATH+HA-HBR-1BTH+Q=0 (8)
所述智能优化控制方法包括以下步骤:
步骤1)对系统进行初始化处理,步骤如下:
1.1)选取基函数:对连续时间LQR,其值函数在状态下是二次的,因此,选择(9)式中的actor神经网络的基函数 作为状态分量的二次多项式向量,该向量状态个数为n,则该基函数含有n(n+1)/2个分量,同时,权重向量W由矩阵H中的元素组成;
1.2)初始化系统:选择初始状态x0,计算基函数初始值,确定初始策略K0;
其中为Kronecker内积二次多项式基向量,元素为{zi(t)zj(t)}i=1,n;j=i,n,为向量值矩阵函数,作用于n×n矩阵,通过将对称矩阵的元素叠加成一个向量,非对角元素求和为Hij+Hji,从而得到列向量;
在每个迭代步骤中,在使用相同的控制策略Ki收集足够数量的位置和角速度轨迹点后,用最小二乘法求解Q函数参数从而得到Hi+1,在最小平方意义下,通过最小化目标函数之间的误差来找到参数向量H的最小值,在状态空间中N>N(N+1)个点Zi求值,得到最小二乘解为:
其中,
测量时间t和t+T离散时刻的状态,以及在采样时间间隔内观察到的奖励:
Hi+1=f(hi+1) (15)
步骤3)根据得到的最优值函数,通过贪心算法更新最优参数:
当最小二乘法收敛时,策略不再更新,得到最优策略,连续时间ADP算法由(14)和(6)之间的迭代组成,然而,使用(15)更新控制策略不需要包含动力学知识的系统矩阵,这使得算法在无模型的情况下实现。
本发明的工作原理如下:初始化系统,确定系统能控;对系统进行采样,使用最小二乘法在线计算值函数进行策略评估,当取得最优值函数时使用贪心算法更新策略,最终得到最优策略。
所用机器人平台为Baxter机器人,Baxter机器人是美国Rethink robotics公司研发的一款双臂机器人,其单机械臂是一种具有七自由度的冗余柔性关节机械臂。通过移动底座支撑机器人本体,机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用。柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器。手臂前后端通过26W和63W伺服电机驱动,通过14bit编码器实现关节角度的读取。Baxter机器人为基于ROS(Robot operating system)操作系统的开源机器人,通过Linux平台运行,用户可通过网络与机器人内部计算机互联读取信息或发送指令,或通SSH(Secureshell)远程控制在内部计算机运行相关程序。利用Baxter相关的SDK(Softwaredevelopment kit),通过ROS的API(Application programming interface)可以实现对Baxter机器人的信息读取与实时控制。Baxter中的SDK可以提供相关函数接口与重要工具:如Gazebo仿真器及Moveit移动软件包等。
本发明的有益效果为:通过值迭代的自适应控制,求解最优控制策略来实现对系统进行智能优化控制,在系统部分模型参数未知的情况下,不需要对系统进行辨识,而是基于值迭代的自适应控制方法,在线对系统实现最优控制,同时在机器人平台进行算法调试,在实际层面实现效果。
附图说明
图1是一种基于值迭代的Baxter机械臂智能优化控制方法的流程图;
图2是基于值迭代自适应控制的系统位置和角度变化图;
图3是基于值迭代和任意给定策略控制下的性能指标对比图;
图4是基于策略迭代下的系统输入变化图。
具体实施方式
为了让本方案的技术特点、目的和优点更加清晰、明朗,下面结合附图和实际实验对本发明的技术方案作进一步描述。
参照图1~图4,一种基于值迭代的Baxter机械臂智能优化控制方法,先初始化Baxter机械臂系统,选择基函数;对系统状态及输入进行采样,由当前时刻状态计算下一时刻状态,在线计算最优值函数;在得到最优值函数后,利用贪心算法更新策略,策略收敛时达到最优,不再更新,从而实现对系统的最优控制。
本发明为一种基于值迭代的Baxter机械臂智能最优控制方法,包括以下步骤:
1)初始化系统,选择基函数;
2)对系统进行采样,收集输入输出数据;使用最小二乘法计算值函数最优值,进行策略评估;
3)使用贪心算法更新策略。
进一步,所述步骤1)中,考虑三关节Baxter机械臂系统如下:
实验基于值迭代的自适应控制算法,通过获取采集机械臂位置和角速度,控制算法中策略的评估与更新中不涉及包含动力学知识的矩阵的使用,q1指机械臂一关节位置,指机械臂一关节角速度。对系统进行初始化,取初始状态x0=[1 1 1 1 1 1]T,选择基函数
再进一步,所述步骤2)中,任意给定某个策略,对系统进行策略评估和策略提升:
2.1)策略评估:在给定初始策略K0=O3×6的情况下,取采样时间T=0.004s,在有限区间[t,t+T]上对系统进行采样,利用当前时刻机械臂的位置和角速度x(t),更新下一时刻位置和角速度x(t+T),使用最小二乘法进行值函数计算,机械臂位置和角速度变化、价值函数变化如图2、图3所示;2.2)策略提升:经过策略评估后,得到最优值函数,利用贪心算法进行策略更新,当策略不随时间而变化时,得到最优策略。
从实验结果图3来看,策略更新60次后策略收敛不再更新,机械臂关节速度最终收敛接近于0,其控制效果可以达到预期要求。
在与已知动力学模型,任意给定策略的情况下的对比中,图3说明本方法系统状态收敛平缓快速,且过程中未出现过大超调量,可以实现预期控制效果在图4中的性能指标对比中可以发现,本方法可以更好更快地取得最佳性能指标。
本发明提供了一种基于值迭代的多轴机械臂智能优化控制方法,使用值迭代的自适应控制方法,经过策略评估和策略提升两个步骤实现在线解决系统最优控制问题,与现有技术相比,本发明的实用性在于:不需要系统模型参数进行辨识,可以通过采集系统轨迹数据获取系统信息,从而获得最优控制策略;通过Baxter机器人平台调试,实现本方法在实际平台的良好控制。
以上结合附图详细阐述了本发明的技术方案但并不局限于此,在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。
Claims (1)
1.一种基于值迭代的Baxter机械臂智能优化控制方法,其特征在于,所述方法考虑Baxter机械臂系统动力学方程如下:
系统状态向量由下式表示:
Baxter机械臂的状态空间方程给出如下:
其中,On为(n×n)的零矩阵,In为(n×n)的单位矩阵;
其中,0n为(n×1)的零矩阵,n(x1,x2)收集科式力矩、重力矩相关信息;
对于Q-learning值迭代最优控制问题:
有限域最优控制问题为:
选取Q=1,R=1,(A,B)能控,控制器的求解由贝尔曼最优原理确认,由u=-Kx,其中K=R-1BTH,且H满足代数黎卡提方程:
ATH+HA-HBR-1BTH+Q=0 (8);
所述智能优化控制方法包括以下步骤:
步骤1)对系统进行初始化处理,步骤如下:
1.1)选取基函数:对连续时间LQR,其值函数在状态下是二次的,因此,选择(9)式中的actor神经网络的基函数Rn→RL作为状态分量的二次多项式向量,该向量状态个数为n,则该基函数含有n(n+1)/2个分量,同时,权重向量W由矩阵H中的元素组成;
1.2)初始化系统:选择初始状态x0,计算基函数初始值,确定初始策略K0;
步骤2)对系统进行采样,并进行最小二乘法的计算,求得最优值函数,即策略评估过程;为了得到在策略Ki下每一步的Q函数,使用参数矩阵Hi计算,记z=[xT uT]T,上述公式变为:
在每个迭代步骤中,在使用相同的控制策略Ki收集足够数量的位置和角速度轨迹点后,用最小二乘法求解Q函数参数从而得到Hi+1,在最小平方意义下,通过最小化目标函数之间的误差来找到参数向量H的最小值,在状态空间中N个点Zi求值,得到最小二乘解为:
其中,
测量时间t和t+T离散时刻的状态,以及在采样时间间隔内观察到的奖励:
Hi+1=f(hi+1) (15)
步骤3)根据得到的最优值函数,通过贪心算法更新最优参数:
当最小二乘法收敛时,策略不再更新,得到最优策略,连续时间ADP算法由(14)和(6)之间的迭代组成,然而,使用(15)更新控制策略不需要包含动力学知识的系统矩阵,这使得算法在无模型的情况下实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464400.8A CN113290554B (zh) | 2021-04-28 | 2021-04-28 | 一种基于值迭代的Baxter机械臂智能优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110464400.8A CN113290554B (zh) | 2021-04-28 | 2021-04-28 | 一种基于值迭代的Baxter机械臂智能优化控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113290554A CN113290554A (zh) | 2021-08-24 |
CN113290554B true CN113290554B (zh) | 2022-06-17 |
Family
ID=77320428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110464400.8A Active CN113290554B (zh) | 2021-04-28 | 2021-04-28 | 一种基于值迭代的Baxter机械臂智能优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113290554B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118672199A (zh) * | 2024-08-26 | 2024-09-20 | 中国人民解放军国防科技大学 | 基于策略迭代求解的机器人数据驱动控制方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415435B (zh) * | 2018-04-04 | 2021-08-31 | 上海华测导航技术股份有限公司 | 一种农业机械圆曲线自动驾驶控制方法 |
CN108406773A (zh) * | 2018-04-27 | 2018-08-17 | 佛山科学技术学院 | 一种耗能最少的2r欠驱动平面机械臂控制方法 |
CN109919359B (zh) * | 2019-02-01 | 2024-06-04 | 武汉天之然知识产权运营有限公司 | 一种基于adp算法的车辆路径规划方法 |
CN111722531B (zh) * | 2020-05-12 | 2022-02-22 | 天津大学 | 一种切换线性系统在线无模型最优控制方法 |
CN112084645B (zh) * | 2020-09-02 | 2023-06-09 | 沈阳工程学院 | 一种基于混合迭代adp方法的锂离子电池储能系统能量管理方法 |
-
2021
- 2021-04-28 CN CN202110464400.8A patent/CN113290554B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113290554A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110275436B (zh) | 一种多单臂机械手的rbf神经网络自适应控制方法 | |
CN110238839B (zh) | 一种利用环境预测优化非模型机器人多轴孔装配控制方法 | |
Moberg | On modeling and control of flexible manipulators | |
CN108621158B (zh) | 一种关于机械臂的时间最优轨迹规划控制方法及装置 | |
CN113103237B (zh) | 一种面向未知环境约束的可重构机械臂控制方法及系统 | |
WO2009027673A1 (en) | Inverse kinematics | |
CN116460860B (zh) | 一种基于模型的机器人离线强化学习控制方法 | |
CN111702767A (zh) | 一种基于反演模糊自适应的机械手阻抗控制方法 | |
KR20220155921A (ko) | 로봇 디바이스를 제어하기 위한 방법 | |
CN110941183A (zh) | 一种基于神经网络的工业机器人动力学辨识方法 | |
Mazare et al. | Adaptive variable impedance control for a modular soft robot manipulator in configuration space | |
CN115890735B (zh) | 机械臂系统、机械臂及其控制方法、控制器和存储介质 | |
CN113290554B (zh) | 一种基于值迭代的Baxter机械臂智能优化控制方法 | |
Shang et al. | Vibration suppression method for flexible link underwater manipulator considering torsional flexibility based on adaptive PI controller with nonlinear disturbance observer | |
CN113954077B (zh) | 带有能量优化的水下游动机械臂轨迹跟踪控制方法及装置 | |
Tan et al. | Controlling robot manipulators using gradient-based recursive neural networks | |
Al-Shuka et al. | Adaptive hybrid regressor and approximation control of robotic manipulators in constrained space | |
CN113352320B (zh) | 一种基于Q学习的Baxter机械臂智能优化控制方法 | |
Khoukhi | Data-driven multi-stage motion planning of parallel kinematic machines | |
Van Khang et al. | On the sliding mode control of redundant parallel robots using neural networks | |
Hasanpour et al. | Flexible Robot Arm Control Using Adaptive Control Structure | |
CN113325711B (zh) | 一种用于柔性机械臂预定精度定位的智能控制方法 | |
CN111775142A (zh) | 一种液压机械臂的模型辨识与自适应控制方法 | |
Mokri et al. | Real time implementation of NARMA L2 feedback linearization and smoothed NARMA L2 controls of a single link manipulator | |
Sun et al. | Dynamics Identification and Control of Large Load Robots Considering Nonlinear Friction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |