隨著機器學習技術的飛速發(fā)展,各種學習方法被提出并成功應用于圖像識別、學習控制等領域。其中,學習控制的典型方法包括迭代學習控制(ILC)、高斯混合學習控制、強化學習控制等。比如,迭代學習控制方法常被用于控制許多批處理模式的動態(tài)過程,并已被成功應用于化工生產(chǎn)和工業(yè)機器人等。然而,理論界之前尚未研究這種控制方法針對從數(shù)據(jù)中獲取的參數(shù)的隨機誤差的魯棒收斂性問題。
在其經(jīng)典理論中,迭代學習控制基于一個有限維的輸出信號預測方程來計算每一次迭代的輸出信號軌跡,其中的參數(shù)矩陣是由系統(tǒng)的有限沖擊響應系數(shù)(即馬爾可夫參數(shù))決定的。傳統(tǒng)的方法需要根據(jù)系統(tǒng)的狀態(tài)空間模型或傳遞函數(shù)來計算這些馬爾可夫參數(shù)。當參數(shù)中存在不確定性時,魯棒迭代學習控制方法首先需要對這些參數(shù)的不確定性進行建模,或者建立包絡其不確定域的凸集;進而根據(jù)經(jīng)典的魯棒控制方法(如H無窮控制)分析其魯棒單調收斂性(robust monotonic convergence,簡寫為RMC)。盡管文獻中已經(jīng)報道了不少基于模型的魯棒ILC設計方法,并證明了其RMC特性,但尚無針對系統(tǒng)辨識得到的參數(shù)中的隨機誤差進行魯棒設計的方法研究。
針對這一問題,董建飛研究員提出了一種數(shù)據(jù)驅動的方法,即從系統(tǒng)的輸入輸出數(shù)據(jù)中辨識馬爾可夫參數(shù)(即從數(shù)據(jù)中估計的系統(tǒng)的輸出相對于輸入信號的梯度信息),進而基于這些估計的參數(shù)構造ILC的輸出預測方程。根據(jù)該方程參數(shù)矩陣的Toeplitz結構,分析并推出了隨機參數(shù)誤差與預測輸出信號序列的關系;推出了隨機不確定的閉環(huán)ILC學習矩陣與其自身轉置乘積在數(shù)學期望意義上的解析表達式;并進而得出了均方差意義上的、保證數(shù)據(jù)驅動ILC方法對隨機參數(shù)具有魯棒單調收斂性的充分條件,及其線性矩陣不等式(LMI)設計方法。該方法首先基于LTI系統(tǒng)研究得出,并被進一步推廣到了非線性的Hammerstein-Wiener系統(tǒng)。圖1為該ILC方法的原理框圖。圖2為該方應用于控制一種非線性的酸堿中和反應過程(pH neutralization process)的結果。由圖2可見,該方法既可確保閉環(huán)控制的穩(wěn)定性,又可以顯著提高控制的精度。

圖1 數(shù)據(jù)驅動迭代學習控制的原理框圖

圖2 數(shù)據(jù)驅動迭代學習控制算法應用于控制一種非線性的酸堿中和反應過程(pH neutralization process)的結果。其中robust ILC和nominal ILC分別為考慮或不考慮參數(shù)隨機誤差的魯棒ILC算法的結果。
上述研究成果已發(fā)表于控制論和人工智能頂刊IEEE Transactions on Cybernetics(中科院一區(qū),影響因子11.448)。
論文鏈接:https://ieeexplore.ieee.org/abstract/document/9523579
該研究受到國家自然科學基金面上項目的資助(F030110:數(shù)據(jù)驅動控制)。在該項目中,董建飛課題組近年來已開展了兩個方向的數(shù)據(jù)驅動學習技術研究:數(shù)據(jù)驅動的迭代學習控制理論研究、以及基于深度學習和卷積神經(jīng)網(wǎng)絡的圖像數(shù)據(jù)建模的研究。課題組未來計劃將深度學習與數(shù)據(jù)驅動控制技術結合起來,繼續(xù)研究數(shù)據(jù)驅動的強化學習控制、及其在生物系統(tǒng)與光機電系統(tǒng)中的應用。
文章來源:中國科學院蘇州生物醫(yī)學工程技術研究所
文章來源:中國科學院蘇州生物醫(yī)學工程技術研究所
