Contrôle par programmation dynamique: stabilité et robustesse

Offre de thèse

Contrôle par programmation dynamique: stabilité et robustesse

Date limite de candidature

25-07-2024

Date de début de contrat

01-10-2024

Directeur de thèse

POSTOYAN Romain

Encadrement

Cette thèse sera co-encadrée par Vincent Andrieu (Directeur de Recherche CNRS au LAGEPP, Lyon) dans le cadre du projet ANR OLYMPIA.

Type de contrat

ANR Financement d'Agences de financement de la recherche

école doctorale

IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES

équipe

CID : Contrôle, identification et Diagnostic

contexte

Projet ANR OLYMPIA

spécialité

Automatique, Traitement du signal et des images, Génie informatique

laboratoire

CRAN - Centre de Recherche en Automatique de Nancy

Mots clés

automatique, stabilité, programmation dynamique, robustesse, dissipativité

Détail de l'offre

L'objectif de cette thèse de doctorat est de contribuer au développement d'outils méthodologiques pour la synthèse de lois de commande (presque) optimales, stabilisantes et robustes pour les systèmes dynamiques non linéaires. À cette fin, nous nous concentrerons sur les techniques de programmation dynamique. La programmation dynamique est l'approche privilégiée pour la construction de commandes efficaces (presque optimales) pour des dynamiques systèmes généraux et des fonctions de coût. Cependant, les commandes obtenues par programmation dynamique ne sont pas a priori accompagnées de garanties de stabilité et de robustesse, qui sont essentielles dans la plupart des applications de contrôle. L'objectif de cette thèse est d'identifier des conditions ou même de revoir les algorithmes de programmation dynamique si nécessaire pour fournir à la fois des performances et des garanties de stabilité robuste.

Divers résultats ont récemment proposé des conditions pour doter les algorithmes de programmation dynamique de propriétés de stabilisation. Cependant, la question fondamentale de la robustesse aux perturbations exogènes et au bruit de mesure est presque inexplorée, et seuls les tout premiers résultats pour le problème quadratique linéaire ont récemment été publiés. Dans nos travaux récents, nous proposons des conditions sous lesquelles des garanties de stabilité peuvent être assurées pour une classe générale de systèmes et de fonctions de coût générales lorsque les entrées sont générées par itération de valeur ou itération de politique. Nous montrons également que la forme la plus faible de robustesse peut être garantie sous des conditions modérées dans ce cas, dans le sens où des perturbations arbitrairement petites (qui disparaissent) sont prouvées de ne pas détruire la propriété de stabilité assurée pour le système nominal. Cependant, les propriétés établies dans la littérature ne suffisent pas pour la plupart des applications du monde réel et nous devons aller plus loin en garantissant des propriétés de stabilité plus fortes (stabilité entrée-état et stabilité Lp) pour des systèmes non linéaires et des fonctions de coût générales. Cela permettra de quantifier la robustesse du système en boucle fermée, clarifiant ainsi le lien entre le choix de la fonction de coût et les propriétés de robustesse du système et ouvrira la voie à l'étude des systèmes interconnectés.

Keywords

control engineering, dynamic programming, Lyapunov stability, robustness, dissipativity

Subject details

The objective of this PhD thesis is to contribute to the development of methodological tools for the synthesis of (near-)optimal, stabilizing, and robust control laws for nonlinear dynamical systems. To this end, we will focus on dynamic programming techniques. Dynamic programming is the preferred approach for building efficient (near optimal) controllers for general system dynamics and cost functions. However, controllers obtained through dynamic programming do not a priori come with stability and robustness guarantees, which are essential in most control applications. The goal of this thesis is to identify conditions or even revisit dynamic programming algorithms if needed to provide both performance and robust stability guarantees. Various results have recently proposed conditions for endowing dynamic programming algorithms with stabilizing properties. However, the fundamental question of the robustness to exogenous disturbances and measurement noise is almost untouched, and only very recently first results for the linear quadratic problem have appeared. In our recent works, we provide conditions under which stability guarantees can be ensured for a general class of systems and general cost functions when the inputs are generated by value iteration or policy iteration. We also show that the weakest form of robustness can be guaranteed under mild conditions in this case, in the sense that arbitrarily small (vanishing) perturbations are proved not to destroy the ensured stability property for the nominal system. Still, the properties established in are not enough for most real-world applications and we need to go further by ensuring stronger stability properties (input-to-state stability and Lp stability) for general nonlinear systems and cost functions. This will allow quantifying the closed-loop system robustness, thereby clarifying the link between the choice of the cost function and the system robustness properties and will open the door to the study of interconnected systems.

Profil du candidat

Le candidat doit avoir un diplôme d'ingénieur ou équivalent en automatique ou mathématiques appliqués. Expertise en Matlab attendue.

Candidate profile

Candidates must have a M.Sc. in control engineering/theory or in applied mathematics.
Expertise in Matlab is expected.

Référence biblio

[1] M. Ha, D. Wang, D. Liu (2021). Generalized value iteration for discounted optimal control
with stability analysis. Systems & Control Letters, 147, 104847.
[2] A. Heydari (2017). Stability analysis of optimal adaptive control under value iteration using
a stabilizing initial policy. IEEE Transactions on Neural Networks and Learning Systems, 29(9), 4522-4527.
[3] M. Granzotto, R. Postoyan, L. Buşoniu, D. Nešić, J. Daafouz, J. (2020). Finite-horizon discounted optimal control: stability and performance. IEEE Transactions on Automatic Control, 66(2), 550-565.
[4] A. Al-Tamimi, F.L. Lewis, M. Abu-Khalaf (2008). Discrete-time nonlinear HJB solution using approximate dynamic programming: Convergence proof. IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 38(4), 943-949.
[5] Y. Jiang, Z.-P. Jiang (2017). Robust Adaptive Dynamic Programming. John Wiley & Sons.
[6] B. Pang, T. Bian, Z.-P. Jiang (2022). Robust policy iteration for continuous-time linear quadratic regulation. IEEE Trans. on Automatic Control, 67(1), 504-511.
[7] M. Granzotto, O.L. De Silva, R. Postoyan, D. Nesic, Z.-P. Jiang (2022). Policy iteration: for want of recursive feasibility, all is not lost. arXiv preprint arXiv:2210.14459.
[8] M. Granzotto, R. Postoyan, L. Buşoniu, D. Nešić, J. Daafouz. (2020). Finite-horizon discounted optimal control: stability and performance. IEEE Transactions on Automatic Control, 66(2), 550-565.
[9] C.M. Kellett, A.R. Teel (2004). Smooth Lyapunov functions and robustness of stability for
difference inclusions. Systems & Control Letters, 52(5), 395-405.
[10] S. Zoboli, V. Andrieu, D. Astolfi, G. Casadei, J.S. Dibangoye, M. Nadri. (2021, December). Reinforcement learning policies with local LQR guarantees for nonlinear discrete-time systems. In 2021 60th IEEE Conference on Decision and Control (CDC) (pp. 2258-2263).
[11] S. Zoboli, D. Astolfi, V. Andrieu, V. (2023). Total stability of equilibria motivates integral
action in discrete-time nonlinear systems. Automatica, 155, 111154.