Zastosowanie algorytmów uczenia przez wzmacnianie w układzie wyznaczania trajektorii zadanej manewrującego statku

Application of reinforcement learning algorithms in the system of reference trajectory determination of the maneuvering ship

Andrzej Rak         

Abstract: 

The paper presents the concept of autonomous reference trajectory generation unit for the vessel motion control system. Reference trajectory is determined based on the information about the target position of the vessel, provided by the operator and navigational situation determined by the navigational equipment fitted on the vessel. The key data processing concept of the system relies on a reinforcement learning algorithms. The paper presents the principles of selected RL algorithms in both discrete and continuous domains. Trajectory determined in the proposed module can be realized in marine autopilot equipped with a multidimensional, nonlinear controller of the course and position.

Streszczenie: 

Artykuł przedstawia koncepcję autonomicznego generowania trajektorii zadanej w elektronawigacyjnym układzie sterowania ruchem statku. Trajektoria ta wyznaczana jest na podstawie informacji o docelowej pozycji statku, dostarczonej przez operatora oraz sytuacji nawigacyjnej, określanej poprzez zestaw urządzeń elektronawigacyjnych. Działanie układu opiera się na wykorzystaniu algorytmów uczenia przez wzmacnianie. W artykule przedstawiono zasady działania tych algorytmów zarówno w wersji dyskretnej, jak i ciągłej – z aproksymacją przestrzeni stanu. Wyznaczana trajektoria może być realizowana w autopilocie okrętowym wyposażonym w wielowymiarowy, nieliniowy regulator kursu i położenia

Słowa kluczowe: 
autopilot okrętowy
generowanie trajektorii
LSPI: least-squares policy iteration
regulator wielowymiarowy
sterowanie ruchem statku
Issue: 
Pages: 
86
96
Download full text in pdf: 
References: 

Busoniu L., Babuska R., De Schutter B., Ernst D., Reinforcement Learning and Dynamic Programming Using Function Approximators, CRC Press, 2010.

Cichosz P., Systemy uczące się, Wydawnictwo Naukowo-Techniczne, Warszawa 2000.

Gierusz W., Synteza wielowymiarowych układów sterowania precyzyjnego ruchem statku z wykorzystaniem wybranych metod projektowania układów odpornych, Wydawnictwo Akademii Morskiej w Gdyni, Gdynia 2005.

Gierusz W., Nguyen Cong V., Rak A., Maneuvering Control and Trajectory Tracking of Very Large Crude Carrier, Ocean Engineering, Vol. 34, 2007, No. 7.

Kudrewicz J., Analiza funkcjonalna dla automatyków i elektroników, Państwowe Wydawnictwo Naukowe, Warszawa 1976.

Lagoudakis M.G., Parr R., Least-Squares Policy Iteration, Journal of Machine Learning Research, Vol. 4, 2003.

Mitsubori K., Kamio T., Tanaka T., On a Course Determination Based on the Reinforcement Learning in Maneuvering Motion of a Ship with the Tidal Current Effect, International Symposium on Nonlinear Theory and its Applications, Xi’an 2002.

Morawski L., Nguyen Cong V., Rak A., Full-Mission Marine Autopilot Based on Fuzzy Logic Techniques, Wydawnictwo Akademii Morskiej w Gdyni, Gdynia 2008.

Rak A., Zastosowanie uczenia ze wzmocnieniem w układach sterowania ruchem statku, Zeszyty Naukowe Akademii Morskiej w Gdyni, Gdynia 2009, nr 62.

Rak A., Gierusz W., Reinforcement Learning in Discrete and Continuous Domains Applied to Ship Trajectory Generation, Polish Maritime Research, Vol. 19, 2012, No. 74 (S1).

Sutton R.S., Barto A.G., Reinforcement Learning: An Introduction, MIT Press, Cambridge, MA 1998.

Watkins C.J.C.H., Dayan P., Q-learning, Machine Learning, Vol. 8, 1992, No. 3–4.

Wawrzyński P., Systemy adaptacyjne i uczące się, Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2009 (Preskrypt na prawach rękopisu).

Zhipeng S., Chen G., Jianbo S., Reinforcement learning control for ship steering based on general fuzzified CMAC, Proceedings of the 5-th Asian Control Conference, Vol. 3, Melbourne 2005.

Citation pattern: Rak A., Zastosowanie algorytmów uczenia przez wzmacnianie w układzie wyznaczania trajektorii zadanej manewrującego statku, Scientific Journal of Gdynia Maritime University, No. 78, pp. 86-96, 2013

BibTeX     EndNote