Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement

Almeida, Vicente Nejar de

dc.contributor.advisor	Bazzan, Ana Lucia Cetertich	pt_BR
dc.contributor.author	Almeida, Vicente Nejar de	pt_BR
dc.date.accessioned	2023-02-18T03:29:01Z	pt_BR
dc.date.issued	2022	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/254921	pt_BR
dc.description.abstract	Even though many real-world problems are inherently distributed and multi-objective, most of the reinforcement learning (RL) literature deals with single agents and single objectives. That being said, some of these problems can be solved using a single-agent single-objective RL solution, by centralizing the learning and decision making, and spec ifying a preference over objectives before training the agent. However, most of these problems cannot be centralized due to robustness issues, such as the need to avoid a cen tral point of failure and possible communication failures. Also, in many cases, an agent’s preferences might change over time, or it’s behavior for several different preferences over objectives might have to be analyzed to better understand tradeoffs among objectives. Therefore, a need arises for a way to train multiple agents (so as to tackle the distributed structure of some tasks) so that they can perform well for any given preferences with re spect to their objectives. To address this need, this work proposes a multi-objective multi agent reinforcement learning (MOMARL) method in which agents decentrally build a shared set of policies during training, and then combine these policies using a general ization of policy improvement and policy evaluation (fundamental operations of RL algo rithms) to generate effective behaviors for any possible preferences over their objectives, without requiring any additional training. This method is applied to two different envi ronments: a multi-agent extension of a domain commonly used in the related literature, and a complex, inherently distributed and multi-objective problem (traffic signal control in a scenario with both vehicles and pedestrians). The results show that the approach is able to effectively and efficiently generate behaviors for the agents, given any preference among objectives.	en
dc.description.abstract	Embora muitos problemas do mundo real sejam inerentemente distribuídos e multiobjeti vos, a maior parte da literatura de aprendizado por reforço (RL) lida com agentes únicos e objetivos únicos. Dito isto, alguns desses problemas podem ser resolvidos usando uma solução de RL com apenas um agente e um objetivo, centralizando o aprendizado e a tomada de decisão e especificando uma preferência sobre os objetivos antes de treinar o agente. No entanto, grande parte desses problemas não podem ser centralizados devido a questões de robustez, como a necessidade de evitar um ponto central de falha e possí veis falhas de comunicação. Além disso, em muitos casos, as preferências de um agente podem mudar ao longo do tempo, ou seu comportamento para várias preferências dife rentes sobre os objetivos pode precisar ser analisado para entender melhor as vantagens e desvantagens entre os objetivos. Portanto, surge a necessidade de uma maneira de treinar vários agentes (de modo a lidar com a estrutura distribuída de algumas tarefas) para que eles possam ter um bom desempenho para quaisquer preferências em relação aos seus objetivos. Para atender a essa necessidade, este trabalho propõe um método de aprendi zado por reforço multiobjetivo multiagente (MOMARL) no qual os agentes constroem descentralizadamente um conjunto compartilhado de políticas durante o treinamento e, em seguida, combinam essas políticas usando uma generalização de policy improvement e policy evaluation (operações fundamentais de algoritmos de RL) para gerar compor tamentos eficazes para quaisquer preferências possíveis sobre seus objetivos, sem exigir nenhum treinamento adicional. Este método é aplicado a dois ambientes diferentes: uma extensão multiagente de um domínio comumente utilizado na literatura relacionada, e um problema complexo, inerentemente distribuído e multiobjetivo (controle semafórico em um cenário com carros e pedestres). Os resultados mostram que a abordagem é capaz de eficazmente e eficientemente gerar novos comportamentos para os agentes, dada qualquer preferência entre objetivos.	pt_BR
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizado por reforço	pt_BR
dc.subject	Multi-objective decision making	en
dc.subject	Sistemas multiagentes	pt_BR
dc.subject	Generalized policy improvement	en
dc.subject	Simulação de tráfego	pt_BR
dc.title	Knowledge transfer in multi-objective multi-agent reinforcement learning via generalized policy improvement	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.contributor.advisor-co	Alegre, Lucas Nunes	pt_BR
dc.identifier.nrb	001162674	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Informática	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2022	pt_BR
dc.degree.graduation	Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001162674.pdf
Tamanho:: 921.7Kb
Formato:: PDF
Descrição:: Texto completo (inglês)

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (37317)

TCC Ciência da Computação (1024)

Mostrar registro simples