Evaluating accessibility in native Android interfaces generated by Large Language Models

Rabelo, Daniel Mesquita Feijó

Use este identificador para citar ou linkar para este item: http://repositorio.ufc.br/handle/riufc/81252

Tipo:	Dissertação
Título:	Evaluating accessibility in native Android interfaces generated by Large Language Models
Título em inglês:	Evaluating accessibility in native Android interfaces generated by Large Language Models
Autor(es):	Rabelo, Daniel Mesquita Feijó
Orientador:	Carvalho, Windson Viana de
Palavras-chave em português:	Modelos de linguagem de grande escala;Aplicações móveis;Acessibilidade;Acessibilidade móvel
Palavras-chave em inglês:	Large language models;Mobile apps;Accessibility;Mobile accessibility
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Data do documento:	2025
Citação:	RABELO, Daniel Mesquita Feijó. Evaluating accessibility in native Android interfaces generated by Large Language Models. 2025. 82 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal do Ceará, Fortaleza, 2025.
Resumo:	Os avanços recentes na inteligência artificial, particularmente em modelos de linguagem de grande escala (LLMs), abriram novas possibilidades para automatizar tarefas de desenvolvimento de software, incluindo a geração de código para aplicativos móveis. Este estudo explora as capacidades dos LLMs, como o ChatGPT, em melhorar a acessibilidade de aplicativos Android nativos. É examinado se o código gerado por LLMs está em conformidade com os padrões estabelecidos de acessibilidade, levando em consideração diferentes layouts de tela, formulações de prompts e estratégias de geração de interfaces. Quatro estudos foram realizados para avaliar a acessibilidade de sete tipos de interfaces móveis. O primeiro estudo analisou a acessibilidade das telas de aplicativos móveis criadas usando uma variedade de estratégias de layout. Em contraste, o segundo estudo focou especificamente no Jetpack Compose e comparou os resultados gerados por vários LLMs. O terceiro estudo examinou se a criação de telas com prompts em inglês afetava a acessibilidade. Por fim, o quarto estudo utilizou um LLM assistente de código. Um total de 702 problemas de acessibilidade foram identificados ao longo de todos os estudos. O Jetpack Compose superou consistentemente outras abordagens de layout, e os prompts em inglês resultaram em menos problemas. Curiosamente, prompts que solicitavam explicitamente a acessibilidade frequentemente resultaram em mais erros, sugerindo que os LLMs enfrentam desafios ao interpretar e implementar corretamente os requisitos de acessibilidade. Esses achados destacam a importância de refinar as estratégias de prompt e os resultados gerados pelos LLMs para reduzir o risco de erros de acessibilidade no código de aplicativos móveis gerado por IA.
Abstract:	Recent advances in artificial intelligence, particularly in large language models (LLMs), have opened up new possibilities for automating software development tasks, including code generation for mobile applications. This study explores the capabilities of LLMs, such as ChatGPT, in improving the accessibility of native Android applications. It examines whether LLM-generated code conforms to established accessibility standards, taking into account different screen layouts, prompt formulations, and interface generation strategies. Four studies were conducted to evaluate the accessibility of seven types of mobile interfaces. The first study analyzed the accessibility of mobile application screens created using a variety of layout strategies. In contrast, the second study focused specifically on Jetpack Compose and compared the output of several LLMs. The third study examined whether creating screens with English prompts affected accessibility. Finally, the fourth study used an LLM code assistant. A total of 702 accessibility issues were identified in all studies. Jetpack Compose consistently outperformed other layout approaches, and English prompts resulted in fewer issues. Interestingly, prompts that explicitly requested accessibility often resulted in more errors, suggesting that LLMs face challenges in correctly interpreting and implementing accessibility requirements. These findings highlight the importance of refining prompt strategies and LLM outputs to reduce the risk of accessibility errors in AI-generated mobile app code.
URI:	http://repositorio.ufc.br/handle/riufc/81252
ORCID do(s) Autor(es):	https://orcid.org/0000-0002-3363-5411
Currículo Lattes do(s) Autor(es):	http://lattes.cnpq.br/0515865295289113
ORCID do Orientador:	https://orcid.org/0000-0002-8627-0823
Currículo Lattes do Orientador:	http://lattes.cnpq.br/1744732999336375
Tipo de Acesso:	Acesso Aberto
Aparece nas coleções:	DCOMP - Dissertações defendidas na UFC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
2025_dis_dmfrabelo.pdf		2,26 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas