Este trabalho tem como objetivo comparar cenários de teste de software gerados por Modelos de Linguagem de Grande Escala (LLMs) — como ChatGPT, Gemini e Copilot — com aqueles escritos por profissionais da área de qualidade. Para isso, foi realizada uma pesquisa aplicada, com abordagem qualitativa e caráter exploratório, utilizando revisão bibliográfica e experimentação. Os cenários foram gerados a partir de prompts específicos, baseados em tarefas reais da empresa GVDASA, e avaliados por cinco profissionais de testes com base em critérios como clareza, cobertura de fluxos, estrutura e potencial de reaproveitamento. Os resultados demonstraram que os LLMs são capazes de gerar cenários coerentes e úteis, embora apresentem limitações em fluxos alternativos e especificidade de domínio. A pesquisa aponta que a inteligência artificial pode ser uma aliada no processo de teste, servindo como apoio à produtividade e qualidade, mas ainda requer validação e ajustes por parte dos profissionais humanos. |