Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.21 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Access to high-quality data is an ever-occurring challenge in machine learning due to scarcity, cost, privacy constraints, and biases. While synthetic data has gained traction in large-scale AI applications to overcome these challenges, its practical implementation for small to mid-size businesses remains underexplored. This study bridges this gap by developing a structured and universal framework to integrate synthetic data augmentation into various machine learning processes. The approach systematically assesses augmentation ratios, selective filtering strategies, and their impact on predictive performance. This research provides a scalable and actionable framework for businesses to use synthetic data, offering practical guidance on augmentation strategies and performance evaluation. By addressing technical and ethical considerations, this study advances the adoption of synthetic data as a transformative tool for data-driven decision-making in business environments.
O acesso a dados de alta qualidade é um obstáculo recorrente em aprendizagem automática devido a problemas de escassez de informação, respetivo custo, restrições de privacidade e enviesamento. Embora os dados sintéticos estejam a destacar-se na resolução destes problemas em aplicações de inteligência artificial (IA) em larga escala, a utilização deste tipo de dados por pequenas e médias empresas (PME) não tem sido suficientemente explorada. O presente trabalho de investigação procura colmatar esta lacuna através do desenvolvimento de um processo estruturado e universal que integra dados sintéticos com diferentes métodos de aprendizagem automática. Esta abordagem assenta na avaliação sistemática de diferentes rácios entre dados sintéticos e dados reais, em estratégias de filtragem seletiva e no respetivo impacto na performance preditiva dos modelos. Desta forma, a presente investigação providencia um processo escalável e adaptável a cada negócio que recorre a dados sintéticos, fornecendo orientações práticas em estratégias de aumento da dimensão de bases de dados e de avaliação da performance preditiva. Além disso, a investigação recorre a considerações técnicas e éticas de modo a promover a utilização de dados sintéticos enquanto ferramenta transformadora dos processos de tomada de decisão em meio empresarial.
O acesso a dados de alta qualidade é um obstáculo recorrente em aprendizagem automática devido a problemas de escassez de informação, respetivo custo, restrições de privacidade e enviesamento. Embora os dados sintéticos estejam a destacar-se na resolução destes problemas em aplicações de inteligência artificial (IA) em larga escala, a utilização deste tipo de dados por pequenas e médias empresas (PME) não tem sido suficientemente explorada. O presente trabalho de investigação procura colmatar esta lacuna através do desenvolvimento de um processo estruturado e universal que integra dados sintéticos com diferentes métodos de aprendizagem automática. Esta abordagem assenta na avaliação sistemática de diferentes rácios entre dados sintéticos e dados reais, em estratégias de filtragem seletiva e no respetivo impacto na performance preditiva dos modelos. Desta forma, a presente investigação providencia um processo escalável e adaptável a cada negócio que recorre a dados sintéticos, fornecendo orientações práticas em estratégias de aumento da dimensão de bases de dados e de avaliação da performance preditiva. Além disso, a investigação recorre a considerações técnicas e éticas de modo a promover a utilização de dados sintéticos enquanto ferramenta transformadora dos processos de tomada de decisão em meio empresarial.
Description
Keywords
Synthetic data Machine learning Data augmentation Workflow automation Business analytics Predictive modeling AI implementation Dados sintéticos Aprendizagem automática Aumento da dimensão de bases de dados Automatização de processos Analítica de negócios Modelação preditiva Implementação de inteligência artificial
Pedagogical Context
Citation
Publisher
CC License
Without CC licence