Logo do repositório
 
Publicação

Synthetic data, real impact : a framework for augmenting tabular datasets with synthetic data in machine learning

datacite.subject.fosCiências Sociais::Economia e Gestão
datacite.subject.sdg09:Indústria, Inovação e Infraestruturas
datacite.subject.sdg08:Trabalho Digno e Crescimento Económico
datacite.subject.sdg12:Produção e Consumo Sustentáveis
dc.contributor.advisorFernandes, Pedro Afonso
dc.contributor.authorBitzer, Jann Noah
dc.date.accessioned2025-07-03T09:17:03Z
dc.date.available2025-07-03T09:17:03Z
dc.date.issued2025-05-08
dc.date.submitted2025-03-12
dc.description.abstractAccess to high-quality data is an ever-occurring challenge in machine learning due to scarcity, cost, privacy constraints, and biases. While synthetic data has gained traction in large-scale AI applications to overcome these challenges, its practical implementation for small to mid-size businesses remains underexplored. This study bridges this gap by developing a structured and universal framework to integrate synthetic data augmentation into various machine learning processes. The approach systematically assesses augmentation ratios, selective filtering strategies, and their impact on predictive performance. This research provides a scalable and actionable framework for businesses to use synthetic data, offering practical guidance on augmentation strategies and performance evaluation. By addressing technical and ethical considerations, this study advances the adoption of synthetic data as a transformative tool for data-driven decision-making in business environments.eng
dc.description.abstractO acesso a dados de alta qualidade é um obstáculo recorrente em aprendizagem automática devido a problemas de escassez de informação, respetivo custo, restrições de privacidade e enviesamento. Embora os dados sintéticos estejam a destacar-se na resolução destes problemas em aplicações de inteligência artificial (IA) em larga escala, a utilização deste tipo de dados por pequenas e médias empresas (PME) não tem sido suficientemente explorada. O presente trabalho de investigação procura colmatar esta lacuna através do desenvolvimento de um processo estruturado e universal que integra dados sintéticos com diferentes métodos de aprendizagem automática. Esta abordagem assenta na avaliação sistemática de diferentes rácios entre dados sintéticos e dados reais, em estratégias de filtragem seletiva e no respetivo impacto na performance preditiva dos modelos. Desta forma, a presente investigação providencia um processo escalável e adaptável a cada negócio que recorre a dados sintéticos, fornecendo orientações práticas em estratégias de aumento da dimensão de bases de dados e de avaliação da performance preditiva. Além disso, a investigação recorre a considerações técnicas e éticas de modo a promover a utilização de dados sintéticos enquanto ferramenta transformadora dos processos de tomada de decisão em meio empresarial.por
dc.identifier.tid203942043
dc.identifier.urihttp://hdl.handle.net/10400.14/53830
dc.language.isoeng
dc.rights.uriN/A
dc.subjectSynthetic data
dc.subjectMachine learning
dc.subjectData augmentation
dc.subjectWorkflow automation
dc.subjectBusiness analytics
dc.subjectPredictive modeling
dc.subjectAI implementation
dc.subjectDados sintéticos
dc.subjectAprendizagem automática
dc.subjectAumento da dimensão de bases de dados
dc.subjectAutomatização de processos
dc.subjectAnalítica de negócios
dc.subjectModelação preditiva
dc.subjectImplementação de inteligência artificial
dc.titleSynthetic data, real impact : a framework for augmenting tabular datasets with synthetic data in machine learningeng
dc.title.alternativeDados sintéticos, impacto real : um modelo para a ampliação de conjuntos de dados tabulares com dados sintéticos em machine learningpor
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.nameMestrado em Análise de Dados para Gestão

Ficheiros

Principais
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
203942043.pdf
Tamanho:
3.21 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
3.44 KB
Formato:
Item-specific license agreed upon to submission
Descrição: