Repository logo
 
Loading...
Thumbnail Image
Publication

Analysis of x-ray radiography images of pear fruit using deep learning networks

Use this identifier to reference this record.
Name:Description:Size:Format: 
203903935.pdf4.99 MBAdobe PDF Download

Abstract(s)

One of the major challenges facing the international pear production sector is the codling moth (Cydia pomonella), a pest that not only causes significant damage during production and harvest but also enters the international supply chain, leading to economic consequences such as import restrictions, consumer dissatisfaction, and potential health hazards. Current inspection methods are destructive and rely on random sampling, making them inefficient, labor-intensive, and prone to increasing food waste due to decisions being made at the batch level after testing only a limited number of samples. To address this, the implementation of Vision Transformer (ViT) models was explored in this thesis. Three pre-trained ViT architectures were used: first, fine-tuning a pre-trained model, then, training only the first and last layers while freezing others, and lastly simplifying the model by retaining only initial transformer layers. Additionally, a custom ViT model was optimized using the Optuna framework to fine-tune hyperparameters trained from scratch. These efforts aimed to improve pest detection using X-ray images of pears. Furthermore to assess the impact of patch size on ViT’ performance, was compared the performance of ViT models with patch sizes of 16 and 32 across all methods. It was concluded that the pre-trained ViT-B/16 model with all parameters frozen except for the first layers of the architecture and the last transformer, produced the best results with a balanced accuracy of 72,8%, a training Loss-SENS and LossGRAND-SENS of 0.0033, 0.0030 and a validation Loss-SENS and LossGRAND-SENS of 0.0017 and 0.0013, respectively. Despite the success of ViTs in image classification tasks in other studies, they did not outperform a CNN-based model, EfficientNet6, in this study on the pear dataset. Factors such as differences in augmentation techniques, training splits, and the inherent complexity of ViT architectures likely influenced these results. This reinforces the idea that ViTs typically require larger datasets and more precise tuning to reach optimal performance, highlighting their sensitivity to data quantity and model adjustments. This research identifies key challenges in pest detection. It addresses these issues by comparing the performance of ViTs and CNNs on small datasets, emphasizing the need for fine-tuning strategies tailored to specialized tasks. The thesis lays the groundwork for future advancements in pest detection, providing solutions to improve model robustness and accuracy in challenging real-world conditions.
Um dos principais desafios enfrentados pelo setor de produção internacional de peras é a traça da maçã (Cydia pomonella), uma praga que não apenas causa danos significativos durante a produção e colheita, mas também entra na cadeia de abastecimento internacional, levando a consequências econômicas, como restrições de importação, insatisfação dos consumidores e potenciais riscos à saúde. Os métodos de inspeção atuais são destrutivos e baseiam-se em amostragens aleatórias, tornando-os ineficientes, exigentes em termos de mão de obra e propensos a aumentar o desperdício de alimentos devido a decisões tomadas ao nível do lote após testar apenas um número limitado de amostras. Para abordar essa questão, nesta tese foi explorada a implementação de modelos Transformador de Visão (ViT). Assim aplicou-se três arquiteturas ViT pré-treinadas: o Fino-Ajuste de um modelo pré-treinado, o treino dos Parâmetros apenas das primeira camada e último transformador enquanto as outras permaneciam congeladas. Por último a simplificação do modelo, mantendo apenas as camadas iniciais do transformador. Além disso, um modelo Personalizado ViT foi otimizado usando a estrutura Optuna para ajustar hiperparâmetros treinados do zero. Esses métodos visaram melhorar a deteção de pragas usando imagens Raios-X de peras. Além disso, para avaliar o impacto do tamanho dos fragmentos no desempenho dos ViTs, foi comparado o desempenho dos modelos ViT com tamanhos de fragmentos de 16 e 32 em todos os métodos. Concluiu-se que o modelo pré-treinado ViT-B/16, onde todos os parâmetros exceto as primeiras camadas da arquitetura e o último transformador foram descongelados, produziu os melhores resultados. Obteve assim uma balanced accuracy de 72,8%, uma Loss-SENS e LossGRAND-SENS no treino de 0,0033 e 0,0030, e uma Loss-SENS e LossGRAND-SENS na validação de 0,0017 e 0,0013, respetivamente. No entanto, apesar dos modelos ViTs terem mostrado sucesso em tarefas de classificação de imagens noutros estudos, neste caso específico não superaram o modelo CNN, EfficientNet6, para a mesma base de dado de images raio-x das peras. Fatores como diferenças nas técnicas de aumento de dados, divisões de treino e a complexidade das arquiteturas ViT influenciaram esses resultados. Isso reforça a ideia de que os ViTs geralmente requerem bases de dados maiores e ajustes mais precisos para atingir seu desempenho ideal. Este estudo, identifica os principais desafios na deteção de pragas. Aborda esses problemas comparando o desempenho dos ViTs e CNNs em pequenos conjuntos de dados, enfatizando a necessidade de estratégias de Ajuste-Fino adaptadas a tarefas especializadas. Estabelecendo assim as bases para futuros avanços na deteção de pragas, fornecendo soluções para melhorar a robustez e a precisão dos modelos em condições desafiadoras do mundo real.

Description

Keywords

X-ray CT Codling moth Vision transformer Deep learning Transfer learning Aprendizagem por transferência Aprendizagem profunda Raios-X TC Traça da maçã Transformador de visão

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue