Multilayer perceptron modelling of industrial cultivation processes for DNA vaccine production control and optimization

Silva, Daniel Alexandre Felício da

http://hdl.handle.net/10400.14/16698

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
101271328.pdf		22.84 MB	Adobe PDF	Download

Send Feedback

Authors

Silva, Daniel Alexandre Felício da

Advisor(s)

Silva, Tito Lívio dos Santos

Calado, Cecília Ribeiro da Cruz

Abstract(s)

Bioinformatics is one of the emerging fields in Computer Sciences with an increasingly more impactful role, in a symbiotic-like association with Biology and Bioprocesses, aiding in the knowledge of complex mechanisms and elements in both these fields of knowledge. The permanent and exponential development of equipments that allow large-scale data acquisition, has set-in-motion the need to create methodologies to store and analyze that same data, in a manner that researchers can extract its meaning, with a high degree of confidence and precision, in a viable time-frame, and therefore help them in their research. However, there are techniques and procedures where the possibility of extracting detailed information in real-time is limited, either by the absence of adequate equipment or by the logistics’ impossibility often times associated with a thorough gathering of information regarding those processes. The industrial cultivation process is one of those cases where environmental values such as Dissolved Oxygen, pH, Temperature and others are available in real-time but the information regarding the complex molecular constituents of the cultivation are missing, only being obtainable by off-line analysis. In industry, as a way of minimizing the risk of contaminations, the number of samples collected for analysis along the fermentative process is always kept at a minimal level and can even be non-existent in most cases. Because of this, the real knowledge on the cultivation process is limited, most of the times, to the initial state of the cultivation and its final state, as obtaining exact readings along the cultivation is quite difficult. All control decisions on the system are based on indirect evaluations as the rate of oxygen consumption or the pH variation. This limited knowledge may impair the reproducibility of the cultivation process, as cells are living organisms that present a natural variability. That natural variability is further enhanced by slight variations of the environmental cultivation conditions. This is crucial in case of biopharmaceutics production due to the high regulatory constraints. DNA plasmid vaccines are increasingly moving to the forefront of pharmaceutical products due to their potential advantage over viral vectors, and due to the theoretical advantages of DNA-vaccines over subunit and whole cells vaccines. The plasmid vaccine production consists in the growth, in bioreactors, of bacteria such as Escherichia coli containing the plasmid vector with engineered DNA that is afterwards extracted. However, as previous referred, it is highly relevant to control the whole cultivation process, as there is still a great need for process optimization. This optimization can result in high-yield production with reduced production costs. One solution that has been presented for this kind of control and optimizations is based on computational simulation of the processes. Computer simulations, or in silico, are often used to quickly test multiple scenarios without the need to allocate specific resources, human or material, as for instance high-cost reagents, turning these processes into more viable ones. With the more complex work occurring in the early stages of model development. Furthermore, mathematical models may also be useful to estimate, along extensive periods of time, the complex molecular constituents of a cultivation process by using the real time analysis gathered by the sensors generally used in industry. This work’s objective is to use computational methodologies to determine the behavior of a recombinant E. coli culture designed to produce plasmids for DNA vaccination. This work was performed in the Engineering Faculty of the Catholic University of Portugal and the Instituto de Medicina Molecular. In this work we propose the use of a Multilayer Perceptron (MLP) in order to monitor and understand the behavior of E.coli DH5- containing the vector pVAX-LacZ plasmid, during different batch and fed-batch cultivations. The focus of this work consisted in studying the behavior of cultivations with different initial pre-set conditions concerning the carbon-source, pH and feeding strategy, and with intermediate perturbations determined experimentally. With this goal, a set of cultivations were defined as examples, in order to allow us to explore a wide universe in terms of variables, as well as establishing a comparison between cultivations with similar initial conditions. MLPs are part of a larger universe referred as Artificial Neural Networks (ANNs). They are considered universal approximators, allowing for the identification of complex patterns by learning training examples. These examples will influence future state predictions. This characteristic allows a great adaptability to different models as the main limitation of MLPs is centered in the quality and quantity of training examples, rather than pre-determined functions and parameters. Unlike conventional modelling techniques, MLPs rely on the data rather than theoretical assumptions. This means that the possibility of introducing bias in the pattern recognition is less likely. Moreover, MLPs can serve as hypothesis validators. In this work we were able to obtain model fit values (R2) that in most cases were superior to 0.7. These values are even more interesting when we take into account the number of variables we attempted to predict and cross it with the number of training examples we were able to produce. In order to achieve our goal we defined the following real time and off-line variables. The off-line variables were: concentration of Biomass, Plasmid, Glucose, Glycerol and Acetate. These variables are not quantified in real time, as it is required to extract a sample from the bioreactor and subsequently analyzed it. The on-line variables, acquired in real time were: Dissolved Oxygen Concentration, pH, Stirring Rate and Feeding Rate. The technical and logistics inability to quantify each variable at the same exact rate illustrates two fundamental issues with the basic cultivation monitoring process: the standardization of the moment in which the variables are quantified; and the determination of the next state of the cultivation. In this work, we establish that the prediction was made using 1-hour spaced intervals using a cross-validation training methodology. This 1-hour spacing was determined by analyzing data available from Martins (2008) and observing no significant increase in network prediction with 15 minute, 30 minute or 60 minute intervals. Finally, we present a possible methodology for optimizing fed-batch cultivations based on Genetic Algorithms (GA). In this approach, information and parameters of the trained MLP are used to create a cultivation policy that will be applied during the industrial process. Genetic Algorithms are evolutionary algorithms based on computational adaptations of biological evolutionary theories. Our Genetic Algorithm approach is based on a chromosome representation of a decision tree designed to determine the course of experimental action according to the state of the controlled variables. These evaluations are based on the values of Glycerol, Glucose and Acetate and according to their values a feeding rate is determined for the next time-point. This methodology in an early stage could allow the definition of a wider example space and then translate into a cultivation strategy closer to the optimal solution. This research work aims to answer this emerging need and contribute to the advance of the knowledge in the area, opening new paths for further research that natural and desirably will follow.

A Bioinformática é uma das áreas emergentes das Ciências da Computação que vem desempenhando um papel cada vez mais premente, numa associação quase simbiótica com a Biologia e com os Bioprocessos, auxiliando na compreensão de elementos e mecanismos complexos nestas duas áreas do conhecimento. O permanente e exponencial desenvolvimento de equipamentos que permitem a aquisição e tratamento de dados em volumes elevados e com grande precisão, desencadeou a necessidade da criação de metodologias de armazenamento e de análise desses mesmos dados, de forma a que os investigadores possam extrair um significado, com elevado grau de confiança e precisão, em tempo útil, auxiliando-os na sua investigação. No entanto, existem técnicas e procedimentos onde a possibilidade de obtenção de informação detalhada e em tempo real é limitada, seja pela ausência de equipamentos adequados, seja pela impossibilidade logística que muitas vezes está associada a um levantamento minucioso de informação desses processos. O processo de fermentação industrial é um desses casos. Os processos de fermentação industrial são um desses exemplos onde variáveis ambientais como Oxigénio Dissolvido, pH, Temperatura e outros se encontram disponíveis em tempo real mas informação relativa a constituintes moleculares complexos da cultura não são possíveis de determinar em tempo real sendo necessário uma análise a posteriori. Na indústria, por forma a minimizar o risco de contaminações, o número de amostras extraídas para análises a serem efectuadas durante o processo fermentativo é sempre mantido a um nível mínimo, podendo mesmo serem inexistentes na maioria dos casos. Desta forma, o conhecimento efectivo sobre o processo fermentativo está limitado, na maior parte das vezes, ao estado inicial da fermentação e ao seu estado final, dado que nas fases intermédias se revela difícil a determinação exacta do estado da fermentação. Todo o trabalho de controlo sobre o sistema é baseado em avaliações indirectas como sejam o ritmo de consumo de oxigénio, ou a identificação do valor exacto do pH. Este conhecimento limitado dificulta a reprodutibilidade do processo fermentativo, na medida em que as células são organismos vivos que apresentam uma variabilidade natural, sendo essa ainda mais amplificada por pequenas variações das condições da fermentação. Este factor é crucial no caso de produção de produtos biofarmacêuticos devido ao elevado número de requerimentos de qualidade exigido pelas entidades reguladoras. Vacinas de ADN plasmídico têm vindo a ganhar destaque no universo dos produtos farmacêuticos devido às suas potenciais vantagens quando comparados com vectores virais, e devido às vantagens, teóricas, de vacinas de DNA quando comparadas com vacinas celulares ou de sub-unidades do agente infeccioso. A produção de uma vacina de plasmídeo consiste no crescimento em bioreactores de bactérias, como por exemplo Escherichia coli, que por sua vez contêm um vector plasmídico com ADN manipulado que é posteriormente extraído. Contudo, como referido anteriormente é imperativo controlar todo o processo de fermentação na medida em que ainda existe uma grande necessidade em termos de optimização do processo de forma a se conseguir obter rendimentos, em termos de produto, mais elevados reduzindo, simultaneamente, os custos. Uma das soluções para este tipo de controlo e optimização consiste na simulação computacional de processos. O recurso a simulações computacionais, ou in silico, é uma forma frequentemente usada para testar múltiplos cenários sem a necessidade de alocar recursos específicos sejam eles humanos ou materiais, como por exemplo reagentes de elevado custo, tornando desta forma estes processos mais controláveis e viáveis. Efectivamente, o grande custo deste tipo de abordagem centra-se na fase inicial de desenvolvimento, tornando-se o custo cada vez menor com o evoluir do processo. De igual forma, a modelações matemáticas podem ser igualmente úteis para estimar, durante períodos temporais largos, os constituintes moleculares complexos existentes num processo fermentativo simplesmente através de análises em tempo real fornecidas pelos sensores e sondas usados na indústria. O objectivo deste trabalho consiste em implementar metodologias computacionais de forma a determinar o comportamento de uma cultura de E. Coli recombinante cujo objectivo é produzir plasmídeos destinados a serem usados em vacinas de ADN. Este trabalho foi desenvolvido na Faculdade de Engenharia da Universidade Católica Portuguesa e no Instituto de Medicina Molecular. Neste trabalho é proposta a utilização de um Multilayer Peceptron (MLP) de forma a compreender o comportamento de uma cultura de E.coli DH5-, durante diversas fermentações batch e fed-batch, contendo o plasmideo pVAX-LacZ que irá funcionar como vector de ADN. O foco deste trabalho consiste em estudar o comportamento de fermentações com condições iniciais de fontes de carbono, pH, e estratégia de alimentação pré-definidas e adicionar perturbações intermédias determinadas experimentalmente. Para atingir este objectivo um conjunto de fermentações foram definidas como exemplos, de forma a permitir explorar um universo abrangente em termos de variáveis e simultaneamente permitindo estabelecer uma comparação entre fermentações com condições iniciais semelhantes. Os MLPs fazem parte de um conceito mais amplo que é denominado de Artificial Neural Networks - Redes Neuronais Artificiais (ANN). Os MLPs são considerados aproximadores universais, permitindo a identificação de padrões complexos através de uma aprendizagem supervisionada por exemplos. Estes exemplos irão influenciar as previsões de estados futuros. Esta característica permite uma grande adaptabilidade a diferentes modelos na medida em que a principal limitação dos MLPs reside na quantidade e qualidade dos exemplos de treino já que estes têm o impacto mais significativo na qualidade da aproximação dos dados reais e teóricos. Ao contrário de métodos de modelação convencionais, os MLPs baseiam os seus resultados em dados reais ao invés de conceitos teóricos. Isto significa que a possibilidade de ser introduzido preconceito (bias) no reconhecimento de padrões é menos provável. De igual forma os MLP, podem funcionar como ferramentas de validação de hipóteses quando conseguem atingir os mesmos resultados. Neste trabalho conseguimos obter valores de previsão (R2) que na sua grande maioria foram superiores a 0.7. Estes valores são ainda mais interessantes quando considerarmos o elevado número de variáveis que foram tentadas prever e cruzarmos esse número com o número de exemplos que foram possíveis determinar em laboratório. De forma a alcançar o objectivo deste trabalho foram definidas as seguintes variáveis on-line e off-line. As variáveis off-line foram as seguintes: concentrações de Biomassa, Plasmídeo, Glucose, Glicerol e Acetato. Estas variáveis não são quantificadas em tempo real. Para efectuar a sua quantificação é necessário extrair uma amostra a partir do bioreactor durante a fermentação e posteriormente analisá-la. As variáveis on-line, por sua vez, são adquiridas em tempo real usando as sondas e sensores disponíveis no bioreactor e foram as seguintes: Oxigénio Dissolvido, pH, Ritmo de Agitação e Ritmo de Alimentação. A incapacidade técnica e logística para quantificar cada variável em simultâneo demonstra dois problemas fundamentais: a uniformização do momento em que as variáveis são quantificadas e a determinação do estado seguinte da fermentação. Neste trabalho estabelecemos que as previsões seriam feitas tendo como objectivo determinar o estado da fermentação 1 hora depois da amostra extraída usando uma metodologia de validação cruzada (cross-validation) no treino do MLP. Este espaçamento temporal de 1 hora foi determinado analisando os dados disponíveis em Martins (2008) e observando que não existia ganho de desempenho de previsão usando intervalos de 15 ou 30 minutos quando comparados com os intervalos de 60 minutos. Finalmente, é apresentada uma possível metodologia para a optimização de fermentações fed-batch usando Algoritmos Genéticos (AG). Nesta abordagem, a informação e parâmetros do MLP previamente determinado são usados para criar uma politica de alimentação que será aplicada durante o processo industrial. Algoritmos Genéticos são algoritmos evolutivos baseados em adaptações das teorias evolutivas biológicas. A abordagem de Algoritmos Genéticos apresentada é baseada numa representação, sob o formato de um cromossoma, de uma árvore de decisão cujo objectivo consiste em determinar as acções a serem desempenhadas experimentalmente de acordo com o estado actual da fermentação. Estas avaliações são baseadas nos valores de Glicerol, Glucose e Acetato e consoante esses valores um ritmo de alimentação é determinado para o próximo intervalo entre extracção de amostras funcionando assim como uma política dinâmica de fermentação. Esta metodologia numa fase inicial permite ainda a definição de um espaço de exemplos mais amplo através da exploração dos limites dos dados existentes, evoluindo a política de alimentação para parâmetros que originem uma solução óptima.

Keywords

Artificial Neural Networks (ANN) Multilayer Perceptron (MLP) Cultivation Escherichia coli pVAX-LacZ Plasmid DNA Vaccine Metabolism Genetic Algorithm (GA) Bioinformatics Biomedical engineering Fermentação Plasmídeo ADN Vacina Metabolismo Algoritmo Genético (AG) Bioinformática Engenharia biomédica