UmMeta-modeloparaRepresentaçãode .

3y ago
43 Views
3 Downloads
8.60 MB
153 Pages
Last View : 8d ago
Last Download : 3m ago
Upload by : Elisha Lemon
Transcription

Andreza Leite de AlencarUm Meta-modelo para Representação deDados Biológicos Moleculares e Suporte aoProcesso de Anotação de Variantes GenéticasRecife2018

Andreza Leite de AlencarUm Meta-modelo para Representação de DadosBiológicos Moleculares e Suporte ao Processo deAnotação de Variantes GenéticasEste trabalho foi apresentado à Pósgraduação em Ciência da Computação doCentro de Informática da Universidade Federal de Pernambuco como requisito parcialpara obtenção do grau de Doutor em Ciênciada Computação.Área de Concentração: Ciências Exatas e da Terra/Ciência da ComputaçãoOrientador: Vinícius Cardoso GarciaCo-Orientador: Vanilson André deArruda BurégioRecife2018

Catalogação na fonteBibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217A368mAlencar, Andreza Leite deUm meta-modelo para representação de dados biológicos moleculares esuporte ao processo de anotação de variantes genéticas / Andreza Leite deAlencar. – 2018.152 f.: il., fig., tab.Orientador: Vinícius Cardoso Garcia.Tese (Doutorado) – Universidade Federal de Pernambuco. CIn, Ciência daComputação, Recife, 2018.Inclui referências e apêndices.1. Engenharia de software. 2. Meta-modelo. I. Garcia, Vinícius Cardoso(orientador). II. Título.005.1CDD (23. ed.)UFPE- MEI 2018-139

Andreza Leite de AlencarUm meta-modelo para representação de dados biológicosmoleculares e suporte ao processo de anotação de variantes genéticasTese de Doutorado apresentada ao ProgramadePós-GraduaçãoemCiênciadaComputação da Universidade Federal dePernambuco, como requisito parcial para aobtenção do título de Doutora em Ciência daComputação.Aprovado em: 06/09/2018.Orientador: Prof. Dr. Vinícius Cardoso GarciaBANCA EXAMINADORAProfa. Dra. Ana Carolina Brandão SalgadoCentro de Informática /UFPEProf. Dr. Robson do Nascimento FidalgoCentro de Informática / UFPEProf. Dr. José Laurindo Campos dos SantosNúcleo de Biogeo Informática /INPAProf. Dr. Alexandre Magno Andrade MacielEscola Politécnica de Pernambuco/UPEProf. Dr. Ricardo Argenton RamosColegiado de Engenharia da computação/ UNIVASF

RESUMONa última década, surgiu uma nova tendência de abordagens que considera modelos não apenas como artefatos de documentação, mas também como artefatos centraisno campo da engenharia de software, permitindo a criação ou execução de sistemas desoftware complexos a partir desses modelos. Essas abordagens foram genericamente classificadas como Model-Driven Engineering (MDE). A análise de dados biológicos molecularesenvolve a geração e interpretação de dados de genoma por sistemas de software complexospara apoiar decisões clínicas em diagnósticos. Esta análise pode ser decomposta em: (1)avaliação de qualidade dos dados brutos, (2) alinhamento de leitura a um genoma de referência, (3) identificação da variante, (4) anotação das variantes e visualização de dados.Por mais que existam diversas ferramentas para dar suporte a partes específicas desteprocesso, ele ainda enfrenta desafios. Um destes desafios está relacionado ao fato de nãoexistirem padrões para publicação destes dados. Cada publicador escolhe qual conjunto dedados publicar e como publicá-lo. Como resultado, os serviços existentes, os formatos e osesquemas de dados podem variar significativamente. Diante deste cenário, identificou-se ademanda por pesquisas e soluções que possibilitem uma representação destes dados, auxiliando o processo de análise, especificamente na preparação de dados da etapa de anotaçãode variantes de genoma. Assim, esse trabalho busca responder a seguinte pergunta de pesquisa "Quais os conceitos e características do domínio de dados biológicos moleculares queprecisam ser identificados e mapeados para prover uma representação deste conjunto dedados e possibilitar a geração de ferramentas que possibilitem o gerenciamento de seusesquemas de dados?". A abordagem de MDE surge como uma alternativa promissoraneste cenário pois, com uso de recursos como meta-modelos e transformações de modelos,será possível contribuir com esta demanda. Assim, esse trabalho propõe uma solução queirá representar os esquemas de dados biológicos moleculares por meio de meta-modelos,permitindo o desenvolvimento de linguagens de modelagem e outros recursos que irãocompor uma arquitetura de referência para dar suporte ao processo de anotação de variantes genéticas. A principais contribuições desse trabalho foram validadas por meio desuas implementações e avaliadas por meio de estudos baseados em opinião de especialistase observação participante, que coletaram dados qualitativos e quantitativos sobre as contribuições. Entre as principais contribuições pode-se destacar: o meta-modelo GenDB; alinguagem de modelagem GenML; os algoritmos para identificação de esquemas e geraçãode esquemas de bases de dados orientadas a documento; e aplicação da abordagem deMDE para o desenvolvimento de soluções no contexto de engenharia de dados.Palavras-chaves: Dados Biológicos Moleculares. Anotação de Variantes Genéticas. Metamodelo. MDE. DSML

ABSTRACTIn the last decade, a new trend of approaches has emerged which considers modelsnot only as documentation artifacts but also as central artifacts in the field of softwareengineering, allowing the creation or execution of complex software systems from thesemodels. These approaches were generically classified as Model-Driven Engineering (MDE).The analysis of biomolecular data involves the generation and interpretation of genomedata by complex software systems to support clinical decisions in diagnostics. This analysis can be broken down into: (1) raw data quality assessment, (2) reading alignmentto a reference genome, (3) variant identification, (4) variant annotation and data visualization. Although there are several tools to support specific parts of this process, it stillfaces challenges. One of these challenges is related to the fact that there are no standardsfor publication of this data. Each publisher chooses which dataset to publish and how topublish it. As a result, existing services, formats, and data schemas can vary significantly.In this scenario, we identified the demand for research and solutions that allow a representation of these data, assisting the analysis process, specifically in the preparation ofdata from the annotation step. Thus, this theses seeks to answer the following researchquestion "Which are the concepts and characteristics of the biomolecular data domain thatneed to be identified and mapped to provide a representation of this data set and enablethe generation of tools that enable the management of your data schemas?". The MDEapproach emerges as a promising alternative in this scenario because, with the use of resources such as meta-models and model transformations, it will be possible to contributeto this demand. Thus, this work proposes a solution that will represent the biomoleculardata schemas by means of meta-models, allowing the development of modeling languagesand other resources that will compose a reference architecture to support the geneticvariants annotation process. The main contributions of this work were validated throughtheir implementations and evaluated through expert opinion and participant observation studies, which collected qualitative and quantitative data on contributions. Amongthe main contributions, can be highlighted: the GenDB meta-model; the GenML modeling language; algorithms for schema identification and generation of document-orienteddatabase schemas; and application of the MDE approach to the development of solutionsin the context of data engineering.Key-words: Biomolecular Data. Genome Variant Annotation. Meta-model. MDE. DSML.

LISTA DE ura 5 –Figura 6 –Figura 7 –Figura 8 –Figura 9 uraFigura2627282930–––––Ciclo do Quality Improvement Paradigm (QIP) . . . . . . . . . . . . . 20Fluxo do processo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Diagrama da Arquitetura Lambda. Fonte: (MARZ, 2013) . . . . . . . . 49Exemplo de uma versão do ClinVar. As instâncias de entidade são delimitadas pela tag ClinVarSet. . . . . . . . . . . . . . . . . . . . . . . . 64Exemplo de uma instância ClinVarSet ilustrado no formato de árvore. 65Exemplo de esquema para a instância ClinVarSet em formato de árvore. 66O Meta-modelo GenDB para representação de dados biológicos moleculares. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68Mapeamento entre o meta-modelo e os símbolos gráficos da sintaxevisual da GenML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70Diagrama da fonte ClinVar com três versões ClinVarFullRelease 00latest, ClinVarFullRelease 2018-05 e ClinVarFullRelease 2018-04 . . 72Diagramas da entidade ClinVarSet1 . . . . . . . . . . . . . . . . . . . 73Diagrama da fonte ClinVar em formato de árvore . . . . . . . . . . . . 73Arquitetura da plataforma do domínio. . . . . . . . . . . . . . . . . . . 75Exemplo de transformação para identificação do esquema da instânciade exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79Fluxo de dados na implementação de referência do domínio. . . . . . . 84Workbench da Ferramenta GenModelCASE . . . . . . . . . . . . . . . 85Aba Problems da Ferramenta GenModelCASE . . . . . . . . . . . . . . 86Ferramenta GenModelCASE com diagrama em forma de árvore. . . . . 86Modelo .gendb gerado para o exemplo . . . . . . . . . . . . . . . . . . 87Esquema Mongoose para a entidade do exemplo . . . . . . . . . . . . . 88Tela do sistema de anotação de variantes de genoma ClinGen. . . . . . 89API para acesso aos dados . . . . . . . . . . . . . . . . . . . . . . . . . 89Dados brutos dos critérios/variáveis para cada especialista (1 a 4) . . . 100Análise fatorial para o componente Qualidade Empírica . . . . . . . . . 102Índice de Qualidade Empírica . . . . . . . . . . . . . . . . . . . . . . . 103Análise fatorial com indicação de dois componentes para as variáveisobservadas na Qualidade Semântica . . . . . . . . . . . . . . . . . . . . 104Análise Fatorial para o componente QS-Conhecimento do Domínio . . 105Índice de Qualidade Semântica (Conhecimento do Domínio) . . . . . . 105Análise Fatorial para o componente QS-Aplicabilidade . . . . . . . . . 106Índice de Qualidade Semântica (Aplicabilidade) . . . . . . . . . . . . . 106Análise fatorial para o componente Qualidade Organizacional . . . . . 107

Figura 31 – Índice de Qualidade Organizacional . . . . . . . . . . . . . . . . . . . . 107Figura 32 – Índice de Qualidade Pragmática . . . . . . . . . . . . . . . . . . . . . . 108Figura 33 – Gráficos com frequência das variáveis 𝑇 𝑀 , 𝐶𝑂, 𝑃 𝑈 e 𝐸𝐶 por usuário 111

LISTA DE TABELASTabela1 – Definição conceitual dos indicadores de qualidade. Adaptada de (KROGSTIE, 2013). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24Tabela2 – Desenvolvimento e operacionalização dos critérios de qualidade. Adaptado de (GARZA et al., 2016; KROGSTIE, 2013; KAHN; BATSON; SCHILLING, 2012; BATINI; SCANNAPIECO, 2006; MOODY; SHANKS, 2003). . . 25Tabela3 – Guia metodológico para a etapa de Caracterização do Ambiente (Fundamentação teórica) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29Tabela4 – Guia metodológico para a etapa de Caracterização do Ambiente (Trabalhos Relacionados) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52Tabela5 – Resumo dos trabalhos relacionados . . . . . . . . . . . . . . . . . . . . 60Tabela6 – Guia metodológico para a etapa de Execução do Processo nas fases deAnálise e Projeto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62Tabela7 – Comparativo dos trabalhos acadêmicos relacionados com a abordagemproposta nesse trabalho. . . . . . . . . . . . . . . . . . . . . . . . . . . 82Tabela8 – Guia metodológico para a etapa de Execução do Processo na fase deImplementação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83Tabela9 – Guia metodológico para a etapa Análise de Resultados na fase de Avaliação 93Tabela10 – Lista dos especialistas que participaram do estudo . . . . . . . . . . . . 96Tabela11 – Resultado das análises dos Indicadores de qualidade . . . . . . . . . . . 108

LISTA DE SIGLASACIDAtomicidade, Consistência, Isolamento, DurabilidadeAPIApplication Programming InterfaceBASEBasically Available, Soft-State, Eventually ConsistentBNFBackus-Naur FormCAPConsistency, Availability, Partition ToleranceCASEComputer-Aided Software EngineeringCOConsultas ao ObservadorDIDiagramas IncompletosDNVDiagrama Não ValidadoDSLDomain-Specific LanguageDSMLDomain-Specific Modeling LanguageDTDDocument Type DefinitionEAErros de AplicaçãoECErros de CompreensãoEFErros da FerramentaEMFEclipse Modeling FrameworkEREntidade-RelacionamentoGQMGoal, Question, MetricJSONJavaScript Object NotationM2TModelo para TextoM2MModelo para ModeloMBEModel Based EngineeringMBTModel Based TestMDAModel Driven ArchitectureMDDModel Driven Development

MDEModel Driven EngineeringMDSDModel Driven Software DevelopmentMIDSTModel Independent Schema and Data TranslationMIDSTRTModel Independent Schema and Data Translation - Run TimeMPSMeta Programming SystemNGSNext Generation SequencingNoSQLNot Only SQLODMObject Document MapperOEMObject Exchange ModelOMGObject Management GroupPUProblemas de UsabilidadeQIPQuality Improvement ParadigmQSQualidade SemânticaSGBDSistema de Gerenciamento de Banco de DadosSOSSave our SystemsT2MTexto para ModeloTMTempo de ModelagemUMLUnified Modeling LanguageW3CWorld Wide Web ConsortiumURLUniform Resource LocatorVCFVariant Call FormatXMLeXtensible Markup LanguageXSDXML Schema Definition

SUMÁRIO11.11.21.31.41.4.11.4.1.11.5INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . .CARACTERIZAÇÃO DO PROBLEMA . . . . . . . . . . . . . . . .OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . .CONTRIBUIÇÕES ESPERADAS . . . . . . . . . . . . . . . . . . .METODOLOGIA DE PESQUISA . . . . . . . . . . . . . . . . . .Processo para Engenharia de Domínio Baseada em ModelosDiretrizes para Verificação de Qualidade de Meta-modelos . . . . .ORGANIZAÇÃO DA TESE . . . . . . . . . . . . . . . . . . . . . 2.5.12.5.22.5.32.5.42.5.52.6FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . .ENGENHARIA ORIENTADA A MODELOS . . . . . . . . . . . . .Linguagens de Modelagem Específicas de Domínio . . . . . .Fundamentos para Definição de Notações Visuais . . . . . . . . . .DADOS SEMI-ESTRUTURADOS . . . . . . . . . . . . . . . . . .O Formato JSON . . . . . . . . . . . . . . . . . . . . . . . . . .BANCOS DE DADOS NoSQL . . . . . . . . . . . . . . . . . . . .ANÁLISE DE DADOS BIOLÓGICOS MOLECULARES . . . . . . .A ARQUITETURA LAMBDA . . . . . . . . . . . . . . . . . . . .BigData . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Batch layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Serving layer . . . . . . . . . . . . . . . . . . . . . . . . . . . .Speed layer . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Resumo da Arquitetura Lambda . . . . . . . . . . . . . . . . .CONSIDERAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . 3.23.2.13.3TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . .ESTADO DA ARTE . . . . . . . . . . . . . . . . . . . . . . . . .Gerenciamento de Esquemas . . . . . . . . . . . . . . . . . . .Identificação de esquemas em dados semi-estruturados . . .Ferramentas e abordagens para análise de dados de genomaTRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . .Características Observadas e Lacunas Identificadas . . . . . .CONSIDERAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . .52525354555759604UM META-MODELO PARA REPRESENTAÇÃO DE DADOS BIOLÓGICOS MOLECULARES . . . . . . . . . . . . . . . . . . . . . . 62

4.14.24.5ESQUEMAS VERSIONADOS PARA DADOS BIOLÓGICOS MOLECULARESDEFINIÇÃO DO METAMODELO GenDB - UM META-MODELO PARAREPRESENTAÇÃO DE DADOS BIOLÓGICOS MOLECULARES . . . . . .DEFINIÇÃO DA LINGUAGEM GenML - UMA LINGUAGEM DE MODELAGEM PARA ESQUEMAS DE DADOS BIOLÓGICOS MOLECULARES .Diagramas para Esquemas de Dados Biológicos Moleculares . . . .DEFINIÇÃO DA ARQUITETURA DA PLATAFORMA DO DOMÍNIO . . .DEFINIÇÃO DO ALGORITMO DE ENGENHARIA REVERSA PARAIDENTIFICAÇÃO DE ESQUEMAS VERSIONADOS . . . . . . . . .DEFINIÇÃO DO ALGORITMO DE GERAÇÃO DE ESQUEMASPARA BASES DE DADOS ORIENTADAS A DOCUMENTO . . . .CONSIDERAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .55.15.25.35.45.55.6IMPLEMENTAÇÃO DA ABORDAGEM PROPOSTAIMPLEMENTAÇÃO DE REFERÊNCIA . . . . . . . . . .LINGUAGEM DE MODELAGEM E FERRAMENTA CASEIDENTIFICAÇÃO DE ESQUEMAS . . . . . . . . . . . . .CRIAÇÃO DE BASES DE DADOS . . . . . . . . . . . . .APLICAÇÃO CLIENTE E API . . . . . . . . . . . . . . .CONSIDERAÇÕES . . . . . . . . . . . . . . . . . . . . .3.26.1.3.36.1.3.46.1.3.56.2AVALIAÇÃO E RESULTADOS . . . . . . . . . . . . . . . . . . . . .QUESTIONÁRIO BASEADO EM OPINIÃO DE ESPECIALISTAS . . . . .Opinião de Especialista . . . . . . . . . . . . . . . . . . . . . . . . . .O Número de Especialistas . . . . . . . . . . . . . . . . . . . . . . . . . .Seleção dos Especialistas neste Estudo . . . . . . . . . . . . . . . . . . . .Viés dos Especialistas e Calibração neste Estudo . . . . . . . . . . . . . . .Agregação da Opinião dos Especialistas neste Estudo . . . . . . . . . . . .Planejamento e Execução do Estudo . . . . . . . . . . . . . . . . . .Contexto e Variáveis Medidas . . . . . . . . . . . . . . . . . . . . . . . .Coleta de Dados: o Questionário . . . . . . . . . . . . . . . . . . . . . . .Técnica de Análise dos Dados . . . . . . . . . . . . . . . . . . . . . . . .Dados Coletados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Análises e Interpretação dos Resultados Baseada no Método GQMQualidade Empírica - Q1 . . . . . . . . . . . . . . . . . . . . . . . . . . .Qualidade Semântica - Q2 . . . . . . . . . . . . . . . . . . . . . . . . . .Qualidade Organizacional - Q3 . . . . . . . . . . . . . . . . . . . . . . . .Qualidade Pragmática - Q4 . . . . . . . . . . . . . . . . . . . . . . . . .Discussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .OBSERVAÇÃO PARTICIPANTE . . . . . . . . . . . . . . . . . . . . . . 4.3.14.44.4.14.4.2. . . . . . . . . . . . . . . . . . . . . . . . . . . .6367696973767980

26.3.36.3.46.4Planejamento e Execução do Estudo . . . . . . . . . . . . . . . . . .Contexto e Variáveis Medidas . . . . . . . . . . . . . . . . . . . . . . . .Coleta de Dados: Ficha e Observações . . . . . . . . . . . . . . . . . . . .Dados Coletados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Análises e Interpretação dos Resultados Baseado no Método GQMDiscussão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .LIMITAÇÕES, VALIDADE E CONFIABILIDADE DAS AVALIAÇÕES . . . .Validade de Construção . . . . . . . . . . . . . . . . . . . . . . . . . .Ameaça Interna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Ameaça Externa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Confiabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .CONSIDERAÇÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.0.2CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS . . . . . .ATENDIMENTO AOS OBJETIVOS . . . . . . . . . . . . . . . . . . . . .OE1 - Analisar o domínio de dados biológicos moleculares. . . . . . . . . .OE2 - E

BANCA EXAMINADORA _ Profa. Dra. Ana Carolina Brand o Salgado Centro de Inform tica /UFPE . N cleo de Biogeo Inform tica /INPA _ Prof. Dr. Alexandre Magno Andrade Maciel Escola Polit cnica de Pernambuco/ UPE . de Modelagem Específica de Domínio .

Related Documents:

The linear ODE is called homogeneous if g(x) 0, nonhomogeneous, otherwise. If an ODE is not of the above form, we call it a non-linear ODE. 1.1 First-order linear ODE The general form of a rst-order linear ODE is y0 p(x)y g(x): The basic principle to solve a rst-order linear ODE is to make left hand side a derivative of an

dignified. Collin‟s „‟Ode to Evening‟‟, Shelley‟s „‟Ode to the West Wind‟‟, Keats „‟Ode to a Nightingale„‟ and „‟Ode on a Grecian Urn‟‟ are the successful imitations of this form in the English language. Irregular

to the Ode: Intimations of Immortality. On March 27, 1802, Wordsworth was writing his great Ode; and a week later, on April 4, 1802, Coleridge wrote his. Some interesting contrasts occur in the two odes. In Wordsworth's Ode grief finds relief and ends in joy; in

MATHEMATICAL MODEL: In mathematical language the general nonlinear model may be written as: Ch. 5 Pg. 3 ODE f(t,y) IVP IC y(0) y 0. For many (but not all) of the applications we investigate, the model is the simple linear autonomous model: ODE k y r 0 (3) IVP

MI5 c a s e offi c e r: Ma ry She re r Abwe hr c ode na m e : Sol a nge , Tra m p Abwe hr c a s e offi c e r: E m i l e Kl i e m a nn Juan P ujol G arc í a MI5 c ode na m e : Ga rbo, B ovri l MI5 c a s e offi c e r: Tom á s Ha rri s Abwe hr c ode na m e : Ara be l Abwe hr c a s e offi c e r: Ka rl -E ri c h Kühl e nt ha l

MATLAB ODE Routines Algorithms: From the MATLAB ODE documentation ode45 is based on an explicit Runge-Kutta (4,5) formula, the Dormand-Prince pair. It is a one-step solver - in computing y(tn), it needs only the s

Ode on a Grecian Urn and Ode to a Nightingale. Objectives: 1) To demonstrate how rhetorical devices can reveal the poetic beauty. 2) To scrutinize the unspoken elements in the poem so as to enrich its elegance. 3) To affirm the assumption that there is a close connection between semantic and syntactic beauty. Questions:File Size: 567KBPage Count: 8

Unification, Ode on a Grecian Urn, The Rime of the Ancient Mariner DOI: 10.5281/zenodo.4569130 Introduction Art, beauty and truth‟s close relationship is examined by Keats in “Ode on a Grecian Urn”. The individual, through art, can attain beauty by which comes closest to truth and by them all t