Download PDF
ads:
UNIVERSIDADE DE SÃO PAULO
FACULDADE DE MEDICINA DE RIBEIRÃO PRETO
DEPARTAMENTO DE GENÉTICA
LUCIANO ANGELO DE SOUZA BERNARDES
Agrupamento in silico de genes por fatores de transcrição
e expreso diferencial
Ribeirão Preto – SP
2010
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
LUCIANO ANGELO DE SOUZA BERNARDES
Agrupamento in silico de genes por fatores de transcrição
e expreso diferencial
Ribeirão Preto – SP
2010
ads:
i
LUCIANO ANGELO DE SOUZA BERNARDES
Agrupamento in silico de genes por fatores de transcrição
e expreso diferencial
Tese apresentada à Faculdade de
Medicina de Ribeirão Preto da
Universidade de São Paulo para a
obtenção do título de Doutor em Ciências
Biológicas
Área de concentração: Genética
Orientadora: Prof
a
. Dr
a
. Silvana Giuliatti
Ribeirão Preto – SP
2010
ii
Nome: Bernardes, Luciano Angelo de Souza
Título: Agrupamento in silico de genes por fatores de transcrição e expressão
diferencial
Tese apresentada à Faculdade de
Medicina de Ribeirão Preto da
Universidade de São Paulo para a
obtenção do título de Doutor em Ciências
Biológicas
Aprovado em:
Banca Examinadora
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
Prof. Dr.:
Instituição:
iii
Dedico este trabalho
Aos meus queridos pais, Diva e Jadir, pelo carinho e compreensão.
iv
AGRADECIMENTOS
Agradeço à prof. Dra. Silvana Giuliatti, pela oportunidade e confiança.
À Dra. Mônica Campiteli pelas discussões e contribuições.
Ao prof. Dr. Ademilson Espencer Egea Soares, coordenador da s-graduação do
Departamento de Genética, pelo apoio.
Aos amigos contemporâneos que integram ou já integraram o Grupo de Bioinformática (GBi)
do Departamento de Genética, Daniel Macedo de Melo Jorge, Renato David Puga, Saulo
Amui, André Luis da Silva Breve, Gabriela Félix Persinoti, Nilson Nicolau Junior, Luiz
Fernando Martins Pignata e Pablo Rodrigo Sanches, pela convivência e paciência.
Aos amigos do Laboratório de Biologia Molecular da Faculdade de Ciências Farmacêuticas
de Ribeirão Preto – USP, pelos esclarecimentos relativos a área biológica.
A Daniel Macedo de Melo Jorge, Ricardo Vêncio, Gláucia e Meilyn pela amizade.
Aos alunos, funcionários e professores do Departamento de Genética com os quais convivi ao
longo dos anos de doutoramento.
À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo suporte
financeiro.
v
RESUMO
Os organismos vivos apresentam milhares de genes, os quais, geralmente de forma conjunta,
são continuamente modulados. Entretanto, em resposta as alterações do ambiente, utilizando
sua capacidade bioquímica, podem se reprogramarem em função da disponibilidade de
nutrientes e as condições físicas e químicas do meio. Assim, se torna uma questão de suma
importância compreender os mecanismos que controlam e os elementos característicos
envolvidos na modulação dos genes das diferentes fases do desenvolvimento. Pouco ainda é
conhecido sobre o complexo que envolve a regulação gênica, mas os fatores de transcrição
são um desses elementos. A hipótese levantada é que se os fatores de transcrição são um dos
responsáveis pelo perfil de modulação gênica ao longo do tempo, os genes deveriam ser
agrupados pelos fatores induzidos que compartilham a cada tempo amostral observado,
permitindo um acompanhamento mais dinâmico e não somente pelo perfil de expressão.
Desenvolver métodos computacionais eficientes para analisar grande quantidade de dados
obtidos em experimentos é um problema desafiante para a computação/bioinformática. Os
métodos de agrupamento, atualmente, consideram todos os pontos do perfil de modulação dos
genes e quanto maior for a quantidade destes pontos melhor para o agrupamento. O objetivo
do projeto proposto foi agrupar genes utilizando fatores de transcrição e perfis de modulação.
Para permitir o agrupamento desta forma foi criada uma matriz de presença/ausência de
fatores de transcrição para genes, e perfis de modulação foram temporalmente acumulados.
Os resultados obtidos mostraram-se melhores que aqueles do método de agrupamento por
expressão, estes foram observados pelas interações dos fatores com os genes em subgrupos
analisados, chegando em sua maioria a abranger todos eles. A correlação dos subgrupos dos
dois todos mostrou-se parcial, isto é, alguns genes em alguns subgrupos compartilham
mesmos TFs e tem perfil de expressão bastante similar.
vi
ABSTRACT
In silico gene clustering by transcription factors and differential
expression
Living organisms have thousands of genes, which usually are continuously modulated.
However, in response to environmental changes, they can reprogram in function of nutrient
availability and physical and chemical conditions of the environmental. Thus, it becomes a
matter of paramount importance to understand the mechanisms that control and the elements
characteristic involved in the genes modulating process, on the various stages of
development. Little is known about the complex that involves gene regulation, but the
transcription factors are one of these elements. The basic hypothesis is that transcription
factors are responsible for a profile of gene modulation over time. Genes should be grouped
by the induced factors that share each sampling time observed, allowing a more dynamic
monitoring and not just the expression profile alone. Developing efficient computational
methods for analyzing large amount of data obtained in experiments is a challenging problem
in computer science/bioinformatics. The current clustering methods consider all the genes
modulation profile points and the higher the amount of these points the better the cluster. The
aim of the proposed project was to group genes using transcription factors and modulation
profiles. To allow the grouping it was created a presence/absence matrix of the transcription
factors for genes and modulation profiles that were temporally accumulated. The results
obtained using this approach were better than those used in expression clustering methods.
They were observed by the interactions of factors with the genes in analyzed subgroups, and
in general they to cover mostly all. The correlation of the subgroups of the two methods
proved to be partial, that is, some genes in some subgroups share the same TFs and have very
similar expression profile.
vii
LISTA DE FIGURAS
Figura 1. Exemplo de proteína helix-turned-helix.................................................................18
Figura 2. Exemplo de proteína do tipo zinc finger. ............................................................... 18
Figura 3. Exemplo de proteína bZIP..................................................................................... 19
Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH)..................................19
Figura 5. Exemplo de proteína homeodomain.......................................................................20
Figura 6. Montagem e ativação de complexo de transcrição.................................................21
Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia
proposta............................................................................................................................... 27
Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) ................................................30
Figura 9. Fragmento exemplo de arquivo tabulado (TTFR)..................................................31
Figura 10. Fragmento exemplo de arquivo tabulado (TFI)....................................................31
Figura 11. Fragmento exemplo da criação de tabelas cumulativas ........................................32
Figura 12. Fragmento exemplo da seleção de genes em TVMR............................................33
Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs,
chamados TDS..................................................................................................................... 34
Figura 14. Exemplo da construção da matriz de presença/ausência.......................................36
Figura 15. Fragmento exemplo de matriz de presença/ausência............................................37
Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento..38
Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM.....................39
Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuão de TFs nos
subgrupos pelos ATF ou AVM.............................................................................................. 41
Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras
vermelhas) ........................................................................................................................... 42
Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras
vermelhas) pelas quantidades de subgrupos criados..............................................................43
Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos
amostrais, por ATF e AVM...................................................................................................44
Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência,
segundo a equação de Scott..................................................................................................45
Figura 19. Dendrograma criado por ATF.............................................................................. 46
Figura 20. Dendrograma criado por AVM.............................................................................59
Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF.......................................71
viii
Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM......................................72
Figura 21. categorização dos genes em subgrupos de ATF....................................................77
Figura 22. Categorização dos genes em subgrupos de AVM .................................................79
ix
LISTA DE TABELAS
Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos......46
Tabela 2 – Genes e VMs do subgrupo ATFa119sg01 ............................................................ 47
Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01 48
Tabela 4 - Genes e VMs do subgrupo ATFa119sg02............................................................. 49
Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02 50
Tabela 6 - Genes e VMs do subgrupo ATFa119sg03............................................................. 51
Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03 52
Tabela 8 - Genes e VMs do subgrupo ATFa119sg04............................................................. 53
Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04 53
Tabela 10 - Genes e VMs do subgrupo ATFa119sg05........................................................... 54
Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05
............................................................................................................................................ 54
Tabela 12 - Genes e VMs do subgrupo ATFa119sg06........................................................... 55
Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06
............................................................................................................................................ 55
Tabela 14 - Genes e VMs do subgrupo ATFa119sg07........................................................... 56
Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07
............................................................................................................................................ 56
Tabela 16 - Genes e VMs do subgrupo ATFa119sg08........................................................... 57
Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08
............................................................................................................................................ 57
Tabela 18 - Genes e VMs do subgrupo ATFa119sg09........................................................... 58
Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09
............................................................................................................................................ 58
Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119 minutos ..59
Tabela 21 - Genes e VMs do subgrupo AVMa119sg01 .........................................................60
Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01
............................................................................................................................................ 61
Tabela 23 - Genes e VMs do subgrupo AVMa119sg02 .........................................................62
Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02
............................................................................................................................................ 62
Tabela 25 - Genes e VMs do subgrupo AVMa119sg03 .........................................................63
x
Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03
............................................................................................................................................ 64
Tabela 27 - Genes e VMs do subgrupo AVMa119sg04 .........................................................65
Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04
............................................................................................................................................ 65
Tabela 29 - Genes e VMs do subgrupo AVMa119sg05 .........................................................66
Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05
............................................................................................................................................ 67
Tabela 31 - Genes e VMs do subgrupo AVMa119sg06 .........................................................68
Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06
............................................................................................................................................ 68
Tabela 33 - Genes e VMs do subgrupo AVMa119sg07 .........................................................69
Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07
............................................................................................................................................ 69
Tabela 35 - Correlações gênicas entre os métodos ATF e AVM............................................. 73
Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias ........................75
Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos 76
Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos
............................................................................................................................................ 78
xi
LISTA DE SIGLAS
ATF Agrupamento por fatores de transcrição
AVM Agrupamento por valores de modulação
bp Pares de bases (base pairs)
cDNA DNA complementar
DNA Ácido desoxirribonucléico (Desoxiribonucleic acid)
EST Etiqueta de Sequência Expressa (Expressed Sequence Tag)
HSE Choque de temperatura (heat-shock)
PCR Reação em cadeia de Polimerase (Polimerase Chain Reaction)
RNA Ácido ribonucléico (Ribonucleic acid)
TAC Tabelas Acumulativas Completas
TAR Tabelas Acumulativas Refinadas
TARS Tabelas Acumulativas Refinadas Selecionadas
TDS Tabela de Dados Sincronizados
TF Fator de transcrição (Transcription factor)
TFI Tabela de funções inferidas
TPA Tabela Presença Ausência
TRE Tabela Resultado Embaralhamento
TREG Tabela Resultados Embaralhamento Geral
TTFR Tabela de fatores de transcrição refinada
TVMR Tabela de valores de modulação refinada
VM Valores de modulação
xii
SUMÁRIO
1. Introdução........................................................................................................................14
1.1. Expressão gênica........................................................................................................... 14
1.1.1. Expressed Sequence Tags (EST)................................................................................. 14
1.1.2. Microarray ................................................................................................................. 15
1.2. Fatores de transcrição....................................................................................................16
1.3. Agrupamento.................................................................................................................22
1.4. Algoritmos de busca de motifs....................................................................................... 24
2. Objetivos..........................................................................................................................26
3. Metodologia.....................................................................................................................27
3.1. Recursos computacionais ..............................................................................................28
3.2. Dados do experimento alpha-factor...............................................................................28
3.3. Valores de modulação....................................................................................................29
3.4. Fatores de transcrição....................................................................................................30
3.5. Secção acumulativa.......................................................................................................32
3.6. Seleção dos genes..........................................................................................................33
3.7. Sincronização................................................................................................................34
3.8. Agrupamento de genes por valores de modulação.......................................................... 35
3.9. Matriz de presença/ausência de TFs............................................................................... 35
3.10. Agrupamento de genes por TFs ...................................................................................37
3.11. Subgrupos ...................................................................................................................37
3.12. Correlações entre os métodos de agrupamento............................................................. 39
3.13. Classificação funcional dos genes................................................................................39
3.14. Embaralhamento dos genes ......................................................................................... 40
3.15. Representação gráfica linear........................................................................................ 40
4. Resultados e discussões....................................................................................................42
4.1. Valores de modulação (VM).......................................................................................... 44
4.2. Agrupamento por fatores de transcrição (ATF) .............................................................. 45
4.2.1. ATFa119sg01 .............................................................................................................46
4.2.2. ATFa119sg02 .............................................................................................................49
4.2.3. ATFa119sg03 .............................................................................................................51
4.2.4. ATFa119sg04 .............................................................................................................53
4.2.5. ATFa119sg05 .............................................................................................................54
xiii
4.2.6. ATFa119sg06 .............................................................................................................55
4.2.7. ATFa119sg07 .............................................................................................................56
4.2.8. ATFa119sg08 .............................................................................................................57
4.2.9. ATFa119sg09 .............................................................................................................58
4.3. Agrupamento por valores de modulação gênica (AVM).................................................59
4.3.1. AVMa119sg01............................................................................................................60
4.3.2. AVMa119sg02............................................................................................................62
4.3.3. AVMa119sg03............................................................................................................63
4.3.4. AVMa119sg04............................................................................................................65
4.3.5. AVMa119sg05............................................................................................................66
4.3.6. AVMa119sg06............................................................................................................68
4.3.7. AVMa119sg07............................................................................................................69
4.4. Comparação entre ATF e AVM......................................................................................70
4.5. Correlações entre ATF e AVM....................................................................................... 73
4.6. Categorização MIPS-CYGD .........................................................................................75
5. Conclusões....................................................................................................................... 81
6. Referências bibliogficas ................................................................................................ 82
Apêndice A.......................................................................................................................... 89
Apêndice B.......................................................................................................................... 91
Apêndice C.......................................................................................................................... 95
Apêndice D........................................................................................................................ 101
Apêndice E ........................................................................................................................ 105
Apêndice F ........................................................................................................................ 109
Apêndice G: Manuscrito .................................................................................................... 113
Introdução
14
1. Introdução
Os organismos vivos, procariotos ou eucariotos, em sua maioria apresentam milhares
de genes. Durante toda sua vida eles produzem diversas proteínas através da modulação
diferenciada (repressão ou indução) de genes, estimulados por características intrínsecas ou
extrínsecas. Normalmente, em organismos multicelulares, o genoma é idêntico em todas as
células, o que as difere umas das outras é o conjunto distinto de genes que modulam. Em
organismos mais simples (unicelulares), conjuntos distintos de genes também se modulam,
considerando a disponibilidade de nutrientes, as condições físicas e químicas do meio, entre
outras e, ainda, em resposta, às alterações podem reprogramar esta modulação gênica, através
de sua capacidade bioquímica (CAUSTON et al, 2001). Assim, se torna uma questão de suma
importância compreender os mecanismos que controlam e os elementos característicos
envolvidos na modulação dos genes das diferentes fases do desenvolvimento.
1.1. Expressão gênica
Para estudo do transcriptoma, termo adotado para um conjunto de transcritos gênicos
(produto da modulação) (KATAYAMA et al, 2005), foram desenvolvidas várias técnicas,
dentre elas estão o sequenciamento aleatório e parcial de um grande número de clones em
bibliotecas de cDNA, (ADAMS et al, 1991) e os microarranjos (do inglês microarray) de
oligonucleotídeos ou DNA (SCHENA et al, 1995). Essas técnicas permitem a obtenção rápida
e paralela de quantidade, com boa qualidade, de transcritos de milhares de genes em um único
experimento, o que pode favorecer o entendimento das funções e interpretações de
regulações.
1.1.1. Expressed Sequence Tags (EST)
A técnica de sequenciamento parcial e aleatório dos clones das bibliotecas de cDNA é
uma maneira de obter informações da expressão gênica. Esta se baseia no sequenciamento de
fragmentos de DNA (400 – 650pb), a partir das extremidades (3’ e/ou 5’), obtidos pela
clonagem de transcritos. A sequência nucleotídica destes fragmentos é obtida pelo
processamento de quinas sequenciadoras automáticas (SMITH et al, 1986) e o
Introdução
15
denominados Etiquetas de Sequências Expressas (do inglês Expressed Sequence Tags [EST])
(ADAMS et al, 1991). rios genomas de organismos, sejam eles parciais ou completos,
foram obtidos através dessa técnica, que provou ser útil para os estudos da expressão gênica,
anotação funcional, dentre outras (GOLDMAN et al, 2003; RUDD, 2003).
O crescimento da utilização dessa técnica para obtenção de ESTs de diferentes
organismos motivou o desenvolvimento de uma base pública de dados denominada GenBank
(BOGUSKI et al, 1993) e para uma melhor classificação foi em seguida criado o dbEST, um
banco de dados específico para ESTs (<http://www.ncbi.nlm.nih.gov/projects/dbEST>). Com
a disponibilidade destas ESTs foi possível esboçar análises do genoma funcional de vários
organismos (GERHOLD; CASKEY, 1996). As ESTs ainda podem ser utilizadas pela cnica
de microarray, depois que amplificadas por Polimerase Chain Reaction (PCR).
1.1.2. Microarray
Desenvolvida na década de 1990, a tecnologia de microarray proporcionou uma
revolução na forma como os genes eram estudados. Ela permite a análise da expressão de
milhares de genes, simultaneamente, e identificação de padrões de expressão gênica
relacionados à fisiologia celular. Assim, é possível observar quais genes tem modulação
aumentada (induzidos) e diminuída (reprimidos) quando as células crescem, dividem ou
respondem a determinados estímulos (SCHENA et al., 1995).
Experimentos de microarray envolvem a comparação de duas condições biológicas,
geralmente células em estado normal e células em um estado adverso (ex: choque térmico,
tumor, entre outros) (STOUGHTON, 2005). Para esta verificação, um tipo de célula é
marcado com fluoróforo verde e outro marcado com fluoróforo vermelho, em seguida estes
cDNAs são misturados e, em seguida, hibridizados a milhares de genes ou fragmentos, os
quais foram previamente fixados de forma precisa e ordenada, por um braço mecânico, na
superfície de um suporte sólido (lâminas de vidro ou náilon). Para determinar a intensidade da
fluorescência de cada ponto na lâmina, elas são analisadas por uma máquina através de
varredura digital. Esta relação de fluorescência dos elementos na lâmina permite determinar
os níveis relativos de expressão dos genes nos dois tipos de células.
Com o uso de microarrays de DNA pode-se medir as alterações nas taxas de
transcrição, que ocorrem em quase todos os genes numa determinada célula durante, por
exemplo, seu desenvolvimento, em resposta a perturbões experimentais, deleções gênicas,
Introdução
16
entre outras (BRENTANI et al, 2005; KIM et al, 2001; STOUGHTON, 2005). Pesquisadores
utilizam esta técnica para pesquisa sobre genomas de diversos organismos, dentre eles fungos.
Microarrays contendo genes de levedura foram utilizados em rias análises, como a
comparação da expressão gênica de células crescidas em meio contendo glicose (DERISI et
al, 1997), também na identificação de genes fase-específica durante a transição dimórfica dos
fungos patogênicos humanos Histoplasma capsulatum e Paracoccidioides brasiliensis (DE
GOUVÊA et al, 2008; HIRASAWA; FURUSAWA; SHIMIZU, 2010; NUNES et al, 2005).
Baseado em resultados da técnica de microarray, os agrupamentos de genes são
criados conforme suas modulações (indução ou repressão), dados os diversos tempos
amostrais dos experimentos realizados. Genes com modulações similares são dispostos mais
próximos uns dos outros em clados de uma estrutura em forma de dendrograma. Porém,
diversos mecanismos atuam nas modulações dos genes e, segundo Caddick e Dobson (2007),
o padrão de expressão não é, necessariamente, sincronizado. Agrupar genes com base no seu
perfil de expressão não diz como eles são regulados. Tal abordagem tem significantes
limitações. A regulação paralela de genes pode resultar em respostas similares originadas de
mecanismos, funcionalmente, diferentes. Suportado por esta declaração, mesmo que, vários
genes tenham suas modulações similares, o é garantido que o mesmo mecanismo seja o
atuante. Assim, quando uma determinada pesquisa objetiva hipotetizar os fatores de
transcrição atuantes na modulação de um ou grupo de genes, esse tipo de agrupamento pode
não ser o mais adequando, levando pesquisadores a interpretações equivocadas.
1.2. Fatores de transcrição
Fatores de transcrição (TF) é uma família de proteínas que desempenham um papel
importante na regulação da transcrição gênica. Elas se ligam a determinados pontos da
sequência de DNA, e por esta ligação controlam a transcrição da informação getica contida
no DNA em RNA, em resposta a estímulos específicos. A transcrição é um dos processos
mais amplamente estudados na biologia molecular (WASSERMAN; SANDELIN, 2004).
Pontos de ligação ao DNA são sequências curtas, entre 5 e 25 pares de bases de comprimento
(KARIN, 1990), com possíveis degenerações em seu padrão, chamados binding sites,
geralmente localizados anterior ao início do gene, estendendo-se por 800-1000 pares de bases,
em eucariotos inferiores; entretanto, não existe um consenso sobre isso. Após a transcrição, o
produto gerado é submetido, automaticamente, aos demais estágios da expressão nica, tal
Introdução
17
como RNA splicing, resultando na produção da proteína correspondente (LATCHMAN,
1997).
O estudo das regiões regulatórias de genes, com padrões de transcrição similares,
revelaram a presença de sequências curtas de DNA comuns entre eles, o mesmo não foi
observado para genes que não tiveram o mesmo padrão de expressão. Por exemplo, genes
cuja transcrição é induzida em resposta a elevada temperatura contêm um elemento
regulario comum conhecido como heat-shock (HSE), o qual é ausente em genes que não
mostram a mesma indução. A prova de que tais sequências são de crítica importância na
produção do transcrito gênico foram experimentos que transferiram o elemento HSE de um
gene induzível por temperatura para um gene de timidina kinase, que, normalmente, não é
induzível nesta condição. Esse gene híbrido foi introduzido em uma célula e a temperatura foi
elevada, logo se notou um aumento na produção de timidina kinase, indicando que o HSE foi
o indutor direto desse gene. Por este experimento, ficou provado que o elemento transferido é
um binding site de proteínas regulatórias conhecidas como TFs, as quais, alternativamente,
regulam a transcrição positiva ou negativamente do gene, de modo a produzir o efeito
observado na transcrição (LATCHMAN, 1995).
O mecanismo de ação do TF é a ligação ao DNA e sua influência na transcrição. A
análise detalhada de uma quantidade de TFs indicou que eles têm uma estrutura modular com
regiões específicas responsáveis por se ligarem ao DNA, enquanto outras regiões produzem
um efeito estimulatório ou inibitório a transcrição. Estudos sobre essas regiões de ligação, em
diferentes TFs, revelaram vários elementos, estruturalmente, distintos. Portanto, TFs são
frequentemente classificados com base em seus domínios. Os domínios são as porções do TF
que se ligam ao DNA, chamados DNA-binding domain, os mais bem caracterizados incluem:
O motivo helix-turned-helix: composto de duas α hélices unidas por uma fita curta
de amino ácidos (WINTJENS; ROOMAN, 1996) (Figura 1);
Introdução
18
Figura 1. Exemplo de proteína helix-turned-helix. Obtida de Religa e colaboradores (2007).
O motivo zinc finger: constitui uma proteína com uma pequeno trecho de 28-40
amino ácidos, contendo um domínio característico de duas cisteinas e duas
histidinas, a qual pode centralizar um ou mais íons de zinco (LAITY; LEE;
WRIGHT, 2001; PAPWORTH; KOLASINSKA; MINCZUK, 2006) (Figura 2);
Figura 2. Exemplo de proteína do tipo zinc finger. Imagem obtida de <http://en.wikipedia.org/wiki/File:
Zinc_finger_rendered.png>
O motivo Basic Leucine Zipper Domain (bZIP domain): encontrado em muitos
domínios de ligação ao DNA de proteínas eucarióticas (VINSON et al., 2002)
(Figura 3)
Introdução
19
Figura 3. Exemplo de proteína bZIP. Imagem obtida de <http://upload.wikimedia.org/wikipedia/commons/
thumb/7/72/1FOS.png/300px-1FOS.png>
O motivo basic helix-loop-helix (bHLH): formado por duas α hélices conectados
por um curto laço (LITTLEWOOD; EVAN, 1995) (Figura 4);
Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH). Imagem obtida de <http://en.wikipedia
.org/wiki/File:Basic_helix_loop_helix.png>
O domínio homeodomain: se liga a sequências de DNA do tipo homeobox que, por
sua vez, codifica outros fatores de transcrição. Estas proteínas desempenham um
papel crítico na regulação do desenvolvimento (GEHRING; AFFOLTER;
BÜRGLIN, 1994) (Figura 5).
Introdução
20
Figura 5. Exemplo de proteína homeodomain. Figura obtida de Lynch e colaboradores (2006).
Muitos fatores de transcrição contêm regiões específicas, as quais são necessárias para
a ativação da transcrão. Estes domínios ativadores parecem funcionar por interagirem com
componentes do complexo transcricional basal. Este é um complexo de RNA polimerase II e
vários TFs, tais como TFIIB e TFIID, que são montados na região promotora do gene e
essenciais para que a transcrição ocorra. Estudos têm mostrado que domínios de ativação
interagem diretamente, com componentes deste complexo ou indiretamente, como moléculas
co-ativadoras, as quais, então, interagem com o complexo montado ou estimulam o seu nível
de atividade (Figura 6).
Introdução
21
Figura 6. Montagem e ativação de complexo de transcrição. Um ativador (A) ligado a seu binding site (ABS)
pode estimular a montagem com complexo transcricional basal consistindo de RNA polimerase e seus fatores
associados, ou estimular sua atividade uma vez que esteja montado. Figura adaptada de Latchman (1997).
No caminho inverso aos ativadores, estão os repressores da transcrição, que atuam
como inibidores da transcrição de genes específicos. Tais TFs inibidores mostraram atuar na
interferência de fatores que atuariam positivamente, bloqueando, assim, seu efeito
estimulatório a transcrição. Este efeito inibitório pode ser alcaado pelo impedimento da
ligação de fatores com ação positiva ao DNA via ação negativa do TF ligado ao DNA ou por
formação de um complexo proteína-proteína entre TFs que atuam positiva e negativamente.
Esses TFs inibitórios podem, assim, reduzir o nível de transcrição basal abaixo do observado
por interagir direta ou indiretamente com o complexo transcricional basal. Desta forma, eles
constituem uma antítese das moléculas de ativação. Portanto, o balanço entre a ligação de
ativadores e repressores transcricionais, às regiões regulatórias de genes, em particular, irá
determinar a taxa de sua transcrição em uma particular situação.
TFs podem ser regulados em dois níveis, chamados regulação da síntese de TF e
regulação da atividade de TF. Em uma variedade de diferentes situações, quando um TF é
sintetizado em um particular tecido ou tipo celular e não em outros tecidos, isto caracteriza
um tipo de regulação de síntese. A regulação da síntese de transcrição é um ponto de controle
Introdução
22
importante; entretanto, ele não pode ser o único mecanismo que controla a atividade dos TFs.
Se esse fosse o caso, o aumento da síntese de TFs em resposta a um particular estímulo seria
controlado pelo aumento da transcrição de seu gene correspondente, que por sua vez seria
requerido a de novo síntese de demais TFs, resultando, assim, na necessidade de transcrição
destes novos genes e assim por diante. Portanto, é necessário que exista um mecanismo
adicional o qual permita de novo transcrição de genes pela ativão de pexistentes TFs. A
ativão de TFs pré existentes pode ocorrer por diferentes mecanismos, o qual pode envolver
ligação ao DNA, alterações em interações proteína-proteína e fosforilação de TFs
(LATCHMAN, 2007).
Dado o importante papel dos TFs nos mais variados processos celulares, não seria
difícil relacionar alterações destes a causa de doenças. Uma quantidade de anormalidades no
desenvolvimento pode ser resultado de mutões que inativam ou super ativam TFs. Por
exemplo, mutações em genes da família POU que codificam o TF Pit-1 têm sido identificados
em pacientes com uma deficiência na glândula pituitária, pela qual não são produzidos os
hormônios do crescimento, prolactina e tirotropina, resultando em retardo mental e
crescimento deficiente (KELBERMAN et al, 2009; RADOVICK et al, 1992). Outra
deficiências foram notadas em TFs das famílias PAX (TASSABEHJI et al, 1992; ZHOU et
al, 2008) e CBP (D’ARCANGELO; CURRAN, 1995; HALLAM; BOURTCHOULADZE,
2006; PETRIJ et al, 1995). O crescimento de células é controlado pela ativação de uma
variedade de proteínas que estimulam ou inibem o crescimento. O câncer pode surgir de um
aberrante aumento da ativação de genes específicos que codificam o crescimento. Estes genes
são conhecidos como oncogenes (JONES; THOMPSON, 2009; KOEFFLER; MCCORMICK;
DENNY, 1991). Similarmente, o câncer também pode surgir devido a inativação de proteínas
que inibem o crescimento, conhecidas como anti-oncogenes (KNUDSON, 1993;
MORANGE, 2007).
1.3. Agrupamento
Tal como uma técnica explorativa, a análise por agrupamento fornece uma descrição
ou uma redução na dimensão dos dados. Ela dise um conjunto de observações em dois ou
mais grupos desconhecidos, mutualmente exclusivos, baseado na combinação de variáveis.
Seu objetivo é construir grupos de forma que os perfis dos objetos de um mesmo grupo sejam
relativamente homogêneos, enquanto os perfis de objetos de diferentes grupos são
Introdução
23
relativamente heterogêneos, geralmente dispostos em forma de dendrograma
(HIERARCHICAL CLUSTERING, 2010; MANNING; RAGHAVAN; SCHÜTZE, 2009;
XPLORE, 2010).
Agrupamento de dados não requer informações a priori, isto é, não quantidade de
grupos ou regra pré-determinada. Estes têm de ser descobertos a partir dos dados fornecidos
sem qualquer referência ou treinamento. A técnica de agrupamento de dados permite
diferentes escolhas relacionadas à natureza do algoritmo para combinação de dados em
grupos. Em geral as técnicas de agrupamento o dividas em hierárquica e não hierárquica.
Exemplos de técnicas hierárquicas são single linkage, complete linkage, average linkage,
median e ward (CLUSTERING, 2010; FRANCETIC, 2010; JAIN; MURTY; FLYNN, 1999).
A determinação do algoritmo mais adequado ao conjunto de dados é dependente do tipo de
dados disponíveis e do propósito da análise. Portanto, é melhor executar mais de um
algoritmo e analisar e comparar os resultados cuidadosamente. Uma forma mais objetiva de
análises é através das simulações pelas quais pode ser observada a estabilidade dos grupos
(XPLORE, 2010).
As distâncias entre pontos desempenham um importante papel no agrupamento de
dados. Existem várias medidas de distância, como Euclidiana, diagonal, Mahalanobis. A
medida ou métrica de distância deve ser cuidadosamente escolhida, considerando a correlação
entre as variáveis. A métrica Euclidiana o deve ser utilizada onde diferentes atributos m
ampla variação dos valores médios e desvio padrão, uma vez que quantidade e valores
maiores em um dado atributo irão prevalecer sobre outros menores. Com as métricas diagonal
e Mahalanobis, os dados de entrada têm de ser convertidos antes do uso. Para utilização da
métrica diagonal o conjunto de dados deve ser modificado de modo com que todos os
atributos tenham igual variância. Enquanto para a métrica de Mahalanobis o conjunto de
dados deve ser modificado de forma que todos os atributos tenham médias zero e variância
unitária (DE MAESSCHALCK; JOUAN-RIMBAUD; MASSART, 2000).
Em qualquer estágio do procedimento de agrupamento hierárquico, esta técnica
executa a união ou divisão daquele que foi dado como grupo em um estágio anterior. Assim,
conceitualmente, irá dar origem a uma árvore como estrutura do processo de agrupamento.
Desta forma os grupos estruturados em qualquer fase não se sobrepõem ou são mutualmente
exclusivos. Os resultados deste método podem ser dispostos em forma de dendrograma. Esta
estrutura é um diagrama em forma de árvore que pode descrever as uniões e divisões que
foram feitas nos sucessivos níveis de agrupamento (XPLORE, 2010).
O método Ward (WARD, 1963) propõe um procedimento de agrupamento buscando
Introdução
24
formar partições, de uma maneira que minimize a perda associada a cada agrupamento e a
quantifique de uma forma facilmente interpretável. Ward definiu a informação de perda sob
termos do critério da soma do quadrado do erro. A principal diferença entre o método de Ward
e métodos de linkage consiste no procedimento de unificação. Linkageo une os grupos com
pequenas distâncias, mas ele junta grupos que não aumentem muito a partir de uma medida de
heterogeneidade. O propósito do método de Ward é unificar grupos tal que a variação dentro
destes grupos não é aumentada tão drasticamente, assim os grupos resultantes de um
agrupamento são os mais homogêneos possíveis.
1.4. Algoritmos de busca de motifs
O genoma representa a forma mais completa da informação hereditária dos
organismos. Codificado por DNA, o genoma é composto de trechos que codificam genes e de
trechos não codificantes. Estes trechos que codificam genes são aqueles que serão lidos pela
maquinaria de transcrição, através da qual serão gerados aos transcritos, também conhecidos
por RNA mensageiros (RNAm). Após passarem por um processo de amadurecimento,
promovido por splicings alternativos, são secretados para o citoplasma, onde os RNAm são
lidos e traduzidos em proteínas, pelos ribossomos. Muitas dessas proteínas da família dos
fatores de transcrição.
A parte não codificante, geralmente entre genes ou conjunto deles, é chamada região
intergênica. Constituída por trechos de DNA com poucos ou nenhum gene e, em uma
observação mais minuciosa, alguns destes trechos podem ser responsáveis pelo controle da
expressão de genes próximos, neste caso, chamados de região promotora. Ainda que, não
exista um consenso, para eucariotos inferiores (ex: fungos), é estimada que esta região
promotora seja constituída de 800 até 1.000 bases nucléicas (bp), e esteja localizada,
imediatamente, anterior ao trecho que codifica o gene (região cis reguladora).
Nestas regiões cis reguladoras encontram-se os motifs. Estes são trechos curtos, entre 5
e 25 bp, onde, por seus domínios, se ligam as proteínas da família fatores de transcrição,
chamados sítios de ligação dos fatores de transcrição (transcription factor binding sites;
TFBS). mais de três décadas, pesquisadores buscam por estes motifs (SANDVE;
DRABLOS, 2006). Para tal, diversos algoritmos foram escritos, os primeiros métodos foram
baseados em consenso. Que consiste na busca trechos similares em grupos de sequências,
permitindo ou não variações nos comprimentos e/ou nas posições. Os trechos comuns
Introdução
25
encontrados, assumidos como motifs, são, então, alinhados a um perfil correspondente, que
recebem uma pontuação. Assim, é gerado um novo consenso, o qual é considerado um
possível ponto de ligação para o fator de transcrição (PAVESI; MAURI; PESOLE, 2004).
Após o surgimento da técnica de microarray (KULESH et al, 1987; SCHENA et al,
1995) criou-se a possibilidade de que fossem gerados agrupamentos com base na expressão
desses genes, por agrupamento hierárquico ou k-means. Com base nestes, a busca por motifs,
passou a ser feita em grupos de genes com modulações similares, porém, a expressão gênica
pode ser originada por mecanismos funcionalmente diferentes. Considerando esse
comportamento, pesquisadores desenvolveram novos tipos de algoritmos, baseados em
probabilidade conjunta (HOLMES; BRUNO, 2000), os quais esboçam um modelo para a
relação seqncia-expressão que usam o algoritmo de Gibbs (LAWRENCE et al, 1993) e
expectation/maximazation (DEMPSTER; LAIRD; RUBIM, 1977). Uma visão diferenciada
proporcionou o desenvolvimento um algoritmo que usa expressão logarítmica, que considera
conjuntos únicos de razões de expressões e retorna motifs estatisticamente significantes
(BUSSEMAKER; LI; SIGGIA, 2001).
Seguindo a linha do tempo, nova abordagem possibilitou a criação de um algoritmo
que usa matriz e regressão de expressão, o qual reconhece motifs em mudanças de expressão
sob determinadas condições (CONLON et al, 2003). A utilização de parâmetros a priori,
também, inspiraram algoritmos, estes consideram algum conhecimento ou expectativa prévia
sobre os conjuntos de dados, os quais podem ser pré-requisitos para quaisquer tipos de
algoritmos relacionados acima (PAVESI; MAURI; PESOLE, 2004). Da mesma forma, um
conjunto de dados utilizado como background, funcionando como controle negativo, também
seria um parâmetro adicional, visando a obtenção de resultados diferenciados (GANESH;
SIEGELE; IOERGER, 2003).
Utilizando comparação genômica, foram buscadas regiões e elementos
filogeneticamente conservados entre genomas de humano, diferentes raças de ratos e cães
para criar uma catálogo sistemático de motifs comuns em regiões promotoras. Uma
abordagem foi desenvolvida e aplicada para calcular e estatisticamente avaliar o perfil de
conservação de ltiplas sequências alinhadas de espécies próximo relacionadas
(DERMITZAKIS; REYMOND; ANTONARAKIS, 2005; OVCHARENKO; BOFFELLI;
LOOTS, 2004). Métodos mais avançados tendem a integrar ltiplos métodos
computacionais e dados experimentais. Em uma abordagem chamada seqVISTA,
pesquisadores integraram dados de CHIP-on-chip, motifs e microarray (HU et al, 2006;
LEMMENS et al, 2006).
Objetivos
26
2. Objetivos
Desenvolver uma metodologia de agrupamento de genes utilizando os fatores de
transcrição (TF) que demonstram interação com suas regiões promotoras e com modulação
positiva (induzidos) em experimentos de microarray, através da qual seja possível inferir TFs
atuantes nantese de conjuntos de genes.
Metodologia
27
3. Metodologia
A Figura 7 demonstra todo o fluxo de processamentos da metodologia deste trabalho.
Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia proposta.
Metodologia
28
3.1. Recursos computacionais
O computador servidor Hewlett-Packard (HP), modelo ProLiant ML150 utilizado
para execução dos processamentos in silico, possui como configuração de hardware:
processador Intel Xeon 3.2 gigahertz (GHz), corpo duplo (dual core), bi-processado; 2
gigabytes (GB) de memória Random Access Memory (RAM) e 4 Hard Disk (HD) de 160 GB.
Como configuração de software (utilizados neste trabalho): sistema operacional (SO)
GNU/Linux Fedora 6, kernel versão 2.6.22.7-57.fc6; linguagem de programação script
Practical Extraction and Report Language (Perl), versão 5.8.8; linguagem de processamentos
estatísticos e gráficos R, versão 2.9.0. Acessado remotamente por Secure Shell (SSH).
3.2. Dados do experimento alpha-factor
O experimento chamado alpha-factor foi obtido da cepa DBY8724, genótipo MATa
GAL2 ura3 bar1::URA3. Esta foi crescida em meio Yeast Extract Phosphate (YEP) a base de
glucose, quando uma amostra assíncrona foi retirada, em seguida foi adicionado alpha-factor
(feromônio) para sincronização/paralisação do ciclo celular na fase G1. A levedura tem dois
tipos sexuais, a e (genótipos MATa e MAT
, respectivamente) que se fundem para formar
um diplóide MATa/MAT
. Assim que as lulas MATa são expostas ao alpha-factor (o
feromônio purificado do tipo sexual oposto), entram em um processo reversível de
diferenciação celular, quando células em crescimento vegetativo adquirem características de
gametas. Então, elas cessam a divisão e começam a se alongar em direção a maior
concentração de feromônio, formando uma estrutura denominada projeção de cruzamento
(BARDWELL, 2004).
As células de leveduras são não-móveis; elas possuem uma parede rígida e não podem
formar filopódios, como alguns protozoários. Esta morfogênese quimiotrófica envolve uma
série de modificações na parede celular. Proteínas envolvidas em sinalização, polarização,
adesão celular e fusão são localizadas na projeção de cruzamento (BULAWA, 1993; GUSTIN
et al, 1998). Por outro lado, no caminho de resposta da levedura, retroalimentações negativas
operam em muitos níveis para promover a dessensibilização/adaptação e recuperação. Estes
mecanismos de retroalimentação negativa, fosforilação e desfosforilação exercem papel
crucial na modulação da intensidade do sinal.
Metodologia
29
Após 120 minutos o feromônio (alpha-factor) foi retirado por meio de centrifugação e,
a cada 7 minutos, durante os 140 correntes próximos minutos (0, 7, 14, 21, 28, 35, 42, 49, 56,
63, 70, 77, 84, 91, 98 105, 112 e 119 minutos), amostras foram retiradas para análises de
conteúdo do DNA. O RNA foi extraído de cada amostra coletada, assim como a amostra
controle (culturas assíncronas das mesmas células exponencialmente crescentes, na mesma
temperatura e mesmo meio de cultura). O cDNA foi marcado com reagente fluorescente (Cy3
[verde] para amostras controle e Cy5 [vermelho] para amostras experimentais). Em seguida,
eles foram misturados e, competitivamente hibridizados em lâmina de microarray contendo
essencialmente todos os genes de levedura (DE-RISI et al, 1997). A razão do experimento
(vermelho) para o controle (verde) foi medida por microscopia de varredura laser (SHALON
et al, 1996).
3.3. Valores de modulação
Foi utilizado, como conjunto de dados de entrada, um arquivo tabulado (RAWDATA,
2008), contendo os resultados, obtidos pela técnica de microarray, oriundos dos experimentos
de Spellman e colaboradores, 1998. Este arquivo contém valores de modulação de 6.178
genes em diferentes condições experimentais. Para o conjunto de dados, referentes ao
experimento chamado alpha factor, foram selecionados todos os 18 pontos amostrais. Neste
experimento, os pesquisadores identificaram 800 genes envolvidos em ciclo celular
(CELLCYCLE, 2008), dos quais, foram extraídos os valores de modulação gênica referentes
a alpha factor, disponíveis na tabela RAWDATA (2008), para cada um dos pontos amostrais
selecionados. Os resultados foram armazenados em arquivos tabulados individuais,
denominados Tabela de valores de modulação refinada (TVMR) (Figura 8).
Metodologia
30
Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) que contém o conjunto de dados de genes
transcritos e seus valores de modulação gênicas nos diversos tempos amostrais, para alpha factor.
3.4. Fatores de transcrição
A cada gene modulado foi relacionado a atuação de um ou mais fatores de transcrição
(TF) com sua região promotora. Existem aqueles TFs que tem atuação inferida por
processamento in silico e, aqueles cuja interação com a região promotora do gene alvo foi
comprovada por experimentos em bancada, e posterior divulgação em literatura científica, que
são referidos como documentados. Estes TFs documentados, foram obtidos do web site Yeast
Search for Transcriptional Regulators And Consensus Tracking (YEASTRACT, 2010), onde
estão disponíveis, como arquivo em formato tabulado (FLATFILES, 2008). Este arquivo foi
processado, com base na lista dos 800 genes contidos no arquivo TVMR, gerando um novo
arquivo, também, em formato tabulado, com a relação dos TFs que interagem com estes
genes, chamado Tabela de fatores de transcrição refinada (TTFR) (Figura 9). Genes sem TFs
documentados foram desconsiderados.
Metodologia
31
Figura 9. Fragmento exemplo de arquivo tabulado (TTFR) contendo TFs documentados que interagem com a
região promotora dos genes.
As funções inferidas aos TF foram obtidas do conteúdo disponibilizado pelo serviço
Locus Information, localizado no web site do YEASTRACT (LOCUS INFORMATION,
2008), de onde foram capturadas as informações contidas nos itens: Standard Name (ex:
SOK2); Systematic Name (ex: YMR016C) e Description (função inferida). O armazenamento
destas informações foi feito em arquivo, formato tabulado, chamado de Tabela de funções
inferidas (TFI) (Figura 10).
Figura 10. Fragmento exemplo de arquivo tabulado (TFI) contendo os TFs e suas funções inferidas obtidas,
por acesso remoto, do site YEASTRACT.
Metodologia
32
3.5. Secção acumulativa
Para gerar as tabelas acumuladas, um script recebeu como conjunto de dados de
entrada a tabela RAWDATA (2008) e, desta selecionou, acumulativamente, os valores de
modulação referentes aos pontos amostrais, do primeiro até o último. Para alpha factor foram
criados 18 arquivos, formato tabulado, referentes aos 6.178 genes dos pontos amostrais 0 a
119 minutos. A cada processamento executado, correspondente a um tempo amostral, os
valores de modulação deste foram gravados em um novo arquivo. Estes arquivo foram
referenciados como Tabelas Acumulativas Completas (TAC). Por exemplo, o arquivo
tabulado referente ao tempo amostral alpha factor 49 minutos acumula todos os valores de
modulação dos tempos amostrais anteriores (0, 7, 14, 21, 28, 35, 42 minutos), inclusive os
valores do corrente. Seguindo esta dinâmica, o arquivo tabulado referente ao tempo amostral
0 minuto contêm somente os valores de modulação deste tempo. Enquanto, o arquivo
tabulado referente ao tempo amostral 119 minutos contêm todos os valores de modulação de
todos os tempos amostrais. Os mesmos processamentos foram aplicados para o arquivo
tabulado TVMR, o qual contêm os valores de modulação referentes aos genes envolvidos em
ciclo celular. Tais dados geraram os arquivos tabulados referenciados como Tabelas
Acumulativas Refinadas (TAR) (Figura 11).
Figura 11. Fragmento exemplo da criação de tabelas cumulativas, através do processamento dos
conjuntos de dados RAWDATA (2008) e TVMR, nos diversos tempos amostrais do experimento alpha
factor .
Metodologia
33
3.6. Seleção dos genes
Foram selecionados, do arquivo TAR de alpha factor, como induzidos, aqueles genes
cujo seu valor de modulação, no tempo amostral corrente, fosse igual ou superior a 0,5 (x
i
0,5). Para estes também deveria existir uma quantidade mínima de valores de modulação dos
pontos amostrais considerados, dado por:
MMU = int(qtd
ij
/ 2) + 1 (1)
Onde qtd
ij
é a quantidade de valores de modulação para o gene i do primeiro ponto
amostral até o ponto amostral j (ponto corrente). É importante notar que o conjunto original
de dados era incompleto, estando ausentes vários valores de modulação. A equação 1 foi
usada para seleção de um número de valores de modulação suficientes para a construção da
matriz de distâncias (seções 3.8 e 3.10). Seguindo esta regra, por exemplo, para um
determinado gene do tempo amostral alpha factor 49 minutos (oitavo tempo amostral)
deveriam existir, no mínimo, 5 (cinco) valores de modulação. Os genes que não preencheram
este requisito foram desconsiderados (Figura 12). Foi desenvolvido um script que tornou o
processo de seleção e gravação dos dados em arquivos, formato tabulado, chamados Tabelas
Acumulativas Refinadas Selecionadas (TARS), automatizado.
Figura 12. Fragmento exemplo da seleção de genes em TVMR, que demonstraram valor de modulação 0,5,
no ponto amostral corrente e metade mais um (MMU) dos tempos amostrais analisados, para alpha factor.
Metodologia
34
3.7. Sincronização
Para que os dados estivessem disponíveis de forma completa (nome do gene, valores
de modulação e fatores de transcrição), a cada processamento, relativo ao tempo amostral
corrente, foi feita a sincronização de TFs e valores de modulação, utilizando os arquivos
tabulados TARS e TTFR. Os arquivos gerados foram gravados em formato tabulado,
chamados Tabela de Dados Sincronizados (TDS). Por este procedimento, aqueles genes que
não satisfizeram as regras para valores de modulação (seção 3.6) foram eliminados, mesmo
que tivessem TFs documentados relacionados e vice-versa (seção 3.4). As regras deste
algoritmo foram implementadas em script, o qual automatizou o processamento e garantiu
que todos os dados, a partir de então, estivessem aptos aos demais processamentos (Figura
13).
Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs, chamados TDS,
nos diversos tempos amostrais corrente para alpha factor . A coluna em destaque evidencia o tempo amostral
corrente.
Metodologia
35
3.8. Agrupamento de genes por valores de modulação
Para cada tempo amostral, a partir do terceiro (14 minutos em alpha factor) até o
tempo amostral corrente, foi criada uma matriz de distâncias referente, utilizando os valores
de modulação dos arquivos tabulados TDS. Para confecção desta matriz foi utilizada a função
dist, da linguagem de processamentos estatísticos e gráficos R (R, 2008), configurado o
método euclidiano, dado pela equação:
(2)
Onde p e q são os genes comparados a cada momento. Cada valor da matriz de
distâncias foi dividido pelo maior valor desta matriz, para que estas distâncias não
ultrapassassem o intervalo [0,1], utilizando a função max. Pelos valores da matriz, foi feito o
agrupamento hierárquico (do inglês hierarchical clustering), utilizando a função hclust,
configurado o método ward (visa a mínima variância buscando grupos compactos), e por fim
a função plot, para gerar os dendrogramas (R, 2008).
3.9. Matriz de presença/ausência de TFs
A cada tempo amostral, a partir do terceiro, para os genes constantes em TDS (sessão
3.7), foi resgatada a diversidade não redundante de todos os TFs, que dispostos de forma
alfabética crescente, foram utilizados como tulo de colunas. Individualmente, para os genes
analisados, oriundo de TDS, foram resgatados os respectivos TFs. Em seguida, foram obtidos
os Systematic names (arquivo TFI) e, assim, checados os valores de modulação dos genes
responsáveis pela síntese destes TFs, no arquivo tabulado TAC do tempo amostral corrente.
Àqueles TFs, cujos genes sintetizadores demonstraram, no mínimo, um valor de modulação
igual ou superior a 0,5 (x
i
0,5), o bit 1 (um) foi atribuído a célula (formada pelo encontro do
gene [linha] com o TF [coluna]) correspondente. O bit 1 indica a presença ativa do TFs para o
gene. Por exemplo, tomado o gene YDR307W, no quinto tempo amostral alpha factor (28
minutos), a ele estão relacionados os TFs Pho2 e Yap1. Para estes dois foram resgatados os
genes responsáveis (Systematic names) por suas sínteses (YDL106C para Pho2 e YML007W
Metodologia
36
para Yap1). Foram então, avaliadas individualmente suas modulações nos tempos amostrais,
desde o primeiro (0 minuto) até o corrente (28 minutos), buscando por valores iguais ou
superiores a 0,5. Quando encontrado, foi atribuído bit 1 (um) à célula correspondente. Em
caso negativo, foi atribuído bit 0 (zero) (Figura 14).
Figura 14. Exemplo da construção da matriz de presença/ausência.
Em TDS, no tempo amostral 3, os VM3 de
todos os genes são 0,5 (cor vermelha). Os TFs dos genes foram checados em TCC por, no mínimo, um valor
de modulação 0,5. Quando encontrado, o TF relativo ao gene recebeu o bit
1 na matriz. Caso negativo,
recebeu bit zero.
Para aqueles TFs, cujo genes sintetizadores não foram encontrados ou modulados
iguais ou superiores a 0,5, foram atribuídos o bit 0 (zero) às células. Implementadas tais
regras em um script, cada gene ganhou uma sequência de zeros e uns referentes a seus TFs, e
assim, foi montada uma matriz de presença/ausência de TFs para cada tempo amostral, que
foram gravadas em arquivos, formato tabulado, chamados Tabela Presença Ausência (TPA)
(Figura 15).
Metodologia
37
Figura 15. Fragmento exemplo de matriz de presença/ausência referentes aos TFs atribuídos a cada gene,
para os diversos tempos amostrais em alpha factor. O bit 1 representa a presença do TF para o gene e bit
0 representa a ausência.
3.10. Agrupamento de genes por TFs
Utilizando o conteúdo dos arquivos tabulados TPA para cada tempo amostral, foram
criadas matrizes de distâncias. As distâncias foram calculadas pela função dist.binary, pacote
ade4 (DRAY; DUFOUR; CHESSEL, 2007), que utiliza o coeficiente de Gower & Legendre
(GOWER; LEGENDRE, 1986), dada pela equação:
d(i,j) = a / (a + b + c + d) (3)
Onde a: i = 1 e j = 1; b: i = 1 e j = 0; c: i = 0 e j = 1 e d: i = 0 e j = 0. A partir da matriz
de distâncias, os processamentos foram os mesmos da seção 3.8.
3.11. Subgrupos
Para efeitos de análises individualizadas, o dendrograma gerado para cada tempo
amostral, foi seccionado. Assim, foi criada uma quantidade tal de subgrupos (sub-árvores),
cujo critério de corte (divisão) foi que cada um destes contivesse, no mínimo, 3 genes
(Systematic names). Este processamento foi realizado utilizando a função rect.hclust (R,
2008). Esta função evincia os subgrupos na figura do dendrograma. Para que fosse
Metodologia
38
adicionada numeração crescente, relacionada aos subgrupos criados, ela teve seu código fonte
modificado. Este procedimento gerou vários arquivos individualizados, contendo os
Systematic names dos genes, em cada tempo amostral, os quais foram gravados em diretórios
correspondentes aos tempos amostrais. Esta secção de dendrogramas foi aplicada aos
agrupamentos obtidos pelos dois diferentes métodos (Figura 16).
Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento, considerando
o critério de, no mínimo, 3 genes por subgrupo para os diversos tempos amostrais de alpha factor.
Em seguida a criação destes arquivos individualizados, contendo os Systematic names
dos genes dos subgrupos, foram inseridas informações adicionais, relativas aos genes, como:
modulação mínima e xima; TFs e suas funções inferidas. Foram, também, calculadas as
participações dos TFs para os genes dos subgrupos, e disponibilizadas em forma de razão e
porcentagem.
Metodologia
39
3.12. Correlações entre os métodos de agrupamento
Tomados como referência os subgrupos gerados pelo agrupamento por TFs (ATF), os
genes destes, foram buscados nos subgrupos gerados pelo agrupamento por valores de
modulação (AVM), para cada um dos tempos amostrais. Por exemplo, para o tempo amostral
21 minutos, foram tomados os genes do subgrupo 1 de ATF. Estes foram buscados em todos
os subgrupos gerados por AVM, do mesmo tempo amostral. Desta forma, o subgrupo 1 de
ATF foi comparado com todos os subgrupos de AVM e o mesmo acontece para os demais
subgrupos de ATF (Figura 17). O desenvolvimento e implementação do algoritmo, para
comparões, em um script tornou o processo automatizado.
Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM, para os diversos tempos
amostrais de alpha factor. Genes de subgrupos criado em ATF podem estar em diferentes subgrupos de
AVM e vice-versa.
3.13. Classificação funcional dos genes
Para conhecer a diversidade biológica funcional dos genes nos subgrupos, foi acessado
o web site Munich Information Center for Protein Sequences (MIPS), que mantém o banco de
dados Comprehensive Yeast Genome Database (CYGD), o qual disponibiliza o serviço
Functional Classification of Proteins (funCat; FUNCAT, 2008), de onde foi obtido o arquivo
com a relação gene/categoria funcional. O funCat categoriza cada gene em uma ou mais
categorias, com vários níveis de especificações. Entretanto, para esta análise foram utilizadas
somente as categorias mais generalistas.
Metodologia
40
3.14. Embaralhamento dos genes
Almejando verificar se os agrupamentos foram consistentes, realmente dispondo os
genes mais relacionados nos mesmos subgrupos e não uma obra ao acaso, seja para
agrupamento obtido por ATF ou AVM, foi realizado o embaralhamento destes genes. Depois
que todos os genes estavam dispostos em subgrupos, eles foram remanejados,
aleatoriamente, 2.000 vezes. Porém, a quantidade inicial de subgrupos foi mantida. Todos os
procedimentos descritos na sessão 3.11 foram refeitos e a maior porcentagem, de cada
subgrupo, foi capturada e gravada em arquivo, em formato tabulado, chamado Tabela
Resultado Embaralhamento (TRE). Para cada tempo amostral, foram realizadas 1.000
iterações. O arquivo TRE, de cada iteração, teve seus resultados somados, e por este, foi
posicionado, de forma decrescente, em arquivo tabulado, único, contendo os 1.000 registros,
chamado Tabela Resultados Embaralhamento Geral (TREG).
3.15. Representação gráfica linear
A fim de facilitar a visualização dos resultados a cada tempo amostral e, também,
permitir a comparação dos resultados obtidos por ATF, AVM e embaralhamentos, foi extraído
de cada subgrupo a melhor participação de um TF (porcentagem). Para subgrupos gerados por
embaralhamento, foram extraídos os 5 primeiros e os 5 últimos registros em TREG. Estes
valores foram disponibilizados em um arquivo, formato tabulado. A partir do qual, um script
gerou o gráfico de linhas, que dise na abscissa a quantidade de subgrupos e na ordenada
valores de 0 a 100 relativos às porcentagens (Figura 18). No gráfico, a linha azul grossa
representa a melhor participação de um TF no subgrupo e as demais linhas finas representam
os 10 resultados de TREG.
Metodologia
41
Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos subgrupos
pelos ATF ou AVM (linha grossa na cor azul) e embaralhamento (linhas finas), para alpha factor .
Resultados e discussões
42
4. Resultados e discussões
Para cada tempo amostral foi realizada a secção cumulativa do arquivo que contém os
valores de modulação dos genes, os quais, juntamente com o arquivo de TFs, foram
submetidos a todos os processos descritos no capítulo 3. Este seccionamento não é uma
abordagem usual em agrupamento de genes por valores de modulação, pois quanto maior a
quantidade de tempos amostrais, melhor para que o algoritmo teça relações mais estáveis
entre os genes e, assim, crie dendrogramas robustos e confiáveis (ERNST; BAR-JOSEPH,
2006). Contudo, este procedimento foi adotado para que se pudesse observar o
comportamento e desempenho da metodologia proposta (ATF), para diferentes conjuntos de
dados e, ainda, criar condições igualitárias de comparação entre os métodos. O Gráfico 1
demonstra a comparação dos resultados dos métodos, para os diversos tempos amostrais.
Nele, estão representadas as médias das porcentagens ximas, de cada subgrupo. Estas
porcentagens máximas, foram calculadas pela atuação de TFs na síntese de genes dos
subgrupos.
Comparativo da média das porcentagens máximas de subgrupos
de ATF e AVM, em
alpha factor
0
10
20
30
40
50
60
70
80
90
100
110
120
14min
21min
28min
35min
42min
49min
56min
63min
70min
77min
84min
91min
98min
105min
112min
119min
Tempos amostrais
Porcentagens médias
ATF
AVM
Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas),
pelas
dias das porcentagens máximas dos subgrupos, para cada tempo amostral em alpha factor. A marcação
no topo de cada barra corresponde ao desvio padrão.
O Gráfico 1 demonstra que, de forma sistêmica, ATF alcançou médias de porcentagens
máximas maiores que AVM. Sendo, assim, mais eficiente no agrupamento de genes, em
Resultados e discussões
43
função do compartilhamento de TFs.
Na definição de subgrupos (Gráfico 2), ATF, também, demonstrou barras mais altas
que aquelas de AVM. Excetuando dois tempos amostrais (63 e 105 minutos), ATF criou mais
subgrupos por tempo amostral.
Comparativo da quantidade de subgrupos de ATF e AVM, em
alpha factor
0
5
10
15
20
25
14min
21min
28min
35min
42min
49min
56min
63min
70min
77min
84min
91min
98min
105min
112min
119min
Tempos amostrais
Qtds. subgrupos
ATF
AVM
Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas) pelas
quantidades de subgrupos criados, para cada tempo amostral de alpha factor.
Poderia ser dito que, a criação de uma maior quantidade de subgrupos, concentrando
menos genes, os isolou de melhor forma, e propiciou o alcance de melhores máximas.
Entretanto, mesmo quando ATF gerou menos subgrupos (63 e 105 minutos) suas médias de
porcentagens máximas mantiveram-se mais altas.
Considerando todas as porcentagens de alpha factor, desde a maior até a menor, de
cada subgrupo e tempo amostral, o Gráfico 3 demonstra os desempenhos de ATF e AVM.
Resultados e discussões
44
As linhas do Gráfico 3 demonstram a diferença entre ATF e AVM, no que tange a
quantidade e porcentagens obtidas. ATF, utilizando o mesmo conjunto de dados que AVM,
obteve mais valores máximos e, ainda, quando estes valores declinaram, em ATF foi de uma
forma mais acentuada que AVM. Evidenciando que, a quantidade de TFs que não interagem
com todos os genes dos subgrupos é reduzida, em relação a AVM.
O procedimento de analisar cada um dos pontos amostrais foi repetitivo, o qual gerou
uma tamanha quantidade de resultados. Em virtude disto, foram abordados mais
detalhadamente, neste capítulo, apenas o tempo amostral alpha factor 119 minutos. Os
resultados relativos aos demais tempos amostrais, deste experimento, foram citados ao longo
do texto e relacionados no capítulo Apêndices.
4.1. Valores de modulação (VM)
Dos 800 genes, inicialmente selecionados no tempo amostral 119 minutos: 25 não
continham valores de modulação; 67 foram 0,5; 708 genes foram < 0,5. O histograma
apresentado no Gráfico 4, cujo intervalo de frequência foi definido pela equação de Scott
(TURLACH, 1993), demonstra a distribuição dos valores de modulação.
Comparativo de todas as porcentagens de subgrupos
de ATF e AVM, em
alpha factor
0
10
20
30
40
50
60
70
80
90
100
110
1
8
15
22
29
36
43
50
57
64
71
78
85
92
99
106
113
120
127
134
141
148
155
162
169
176
Quantidades
Porcentagens
ATF
AVM
Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos amostrais, por
ATF e AVM em apha factor.
Resultados e discussões
45
Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência, segundo a
equação de Scott, para alpha factor 119 minutos.
Inicialmente, foram selecionados 67 genes com valores de modulação 0,5
(induzido). Para cada um destes (67), foram resgatados os fatores de transcrição induzidos e
com interações documentadas. Após a sincronização (capítulo 3, 66 genes se adequaram aos
requisitos (TFs e VMs). A estes 66 genes estavam relacionados 757 TFs, que depois de
checados suas induções, foram reduzidos a 349 (Apêndice A). O gene ausente na análise foi o
YCL013W, que segundo o site Saccharomyces Genome Data base (SGD) (SGD, 2010), foi
excluído devido a correção de sequência.
Valores de expressão gênica são altamente sujeitos a ruídos, o que pode comprometer
a integridade da análise (CAMPITELI et al, 2009). Por este motivo, o valor 0,5, que
demonstra a medida da expressão gênica, resultado da equação log2(razão), em relação a um
valor referencial (zero) (SPELLMAN et al, 1998), foi eleito como o limiar para seleção dos
genes, como o menor valor, biologicamente, relevante para padronização do método ATF.
Este valor é, geralmente, escolhido de forma arbitrária (CAMPITELI et al, 2009).
4.2. Agrupamento por fatores de transcrição (ATF)
Tomados os 66 genes selecionados e os 349 TFs a eles relacionados, foi criada a
matriz de presença/ausência de TFs (Apêndice B). A partir desta, foi criada a matriz de
distâncias que, depois de normalizada, foi utilizada para confecção do dendrograma (Figura
19).
Resultados e discussões
46
Figura 19. Dendrograma criado por ATF, considerando os genes induzidos em 119 minutos do experimento
alpha factor.
Para uma análise mais detalhada das relações entre os genes, em função de TFs, foram
criados subgrupos. A quantidade destes, foi determinada por procedimento iterativo de divisão
do dendrograma, cuja condão de parada foi a quantidade mínima de 3 genes em algum(ns)
dos subgrupo(s), conforme ilustra a Figura 19, pelos retângulos de borda vermelha e detalhada
na Tabela 1.
Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos
Id. do subgrupo Nro. no dendrograma Qtd. de genes
ATFa119sg01 1 17
ATFa119sg02 2 5
ATFa119sg03 3 9
ATFa119sg04 4 6
ATFa119sg05 5 7
ATFa119sg06 6 7
ATFa119sg07 7 5
ATFa119sg08 8 3
ATFa119sg09 9 7
Total 66
Satisfeita a condição de parada, foram criados, ao todo, 9 subgrupos. Alguns deles
(subgrupos 5, 6 e 9) contendo a mesma quantidade, 7 genes. Entretanto, de forma geral, a
distribuão foi bastante heterogênea.
4.2.1. ATFa119sg01
Para os 17 genes do subgrupo ATFa119sg01, foram isolados seus maior e menor VM
(Tabela 2).
Resultados e discussões
47
Tabela 2 – Genes e VMs do subgrupo ATFa119sg01
Systematic name Maior VM Menor VM
YML034W 0,76 -0,97
YGL021W 1,16 -1,39
YLR190W 1,19 -1,26
YML119W 1,21 -1,28
YNL058C 1,53 -1,81
YDR146C 0,75 -1,29
YJR092W 0,75 -1,10
YMR032W 1,28 -0,94
YPL155C 0,64 -0,84
YPL141C 1,13 -1,31
YHR023W 0,99 -1,19
YGR108W 1,20 -1,88
YPR156C 1,51 -1,86
YJL051W 1,17 -0,92
YGL116W 0,93 -0,77
YMR001C 1,22 -1,59
YPL242C 1,16 -1,13
Depois dos subgrupos formados e VMs detalhadas, foram resgatados: os TFs, as
anotações (Apêndice C), e efetuados os cálculos de interações dos TFs para com os genes
(Tabela 3).
Resultados e discussões
48
Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01
TF Razão
Porcentagem
Systematic names
Fkh1 17/17
100,00 YML034W;YGL021W;YLR190W;YML119W;YNL058C;
YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;
YHR023W;YGR108W;YPR156C;YJL051W;YGL116W;
YMR001C; YPL242C
Fkh2 17/17
100,00 YML034W;YGL021W;YLR190W;YML119W;YNL058C;
YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;
YHR023W;YGR108W;YPR156C;YJL051W;YGL116W;
YMR001C; YPL242C
Mcm1
14/17
82,35 YGL021W;YLR190W;YML119W;YNL058C;YDR146C;
YJR092W;YMR032W;YHR023W;YGR108W;YPR156C;
YJL051W;YGL116W; YMR001C;YPL242C
Ste12 9/17 52,94 YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;
YHR023W;YGR108W;YPR156C; YGL116W
Rap1 6/17 35,29 YLR190W;YDR146C;YJR092W;YGR108W; YJL051W;
YGL116W
Sok2 4/17 23,53 YDR146C;YHR023W;YGR108W;YPR156C
Ino4 3/17 17,65 YDR146C;YPL155C;YGL116W
Yox1 3/17 17,65 YGL116W;YMR001C;YPL242C
Reb1 3/17 17,65 YML119W;YDR146C;YMR001C
Swi4 2/17 11,76 YGR108W;YPR156C
Mbp1
2/17 11,76 YGR108W;YPL242C
Abf1 2/17 11,76 YMR032W;YPL242C
Stp2 1/17 5,88 YHR023W
Azf1 1/17 5,88 YDR146C
Rlm1 1/17 5,88 YNL058C
Cha4 1/17 5,88 YPL242C
Pho4 1/17 5,88 YJL051W
Ino2 1/17 5,88 YDR146C
Cin5 1/17 5,88 YML119W
Hap4 1/17 5,88 YML119W
Ash1 1/17 5,88 YJR092W
Ume6
1/17 5,88 YJL051W
Smp1
1/17 5,88 YGL116W
Bas1 1/17 5,88 YGL116W
Tec1 1/17 5,88 YPR156C
Pela observação da tabela 3, nota-se que Fkh1, anotado como fatores de transcrição da
família forkhead com um menor papel na expressão de genes da fase G2/M, am disso
regulam negativamente o alongamento da transcrição, possui um regulação positiva no
silenciamento da cromatina no HML e HMR e regula a preferência do doador durante a
mudança de fase (Forkhead family transcription factor with a minor role in the expression of
G2/M phase genes; negatively regulates transcriptional elongation; positive role in chromatin
silencing at HML and HMR; regulates donor preference during switching) e Fkh2, anotado
como fatores de transcrição da família forkhead com um maior papel na expressão de genes
da fase G2/M, além disso regulam positivamente o alongamento da transcrição, possui um
Resultados e discussões
49
regulação negativa no silenciamento da cromatina no HML e HMR e atua como substrato da
Quinase Cdc28p/Clb5p (Forkhead family transcription factor with a major role in the
expression of G2/M phase genes; positively regulates transcriptional elongation; negative
role in chromatin silencing at HML and HMR; substrate of the Cdc28p/Clb5p kinase)
(LOCUS INFORMATION, 2008), são os TFs mais ativos, interagindo com 100% dos genes.
4.2.2. ATFa119sg02
Os 5 genes que compõem o subgrupo ATFa119sg02, são (Tabela 4):
Tabela 4 - Genes e VMs do subgrupo ATFa119sg02
Systematic name Maior VM Menor VM
YOR315W 1.07 -1.09
YPR149W 1.44 -1.98
YPR013C 0.76 -0.28
YLR413W 0.82 -1.90
YBR054W 1.54 -1.84
Em seguida, foram anexados os TFs, as anotações (Apêndice C), e efetuados os
cálculos de interações dos TFs relativos aos genes (Tabela 5).
Resultados e discussões
50
Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02
TF Razão
Porcentagem Systematic names
Sok2 5/5 100,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W
Ste12 5/5 100,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W
Yap6 5/5 100,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W
Cin5 4/5 80,00 YOR315W;YPR013C;YLR413W;YBR054W
Swi4 4/5 80,00 YOR315W;YPR149W;YPR013C;YBR054W
Tec1 4/5 80,00 YOR315W;YPR149W;YPR013C;YLR413W
Stp2 3/5 60,00 YPR149W;YLR413W;YBR054W
Fkh2 3/5 60,00 YOR315W;YPR149W;YBR054W
Ino4 2/5 40,00 YOR315W;YPR013C
Phd1 2/5 40,00 YOR315W;YPR013C
Fkh1 2/5 40,00 YOR315W;YPR013C
Rap1 2/5 40,00 YOR315W;YPR149W
Azf1 1/5 20,00 YPR013C
Rlm1 1/5 20,00 YOR315W
Rgm1
1/5 20,00 YBR054W
Hap4 1/5 20,00 YBR054W
Sum1
1/5 20,00 YOR315W
Cup9 1/5 20,00 YPR013C
Hsf1 1/5 20,00 YBR054W
Mig1 1/5 20,00 YPR149W
Hcm1
1/5 20,00 YPR013C
Abf1 1/5 20,00 YBR054W
Mcm1
1/5 20,00 YOR315W
A Tabela 5 indica, que 3 TFs tem participação em todos os genes de ATFa119sg02:
Sok2, anotado como proteína nuclear que desempenha um papel regulador na AMP cíclico
(cAMP) dependentes da proteína quinase (PKA) na via de transdução de sinal; regula
negativamente a diferenciação da pseudohifa; hologos a diversos fatores de transcrição
(Nuclear protein that plays a regulatory role in the cyclic AMP (cAMP)-dependent protein
kinase (PKA) signal transduction pathway; negatively regulates pseudohyphal differentiation;
homologous to several transcription factors); Ste12, anotado como fator de transcrição que é
ativado por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na
interação ou crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p
para regular os genes específicos para o crescimento invasivo (Transcription factor that is
activated by a MAP kinase signaling cascade, activates genes involved in mating or
pseudohyphal/invasive growth pathways; cooperates with Tec1p transcription factor to
regulate genes specific for invasive growth; e Yap6, anotado como provável fator de
transcrição formado por leucina básica de zipper (bZIP), aumenta a super-expressão de sódio
e lítio (Putative basic leucine zipper (bZIP) transcription factor; overexpression increases
Resultados e discussões
51
sodium and lithium tolerance) (LOCUS INFORMATION, 2008).
4.2.3. ATFa119sg03
Para o subgrupo ATFa119sg03 foram isolados 9 genes, com os seguintes VMs (Tabela
6):
Tabela 6 - Genes e VMs do subgrupo ATFa119sg03
Systematic name Maior VM Menor VM
YLR452C 2,41 -0,91
YKL185W 2,18 -1,5
YNL327W 2,71 -2,14
YKL164C 2,53 -2,24
YER145C 0,52 -1,12
YHR005C 0,99 -1,01
YDR055W 2,23 -1,46
YHL028W 0,73 -0,46
YBR202W 1,04 -1,21
Em seguida, para cada gene foram atribuídos seus TFs, totalizados e exibidos na
Tabela 7.
Resultados e discussões
52
Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03
TF Razão
Porcentagem Systematic names
Sok2 9/9 100,00 YLR452C;YKL185W;YNL327W;YKL164C;YER145C;
YHR005C;YDR055W;YHL028W;YBR202W
Ste12 7/9 77,78 YLR452C;YKL164C;YER145C;YHR005C;YDR055W;
YHL028W;YBR202W
Mcm1
7/9 77,78 YLR452C;YKL185W;YNL327W;YKL164C;YHR005C;
YHL028W;YBR202W
Phd1 5/9 55,56 YKL164C;YER145C;YHR005C;YHL028W;YBR202W
Rap1 5/9 55,56 YLR452C;YNL327W;YER145C;YHL028W;YBR202W
Tec1 5/9 55,56 YKL164C;YER145C;YHR005C;YDR055W;YBR202W
Ace2 5/9 55,56 YKL185W;YNL327W;YKL164C;YDR055W;YHL028W
Swi5 4/9 44,44 YKL185W;YNL327W;YKL164C;YDR055W
Rlm1 3/9 33,33 YKL164C;YDR055W;YHL028W
Smp1 3/9 33,33 YKL185W;YKL164C;YHL028W
Swi4 2/9 22,22 YER145C;YDR055W
Mal33
1/9 11,11 YHL028W
Azf1 1/9 11,11 YNL327W
Pho4 1/9 11,11 YDR055W
Yox1 1/9 11,11 YBR202W
Hap4 1/9 11,11 YDR055W
Mig1 1/9 11,11 YHL028W
Hsf1 1/9 11,11 YHL028W
Ash1 1/9 11,11 YDR055W
Ume6
1/9 11,11 YDR055W
Abf1 1/9 11,11 YHL028W
Fkh2 1/9 11,11 YHL028W
Xbp1 1/9 11,11 YHL028W
O subgrupo ATFa119sg03 apresenta, apenas, Sok2 (abordados em ATFa119sg02),
seguindo Sok2, os TFs Ste12 e Mcm1 estão presentes em mais de 3/4 destes genes. Ste12, que,
também, foi abordado em ATFa119sg02, e Mcm1, anotado como fator de transcrição que
atuam em células específicas de transcrição e da resposta ao feromônio; desempenha um
papel central na formação de complexos ativadores e repressores (Transcription factor
involved in cell-type-specific transcription and pheromone response; plays a central role in
the formation of both repressor and activator complexes) (LOCUS INFORMATION, 2008).
Resultados e discussões
53
4.2.4. ATFa119sg04
Para ATFa119sg04 foram relacionados os seguintes genes (Tabela 8)
Tabela 8 - Genes e VMs do subgrupo ATFa119sg04
Systematic name Maior VM Menor VM
YDR033W 1.61 -1.96
YMR031C 0.63 -0.94
YJL157C 2.12 -1.41
YEL032W 0.98 -1.14
YLR274W 0.95 -0.84
YAR018C 0.82 -0.79
Em seguida, foram calculadas as interações do TFs com os seus genes (Tabela 9):
Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04
TF Razão
Porcentagem Systematic names
Mcm1
6/6 100,00 YDR033W;YMR031C;YJL157C;YEL032W; YLR274W;YAR018C
Ste12 3/6 50,00 YMR031C;YJL157C;YEL032W
Fkh2 3/6 50,00 YDR033W;YMR031C;YAR018C
Yox1 3/6 50,00 YEL032W;YLR274W;YAR018C
Cin5 1/6 16,67 YDR033W
Reb1 1/6 16,67 YLR274W
A tabela 9, destaca Mcm1, anotado como fator de transcrição que atuam em células
específicas de transcrição e da resposta ao feromônio; desempenha um papel central na
formação de complexos ativadores e repressores (Transcription factor involved in cell-type-
specific transcription and pheromone response; plays a central role in the formation of both
repressor and activator complexes), que é o TF dominante (LOCUS INFORMATION, 2008).
Resultados e discussões
54
4.2.5. ATFa119sg05
Para o subgrupo 5 de agrupamento por TFs foram relacionados os seguintes genes
(Tabela 10):
Tabela 10 - Genes e VMs do subgrupo ATFa119sg05
Systematic name Maior VM Menor VM
YHL040C 0,91 -1,16
YNR067C 2,74 -1,71
YAL022C 0,61 -0,52
YBL023C 1,08 -1,01
YBR069C 0,62 -0,77
YOR066W 1,36 -0,92
YPR019W 1,32 -1,01
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
11).
Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05
TF Razão
Porcentagem
Systematic names
Yox1 6/7 85,71 YNR067C;YAL022C;YBL023C;YBR069C;YOR066W; YPR019W
Ste12 4/7 57,14 YHL040C;YNR067C;YBR069C;YOR066W
Hcm1
3/7 42,86 YHL040C;YBL023C;YOR066W
Phd1 2/7 28,57 YHL040C;YBR069C
Cin5 2/7 28,57 YHL040C;YBR069C
Hap4 2/7 28,57 YHL040C;YPR019W
Yap6 2/7 28,57 YNR067C;YAL022C
Mbp1
2/7 28,57 YBL023C;YOR066W
Mcm1
2/7 28,57 YAL022C;YOR066W
Swi5 2/7 28,57 YNR067C;YAL022C
Ace2 2/7 28,57 YNR067C;YBL023C
Stp2 1/7 14,29 YBR069C
Mal33
1/7 14,29 YAL022C
Thi2 1/7 14,29 YHL040C
Ime4 1/7 14,29 YAL022C
Swi4 1/7 14,29 YBL023C
Stb1 1/7 14,29 YAL022C
Sut1 1/7 14,29 YNR067C
Smp1
1/7 14,29 YAL022C
Presente em 85% dos genes, o TF Yox1, anotado como homeodomínio contendo
repressor transcricional, liga-se a Mcm1p e células iniciais do ciclo (ECBs) nos promotores de
genes do ciclo celular, regulando expressão em M/G1 fase, a expressão é regulada pelo ciclo
celular; potencial substrato Cdc28p (Homeodomain-containing transcriptional repressor,
binds to Mcm1p and to early cell cycle boxes (ECBs) in the promoters of cell cycle-regulated
Resultados e discussões
55
genes expressed in M/G1 phase; expression is cell cycle-regulated; potential Cdc28p
substrate) (LOCUS INFORMATION, 2008). Este não atua sobre o gene YHL040C, que é
regulado por outros 6 diferentes TFs.
4.2.6. ATFa119sg06
Para o subgrupo 6 de ATF, foram relacionados os seguintes genes (Tabela 12):
Tabela 12 - Genes e VMs do subgrupo ATFa119sg06
Systematic name Maior VM Menor VM
YOR153W 0,87 -0,74
YPL025C 0,63 -0,47
YOR114W 0,50 -0,46
YGL008C 0,82 -0,65
YOL114C 0,68 -0,38
YBR093C 1,47 -1,00
YPR119W 1,54 -2,36
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
13).
Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06
TF Razão
Porcentagem
Systematic names
Swi4 7/7 100,00 YOR153W;YPL025C;YOR114W;YGL008C;YOL114C;YBR093C;
YPR119W
Fkh2 5/7 71,43 YPL025C;YGL008C;YOL114C;YBR093C;YPR119W
Rap1 4/7 57,14 YOR153W;YGL008C;YBR093C;YPR119W
Sok2 3/7 42,86 YOR153W;YPL025C;YOR114W
Mbp1 3/7 42,86 YOR153W;YGL008C;YPR119W
Ash1 3/7 42,86 YOR153W;YPL025C;YOL114C
Fkh1 2/7 28,57 YOL114C;YPR119W
Mcm1 2/7 28,57 YGL008C;YPR119W
Ace2 2/7 28,57 YPL025C;YGL008C
Thi2 1/7 14,29 YBR093C
Azf1 1/7 14,29 YGL008C
Ino4 1/7 14,29 YOR153W
Pho4 1/7 14,29 YBR093C
Phd1 1/7 14,29 YPL025C
Hap4 1/7 14,29 YOR153W
Hsf1 1/7 14,29 YGL008C
Sut1 1/7 14,29 YBR093C
Xbp1 1/7 14,29 YPR119W
Tec1 1/7 14,29 YBR093C
Reb1 1/7 14,29 YPR119W
Resultados e discussões
56
Swi4, anotado como componente de interação do DNA e um complexo SBF (Swi4p-
Swi6p), um ativador de transcrição que, em conjunto com MBF (Mbp1-Swi6p) regula a
transcrição tardia em alvos específicos de G1, incluindo ciclinas e genes necessários para a
síntese e reparo de DNA (DNA binding component of the SBF complex (Swi4p-Swi6p), a
transcriptional activator that in concert with MBF (Mbp1-Swi6p) regulates late G1-specific
transcription of targets including cyclins and genes required for DNA synthesis and repair)
(LOCUS INFORMATION, 2008). É o TF que está presente em todos os genes deste
subgrupo.
4.2.7. ATFa119sg07
Para o subgrupo 7 de ATF foram relacionados os seguintes genes (Tabela 14):
Tabela 14 - Genes e VMs do subgrupo ATFa119sg07
Systematic name Maior VM Menor VM
YNL057W 1,14 -1,17
YPL036W 0,72 -0,67
YNL216W 0,74 -0,63
YPL128C 0,60 -0,57
YPL124W 0,62 -0,46
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
15):
Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07
TF Razão
Porcentagem Systematic names
Ste12
3/5 60,00 YPL036W;YNL216W;YPL128C
Azf1 2/5 40,00 YPL036W;YPL124W
Abf1 2/5 40,00 YNL057W;YPL036W
Ime4 1/5 20,00 YPL036W
Swi4 1/5 20,00 YPL124W
Rgm1
1/5 20,00 YPL036W
Fkh2 1/5 20,00 YNL057W
Rap1 1/5 20,00 YNL216W
Reb1 1/5 20,00 YNL216W
Para o subgrupo ATFa119sg07, Ste12, anotado como fator de transcrição que é ativado
por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na interação ou
crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p para regular os
genes específicos para o crescimento invasivo (Transcription factor that is activated by a
Resultados e discussões
57
MAP kinase signaling cascade, activates genes involved in mating or pseudohyphal/invasive
growth pathways; cooperates with Tec1p transcription factor to regulate genes specific for
invasive growth) (LOCUS INFORMATION, 2008). É o TF mais atuante, entretanto, diferente
do observado em ATFa119sg02, para este subgrupo corresponde a apenas 60% dos genes.
4.2.8. ATFa119sg08
Para o subgrupo 8 de ATF, foram relacionados os seguintes genes (Tabela 16):
Tabela 16 - Genes e VMs do subgrupo ATFa119sg08
Systematic name Maior VM Menor VM
YPL264C 0,64 -0,32
YPL269W 0,64 -0,61
YPL158C 2,10 -1,65
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
17).
Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08
TF Razão
Porcentagem Systematic names
Mbp1
3/3 100,00 YPL264C;YPL269W;YPL158C
Swi5 1/3 33,33 YPL158C
Ino4 1/3 33,33 YPL158C
Ace2
1/3 33,33 YPL158C
Mbp1, anotado como fator de transcrição envolvido na regulação da progressão do
ciclo celular de G1 para fase S, forma um complexo com Swi6p que liga ao complexo
regulario do MluI do ciclo celular em promotores de genes da ntese do DNA
(Transcription factor involved in regulation of cell cycle progression from G1 to S phase,
forms a complex with Swi6p that binds to MluI cell cycle box regulatory element in promoters
of DNA synthesis genes) (LOCUS INFORMATION, 2008). É o TF mais atuante, porém, este
subgrupo é constituído por poucos genes.
Resultados e discussões
58
4.2.9. ATFa119sg09
Para o subgrupo 9 de ATF, foram relacionados os seguintes genes (Tabela 18):
Tabela 18 - Genes e VMs do subgrupo ATFa119sg09
Systematic name Maior VM Menor VM
YPR111W 0,67 -0,44
YOR298W 0,57 -0,50
YOL132W 0,70 -0,43
YHR006W 0,57 -0,48
YOR383C 1,28 -1,67
YOR235W 0,88 -0,54
YOR258W 0,76 -0,40
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
19):
Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09
TF Razão
Porcentagem
Systematic names
Ino4 5/7 71,43 YPR111W;YOR298W;YHR006W;YOR235W; YOR258W
Sok2 3/7 42,86 YOR298W;YOL132W;YOR383C
Rme1 2/7 28,57 YOR383C;YOR235W
Stp2 1/7 14,29 YHR006W
YPR015C
1/7 14,29 YOR383C
Yap6 1/7 14,29 YOR235W
Mig1 1/7 14,29 YOR383C
Rap1 1/7 14,29 YPR111W
Pho4 1/7 14,29 YOR383C
Mcm1 1/7 14,29 YHR006W
Yrr1 1/7 14,29 YOR258W
Ifh1 1/7 14,29 YOR235W
Tye7 1/7 14,29 YHR006W
Ino4, anotado como fator de transcrição necessários para inbir a repressão dos genes
regulados do inositol e colina envolvidos na síntese de fosfolípides e forma um complexo com
Ino2p, que liga o complexo do inositol e colina através de um domínio básico hélice-loop-
hélice (Transcription factor required for derepression of inositol-choline-regulated genes
involved in phospholipid synthesis; forms a complex, with Ino2p, that binds the inositol-
choline-responsive element through a basic helix-loop-helix domain) (LOCUS
INFORMATION, 2008). Obteve neste subgrupo, sua maior representação, porém, ainda
assim, não interagiu com todos os genes.
Resultados e discussões
59
4.3. Agrupamento por valores de modulação gênica (AVM)
O agrupamento dos genes por sua expressão gerou o dendrograma (Figura 20):
Figura 20. Dendrograma criado por AVM, considerando os genes induzidos em 119 minutos do
experimento alpha factor.
A mesma metodologia utilizada em ATF, foi aplicada para este todo de
agrupamento, portanto, subgrupos foram criados. Da mesma forma foi estabelecida a
condição de parada, subgrupo(s) com a quantidade mínima de 3 genes. Para o dendrograma
referente a 119 minutos, foram criados os seguintes subgrupos (Tabela 20):
Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119
minutos
Id. do subgrupo Nro. no dendrograma Qtd. de genes
AVMa119sg01 1 13
AVMa119sg02 2 7
AVMa119sg03 3 7
AVMa119sg04 4 10
AVMa119sg05 5 15
AVMa119sg06 6 3
AVMa119sg07 7 11
Total 66
Resultados e discussões
60
Depois dos subgrupos formados, da mesma forma que para ATF, foram adicionadas
informões de maior e menor modulação, TFs, anotações e efetuados cálculos de
participação dos TFs.
4.3.1. AVMa119sg01
Para o subgrupo 1 de AVM, foram relacionados os seguintes genes (Tabela 21).
Tabela 21 - Genes e VMs do subgrupo AVMa119sg01
Systematic name Maior VM Menor VM
YDR033W 1,61 -1,96
YOL132W 0,70 -0,43
YPL158C 2,10 -1,65
YER145C 0,52 -1,12
YBR093C 1,47 -1,00
YHL040C 0,91 -1,16
YOR383C 1,28 -1,67
YLR413W 0,82 -1,90
YBR054W 1,54 -1,84
YAL022C 0,61 -0,52
YBR202W 1,04 -1,21
YBR069C 0,62 -0,77
YAR018C 0,82 -0,79
Em seguida, para o subgrupo 1, foram calculadas as interações dos TFs com as
sínteses dos genes (Tabela 22).
Resultados e discussões
61
Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01
TF Razão
Porcentagem
Systematic names
Sok2 6/13 46,15 YOL132W;YER145C;YOR383C;YLR413W;YBR054W;YBR202W
Ste12 6/13 46,15 YER145C;YHL040C;YLR413W;YBR054W;YBR202W;YBR069C
Cin5 5/13 38,46 YDR033W;YHL040C;YLR413W;YBR054W;YBR069C
Phd1 4/13 30,77 YER145C;YHL040C;YBR202W;YBR069C
Yox1 4/13 30,77 YAL022C;YBR202W;YBR069C;YAR018C
Mcm1 4/13 30,77 YDR033W;YAL022C;YBR202W;YAR018C
Fkh2 4/13 30,77 YDR033W;YBR093C;YBR054W;YAR018C
Tec1 4/13 30,77 YER145C;YBR093C;YLR413W;YBR202W
Stp2 3/13 23,08 YLR413W;YBR054W;YBR069C
Yap6 3/13 23,08 YLR413W;YBR054W;YAL022C
Swi4 3/13 23,08 YER145C;YBR093C;YBR054W
Rap1 3/13 23,08 YER145C;YBR093C;YBR202W
Thi2 2/13 15,38 YBR093C;YHL040C
Pho4 2/13 15,38 YBR093C;YOR383C
Hap4 2/13 15,38 YHL040C;YBR054W
Swi5 2/13 15,38 YPL158C;YAL022C
Mal33 1/13 7,69 YAL022C
YPR015C
1/13 7,69 YOR383C
Rgm1 1/13 7,69 YBR054W
Rme1 1/13 7,69 YOR383C
Ino4 1/13 7,69 YPL158C
Ime4 1/13 7,69 YAL022C
Mbp1 1/13 7,69 YPL158C
Hsf1 1/13 7,69 YBR054W
Mig1 1/13 7,69 YOR383C
Stb1 1/13 7,69 YAL022C
Smp1 1/13 7,69 YAL022C
Hcm1 1/13 7,69 YHL040C
Sut1 1/13 7,69 YBR093C
Abf1 1/13 7,69 YBR054W
Ace2 1/13 7,69 YPL158C
Pela observação da tabela 22, é notado que Sok2, anotado como proteína nuclear que
desempenha um papel regulador na AMP cíclico (cAMP) dependentes da proteína quinase
(PKA) na via de transdução de sinal; regula negativamente a diferenciação da pseudohifa;
hologos a diversos fatores de transcrição (Nuclear protein that plays a regulatory role in
the cyclic AMP (cAMP)-dependent protein kinase (PKA) signal transduction pathway;
negatively regulates pseudohyphal differentiation; homologous to several transcription
factors) e Ste12, anotado como fator de transcrição que é ativado por uma cascata de
sinalização da MAP quinase, ativa os genes envolvidos na interação ou crescimento invasivo
da pseudohifa, coopera com o fator de transcrição Tec1p para regular os genes específicos
para o crescimento invasivo (Transcription factor that is activated by a MAP kinase signaling
cascade, activates genes involved in mating or pseudohyphal/ invasive growth pathways;
Resultados e discussões
62
cooperates with Tec1p transcription factor to regulate genes specific for invasive growth) .
São os TFs mais ativos no subgrupo, porém suas participações (46,15%), abrangem menos da
metade dos genes do subgrupo.
4.3.2. AVMa119sg02
Para o subgrupo 2 de AVM, foram relacionados os seguintes genes (Tabela 23).
Tabela 23 - Genes e VMs do subgrupo AVMa119sg02
Systematic name Maior VM Menor VM
YMR031C 0,63 -0,94
YHR005C 0,99 -1,01
YBL023C 1,08 -1,01
YOR066W 1,36 -0,92
YEL032W 0,98 -1,14
YLR274W 0,95 -0,84
YPR019W 1,32 -1,01
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
24).
Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02
TF Razão
Porcentagem Systematic names
Mcm1
5/7 71,43 YMR031C;YHR005C;YOR066W;YEL032W;YLR274W
Yox1 5/7 71,43 YBL023C;YOR066W;YEL032W;YLR274W;YPR019W
Ste12 4/7 57,14 YMR031C;YHR005C;YOR066W;YEL032W
Mbp1
2/7 28,57 YBL023C;YOR066W
Hcm1
2/7 28,57 YBL023C;YOR066W
Swi4 1/7 14,29 YBL023C
Sok2 1/7 14,29 YHR005C
Fkh2 1/7 14,29 YMR031C
Phd1 1/7 14,29 YHR005C
Tec1 1/7 14,29 YHR005C
Hap4 1/7 14,29 YPR019W
Reb1 1/7 14,29 YLR274W
Ace2 1/7 14,29 YBL023C
Na tabela 24, três quartos dos genes são regulados por Mcm1, anotado como fator de
transcrição que atuam em células específicas de transcrição e da resposta ao feromônio;
desempenha um papel central na formação de complexos ativadores e repressores
(Transcription factor involved in cell-type-specific transcription and pheromone response;
plays a central role in the formation of both repressor and activator complexes) e Yox1,
Resultados e discussões
63
anotado como homeodomínio contendo repressor transcricional, liga-se a Mcm1p e células
iniciais do ciclo (ECBs) nos promotores de genes do ciclo celular, regulando expressão em
M/G1 fase, a expressão é regulada pelo ciclo celular; potencial substrato Cdc28p
(Homeodomain-containing transcriptional repressor, binds to Mcm1p and to early cell cycle
boxes (ECBs) in the promoters of cell cycle-regulated genes expressed in M/G1 phase;
expression is cell cycle-regulated; potential Cdc28p substrate) (LOCUS INFORMATION,
2008). Contudo, sem unanimidade, esses dois TFs interagem com todos os genes do
subgrupo.
4.3.3. AVMa119sg03
Para o subgrupo 3 de AVM, foram relacionados os seguintes genes (Tabela 25).
Tabela 25 - Genes e VMs do subgrupo AVMa119sg03
Systematic name Maior VM Menor VM
YLR452C 2,41 -0,91
YJL157C 2,12 -1,41
YKL185W 2,18 -1,50
YNL327W 2,71 -2,14
YKL164C 2,53 -2,24
YDR055W 2,23 -1,46
YNR067C 2,74 -1,71
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
26).
Resultados e discussões
64
Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03
TF Razão
Porcentagem Systematic names
Sok2 5/7 71,43 YLR452C;YKL185W;YNL327W;YKL164C;YDR055W
Ste12 5/7 71,43 YLR452C;YJL157C;YKL164C;YDR055W;YNR067C
Mcm1
5/7 71,43 YLR452C;YJL157C;YKL185W;YNL327W;YKL164C
Swi5 5/7 71,43 YKL185W;YNL327W;YKL164C;YDR055W;YNR067C
Ace2 5/7 71,43 YKL185W;YNL327W;YKL164C;YDR055W;YNR067C
Rlm1 2/7 28,57 YKL164C;YDR055W
Rap1 2/7 28,57 YLR452C;YNL327W
Smp1 2/7 28,57 YKL185W;YKL164C
Tec1 2/7 28,57 YKL164C;YDR055W
Azf1 1/7 14,29 YNL327W
Pho4 1/7 14,29 YDR055W
Phd1 1/7 14,29 YKL164C
Yox1 1/7 14,29 YNR067C
Hap4 1/7 14,29 YDR055W
Yap6 1/7 14,29 YNR067C
Swi4 1/7 14,29 YDR055W
Ash1 1/7 14,29 YDR055W
Ume6
1/7 14,29 YDR055W
Sut1 1/7 14,29 YNR067C
Neste subgrupo existe uma quantidade maior de TFs com razão, chegando perto de 3/4
dos genes, são eles: Sok2, Ste12, Mcm1, Swi5 e Ace2. Entretanto, somente Swi5 e Ace2
compartilham os mesmos genes. Swi5 anotado como fator de transcrição que ativa a
transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização do núcleo
ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p
(Transcription factor that activates transcription of genes expressed at the M/G1 phase
boundary and in G1 phase; localization to the nucleus occurs during G1 and appears to be
regulated by phosphorylation by Cdc28p kinase) e Ace2, anotado como fator de transcrição
que ativa a transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização
do núcleo ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p
(Transcription factor that activates expression of early G1-specific genes, localizes to
daughter cell nuclei after cytokinesis and delays G1 progression in daughters, localization is
regulated by phosphorylation; potential Cdc28p substrate) (LOCUS INFORMATION, 2008),
são concordantes, como TFs ativadores.
Resultados e discussões
65
4.3.4. AVMa119sg04
Para o subgrupo 4 de AVM, foram relacionados os seguintes genes (Tabela 27).
Tabela 27 - Genes e VMs do subgrupo AVMa119sg04
Systematic name Maior VM Menor VM
YML034W 0,76 -0,97
YGL021W 1,16 -1,39
YJR092W 0,75 -1,10
YPL155C 0,64 -0,84
YPL141C 1,13 -1,31
YGR108W 1,20 -1,88
YOR153W 0,87 -0,74
YPR119W 1,54 -2,36
YOR315W 1,07 -1,09
YMR001C 1,22 -1,59
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
28).
Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04
TF Razão
Porcentagem Systematic names
Fkh1 9/10 90,00 YML034W;YGL021W;YJR092W;YPL155C;YPL141C;
YGR108W;YPR119W;YOR315W;YMR001C
Fkh2 9/10 90,00 YML034W;YGL021W;YJR092W;YPL155C;YPL141C;
YGR108W;YPR119W;YOR315W;YMR001C
Mcm1
6/10 60,00 YGL021W;YJR092W;YGR108W;YPR119W;YOR315W;
YMR001C
Ste12 5/10 50,00 YJR092W;YPL155C;YPL141C;YGR108W;YOR315W
Rap1 5/10 50,00 YJR092W;YGR108W;YOR153W;YPR119W;YOR315W
Swi4 4/10 40,00 YGR108W;YOR153W;YPR119W;YOR315W
Ino4 3/10 30,00 YPL155C;YOR153W;YOR315W
Sok2 3/10 30,00 YGR108W;YOR153W;YOR315W
Mbp1
3/10 30,00 YGR108W;YOR153W;YPR119W
Ash1 2/10 20,00 YJR092W;YOR153W
Reb1 2/10 20,00 YPR119W;YMR001C
Rlm1 1/10 10,00 YOR315W
Phd1 1/10 10,00 YOR315W
Cin5 1/10 10,00 YOR315W
Yox1 1/10 10,00 YMR001C
Sum1 1/10 10,00 YOR315W
Hap4 1/10 10,00 YOR153W
Yap6 1/10 10,00 YOR315W
Tec1 1/10 10,00 YOR315W
Xbp1 1/10 10,00 YPR119W
Resultados e discussões
66
Dois diferentes TFs neste subgrupo (4) são atuantes em 9 dos 10 genes. Fkh1 e Fkh2,
com as, respectivas, anotações: fatores de transcrição da família forkhead com um menor
papel na expressão de genes da fase G2/M, além disso regulam negativamente o alongamento
da transcrição, possui um regulação positiva no silenciamento da cromatina no HML e HMR
e regula a preferência do doador durante a mudança de fase (Forkhead family transcription
factor with a minor role in the expression of G2/M phase genes; negatively regulates
transcriptional elongation; positive role in chromatin silencing at HML and HMR; regulates
donor preference during switching) e fatores de transcrição da família forkhead com um
maior papel na expressão de genes da fase G2/M, além disso regulam positivamente o
alongamento da transcrição, possui um regulação negativa no silenciamento da cromatina no
HML e HMR e atua como substrato da Quinase Cdc28p/Clb5p (Forkhead family
transcription factor with a major role in the expression of G2/M phase genes; positively
regulates transcriptional elongation; negative role in chromatin silencing at HML and HMR;
substrate of the Cdc28p/Clb5p kinase) (LOCUS INFORMATION, 2008). Pela anotação é
possível notar que um desempenha função contrária do outro.
4.3.5. AVMa119sg05
Para o subgrupo 5 de AVM, foram relacionados os seguintes genes (Tabela 29).
Tabela 29 - Genes e VMs do subgrupo AVMa119sg05
Systematic name Maior VM Menor VM
YNL057W 1,14 -1,17
YLR190W 1,19 -1,26
YML119W 1,21 -1,28
YNL058C 1,53 -1,81
YDR146C 0,75 -1,29
YPL036W 0,72 -0,67
YMR032W 1,28 -0,94
YHR023W 0,99 -1,19
YGL008C 0,82 -0,65
YPR156C 1,51 -1,86
YJL051W 1,17 -0,92
YHL028W 0,73 -0,46
YPR149W 1,44 -1,98
YGL116W 0,93 -0,77
YPL242C 1,16 -1,13
Resultados e discussões
67
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
30).
Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05
TF Razão
Porcentagem
Systematic names
Fkh2 14/15
93,33 YNL057W;YLR190W;YML119W;YNL058C;YDR146C;YMR032W;
YHR023W;YGL008C;YPR156C;YJL051W;YHL028W;YPR149W;
YGL116W;YPL242C
Mcm1
12/15
80,00 YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W;
YGL008C;YPR156C;YJL051W;YHL028W; YGL116W;YPL242C
Fkh1 10/15
66,67 YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W;
YPR156C;YJL051W;YGL116W;YPL242C
Ste12 8/15 53,33 YDR146C;YPL036W;YMR032W;YHR023W;YPR156C;YHL028W;
YPR149W;YGL116W
Rap1 7/15 46,67 YLR190W;YDR146C;YGL008C;YJL051W;YHL028W;YPR149W;
YGL116W
Sok2 5/15 33,33 YDR146C;YHR023W;YPR156C;YHL028W;YPR149W
Abf1 5/15 33,33 YNL057W;YPL036W;YMR032W;YHL028W;YPL242C
Azf1 3/15 20,00 YDR146C;YPL036W;YGL008C
Swi4 3/15 20,00 YGL008C;YPR156C;YPR149W
Rlm1 2/15 13,33 YNL058C;YHL028W
Ino4 2/15 13,33 YDR146C;YGL116W
Mbp1
2/15 13,33 YGL008C;YPL242C
Smp1
2/15 13,33 YHL028W;YGL116W
Ace2 2/15 13,33 YGL008C;YHL028W
Stp2 2/15 13,33 YHR023W;YPR149W
Yox1 2/15 13,33 YGL116W;YPL242C
Hsf1 2/15 13,33 YGL008C;YHL028W
Mig1 2/15 13,33 YHL028W;YPR149W
Tec1 2/15 13,33 YPR156C;YPR149W
Reb1 2/15 13,33 YML119W;YDR146C
Rgm1
1/15 6,67 YPL036W
Cin5 1/15 6,67 YML119W
Yap6 1/15 6,67 YPR149W
Ume6
1/15 6,67 YJL051W
Bas1 1/15 6,67 YGL116W
Xbp1 1/15 6,67 YHL028W
Mal33
1/15 6,67 YHL028W
Cha4 1/15 6,67 YPL242C
Ime4 1/15 6,67 YPL036W
Pho4 1/15 6,67 YJL051W
Phd1 1/15 6,67 YHL028W
Ino2 1/15 6,67 YDR146C
Hap4 1/15 6,67 YML119W
Presente em 93,33% dos genes, o TF Fkh2, citado no subgrupo 4, é o mais atuante.
Este só não atua sobre o gene YPL036W, que é regulado por outros 5 diferentes TFs.
Resultados e discussões
68
4.3.6. AVMa119sg06
Para o subgrupo 6 de AVM, foram relacionados os seguintes genes (Tabela 31).
Tabela 31 - Genes e VMs do subgrupo AVMa119sg06
Systematic name Maior VM Menor VM
YOR298W 0,57 -0,50
YOR114W 0,50 -0,46
YPL124W 0,62 -0,46
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
32).
Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06
TF Razão
Porcentagem Systematic names
Swi4
2/3 66,67 YOR114W;YPL124W
Sok2
2/3 66,67 YOR298W;YOR114W
Azf1
1/3 33,33 YPL124W
Ino4
1/3 33,33 YOR298W
Mesmo estando no limiar da quantidade mínima de genes por subgrupo. No subgrupo
6, nenhum TF foi predominante, atuando sobre todos eles. Os dois mais atuantes que
interagem com 2 dos 3 genes são: Swi4, anotado como componente de interação do DNA e
um complexo SBF (Swi4p-Swi6p), um ativador de transcrição que, em conjunto com MBF
(Mbp1-Swi6p) regula a transcrição tardia em alvos específicos de G1, incluindo ciclinas e
genes necessários para a síntese e reparo de DNA (DNA binding component of the SBF
complex (Swi4p-Swi6p), a transcriptional activator that in concert with MBF (Mbp1-Swi6p)
regulates late G1-specific transcription of targets including cyclins and genes required for
DNA synthesis and repair) e Sok2, anotado como proteína nuclear que desempenha um papel
regulador na AMP cíclico (cAMP) dependentes da proteína quinase (PKA) na via de
transdução de sinal; regula negativamente a diferenciação da pseudohifa; homólogos a
diversos fatores de transcrição (Nuclear protein that plays a regulatory role in the cyclic AMP
(cAMP)-dependent protein kinase (PKA) signal transduction pathway; negatively regulates
pseudohyphal differentiation; homologous to several transcription factors) (LOCUS
INFORMATION, 2008). Os genes do subgrupo 6 tem seus valores de modulação bem
próximos do limiar de exclusão, talvez essa fraca expressão explique a falta de um TF
predominante, assim como, a contraversão destes dois, mais atuantes.
Resultados e discussões
69
4.3.7. AVMa119sg07
Para o subgrupo 7 de AVM, foram relacionados os seguintes genes (Tabela 33).
Tabela 33 - Genes e VMs do subgrupo AVMa119sg07
Systematic name Maior VM Menor VM
YPL264C 0,64 -0,32
YPL269W 0,64 -0,61
YPR111W 0,67 -0,44
YNL216W 0,74 -0,63
YPL128C 0,60 -0,57
YPL025C 0,63 -0,47
YOL114C 0,68 -0,38
YHR006W 0,57 -0,48
YPR013C 0,76 -0,28
YOR235W 0,88 -0,54
YOR258W 0,76 -0,40
Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela
34).
Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07
TF Razão
Porcentagem Systematic names
Ino4 5/11 45,45 YPR111W;YHR006W;YPR013C;YOR235W;YOR258W
Ste12 3/11 27,27 YNL216W;YPL128C;YPR013C
Swi4 3/11 27,27 YPL025C;YOL114C;YPR013C
Sok2 2/11 18,18 YPL025C;YPR013C
Phd1 2/11 18,18 YPL025C;YPR013C
Yap6 2/11 18,18 YPR013C;YOR235W
Mbp1
2/11 18,18 YPL264C;YPL269W
Ash1 2/11 18,18 YPL025C;YOL114C
Rap1 2/11 18,18 YPR111W;YNL216W
Fkh1 2/11 18,18 YOL114C;YPR013C
Fkh2 2/11 18,18 YPL025C;YOL114C
Stp2 1/11 9,09 YHR006W
Azf1 1/11 9,09 YPR013C
Rme1
1/11 9,09 YOR235W
Cin5 1/11 9,09 YPR013C
Cup9 1/11 9,09 YPR013C
Hcm1
1/11 9,09 YPR013C
Mcm1
1/11 9,09 YHR006W
Yrr1 1/11 9,09 YOR258W
Ifh1 1/11 9,09 YOR235W
Tec1 1/11 9,09 YPR013C
Tye7 1/11 9,09 YHR006W
Ace2 1/11 9,09 YPL025C
Reb1 1/11 9,09 YNL216W
Resultados e discussões
70
Este último subgrupo de AVM, contendo 11 genes, o é notada a predominância de
qualquer TF. Analogicamente ao subgrupo 6, os VMs máximos estão bem próximos do limiar
de exclusão. Neste subgrupo, é destacado um TF diferente, Ino4, anotado como fator de
transcrição necessários para inbir a repressão dos genes regulados do inositol e colina
envolvidos na ntese de fosfolípides e forma um complexo com Ino2p, que liga o complexo
do inositol e colina através de um domínio básico lice-loop-hélice (Transcription factor
required for derepression of inositol-choline-regulated genes involved in phospholipid
synthesis; forms a complex, with Ino2p, that binds the inositol-choline-responsive element
through a basic helix-loop-helix domain) (LOCUS INFORMATION, 2008).
4.4. Comparação entre ATF e AVM
Comparando os métodos ATF e AVM, por suas capacidades de agrupamento de genes,
em função da interação com TFs, é possível notar que, de forma sistêmica, ATF obteve
melhores porcentagens ximas, as quais, representam as interações dos TFs para com os
genes dos subgrupos. Ele foi capaz de dispor genes que têm TFs compartilhadas, mais
próximos no dendrograma, montado a partir da matriz de distâncias. A linha azul (mais
grossa) do Gráfico 5, demonstra as porcentagens máximas obtidas por ATF.
Resultados e discussões
71
Os resultados obtidos por AVM, são demonstrados, também, pela linha azul (mais
grossa) no Gráfico 6.
Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF, em alpha factor 119 minutos.
Resultados e discussões
72
Juntamente, nos Gráficos 5 e 6, é possível observar o resultado do embaralhamento
dos genes. No método ATF (Gráfico 5) é possível notar alguns picos que chegam a 100%, os
quais, para alguns subgrupos, foram até mais relevantes que os obtidos pelo método ATF.
Entretanto, quando se observa o resultado como um todo, o notáveis as melhores
porcentagens máximas deste método desenvolvido. Enquanto que, no Gráfico 6, os resultados
do embaralhamento e do todo AVM, se confundem. O método de ATF, de forma geral
obteve melhores picos, chegando, a maioria deles, a 100%. Este mesmo comportamento, é
pouco notado em AVM. Esta tendência foi observada em todos os tempos amostrais, pela
secção do conjunto de dados (Apêndice D).
Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM, em alpha factor 119 minutos.
Resultados e discussões
73
4.5. Correlações entre ATF e AVM
A correlação dos resultados obtidos pelos métodos ATF e AVM, mostrou genes que
compartilham perfil de modulação e TFs (Tabela 35).
Tabela 35 - Correlações gênicas entre os métodos ATF e AVM
SATF SAVM Qtd. correl.
Systematic names
ATFa119sg01 AVMa119sg04 7 YML034W;YGL021W;YJR092W;YPL155C;
YPL141C;YGR108W;YMR001C
ATFa119sg01 AVMa119sg05 10 YLR190W;YML119W;YNL058C;YDR146C;
YMR032W;YHR023W;YPR156C;YJL051W;
YGL116W;YPL242C
ATFa119sg02 AVMa119sg01 2 YLR413W;YBR054W
ATFa119sg02 AVMa119sg04 1 YOR315W
ATFa119sg02 AVMa119sg05 1 YPR149W
ATFa119sg02 AVMa119sg07 1 YPR013C
ATFa119sg03 AVMa119sg01 2 YER145C;YBR202W
ATFa119sg03 AVMa119sg02 1 YHR005C
ATFa119sg03 AVMa119sg03 5 YLR452C;YKL185W;YNL327W;YKL164C;
YDR055W
ATFa119sg03 AVMa119sg05 1 YHL028W
ATFa119sg04 AVMa119sg01 2 YDR033W;YAR018C
ATFa119sg04 AVMa119sg02 3 YMR031C;YEL032W;YLR274W
ATFa119sg04 AVMa119sg03 1 YJL157C
ATFa119sg05 AVMa119sg01 3 YHL040C;YAL022C;YBR069C
ATFa119sg05 AVMa119sg02 3 YBL023C;YOR066W;YPR019W
ATFa119sg05 AVMa119sg03 1 YNR067C
ATFa119sg06 AVMa119sg01 1 YBR093C
ATFa119sg06 AVMa119sg04 2 YOR153W;YPR119W
ATFa119sg06 AVMa119sg05 1 YGL008C
ATFa119sg06 AVMa119sg06 1 YOR114W
ATFa119sg06 AVMa119sg07 2 YPL025C;YOL114C
ATFa119sg07 AVMa119sg05 2 YNL057W;YPL036W
ATFa119sg07 AVMa119sg06 1 YPL124W
ATFa119sg07 AVMa119sg07 2 YNL216W;YPL128C
ATFa119sg08 AVMa119sg01 1 YPL158C
ATFa119sg08 AVMa119sg07 2 YPL264C;YPL269W
ATFa119sg09 AVMa119sg01 2 YOL132W;YOR383C
ATFa119sg09 AVMa119sg06 1 YOR298W
ATFa119sg09 AVMa119sg07 4 YPR111W;YHR006W;YOR235W;YOR258W
Legenda: SATF: subgrupos gerados em ATF; SAVM: subgrupos gerados em AVM;
Qtd. correl: Quantidade de correlações; Systematic names: identificação das sequências.
Para checar a correlação entre ATF e AVM, foram buscados os genes constantes nos
subgrupos de ATF em todos os subgrupos de AVM. Quando, a quantidade de genes
correlacionados foi igual ou superior a dois, pôde-se observar que estes compartilham TFs e
têm perfil de modulação similar (Tabela 35).
Resultados e discussões
74
Os genes de ATFa119sg01 estão divididos entre os subgrupos AVMa119sg04 e
AVMa119sg05. Para ATFa119sg01 os TFs prevalentes, com 100% de participação, são Fkh1 e
Fkh2, os mesmos observados em AVMa119sg04, porém, as porcentagens são inferiores. Em
AVMa119sg05, Fkh1 não aparece como o mais atuante, apenas Fkh2 esno topo, mas tal
como em AVMa119sg04, não atua sobre todos o genes. Estudos indicam que Fkh2 é essencial
para a correta expressão de SWI5 e CLB2, durante certos períodos do ciclo celular, e,
também, é fosforilado em tempo adequado. Além disso, o seu relacionamento com a proteína
Fkh1, demonstrou que estas proteínas atuam em vias de sobreposição para regular a
morfologia e separação celular (PIC et al, 2000).
A maior correlação de ATFa119sg02 e ATFFa119sg03 são com AVMa119sg01 e
AVMa119sg03, os quais demonstram interações com os TF Sok2 e Ste12, porém, com
intensidade diferente, para os dois métodos.
ATFa119sg04 demonstra maior correlação com AVMa119sg02, cuja interação
principal é dada por Mcm1. Este TF, essencial para viabilidade, participa na ativação e
repressão da transcrição e, também, na replicação do DNA (KUO; GRAYHACK, 1994).
O subgrupo ATFa119sg05 correlaciona com os subgrupos AVMa119sg01 e
AVMa119sg02, porém, em AVMa119sg02 o TF Yox1 demonstram maior atividade. Estudos
demonstraram que a auncia de uma expressão essencial (mínima) deste TF leva a perda da
regulação do ciclo celular em princípio de fases (early cell cycle boxes [ECB]) (PRAMILA et
al, 2002).
O subgrupo ATFa119sg06 tem baixa correlação com AVMa119sg04, o que os liga não
é o TF mais atuante Swi4, mas sim Fkh2, discutido em ATFa1119sg01. Aquele que, em
AVM, tem como Swi4 o TF mais interativo é AVMa119sg06. Entretanto, a correlação,
também é baixa, apenas 2 dentre 7 genes. Em S. cerevisiae, Swi4 forma um complexo com
Swi6, o qual ativa a expressão gênica durante a transição de fases G1/S do ciclo celular
mitótico (BAETZ et al, 2001). O gene que sintetiza Swi6 não faz parte da lista de genes de
ciclo celular (CELLCYCLE, 2008).
Em ATFa119sg07, o TF mais atuante é Ste12, porém, ele não interage com todos o
genes do subgrupo. Suas maiores correlações são com os subgrupos AVMa119sg05 e
AVMa119sg07, ainda assim baixa, apenas 2 genes com cada. Para esses dois últimos
subgrupos, Ste12 tem baixa interação com seus genes.
O subgrupo ATFa119sg08, talvez o mais interessante, pelo predominância do TF
Mbp1, o mais ativo. Este, não apareceu de forma relevante em qualquer dos subgrupos de
AVM. Sua correlação é indicada a AVMa119sg07, o qual tem Mbp1 interagindo apenas com 2
Resultados e discussões
75
de 11 genes. Estudos mostraram que cepas que tiveram os genes MBP1 e SWI4 deletados
foram inviáveis, demonstrando que suas atividades trancricionais têm papel importante na
transição das fases G1/S (RAITHATHA; STUART, 2005; KOCH et al, 1993).
O último subgrupo, ATFa119sg09, tem maior correlação com AVMa119sg07 (4
genes), destacando Ino4 como TF mais ativo, porém, em ATF a atividade é maior.
4.6. Categorização MIPS-CYGD
Para se conhecer a distribuição dos genes, segundo a categoria de suas funções, dentro
dos subgrupos, foi utilizado o catálogo MIPS-CYGD, que dispõe 28 categorias, mais
generalistas (RUEPP et al, 2004). Este catálogo, permite que, um determinado gene seja
enquadrado em uma ou mais categorias. Portanto, a soma dos genes categorizados, nos
subgrupos, é, de modo geral, maior que o total original. Alguns genes, não tiveram categoria
definida, para estes foi criada a categoria “00 - There are no MIPS data gene”. Os genes desta
categoria foram relacionados somente a ela. Da diversidade original de categorias, 17 foram
relacionadas ao conjunto de dados estudado, porém, em nenhum dos subgrupos, este conjunto
de categorias foi completamente observado. A soma de todos os genes, categorizados em uma
ou mais categorias, totalizou 161 (Tabela 36).
Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias
Cód. Cat. Categorias Qtd. genes
10 CELL CYCLE AND DNA PROCESSING 26
00 There are no MIPS data gene 16
16 PROTEIN WITH BINDING FUNCTION OR COFACTOR
REQUIREMENT (structural or catalytic)
14
20 CELLULAR TRANSPORT, TRANSPORT FACILITATION AND
TRANSPORT ROUTES
13
32 CELL RESCUE, DEFENSE AND VIRULENCE 12
01 METABOLISM 11
43 CELL TYPE DIFFERENTIATION 11
42 BIOGENESIS OF CELLULAR COMPONENTS 11
34 INTERACTION WITH THE ENVIRONMENT 10
11 TRANSCRIPTION 8
14 PROTEIN FATE (folding, modification, destination) 8
40 CELL FATE 7
18 REGULATION OF METABOLISM AND PROTEIN FUNCTION 5
30 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION
MECHANISM
4
02 ENERGY 3
12 PROTEIN SYNTHESIS 1
41 DEVELOPMENT (Systemic) 1
Total 161
Resultados e discussões
76
A contagem de todas as categorias, em todos os subgrupos oriundos de ATF, totalizou
83 (Tabela 37), o que gerou, uma média de 9,2 categorias por subgrupo.
Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos
Id. Subgrupo Qtd. Genes Qtd. Categorias
ATFa119sg01 17 14
ATFa119sg02 5 6
ATFa119sg03 9 14
ATFa119sg04 6 12
ATFa119sg05 7 6
ATFa119sg06 7 10
ATFa119sg07 5 11
ATFa119sg08 3 2
ATFa119sg09 7 8
Total 66 83
A Figura 20 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF
(Apêndice E).
Resultados e discussões
77
Figura 21. categorização dos genes em subgrupos de ATF, para alpha factor 119 minutos, segundo o catálogo
MIPS-CYGD.
00; 5
01; 3
02; 1
10; 9
11; 1
14; 4
16; 3
18; 2
20; 3
32; 4
34; 1
40; 3
42; 4
43; 4
00; 1
11; 2
14; 1
20; 1
32; 1
43; 1
00; 1
01; 1
10; 4
14; 1
16; 3
18; 1
30; 1
32; 1
34; 1
40; 2
42; 2
43; 2
00; 1
01; 1
10; 3
16; 2
20; 3
32; 1
00; 3
01; 1
02; 1
10; 1
16; 1
18; 1
20; 2
32; 2
34; 2
43; 1
00; 1
01; 1
02; 1
10; 3
11; 2
12; 1
16; 2
20; 1
32; 1
34; 1
42; 2
00; 2
10; 1
00; 2
01; 3
10; 2
11; 1
14; 1
20; 1
42; 1
43; 1
01; 1
10; 3
11; 2
14; 1
16; 3
18; 1
20; 2
30; 3
32; 2
34; 5
40; 2
41; 1
42; 2
43; 2
00 - There are no MIPS data gene
01 - METABOLISM
02 - ENERGY
10 - CELL CYCLE AND DNA PROCESSING
11 - TRANSCRIPTION
12 - PROTEIN SYNTHESIS
14 - PROTEIN FATE (folding, modification, destination)
16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic)
18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION
20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES
30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM
32 - CELL RESCUE, DEFENSE AND VIRULENCE
34 - INTERACTION WITH THE ENVIRONMENT
40 - CELL FATE
41 - DEVELOPMENT (Systemic)
42 - BIOGENESIS OF CELLULAR COMPONENTS
43 - CELL TYPE DIFFERENTIATION
ATFa119sg01 ATFa119sg02 ATFa119sg03
ATFa119sg04 ATFa119sg05 ATFa119sg06
ATFa119sg07 ATFa119sg08 ATFa119sg09
Resultados e discussões
78
Da mesma forma foi feito para os subgrupos obtidos por AVM. A contagem de todas
as categorias, em todos os subgrupos, totalizou 70 (Tabela 38), o que gerou uma média de 10
categorias por subgrupo.
Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos
Id. Subgrupo Qtd. Genes Qtd. Categorias
AVMa119sg01 13 11
AVMa119sg02 7 5
AVMa119sg03 7 14
AVMa119sg04 10 12
AVMa119sg05 15 14
AVMa119sg06 3 5
AVMa119sg07 11 9
Total 66 70
A Figura 21 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF
(Apêndice F).
Resultados e discussões
79
Figura 22. Categorização dos genes em subgrupos de AVM, para alpha factor 119 minutos, segundo o
catálogo MIPS-CYGD.
00; 5
01; 2
10; 4
11; 4
12; 1
14; 1
16; 2
32; 1
42; 1
00; 2
01; 3
10; 2
14; 1
16; 1
20; 5
32; 4
34; 1
40; 1
42; 2
43; 1
00; 1
01; 3
10; 5
11; 1
14; 3
16; 2
18; 2
20; 2
32; 2
34; 1
42; 1
43; 3
00; 5
02; 3
10; 5
11; 1
14; 2
16; 2
20; 5
32; 4
34; 4
40; 3
42; 4
43; 3
00; 1
01; 1
10; 2
42; 1
43; 1
00; 2
10; 4
30; 1
34; 1
01; 2
10; 4
11; 2
14; 1
18; 2
20; 1
30; 2
32; 1
34; 3
40; 3
41; 1
42; 2
43; 3
16; 2
AVMa119sg01 AVMa119sg02 AVMa119sg03
AVMa119sg04
AVMa119sg05
AVMa119sg06
AVMa119sg07
00 - There are no MIPS data gene
01 - METABOLISM
02 - ENERGY
10 - CELL CYCLE AND DNA PROCESSING
11 - TRANSCRIPTION
12 - PROTEIN SYNTHESIS
14 - PROTEIN FATE (folding, modification, destination)
16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic)
18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION
20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES
30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM
32 - CELL RESCUE, DEFENSE AND VIRULENCE
34 - INTERACTION WITH THE ENVIRONMENT
40 - CELL FATE
41 - DEVELOPMENT (Systemic)
42 - BIOGENESIS OF CELLULAR COMPONENTS
43 - CELL TYPE DIFFERENTIATION
Resultados e discussões
80
Os dois métodos de agrupamento seguiram a mesma tendência. Para os subgrupos
com mais genes, a diversidade de categorias foi maior e para aqueles com menos genes, tal
diversidade foi menor. Este comportamento, faz supor que não existe um conjunto de genes
dentro da mesma categoria, o qual utiliza um ou conjunto de TFs específicos. Genes de
diferentes categorias, podem interagir com os mesmos TFs ou vice-versa.
Conclusões
81
5. Conclusões
A metodologia desenvolvida é uma abordagem diferenciada dos dados, a qual proporciona
resultados em função dos fatores de transcrição.
O agrupamento por fatores de transcrição demonstrou uma disposição diferenciada dos
fatores de transcrição, em relação àquela observada no agrupamento por valores de
modulação.
A criação de subgrupos possibilitou isolamento de genes sob a atuação de um ou grupo
determinado de fatores de transcrição.
Pela quantidade de subgrupos gerados em agrupamento por fatores de transcrição, os
genes foram melhor distribuídos, o que proporcionou a identificação de fatores de
transcrição atuantes, na maioria dos subgrupos, para todos os genes do subgrupo.
Esta abordagem é limitada a organismos que tenham os fatores de transcrição
disponíveis na literatura.
A correlação entre os dois métodos de agrupamento demonstrou que, para vários genes os
fatores de transcrição são compartilhados e os perfis de modulação são similares.
O embaralhamento dos genes demonstrou que o agrupamento por fatores de transcrição é
consistente para uma abordagem geral dos dados analisados.
A categorização MIPS demonstrou que existem genes, nos subgrupos, com diversas
categorias atribuídas, para os dois métodos de agrupamento, evidenciando que
determinados fatores de transcrão ou grupos destes e perfis de modulação não são
exclusivos de genes de uma mesma categoria.
Referências bibliográficas
82
6. Referências bibliográficas
1
ADAMS, M.D., KELLEY, J.M., GOCAYNE, J.D., DUBNICK, M., POLYMEROPOULOS,
M.H., XIAO, H., MERRIL, C.R., WU, A., OLDE, B., MORENO, R.F., KERLAVAGE, A.R.,
McCOMBIE, W.R., VENTER, J.C., Complementary DNA sequencing: expressed sequence
tags and human genome project. Science. Jun 21;252(5013):1651-6, 1991
BAETZ, K., MOFFAT, J., HAYNES, J., CHANG, M., ANDREWS, B., Transcriptional
coregulation by the cell integrity mitogen-activated protein kinase Slt2 and the cell cycle
regulator Swi4. Mol. Cell. Biol, p. 6515-6528, Vol. 21, No. 19, 2001.
BARDWELL, L. A walk-through of the yeast mating pheromone response pathway. Peptides,
vol. 26, pp. 339-350, 2004.
BOGUSKI, M.Ss, LOWE, T.M., TOLSTOSHEV, C.M., dbEST--database for "expressed
sequence tags", Nat Genet. Aug;4(4):332-3, 1993.
BRENTANI, R.R., CARRARO, D.M., VERJOVSKI-ALMEIDA, S., REIS, E.M., NEVES,
E.J., DE SOUZA, S.J., CARVALHO, A.F., BRENTANI, H., REIS, L.F., Gene expression
arrays in cancer research: methods and applications. Crit Rev Oncol Hematol.
May;54(2):95-105, 2005
BULAWA, C.E., Genetics and molecular biology of chitin synthesis in fungi. Annu Rev
Microbiol.; 47:505-34, 1993.
BUSSEMAKER, H.J., LI, H., SIGGIA, E.D., Regulatory element detection using correlation
with expression. Nat Genet., 27(2):167–71, 2001.
CADDICK, M.X., DOBSON, C., Gene Regulation, in: GOLDMAN, G.H. (Ed.), OSMANI,
S.A., (Ed.), The Aspergilli: Genomics, Medical Aspects, Biotechnology, and Research
Methods (Hardcover). New York, CRC Press, 2007.
CAMPITELI, M.G., SORIANI, F.M., MALAVAZI, I., KINOUCHI, O., PEREIRA, C.A.,
GOLDMAN, G.H. A reliable measure of similarity based on dependency for short time series:
an application to gene expression networks.BMC Bioinformatics. Londres, 10:270, 2009.
CAUSTON, H.C., REN, B., KOH, S.S., HARBISON, C.T., KANIN, E., JENNINGS, E.G.,
LEE, T.I., TRUE, H.L., LANDER, E.S., YOUNG, R.A., Remodeling of yeast genome
expression in response to environmental changes. Mol Biol Cell. Feb;12(2):323-37, 2001.
CELLCYCLE. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/
CellCycle98.xls> . Acesso em jun. 2008.
CLUSTERING. Disponível em: <http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/
hierarchical.html>. Acesso em mar. 2010.
1
De acordo com a Associação Brasileira de Normas Técnicas (ABNT).
Referências bibliográficas
83
CONLON, E.M., LIU, X.S., LIEB, J.D., LIU, J.S., Integrating regulatory motif discovery and
genome-wide expression analysis. Proc Natl Acad Sci U S A, Mar 18;100(6):3339-44, 2003.
DE GOUVÊA, P.F., SORIANI, F.M., MALAVAZI, I., SAVOLDI, M., GOLDMAN, M.H.,
LOSS, O., BIGNELL, E., DA SILVA FERREIRA, M.E., GOLDMAN, G.H., Functional
characterization of the Aspergillus fumigatusPHO80 homologue. Fungal Genet Biol.
;45(7):1135-46, 2008.
DE MAESSCHALCK, R., JOUAN-RIMBAUD, D., MASSART, D.L. The Mahalanobis
distance. Chemometrics and Intelligent Laboratory Systems, Volume 50, Issue 1, 4, Pages
1-18, January 2000.
DEMPSTER, A.P.; LAIRD, N.M.; RUBIN, D.B., Maximum Likelihood from Incomplete
Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B
(Methodological), 39 (1): 1–38, 1977.
DERISI, J.L., IYER, V.R., BROWN, P.O., Exploring the metabolic and genetic control of
gene expression on a genomic scale. Science. Oct 24;278(5338):680-6, 1997.
DERMITZAKIS, E.T., REYMOND, A., ANTONARAKIS, S.E., Conserved non-genic
sequences - an unexpected feature of mammalian genomes. Nat Rev Genet. Feb;6(2):151-7,
2005.
DRAY, S., Dufour, A.B., Chessel, D., The ade4 package-II: Two-table and K-table methods. R
News. 7(2): 47-52, 2007.
ERNST, J., BAR-JOSEPH, Z. Stem: a tool for the analysis of short time series data. BMC
Bioinformatics, vol. 7, no. 191, 2006.
FLATFILES. Disponível em: <http://www.yeastract.com/download/
RegulationTwoColumnTable_Documented_20090427.tsv.gz>. Acesso em jun. 2008.
FRANCETIC. Disponível em: <http://mrvar.fdv.uni-lj.si/pub/mz/mz2.1/francetic.pdf>.
Acesso em mar. 2010.
FUNCAT. Disponível em: <http://mips.helmholtz-muenchen.de/genre/proj/yeast/Search/
Catalogs/catalog.jsp>. Acesso em: jun. 2008.
GANESH, R., SIEGELE, D.A., IOERGER, T.R., MOPAC: motif finding by preprocessing
and agglomerative clustering from microarrays. Pac Symp Biocomput., 41-52, 2003.
GEHRING, W.J., AFFOLTER, M., BÜRGLIN, T., Homeodomain proteins. Annual review of
biochemistry. 63: 487–526, 1994.
GERHOLD, D., CASKEY, C.T., It's the genes! EST access to human genome content.
Bioessays. Dec;18(12):973-81, 1996.
Referências bibliográficas
84
GOLDMAN, G.H., DOS REIS MARQUES, E., DUARTE RIBEIRO, D.C., DE SOUZA
BERNARDES, L.A., QUIAPIN, A.C., VITORELLI, P.M., SAVOLDI, M., SEMIGHINI, C.P.,
DE OLIVEIRA, R.C., NUNES, L.R., TRAVASSOS, L.R., PUCCIA, R., BATISTA, W.L.,
FERREIRA, L.E., MOREIRA, J.C., BOGOSSIAN, A.P., TEKAIA, F., NOBREGA, M.P.,
NOBREGA, F.G., GOLDMAN, M.H., Expressed sequence tag analysis of the human
pathogen Paracoccidioides brasiliensis yeast phase: identification of putative homologues of
Candida albicans virulence and pathogenicity genes. Eukaryot Cell. Feb;2(1):34-48, 2003.
GOWER, J.C., LEGENDRE, P., Metric and Euclidean Properties of Dissimilarity Coefficients.
Journal of Classification, New York, 3, 5-48, 1986.
GUSTIN, M. C., ALBERTYN, J., ALEXANDER, M., DAVENPORT, K., Map kinase
pathways in the yeast saccharomyces cerevisiae. Microbiology and Molecular biology
reviews, p. 1264-1300, Vol. 62, No. 4, 1998.
HALLAM, T.M., BOURTCHOULADZE, R., Rubinstein-Taybi syndrome: molecular findings
and therapeutic approaches to improve cognitive dysfunction. Cell Mol Life Sci.
Aug;63(15):1725-35, 2006.
HIRASAWA, T., FURUSAWA, C., SHIMIZU, H., Saccharomyces cerevisiae and DNA
microarray analyses: what did we learn from it for a better understanding and exploitation of
yeast biotechnology? Appl Microbiol Biotechnol. Jun;87(2):391-400, 2010.
HOLMES, I., BRUNO, W.J., Finding regulatory elements using joint likelihoods for sequence
and expression profile data. Proc Int Conf Intell Syst Mol. Biol., 8:202–10, 2000.
HIERARCHICAL CLUSTERING. Disponível em: <http://www.resample.com/xlminer/help/
HClst/HClst_intro.htm>. Acesso em mar. 2010.
HU, Z., FU, Y., HALEES, A., KIELBASA, S., WENG, S., SeqVISTA: a new module of
integrated computational tools for studying transcriptional regulation. Proc Natl Acad Sci
USA. 32:W235–W241, 2004.
JAIN, A.K., MURTY, M.N., FLYNN, P.J., Data Clustering: A Review. ACM Computing
Surveys, Vol. 31, No. 3, September, 1999.
JONES, R.G., THOMPSON, C.B., Tumor suppressors and cell metabolism: a recipe for
cancer growth. Genes Dev. Mar 1;23(5):537-48, 2009
KARIN, M., Too many transcription factors: positive and negative interactions. New Biol. 2
(2): 126–31, 1990.
Referências bibliográficas
85
KATAYAMA, S., TOMARU, Y., KASUKAWA, T., WAKI, K., NAKANISHI, M.,
NAKAMURA, M., NISHIDA, H., YAP, C.C., SUZUKI, M., KAWAI, J., SUZUKI, H.,
CARNINCI, P., HAYASHIZAKI, Y., WELLS, C., FRITH, M., RAVASI, T., PANG, K.C.,
HALLINAN, J., MATTICK, J., HUME, D.A., LIPOVICH, L., BATALOV, S., ENGSTROM,
P.G., MIZUNO, Y., FAGHIHI, M.A., SANDELIN, A., CHALK, A.M., MOTTAGUI-TABAR,
S., LIANG, Z., LENHARD, B., WAHLESTEDT, C., RIKEN Genome Exploration Research
Group, Genome Science Group (Genome Network Project Core Group), FANTOM
Consortium, Antisense transcription in the mammalian transcriptome. Science. Sep
2;309(5740):1564-6, 2005.
KIM, S.K., LUND, J., KIRALY, M., DUKE, K., JIANG, M., STUART, J.M., EIZINGER, A.,
WYLIE, B.N., DAVIDSON, G.S.. A gene expression map for Caenorhabditis elegans.
Science. Sep 14;293(5537):2087-92, 2001.
KELBERMAN, D., RIZZOTI, K., LOVELL-BADGE, R., ROBINSON, I.C., DATTANI,
M.T., Genetic regulation of pituitary gland development in human and mouse. Endocr Rev.
Dec;30(7):790-829. Epub 2009 Oct 16, 2009.
KOCH, C., MOLL, T., NEUBERG, M., AHORN, H., NASMYTH, K., A role for the
transcription factors Mbp1 and Swi4 in progression from G1 to S phase. Science, Sep
17;261(5128):1551-7, 1993.
KOEFFLER, H.P., MCCORMICK, F., DENNY, C., Molecular mechanisms of cancer. West J
Med. Nov;155(5):505-14, 1991.
KULESH, D.A., CLIVE, D.R., ZARLENGA, D.S., GREENE, J.J., Identification of
interferon-modulated proliferation-related cDNA sequences. Proc Natl Acad Sci USA; 84
(23): 8453–8457, 1987.
KUO, M.H., GRAYHACK, E., A library of yeast genomic MCM1 binding sites contains
genes involved in cell cycle control, cell wall and membrane structure, and metabolism. Mol.
Cell. Biol. Jan;14(1):348-59, 1994.
LAITY, J.H., LEE, B.M., WRIGHT, P.E., Zinc finger proteins: new insights into structural
and functional diversity. Current opinion in structural biology 11 (1): 39–46, 2001.
LATCHMAN, D.S. Transcription factors: an overview. Int. J. Biochem. Cell Biol. 29 (12):
1305–12, 1997.
LATCHMAN, D.S., Regulation of transcription factor activity. In:______. Eukaryotic
trancription factor. 5ed. Londres:Academic Press, p.312-372, 2007.
LAWRENCE, C.E., ALTSCHUL, S.F., BOGUSKI, M.S., LIU, J.S., NEUWALD, A.F.,
WOOTTON, J.C., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple
alignment. Science, Oct 8;262(5131):208-14, 1993.
LEMMENS, K., DHOLLANDER, T., DE BIE. T., MONSIEURS, P., ENGELEN, K.,
SMETS, B., WINDERICKX, J., DE MOOR, B., MARCHAL, K., Inferring transcriptional
modules from ChIP-chip, motif and microarray data.Genome Biol. 7(5):R37, 2006.
Referências bibliográficas
86
LITTLEWOOD, T.D., EVAN, G.I. Transcription factors 2: helix-loop-helix. Protein profile 2
(6): 621–702, 1995.
LOCUS INFORMATION. Disponível em: <http://www.yeastract.com/view.php?
existing=locus&orfname=[gene_name]>. Acessado em jun. 2008.
LYNCH, V.J., ROTH, J.J., WAGNER, G.P., Adaptive evolution of Hox-gene homeodomains
after cluster duplications. BMC Evolutionary Biology, 6:86, 2006.
MANNING, C. D., RAGHAVAN, P., SCHÜTZE, H. Hierarchical Clustering. In:______. An
Introduction to Information Retrieval, Cambridge:Cambridge University Press, p.377-402,
2009.
MORANGE, M., The field of cancer research: an indicator of present transformations in
biology. Oncogene. Dec 6;26(55):7607-10, 2007.
NUNES, L.R., COSTA DE OLIVEIRA, R., LEITE, D.B., DA SILVA, V.S., DOS REIS
MARQUES, E., DA SILVA FERREIRA, M.E., RIBEIRO, D.C., DE SOUZA BERNARDES,
L.A., GOLDMAN, M.H., PUCCIA, R., TRAVASSOS, L.R., BATISTA, W.L., NOBREGA,
M.P., NOBREGA, F.G., YANG, D.Y., DE BRAGANCA PEREIRA, C.A., GOLDMAN, G.H.,
Transcriptome analysis of Paracoccidioides brasiliensis cells undergoing mycelium-to-yeast
transition. Eukaryot Cell. Dec;4(12):2115-28, 2005.
OVCHARENKO, I., BOFFELLI, D., LOOTS, G.G., eShadow: a tool for comparing closely
related sequences.Genome Res. Jun;14(6):1191-8, 2004.
PAPWORTH, M., KOLASINSKA, P., MINCZUK, M., Designer zinc-finger proteins and
their applications.Gene. Jan 17;366(1):27-38, 2005.
PAVESI, G., MAURI, G., PESOLE, G., In silico representation and discovery of transcription
factor binding sites. Brief Bioinform., 5: 217-236, 2004.
PIC, A., LIM, F.L., ROSS, S.J., VEAL, E.A., JOHNSON, A.L., SULTAN, M.R., WEST, A.G.,
JOHNSTON, L.H., SHARROCKS, A.D., MORGAN, B.A. The forkhead protein Fkh2 is a
component of the yeast cell cycle transcription factor SFF. The EMBO Journal, 19, 3750
3761, 2000.
PRAMILA, T., MILES, S., GUHATHAKURTA, D., JEMIOLO, D., BREEDEN,
L.L.Conserved homeodomain proteins interact with MADS box protein Mcm1 to restrict
ECB-dependent transcription to the M/G1 phase of the cell cycle. Genes Dev. December 1;
16(23): 3034–3045, 2002.
R development Core Team: R: A language and environment for statistical computing. In: R
Foundation for Statistical Computing, Vienna, Austria. 2008. Disponível
em:<http://www.R-project.org>. Acesso em : nov. 2008.
Referências bibliográficas
87
RAITHATHA, S.A., STUART, D.T. Meiosis-specific regulation of the Saccharomyces
cerevisiae S-phase cyclin CLB5 is dependent on MluI cell cycle box (MCB) elements in its
promoter but is independent of MCB-binding factor activity. Genetics, Vol. 169, 1329-1342,
March, 2005.
RAWDATA. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/
combined.txt>. Acesso em jun. 2008.
RELIGA, T.L., JOHNSON, C.M., VU, D.M., BREWER, S.H., DYER, R.B., FERSHT, A.R.,
The helix-turn-helix motif as an ultrafast independently folding domain: The pathway of
folding of Engrailed homeodomain. Proc Natl Acad Sci U S A, 104, 9272-9277, 2007.
RUDD, S., Expressed sequence tags: alternative or complement to whole genome sequences?
Trends Plant Sci. Jul;8(7):321-9, 2003.
RUEPP, A., ZOLLNER, A., MAIER, D., ALBERMANN, K., HANI, J., MOKREJS, M.,
TETKO, I., GÜLDENER, U., MANNHAUPT, G., MÜNSTERKÖTTER, M., MEWES, H.W.,
The FunCat, a functional annotation scheme for systematic classification of proteins from
whole genomes. Nucleic Acids Res 32, 5539-5545, 2004.
SANDVE, G.K., DRABLØS, F., A survey of motif discovery methods in an integrated
framework. Biol Direct., Apr 6;1:11, 2006.
SCHENA, M., SHALON, D., DAVIS, R.W., BROWN, P.O.,Quantitative monitoring of gene
expression patterns with a complementary DNA microarray. Science. Oct 20;270(5235):467-
70, 1995.
SGD. Disponível em: <http://www.yeastgenome.org>. Acesso em: mar. 2010.
SMITH, L.M., SANDERS, J.Z., KAISER, R.J., HUGHES, P., DODD, C., CONNELL, C.R.,
HEINER, C., KENT, S.B., HOOD, L.E. Fluorescence detection in automated DNA sequence
analysis. Nature. Jun 12-18;321(6071):674-9, 1986.
SPELLMAN, P.T., SHERLOCK, G., ZHANG, M.Q., IYER, V.R., ANDERS, K., EISEN,
M.B., BROWN, .PO., BOTSTEIN, D., FUTCHER, B., Comprehensive identification of cell
cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization.
Mol Biol Cell. Dec;9(12):3273-97, 1998.
STOUGHTON, R.B., Applications of DNA microarrays in biology.Annu Rev Biochem.;
74:53-82, 2005.
TASSABEHJI, M., READ, A.P., NEWTON, V.E., HARRIS, R., BALLING, R., GRUSS, P.,
STRACHAN, T., Waardenburg's syndrome patients have mutations in the human homologue
of the Pax-3 paired box gene. Nature. Feb 13;355(6361):635-6, 1992.
TURLACH, B.A., Bandwidth selection in kernel density estimation: a review. In CORE
and Institut de Statistique, pp. 23-493, 1993.
Referências bibliográficas
88
VINSON, C., MYAKISHEV, M., ACHARYA, A., MIR, A.A., MOLL, J.R., BONOVICH, M.,
Classification of human B-ZIP proteins based on dimerization properties. Molecular and
cellular biology, 22 (18): 6321–35, 2002.
WARD, J.H., Hierarchical Grouping to Optimize an Objective Function. Journal of the
American Statistical Association, Vol. 58, No. 301, pp. 236-244, 1963.
WASSERMAN, W.W., SANDELIN, A., Applied bioinformatics for the identification of
regulatory elements. Nature Reviews Genetics, 5, 276-287, 2004.
WINTJENS, R., ROOMAN, M., Structural classification of HTH DNA-binding domains and
protein-DNA interaction modes. Journal of molecular biology, 262 (2): 294–313, 1996.
XPLORE. Disponível em: <http://fedc.wiwi.hu-berlin.de/xplore/tutorials/
xaghtmlframe142.html>. Acesso em: mar. 2010.
YEASTRACT. Disponível em: <http://www.yeastract.com>. Acesso em: mar. 2010.
ZHOU, H.M., WANG, J., ROGERS, R., CONWAY, S.J., Lineage-specific responses to
reduced embryonic Pax3 expression levels. Dev Biol. Mar 15;315(2):369-82, 2007.
Apêndices
89
Apêndice A – Tabela contendo a relação de TFs induzidos atribuídos aos genes.
Tabela contendo a relação de TFs induzidos atribuídos aos genes
Systematic names TFA TFU TFs
YAL022C 18 8 Ime4; Mal33; Mcm1; Smp1; Stb1; Swi5; Yap6; Yox1
YAR018C 4 3 Fkh2; Mcm1; Yox1
YBL023C 7 5 Ace2; Hcm1; Mbp1; Swi4; Yox1
YBR054W 31 11 Abf1; Cin5; Fkh2; Hap4; Hsf1; Rgm1; Sok2; Ste12;
Stp2; Swi4; Yap6
YBR069C 12 5 Cin5; Phd1; Ste12; Stp2; Yox1
YBR093C 21 7 Fkh2; Pho4; Rap1; Sut1; Swi4; Tec1; Thi2
YBR202W 12 7 Mcm1; Phd1; Rap1; Sok2; Ste12; Tec1; Yox1
YDR033W 12 3 Cin5; Fkh2; Mcm1
YDR055W 18 11 Ace2; Ash1; Hap4; Pho4; Rlm1; Sok2; Ste12; Swi4;
Swi5; Tec1; Ume6
YDR146C 16 10 Azf1; Fkh1; Fkh2; Ino2; Ino4; Mcm1; Rap1; Reb1;
Sok2; Ste12
YEL032W 5 3 Mcm1; Ste12; Yox1
YER145C 19 6 Phd1; Rap1; Sok2; Ste12; Swi4; Tec1
YGL008C 15 8 Ace2; Azf1; Fkh2; Hsf1; Mbp1; Mcm1; Rap1; Swi4
YGL021W 6 3 Fkh1; Fkh2; Mcm1
YGL116W 19 9 Bas1; Fkh1; Fkh2; Ino4; Mcm1; Rap1; Smp1; Ste12;
Yox1
YGR108W 21 8 Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Sok2; Ste12; Swi4
YHL028W 28 14 Abf1; Ace2; Fkh2; Hsf1; Mal33; Mcm1; Mig1; Phd1;
Rap1; Rlm1; Smp1; Sok2; Ste12; Xbp1
YHL040C 19 6 Cin5; Hap4; Hcm1; Phd1; Ste12; Thi2
YHR005C 10 5 Mcm1; Phd1; Sok2; Ste12; Tec1
YHR006W 6 4 Ino4; Mcm1; Stp2; Tye7
YHR023W 12 6 Fkh1; Fkh2; Mcm1; Sok2; Ste12; Stp2
YJL051W 8 6 Fkh1; Fkh2; Mcm1; Pho4; Rap1; Ume6
YJL157C 7 2 Mcm1; Ste12
YJR092W 7 6 Ash1; Fkh1; Fkh2; Mcm1; Rap1; Ste12
YKL164C 16 9 Ace2; Mcm1; Phd1; Rlm1; Smp1; Sok2; Ste12;
Swi5; Tec1
YKL185W 6 5 Ace2; Mcm1; Smp1; Sok2; Swi5
YLR190W 6 4 Fkh1; Fkh2; Mcm1; Rap1
YLR274W 5 3 Mcm1; Reb1; Yox1
YLR413W 17 6 Cin5; Sok2; Ste12; Stp2; Tec1; Yap6
YLR452C 12 4 Mcm1; Rap1; Sok2; Ste12
YML034W 3 2 Fkh1; Fkh2
YML119W 14 6 Cin5; Fkh1; Fkh2; Hap4; Mcm1; Reb1
YMR001C 6 5 Fkh1; Fkh2; Mcm1; Reb1; Yox1
YMR031C 9 3 Fkh2; Mcm1; Ste12
YMR032W 7 5 Abf1; Fkh1; Fkh2; Mcm1; Ste12
YNL057W 4 2 Abf1; Fkh2
YNL058C 5 4 Fkh1; Fkh2; Mcm1; Rlm1
YNL216W 4 3 Rap1; Reb1; Ste12
YNL327W 12 6 Ace2; Azf1; Mcm1; Rap1; Sok2; Swi5
YNR067C 13 6 Ace2; Ste12; Sut1; Swi5; Yap6; Yox1
YOL114C 9 4 Ash1; Fkh1; Fkh2; Swi4
YOL132W 3 1 Sok2
YOR066W 7 5 Hcm1; Mbp1; Mcm1; Ste12; Yox1
Continua
Apêndices
90
conclusão
Systematic names TFA TFU TFs
YOR114W 2 2 Sok2; Swi4
YOR153W 29 7 Ash1; Hap4; Ino4; Mbp1; Rap1; Sok2; Swi4
YOR235W 9 4 Ifh1; Ino4; Rme1; Yap6
YOR258W 5 2 Ino4; Yrr1
YOR298W 7 2 Ino4; Sok2
YOR315W 34 14 Cin5; Fkh1; Fkh2; Ino4; Mcm1; Phd1; Rap1; Rlm1;
Sok2; Ste12; Sum1; Swi4; Tec1; Yap6
YOR383C 20 5 Mig1; Pho4; Rme1; Sok2; YPR015C
YPL025C 10 6 Ace2; Ash1; Fkh2; Phd1; Sok2; Swi4
YPL036W 19 5 Abf1; Azf1; Ime4; Rgm1; Ste12
YPL124W 5 2 Azf1; Swi4
YPL128C 3 1 Ste12
YPL141C 4 3 Fkh1; Fkh2; Ste12
YPL155C 5 4 Fkh1; Fkh2; Ino4; Ste12
YPL158C 6 4 Ace2; Ino4; Mbp1; Swi5
YPL242C 11 7 Abf1; Cha4; Fkh1; Fkh2; Mbp1; Mcm1; Yox1
YPL264C 4 1 Mbp1
YPL269W 4 1 Mbp1
YPR013C 26 12 Azf1; Cin5; Cup9; Fkh1; Hcm1; Ino4; Phd1; Sok2;
Ste12; Swi4; Tec1; Yap6
YPR019W 6 2 Hap4; Yox1
YPR111W 6 2 Ino4; Rap1
YPR119W 12 8 Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Reb1; Swi4; Xbp1
YPR149W 29 9 Fkh2; Mig1; Rap1; Sok2; Ste12; Stp2; Swi4; Tec1;
Yap6
YPR156C 10 7 Fkh1; Fkh2; Mcm1; Sok2; Ste12; Swi4; Tec1
Total 757 349
Legenda: Systematic names: Identificação das sequências; TFA: Todos os TFs inicialmente
atribuídos aos genes; TFU: Apenas TFs induzidos; TFs: Relação dos TFs dos genes.
Apêndices
91
Apêndice B - Matriz de presença/ausência de TFs para os 66 genes selecionados em alpha
factor 119 minutos.
Abf1
Ace2
Ash1
Azf1
Bas1
Cha4
Cin5
Cup9
Fkh1
Fkh2
Hap4
Hcm1
Hsf1
Ifh1
Ime4
Ino2
Ino4
Mal33
Mbp1
Mcm1
Mig1
Phd1
Pho4
Rap1
Reb1
Rgm1
Rlm1
YML034W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YNL057W 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL264C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
YPL269W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
YGL021W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YDR033W 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YLR190W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0
YPR111W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0
YML119W 0 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0
YNL058C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1
YOR298W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YOL132W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YDR146C 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 1 0 0 0 1 1 0 0
YLR452C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0
YPL036W 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0
YNL216W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0
YJR092W 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0
YMR032W 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YMR031C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YJL157C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YPL155C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YPL141C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL128C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YHR023W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YGR108W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0
YOR153W 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0
YPL025C 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
YOR114W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YGL008C 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0
YOL114C 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL124W 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YKL185W 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YNL327W 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0
YPL158C 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0
YKL164C 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1
YER145C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0
YPR156C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YHR005C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0
YBR093C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0
YHL040C 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
YHR006W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0
Continua
Apêndices
92
continuação
Rme1
Smp1
Sok2
Stb1
Ste12
Stp2
Sum1
Sut1
Swi4
Swi5
Tec1
Thi2
Tye7
Ume6
Xbp1
YPR015C
Yap6
Yox1
Yrr1
YML034W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YNL057W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL264C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL269W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YGL021W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YDR033W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YLR190W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPR111W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YML119W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YNL058C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YOR298W 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YOL132W 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YDR146C 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YLR452C 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL036W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YNL216W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YJR092W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YMR032W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YMR031C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YJL157C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL155C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL141C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YPL128C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YHR023W 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0
YGR108W 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YOR153W 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YPL025C 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YOR114W 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YGL008C 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YOL114C 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YPL124W 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
YKL185W 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
YNL327W 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
YPL158C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
YKL164C 0 1 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0
YER145C 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0
YPR156C 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0
YHR005C 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0
YBR093C 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0
YHL040C 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YHR006W 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0
continua
Apêndices
93
continuação
Abf1
Ace2
Ash1
Azf1
Bas1
Cha4
Cin5
Cup9
Fkh1
Fkh2
Hap4
Hcm1
Hsf1
Ifh1
Ime4
Ino2
Ino4
Mal33
Mbp1
Mcm1
Mig1
Phd1
Pho4
Rap1
Reb1
Rgm1
Rlm1
YDR055W 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1
YJL051W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0
YPR119W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0
YHL028W 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 1 1 1 0 1 0 0 1
YOR383C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0
YOR315W 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 1
YPR149W 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0
YPR013C 0 0 0 1 0 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0
YLR413W 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YBR054W 1 0 0 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YOR235W 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0
YNR067C 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YAL022C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0
YBR202W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0
YBL023C 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0
YBR069C 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
YGL116W 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0
YOR066W 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0
YEL032W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YMR001C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0
YLR274W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0
YPL242C 1 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0
YAR018C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
YPR019W 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
YOR258W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
continua
Apêndices
94
conclusão
Rme1
Smp1
Sok2
Stb1
Ste12
Stp2
Sum1
Sut1
Swi4
Swi5
Tec1
Thi2
Tye7
Ume6
Xbp1
YPR015C
Yap6
Yox1
Yrr1
YDR055W 0 0 1 0 1 0 0 0 1 1 1 0 0 1 0 0 0 0 0
YJL051W 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
YPR119W 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0
YHL028W 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0
YOR383C 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
YOR315W 0 0 1 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 0
YPR149W 0 0 1 0 1 1 0 0 1 0 1 0 0 0 0 0 1 0 0
YPR013C 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0
YLR413W 0 0 1 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0
YBR054W 0 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0
YOR235W 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0
YNR067C 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 0
YAL022C 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0
YBR202W 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0
YBL023C 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0
YBR069C 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0
YGL116W 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YOR066W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YEL032W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YMR001C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YLR274W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YPL242C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YAR018C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YPR019W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
YOR258W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
Apêndices
95
Apêndice CTabela das anotações funcionais dos genes induzidos (x
i
≥ 0,5) em alpha
factor 119 minutos.
Systematic
Name
Standard
Name
Alias Description
YAL022C FUN26 YAL022C Nucleoside transporter with broad nucleoside selectivity;
localized to intracellular membranes
YAR018C KIN3 FUN52,
NPK1
Nonessential protein kinase with unknown cellular role
YBL023C MCM2 YBL023C Protein involved in DNA replication; component of the
Mcm2-7 hexameric complex that binds chromatin as a part of
the pre-replicative complex
YBR054W YRO2 YBR054W Putative protein of unknown function; the authentic, non-
tagged protein is detected in a phosphorylated state in highly
purified mitochondria in high-throughput studies;
transcriptionally regulated by Haa1p
YBR069C TAT1 TAP1,
VAP1
Amino acid transport protein for valine, leucine, isoleucine,
and tyrosine, low-affinity tryptophan and histidine
transporter; overexpression confers FK506 and FTY720
resistance
YBR093C PHO5 PHOE Repressible acid phosphatase (1 of 3) that also mediates
extracellular nucleotide-derived phosphate hydrolysis;
secretory pathway derived cell surface glycoprotein; induced
by phosphate starvation and coordinately regulated by PHO4
and PHO2
YBR202W MCM7 CDC47 Component of the hexameric MCM complex, which is
important for priming origins of DNA replication in G1 and
becomes an active ATP-dependent helicase that promotes
DNA melting and elongation when activated by Cdc7p-Dbf4p
in S-phase
YDR033W MRH1 YDR033W
Protein that localizes primarily to the plasma membrane, also
found at the nuclear envelope; the authentic, non-tagged
protein is detected in mitochondria in a phosphorylated state;
has similarity to Hsp30p and Yro2p
YDR055W PST1 HPF2 Cell wall protein that contains a putative GPI-attachment
site; secreted by regenerating protoplasts; up-regulated by
activation of the cell integrity pathway, as mediated by
Rlm1p; upregulated by cell wall damage via disruption of
FKS1
YDR146C SWI5 YDR146C Transcription factor that activates transcription of genes
expressed at the M/G1 phase boundary and in G1 phase;
localization to the nucleus occurs during G1 and appears to
be regulated by phosphorylation by Cdc28p kinase
YEL032W MCM3 YEL032W Protein involved in DNA replication; component of the
Mcm2-7 hexameric complex that binds chromatin as a part of
the pre-replicative complex
YER145C FTR1 YER145C High affinity iron permease involved in the transport of iron
across the plasma membrane; forms complex with Fet3p;
expression is regulated by iron
continua
Apêndices
96
continuação
Systematic
Name
Standard
Name
Alias Description
YGL008C PMA1 KTI10 Plasma membrane H+-ATPase, pumps protons out of the cell;
major regulator of cytoplasmic pH and plasma membrane
potential; part of the P2 subgroup of cation-transporting
ATPases
YGL021W ALK1 YGL021W Protein kinase; accumulation and phosphorylation are
periodic during the cell cycle; phosphorylated in response to
DNA damage; contains characteristic motifs for degradation
via the APC pathway; similar to Alk2p and to mammalian
haspins
YGL116W CDC20 PAC5 Cell-cycle regulated activator of anaphase-promoting
complex/cyclosome (APC/C), which is required for
metaphase/anaphase transition; directs ubiquitination of
mitotic cyclins, Pds1p, and other anaphase inhibitors;
potential Cdc28p substrate
YGR108W CLB1 SCB1 B-type cyclin involved in cell cycle progression; activates
Cdc28p to promote the transition from G2 to M phase;
accumulates during G2 and M, then targeted via a destruction
box motif for ubiquitin-mediated degradation by the
proteasome
YHL028W WSC4 YFW1,
YHC8
ER membrane protein involved in the translocation of soluble
secretory proteins and insertion of membrane proteins into
the ER membrane; may also have a role in the stress response
but has only partial functional overlap with WSC1-3
YHL040C ARN1 YHL040C Transporter, member of the ARN family of transporters that
specifically recognize siderophore-iron chelates; responsible
for uptake of iron bound to ferrirubin, ferrirhodin, and related
siderophores
YHR005C GPA1 CDC70,
DAC1,
SCG1
GTP-binding alpha subunit of the heterotrimeric G protein
that couples to pheromone receptors; negatively regulates the
mating pathway by sequestering G(beta)gamma and by
triggering an adaptive response; activates Vps34p at the
endosome
YHR006W STP2 YHR006W
Transcription factor, activated by proteolytic processing in
response to signals from the SPS sensor system for external
amino acids; activates transcription of amino acid permease
genes
YHR023W MYO1 YHR023W
Type II myosin heavy chain, required for wild-type cytokinesis
and cell separation; localizes to the actomyosin ring; binds to
myosin light chains Mlc1p and Mlc2p through its IQ1 and
IQ2 motifs respectively
YJL051W IRC8 YJL051W Bud tip localized protein of unknown function; mRNA is
targeted to the bud by a She2p dependent transport system;
mRNA is cell cycle regulated via Fkh2p, peaking in G2/M
phase; null mutant displays increased levels of spontaneous
Rad52p foc
YJL157C FAR1 YJL157C Cyclin-dependent kinase inhibitor that mediates cell cycle
arrest in response to pheromone; also forms a complex with
Cdc24p, Ste4p, and Ste18p that may specify the direction of
polarized growth during mating; potential Cdc28p substrate
continua
Apêndices
97
continuação
Systematic
Name
Standard
Name
Alias Description
YJR092W BUD4 YJR092W Protein involved in bud-site selection and required for axial
budding pattern; localizes with septins to bud neck in mitosis
and may constitute an axial landmark for next round of
budding; potential Cdc28p substrate
YKL164C PIR1 CCW6 O-glycosylated protein required for cell wall stability;
attached to the cell wall via beta-1,3-glucan; mediates
mitochondrial translocation of Apn1p; expression regulated
by the cell integrity pathway and by Swi5p during the cell
cycle
YKL185W ASH1 YKL185W Zinc-finger inhibitor of HO transcription; mRNA is localized
and translated in the distal tip of anaphase cells, resulting in
accumulation of Ash1p in daughter cell nuclei and inhibition
of HO expression; potential Cdc28p substrate
YLR190W MMR1 YLR190W Phosphorylated protein of the mitochondrial outer membrane,
localizes only to mitochondria of the bud; interacts with
Myo2p to mediate mitochondrial distribution to buds; mRNA
is targeted to the bud via the transport system involving She2p
YLR274W MCM5 BOB1,
CDC46
Component of the hexameric MCM complex, which is
important for priming origins of DNA replication in G1 and
becomes an active ATP-dependent helicase that promotes
DNA melting and elongation when activated by Cdc7p-Dbf4p
in S-phase
YLR413W NO_C YLR413W Putative protein of unknown function; YLR413W is not an
essential gene
YLR452C SST2 YLR452C GTPase-activating protein for Gpa1p, regulates
desensitization to alpha factor pheromone; also required to
prevent receptor-independent signaling of the mating
pathway; member of the RGS (regulator of G-protein
signaling) family
YML034W SRC1 HEH1,
YML033W
Inner nuclear membrane (INM) protein with a putative role in
sister chromatid segregation, potentially phosphorylated by
Cdc28p; contains helix-extension-helix (HEH) motif, nuclear
localization signal sequence
YML119W NO_C YML119W
Putative protein of unknown funtion; YML119W is not an
essential gene; potential Cdc28p substrate
YMR001C CDC5 MSD2,
PKX2
Polo-like kinase with similarity to Xenopus Plx1 and S. pombe
Plo1p; found at bud neck, nucleus and SPBs; has multiple
functions in mitosis and cytokinesis through phosphorylation
of substrates; may be a Cdc28p substrate
YMR031C NO_C YMR031C Protein of unknown function with similarity to Ykl050cp and
Uso1p; the authentic, non-tagged protein is detected in a
phosphorylated state in highly purified mitochondria in high-
throughput studies; YMR031C is not an essential gene
YMR032W
HOF1 CYK2 Bud neck-localized, SH3 domain-containing protein required
for cytokinesis; regulates actomyosin ring dynamics and
septin localization; interacts with the formins, Bni1p and
Bnr1p, and with Cyk3p, Vrp1p, and Bni5p
continua
Apêndices
98
continuação
Systematic
Name
Standard
Name
Alias Description
YNL057W NO_C YNL057W Dubious open reading frame unlikely to encode a protein,
based on available experimental and comparative sequence
data
YNL058C NO_C YNL058C Putative protein of unknown function; green fluorescent
protein (GFP)-fusion protein localizes to the vacuole;
YNL058C is not an essential gene
YNL216W RAP1 GRF1,
TBA1,
TUF1
DNA-binding protein involved in either activation or
repression of transcription, depending on binding site context;
also binds telomere sequences and plays a role in telomeric
position effect (silencing) and telomere structure
YNL327W EGT2 YNL327W Glycosylphosphatidylinositol (GPI)-anchored cell wall
endoglucanase required for proper cell separation after
cytokinesis, expression is activated by Swi5p and tightly
regulated in a cell cycle-dependent manner
YNR067C DSE4 ENG1 Daughter cell-specific secreted protein with similarity to
glucanases, degrades cell wall from the daughter side causing
daughter to separate from mother
YOL114C NO_C YOL114C Putative protein of unknown function with similarity to human
ICT1 and prokaryotic factors that may function in translation
termination; YOL114C is not an essential gene
YOL132W GAS4 YOL132W 1,3-beta-glucanosyltransferase, involved with Gas2p in spore
wall assembly; has similarity to Gas1p; localizes to the cell
wall
YOR066W MSA1 YOR29-17 Activator of G1-specific transcription factors, MBF and SBF,
that regulates both the timing of G1-specific gene
transcription, and cell cycle initiation; potential Cdc28p
substrate
YOR114W NO_C YOR114W
Hypothetical protein
YOR153W PDR5 LEM1,
STS1,
YDR1
Plasma membrane ATP-binding cassette (ABC) transporter,
short-lived multidrug transporter actively regulated by Pdr1p;
also involved in steroid transport, cation resistance, and
cellular detoxification during exponential growth
YOR235W NO_C YOR235W
Hypothetical protein; null mutant displays increased levels of
spontaneous Rad52 foci
YOR258W HNT3 YOR258W
Member of the third branch of the histidine triad (HIT)
superfamily of nucleotide-binding proteins; similar to
Aprataxin, a Hint related protein that is mutated in
individuals with ataxia with oculomotor apraxia
YOR298W MUM3 YOR298W
Protein of unknown function involved in the organization of
the outer spore wall layers; has similarity to the tafazzins
superfamily of acyltransferases
YOR315W SFG1 YOR315W
Nuclear protein, putative transcription factor required for
growth of superficial pseudohyphae (which do not invade the
agar substrate) but not for invasive pseudohyphal growth;
may act together with Phd1p; potential Cdc28p substrate
YOR383C FIT3 YOR383C Mannoprotein that is incorporated into the cell wall via a
glycosylphosphatidylinositol (GPI) anchor, involved in the
retention of siderophore-iron in the cell wall
continua
Apêndices
99
continuação
Systematic
Name
Standard
Name
Alias Description
YPL025C NO_C YPL025C Hypothetical protein
YPL036W PMA2 YPL036W Plasma membrane H+-ATPase, isoform of Pma1p, involved
in pumping protons out of the cell; regulator of cytoplasmic
pH and plasma membrane potential
YPL124W SPC29 LPH3,
NIP29
Inner plaque spindle pole body (SPB) component, links the
central plaque component Spc42p to the inner plaque
component Spc110p; required for SPB duplication
YPL128C TBF1 LPI16 Telobox-containing general regulatory factor; binds to
TTAGGG repeats within subtelomeric anti-silencing regions
(STARs) and possibly throughout the genome and mediates
their insulating capacity by blocking silent chromatin
propagation
YPL141C NO_C YPL141C Putative protein kinase; similar to Kin4p; green fluorescent
protein (GFP)-fusion protein localizes to the cytoplasm;
YPL141C is not an essential gene
YPL155C KIP2 YPL155C Kinesin-related motor protein involved in mitotic spindle
positioning, stabilizes microtubules by targeting Bik1p to the
plus end; Kip2p levels are controlled during the cell cycle
YPL158C NO_C YPL158C Protein of unknown function; null mutant displays increased
frequency of mitochondrial genome loss (petite formation)
and reduced growth rate in minimal glycerol media
YPL242C IQG1 CYK1 Essential protein required for determination of budding
pattern, promotes localization of axial markers Bud4p and
Cdc12p and functionally interacts with Sec3p, localizes to the
contractile ring during anaphase, member of the IQGAP
family
YPL264C NO_C YPL264C Putative membrane protein of unknown function; physically
interacts with Hsp82p; YPL264C is not an essential gene
YPL269W KAR9 YPL269W Karyogamy protein required for correct positioning of the
mitotic spindle and for orienting cytoplasmic microtubules,
localizes at the shmoo tip in mating cells and at the tip of the
growing bud in small-budded cells through anaphase
YPR013C NO_C YPR013C Putative zinc finger protein; YPR013C is not an essential gene
YPR019W MCM4 CDC54,
HCD21
Essential helicase component of heterohexameric MCM2-7
complexes which bind pre-replication complexes on DNA and
melt the DNA prior to replication; accumulates in the nucleus
in G1; homolog of S. pombe Cdc21p
YPR111W DBF20 YPR111W Ser/Thr kinase involved in late nuclear division, one of the
mitotic exit network (MEN) proteins; necessary for the
execution of cytokinesis
YPR119W CLB2 YPR119W B-type cyclin involved in cell cycle progression; activates
Cdc28p to promote the transition from G2 to M phase;
accumulates during G2 and M, then targeted via a destruction
box motif for ubiquitin-mediated degradation by the
proteasome
continua
Apêndices
100
conclusão
Systematic
Name
Standard
Name
Alias Description
YPR149W NCE102 NCE2 Protein of unknown function; contains transmembrane
domains; involved in secretion of proteins that lack classical
secretory signal sequences; component of the detergent-
insoluble glycolipid-enriched complexes (DIGs)
YPR156C TPO3 YPR156C Polyamine transport protein specific for spermine; localizes
to the plasma membrane; member of the major facilitator
superfamily
NO_C: UNCHARACTERIZED
Apêndices
101
Apêndice D - Gráficos dos agrupamentos ATF e AVM originais e embaralhados referentes
aos diversos tempos amostrais de alpha factor
continua
Apêndices
102
continuação
continua
Apêndices
103
continuação
continua
Apêndices
104
concluo
Apêndices
105
Apêndice EIdentificação dos genes agrupados por ATF distribuídos em categorias MIPS.
Genes, separados em subgrupos de ATF, enquadrados em uma ou mais categorias, para alpha factor 119
minutos
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
ATFa119sg01 10 CELL CYCLE AND DNA
PROCESSING
'9/17 52,94
YGL021W; YDR146C;
YMR032W; YPL155C;
YHR023W; YGR108W;
YGL116W; YMR001C;
YPL242C
ATFa119sg01 00 There are no MIPS data gene '5/17 29,41
YML034W; YLR190W;
YML119W; YNL058C;
YJL051W
ATFa119sg01 14 PROTEIN FATE (folding,
modification, destination)
'4/17 23,53
YGL021W; YPL141C;
YGL116W; YMR001C
ATFa119sg01 42 BIOGENESIS OF CELLULAR
COMPONENTS
'4/17 23,53
YMR032W; YPL155C;
YHR023W; YPL242C
ATFa119sg01 43 CELL TYPE
DIFFERENTIATION
'4/17 23,53
YJR092W; YMR032W;
YHR023W; YPL242C
ATFa119sg01 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'4/17 23,53
YGL021W; YHR023W;
YPR156C; YPL242C
ATFa119sg01 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'3/17 17,65
YPL155C; YHR023W;
YPR156C
ATFa119sg01 16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'3/17 17,65
YJR092W; YMR032W;
YPL242C
ATFa119sg01 40 CELL FATE '3/17 17,65
YMR032W; YHR023W;
YPL242C
ATFa119sg01 01 METABOLISM '3/17 17,65
YGL021W; YPL141C;
YMR001C
ATFa119sg01 18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'2/17 11,76
YGR108W; YGL116W
ATFa119sg01 11 TRANSCRIPTION '1/17 5,88 YDR146C
ATFa119sg01 02 ENERGY '1/17 5,88 YHR023W
ATFa119sg01 34 INTERACTION WITH THE
ENVIRONMENT
'1/17 5,88 YDR146C
ATFa119sg02 11 TRANSCRIPTION '2/5 40,00
YOR315W; YPR013C
ATFa119sg02 14 PROTEIN FATE (folding,
modification, destination)
'1/5 20,00
YPR149W
ATFa119sg02 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'1/5 20,00
YBR054W
ATFa119sg02 00 There are no MIPS data gene '1/5 20,00
YLR413W
ATFa119sg02 43 CELL TYPE
DIFFERENTIATION
'1/5 20,00
YOR315W
ATFa119sg02 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'1/5 20,00
YPR149W
continua
Apêndices
106
continuação
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
ATFa 119sg03 34 INTERACTION WITH THE
ENVIRONMENT
'5/9 55,56
YLR452C; YKL185W;
YER145C; YHR005C;
YHL028W
ATFa 119sg03 10 CELL CYCLE AND DNA
PROCESSING
'3/9 33,33
YNL327W; YDR055W;
YBR202W
ATFa 119sg03 16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'3/9 33,33
YLR452C; YHR005C;
YBR202W
ATFa 119sg03 30 CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'3/9 33,33
YLR452C; YHR005C;
YHL028W
ATFa 119sg03 11 TRANSCRIPTION '2/9 22,22
YLR452C; YKL185W
ATFa 119sg03 42 BIOGENESIS OF CELLULAR
COMPONENTS
'2/9 22,22
YKL164C; YHL028W
ATFa 119sg03 43 CELL TYPE
DIFFERENTIATION
'2/9 22,22
YKL185W; YDR055W
ATFa 119sg03 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'2/9 22,22
YKL164C; YER145C
ATFa 119sg03 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'2/9 22,22
YKL164C; YHL028W
ATFa 119sg03 40 CELL FATE '2/9 22,22
YKL185W; YNL327W
ATFa 119sg03 14 PROTEIN FATE (folding,
modification, destination)
'1/9 11,11
YLR452C
ATFa 119sg03 41 DEVELOPMENT (Systemic) '1/9 11,11
YKL185W
ATFa 119sg03 01 METABOLISM '1/9 11,11
YNL327W
ATFa 119sg03 18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/9 11,11
YLR452C
ATFa119sg04 10 CELL CYCLE AND DNA
PROCESSING
'4/6 66,67
YJL157C; YEL032W;
YLR274W; YAR018C
ATFa119sg04 16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'3/6 50,00
YJL157C; YEL032W;
YLR274W
ATFa119sg04 43 CELL TYPE
DIFFERENTIATION
'2/6 33,33
YJL157C; YAR018C
ATFa119sg04 42 BIOGENESIS OF CELLULAR
COMPONENTS
'2/6 33,33
YJL157C; YAR018C
ATFa119sg04 40 CELL FATE '2/6 33,33
YJL157C; YAR018C
ATFa119sg04 14 PROTEIN FATE (folding,
modification, destination)
'1/6 16,67
YAR018C
ATFa119sg04 00 There are no MIPS data gene '1/6 16,67
YMR031C
ATFa119sg04 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'1/6 16,67
YDR033W
continua
Apêndices
107
continuação
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
ATFa119sg04 30 CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'1/6 16,67
YJL157C
ATFa119sg04 01 METABOLISM '1/6 16,67
YAR018C
ATFa119sg04 34 INTERACTION WITH THE
ENVIRONMENT
'1/6 16,67
YJL157C
ATFa119sg04 18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/6 16,67
YJL157C
ATFa119sg05 10 CELL CYCLE AND DNA
PROCESSING
'3/7 42,86
YNR067C; YBL023C;
YPR019W
ATFa119sg05 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'3/7 42,86
YHL040C; YAL022C;
YBR069C
ATFa119sg05 16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/7 28,57
YBL023C; YPR019W
ATFa119sg05 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'1/7 14,29
YHL040C
ATFa119sg05 00 There are no MIPS data gene '1/7 14,29
YOR066W
ATFa119sg05 01 METABOLISM '1/7 14,29
YNR067C
ATFa119sg06 00 There are no MIPS data gene '3/7 42,86
YPL025C; YOR114W;
YOL114C
ATFa119sg06 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'2/7 28,57
YOR153W; YGL008C
ATFa119sg06 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'2/7 28,57
YOR153W; YBR093C
ATFa119sg06 34 INTERACTION WITH THE
ENVIRONMENT
'2/7 28,57
YOR153W; YGL008C
ATFa119sg06 10 CELL CYCLE AND DNA
PROCESSING
'1/7 14,29
YPR119W
ATFa119sg06 43 CELL TYPE
DIFFERENTIATION
'1/7 14,29
YPR119W
ATFa119sg06 02 ENERGY '1/7 14,29
YGL008C
ATFa119sg06 16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'1/7 14,29
YOR153W
ATFa119sg06 01 METABOLISM '1/7 14,29
YBR093C
ATFa119sg06 18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/7 14,29
YPR119W
ATFa119sg07 10 CELL CYCLE AND DNA
PROCESSING
'3/5 60,00
YNL216W; YPL128C;
YPL124W
continua
Apêndices
108
conclusão
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
ATFa119sg07 11 TRANSCRIPTION '2/5 40,00
YNL216W; YPL128C
ATFa119sg07 42 BIOGENESIS OF CELLULAR
COMPONENTS
'2/5 40,00
YNL216W; YPL124W
ATFa119sg07 16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/5 40,00
YNL216W; YPL128C
ATFa119sg07 00 There are no MIPS data gene '1/5 20,00
YNL057W
ATFa119sg07 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'1/5 20,00
YPL036W
ATFa119sg07 02 ENERGY '1/5 20,00
YPL036W
ATFa119sg07 32 CELL RESCUE, DEFENSE AND
VIRULENCE
'1/5 20,00
YNL216W
ATFa119sg07 12 PROTEIN SYNTHESIS '1/5 20,00
YNL216W
ATFa119sg07 01 METABOLISM '1/5 20,00
YNL216W
ATFa119sg07 34 INTERACTION WITH THE
ENVIRONMENT
'1/5 20,00
YPL036W
ATFa119sg08 00 There are no MIPS data gene '2/3 66,67
YPL264C; YPL158C
ATFa119sg08 10 CELL CYCLE AND DNA
PROCESSING
'1/3 33,33
YPL269W
ATFa119sg09 01 METABOLISM '3/7 42,86
YPR111W; YOR298W;
YOL132W
ATFa119sg09 10 CELL CYCLE AND DNA
PROCESSING
'2/7 28,57
YPR111W; YOR298W
ATFa119sg09 00 There are no MIPS data gene '2/7 28,57
YOR235W; YOR258W
ATFa119sg09 14 PROTEIN FATE (folding,
modification, destination)
'1/7 14,29
YPR111W
ATFa119sg09 11 TRANSCRIPTION '1/7 14,29
YHR006W
ATFa119sg09 42 BIOGENESIS OF CELLULAR
COMPONENTS
'1/7 14,29
YOL132W
ATFa119sg09 43 CELL TYPE
DIFFERENTIATION
'1/7 14,29
YOR298W
ATFa119sg09 20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'1/7 14,29
YOR383C
Apêndices
109
Apêndice F – Identificação dos genes agrupados por AVM distribuídos em categorias
MIPS.
Genes, separados em subgrupos de AVM, enquadrados em uma ou mais categorias, para alpha factor 119
minutos
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
AVMa119sg01
20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'5/13 38,46
YER145C; YHL040C;
YOR383C; YAL022C;
YBR069C
AVMa119sg01
32 CELL RESCUE, DEFENSE AND
VIRULENCE
'4/13 30,77
YDR033W; YBR093C;
YHL040C; YBR054W
AVMa119sg01
01 METABOLISM '3/13 23,08
YOL132W; YBR093C;
YAR018C
AVMa119sg01
10 CELL CYCLE AND DNA
PROCESSING
'2/13 15,38
YBR202W; YAR018C
AVMa119sg01
00 There are no MIPS data gene '2/13 15,38
YPL158C; YLR413W
AVMa119sg01
42 BIOGENESIS OF CELLULAR
COMPONENTS
'2/13 15,38
YOL132W; YAR018C
AVMa119sg01
14 PROTEIN FATE (folding,
modification, destination)
'1/13 7,69 YAR018C
AVMa119sg01
43 CELL TYPE
DIFFERENTIATION
'1/13 7,69 YAR018C
AVMa119sg01
16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'1/13 7,69 YBR202W
AVMa119sg01
40 CELL FATE '1/13 7,69 YAR018C
AVMa119sg01
34 INTERACTION WITH THE
ENVIRONMENT
'1/13 7,69 YER145C
AVMa119sg02
16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'5/7 71,43
YHR005C; YBL023C;
YEL032W; YLR274W;
YPR019W
AVMa119sg02
10 CELL CYCLE AND DNA
PROCESSING
'4/7 57,14
YBL023C; YEL032W;
YLR274W; YPR019W
AVMa119sg02
00 There are no MIPS data gene '2/7 28,57
YMR031C; YOR066W
AVMa119sg02
30 CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'1/7 14,29
YHR005C
AVMa119sg02
34 INTERACTION WITH THE
ENVIRONMENT
'1/7 14,29
YHR005C
AVMa119sg03
10 CELL CYCLE AND DNA
PROCESSING
'4/7 57,14
YJL157C; YNL327W;
YDR055W; YNR067C
continua
Apêndices
110
continuação
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
AVMa119sg03
43 CELL TYPE
DIFFERENTIATION
'3/7 42,86
YJL157C; YKL185W;
YDR055W
AVMa119sg03
40 CELL FATE '3/7 42,86
YJL157C; YKL185W;
YNL327W
AVMa119sg03
34 INTERACTION WITH THE
ENVIRONMENT
'3/7 42,86
YLR452C; YJL157C;
YKL185W
AVMa119sg03
11 TRANSCRIPTION '2/7 28,57
YLR452C; YKL185W
AVMa119sg03
42 BIOGENESIS OF CELLULAR
COMPONENTS
'2/7 28,57
YJL157C; YKL164C
AVMa119sg03
16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/7 28,57
YLR452C; YJL157C
AVMa119sg03
30 CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'2/7 28,57
YLR452C; YJL157C
AVMa119sg03
01 METABOLISM '2/7 28,57
YNL327W; YNR067C
AVMa119sg03
18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'2/7 28,57
YLR452C; YJL157C
AVMa119sg03
14 PROTEIN FATE (folding,
modification, destination)
'1/7 14,29
YLR452C
AVMa119sg03
41 DEVELOPMENT (Systemic) '1/7 14,29
YKL185W
AVMa119sg03
20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'1/7 14,29
YKL164C
AVMa119sg03
32 CELL RESCUE, DEFENSE AND
VIRULENCE
'1/7 14,29
YKL164C
AVMa119sg04
10 CELL CYCLE AND DNA
PROCESSING
'5/10 50,00
YGL021W; YPL155C;
YGR108W; YPR119W;
YMR001C
AVMa119sg04
14 PROTEIN FATE (folding,
modification, destination)
'3/10 30,00
YGL021W; YPL141C;
YMR001C
AVMa119sg04
43 CELL TYPE
DIFFERENTIATION
'3/10 30,00
YJR092W; YPR119W;
YOR315W
AVMa119sg04
01 METABOLISM '3/10 30,00
YGL021W; YPL141C;
YMR001C
AVMa119sg04
20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'2/10 20,00
YPL155C; YOR153W
continua
Apêndices
111
continuação
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
AVMa119sg04
16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/10 20,00
YJR092W; YOR153W
AVMa119sg04
32 CELL RESCUE, DEFENSE AND
VIRULENCE
'2/10 20,00
YGL021W; YOR153W
AVMa119sg04
18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'2/10 20,00
YGR108W; YPR119W
AVMa119sg04
11 TRANSCRIPTION '1/10 10,00
YOR315W
AVMa119sg04
00 There are no MIPS data gene '1/10 10,00
YML034W
AVMa119sg04
42 BIOGENESIS OF CELLULAR
COMPONENTS
'1/10 10,00
YPL155C
AVMa119sg04
34 INTERACTION WITH THE
ENVIRONMENT
'1/10 10,00
YOR153W
AVMa119sg05
10 CELL CYCLE AND DNA
PROCESSING
'5/15 33,33
YDR146C; YMR032W;
YHR023W; YGL116W;
YPL242C
AVMa119sg05
00 There are no MIPS data gene '5/15 33,33
YNL057W; YLR190W;
YML119W; YNL058C;
YJL051W
AVMa119sg05
20 CELLULAR TRANSPORT,
TRANSPORT FACILITATION
AND TRANSPORT ROUTES
'5/15 33,33
YPL036W; YHR023W;
YGL008C; YPR156C;
YPR149W
AVMa119sg05
42 BIOGENESIS OF CELLULAR
COMPONENTS
'4/15 26,67
YMR032W; YHR023W;
YHL028W; YPL242C
AVMa119sg05
32 CELL RESCUE, DEFENSE AND
VIRULENCE
'4/15 26,67
YHR023W; YPR156C;
YHL028W; YPL242C
AVMa119sg05
34 INTERACTION WITH THE
ENVIRONMENT
'4/15 26,67
YDR146C; YPL036W;
YGL008C; YHL028W
AVMa119sg05
43 CELL TYPE
DIFFERENTIATION
'3/15 20,00
YMR032W; YHR023W;
YPL242C
AVMa119sg05
02 ENERGY '3/15 20,00
YPL036W; YHR023W;
YGL008C
AVMa119sg05
40 CELL FATE '3/15 20,00
YMR032W; YHR023W;
YPL242C
AVMa119sg05
14 PROTEIN FATE (folding,
modification, destination)
'2/15 13,33
YPR149W; YGL116W
continua
Apêndices
112
conclusão
Id. Subgrupo Cód.
Cat.
Categorias Razão
Perc.
Systematic name genes
AVMa119sg05
16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/15 13,33
YMR032W; YPL242C
AVMa119sg05
11 TRANSCRIPTION '1/15 6,67 YDR146C
AVMa119sg05
30 CELLULAR
COMMUNICATION/SIGNAL
TRANSDUCTION MECHANISM
'1/15 6,67 YHL028W
AVMa119sg05
18 REGULATION OF
METABOLISM AND PROTEIN
FUNCTION
'1/15 6,67 YGL116W
AVMa119sg06
10 CELL CYCLE AND DNA
PROCESSING
'2/3 66,67
YOR298W; YPL124W
AVMa119sg06
00 There are no MIPS data gene '1/3 33,33
YOR114W
AVMa119sg06
42 BIOGENESIS OF CELLULAR
COMPONENTS
'1/3 33,33
YPL124W
AVMa119sg06
01 METABOLISM '1/3 33,33
YOR298W
AVMa119sg06
43 CELL TYPE
DIFFERENTIATION
'1/3 33,33
YOR298W
AVMa119sg07
00 There are no MIPS data gene '5/11 45,45
YPL264C; YPL025C;
YOL114C; YOR235W;
YOR258W
AVMa119sg07
10 CELL CYCLE AND DNA
PROCESSING
'4/11 36,36
YPL269W; YPR111W;
YNL216W; YPL128C
AVMa119sg07
11 TRANSCRIPTION '4/11 36,36
YNL216W; YPL128C;
YHR006W; YPR013C
AVMa119sg07
16 PROTEIN WITH BINDING
FUNCTION OR COFACTOR
REQUIREMENT (structural or
catalytic)
'2/11 18,18
YNL216W; YPL128C
AVMa119sg07
01 METABOLISM '2/11 18,18
YPR111W; YNL216W
AVMa119sg07
14 PROTEIN FATE (folding,
modification, destination)
'1/11 9,09 YPR111W
AVMa119sg07
42 BIOGENESIS OF CELLULAR
COMPONENTS
'1/11 9,09 YNL216W
AVMa119sg07
32 CELL RESCUE, DEFENSE AND
VIRULENCE
'1/11 9,09 YNL216W
AVMa119sg07
12 PROTEIN SYNTHESIS '1/11 9,09 YNL216W
Apêndices
113
Apêndice G: Manuscrito
In silico gene clustering by transcription factors and differential expression
Luciano Angelo de Souza Bernardes
1
; Silvana Giuliatti
1
1
Department of genetics of Faculdade de Medicina de Ribeirão Preto – FMRP - USP
Abstract
Living organisms are continuously modulating their genes in response to intrinsic and
extrinsic changes. Little is known about the complex that involves gene regulation, but the
transcription factors are one of these elements. The basic hypothesis is that if the transcription
factors are responsible for a gene modulation profile along the time, genes should be grouped
by the factors that induced the share each time the sample was observed, allowing a more
dynamic follow-up and not only by the expression profile. To develop efficient computational
methods to analyze large amount of data obtained in experiments is a challenging problem for
computational / bioinformatics. The goal was to group genes using transcription factors and
modulation profiles. The clustering methods are currently considering all points of the
modulation profile of genes and the greater the amount of these items, better is for clustering.
To enable cluster by transcription factors it was created a matrix of presence / absence of
genes for transcription factors and modulation profiles were temporally accumulated. The
results obtained were better than those of the clustering method for expression, which were
observed by the interactions of factors with the genes in analyzed subgroups, resulting in its
majority to cover all of them. The correlation of the subgroups of the two methods was
partial, which means, some genes in some subgroups share the same TFs and have very
similar expression profile.
Introduction
Living organisms, prokaryotes or eukaryotes, in general have thousands of genes.
Throughout its life they produce different proteins through differentiate modulating
(repression or induction) of genes, stimulated by intrinsic or extrinsic characteristics. Usually,
in multicellular organisms, the genome is identical in all cells, what differs from each other is
the distinct set of genes that modulates. In simpler organisms (unicellular), distinct sets of
Apêndices
114
genes also modulate, considering the availability of nutrients, the physical and chemical
environment, among others, and also in response to changes that may reprogram gene
modulation, through its biochemical capacity (CAUSTON et al, 2001). Thus, it becomes a
matter great importance to understand the mechanisms that control and the characteristic
elements of genes involved in modulating the different stages of development.
Transcription Factors
Transcription factors (TF) is a family of proteins that play an important role in
regulating gene transcription. They bind to certain points of the sequence of DNA, and by this
connection, in response to specific stimuli, control the transcription of genetic information in
DNA into RNA. Transcription is one of the most widely studied processes in molecular
biology (WASSEMAN; SANDELIN, 2004). Points of DNA binding (binding sites or motifs)
are short sequences, between 5 and 25 pairs of length base (KARIN, 1990) with possible
degeneration into its patterns. In lower eukaryotes, it is estimated that these points are located
immediately preceding the beginning of the gene, a region that comprises 800-1000 pair
bases. However there is no consensus about this. After the transcription, the product generated
is automatically submitted to the other stages of gene expression such as RNA splicing,
resulting in the production of the corresponding protein (LATCHMAN, 1997).
The study of regulatory regions of genes with similar transcription patterns revealed
the presence of short sequences of DNA shared between them, the same was not observed in
genes that have not had the same pattern of expression. For example, genes which
transcription is induced in response to high temperature contain a common regulatory element
known as heat-shock (HSE), which is absent in genes that do not show the same induction.
Evidence that these sequences are of critical importance in the production of gene
transcription were experiments that transferred the HSE element of a temperature-inducible
gene to a thymidine kinase gene, which is usually not inducible in this condition. This hybrid
gene was introduced into a cell and the temperature was heighten, soon it was noticed an
increase in the production of thymidine kinase, indicating that the HSE was the direct inducer
of this gene. This experiment proved that the transferred element is a binding site for
regulatory proteins known as TFs, which alternatively regulate the gene transcription
positively or negatively, to produce the observed effect on transcription (LATCHMAN, 1995).
Apêndices
115
Searching Algorithms for motifs
For over three decades, researchers search for these motifs (SANDVE; DRABLOS,
2006). For this, several algorithms were written, the first methods were based on consensus
which is the search of snippets into groups of similar sequences, allowing or not variations in
the lengths and / or heading. The passages commonly encountered assumed as motifs, are
then aligned with a corresponding profile, which receives a score. Therefore, it generated a
new consensus, which is considered a potential hotspot for the transcription factor (PAVESE;
MAURI; PESOLA, 2004).
After the advent of microarray (KULESK et al, 1987, SCHENA et al, 1995) it was
created the possibility that clusters were generated based on the expression of these genes by
hierarchical clustering or k-means. On this basis, the search for motifs began to be conducted
in groups of genes with similar modulations, however, gene expression could be caused by
functionally different mechanisms. Considering this behavior, researchers have developed
new types of algorithms, based on joint probability (HOLMES, BRUNO, 2000), which
outlines a model for the relation sequence-expression using the Gibbs algorithm
(LAWRENCE et al, 1993) and Expectation / maximization (DEMPSTER, LAIRD; RUBIM,
1977). A different perspective enabled the development of an algorithm that uses logarithmic
term, which considers only unique sets of expression reasons and returns statistically
significant motifs (BUSSEMAKER, LI; SIGGGIA, 2001).
Following the timeline, a new approach enabled the creation of an algorithm using the
matrix and regression of expression, which recognizes motifs in changes of expression under
certain conditions (COLON et al, 2003). The use of parameters in the beginning, also,
inspired algorithms, they consider any prior knowledge or expectation about the data sets,
which may be prerequisites for any type of algorithms listed above (PAVESE; MAURI;
PESOLA, 2004). Similarly, a set of data used as a background, working as a negative control,
would also be an additional parameter, in order to obtain different results (GANESH;
SIEGEL; IOERGER, 2003).
Using genomic comparison, regions and elements were sought phylogenetically
conserved regions between the genomes of humans, and different breeds of rats and dogs to
create a systematic catalog of common motifs in promoter regions. An approach was
developed and applied to compute and statistically evaluate conservation profiles of multiple
sequences aligned closely related species (DERMITZAKIS; REYMOND; ANTONARAKIS,
2005; OVCHARENKO; BOFFELLI; LOOTS, 2004). More advanced methods tend to
Apêndices
116
integrate multiple computational methods and experimental data. In an approach called
seqVISTA, researchers incorporated data from CHIP-on-chip, microarray and motifs (HU et
al, 2006; LEMMENS et al, 2006).
Dados de Saccharomyces cerevisiae
Many experiments were performed, whether sideboard or in silico motifs on this and
also on certain bodies, which allowed the creation of specialized databases on organisms. The
Saccharomyces cerevisiae Genome Database (SGD; CHERRY et al., 1997) is perhaps the
broadest, which provides information on the various genes of this organism. This allows
approaches and processes that are only nowadays are currently possible. For example, the
analytical tools available on the site Yeast Search for Transcriptional Regulators And
Consensus Tracking (YEASTRACT; TEIXEIRA et al., 2006).
From this last one, we collected data of transcription factors and functional notes
needed for the development of the proposed analysis, while data on gene modulation were
obtained from the experiment by Spellman and colleagues (1998).
Methodology
Modulation values were used (VM), obtained by the microarray technique, of 800
genes involved in cell cycle, the Saccharomyces cerevisiae fungus, available by Spellman and
colleagues (1998; these data have been used in many other studies). The TFs, whose
interaction with the target gene has been proved by experiments in sideboards and subsequent
disclosure statement in the scientific literature, were obtained from the site YEASTRACT
(TEIXEIRA et al., 2006).
VMs and TFs data related to genes were synchronized. Then, we selected genes with
MV equal to or greater than a threshold value at a sample time of 119 minutes. After that, it
was made the diversity of all TFs, and created a matrix of presence / absence that gave a bit 1
for the presence of TF gene or bit 0 otherwise. Using this matrix of presence / absence it was
created a distance matrix of genes and from this the dendrogram was created. Next step was to
divide the dendrogram for the creation of subgroups, with at least three genes each. For each
subgroup, we calculated the ratio and percentages of interactions of TFs with the genes of the
subgroups. Still, were performed processes such as: functional categorization; shuffling of
Apêndices
117
genes to test the efficiency of the methodology, and correlation between the methodologies by
cluster transcription factors (ATF) and grouping by modulation profile (AVM).
Results and Discussion
Graph 1 shows the maximum percentage of the more interactive TF, for each of the
created subgroups. On the left one it is shown the performance of ATF (thick blue line) and
the right performance of AVM (thick blue line). The remaining lines (thin) show the results
obtained by the shuffling of genes.
The layout of the thick blue line obtained by the ATF method (left) showed that
various subgroups have at least one TF that interacts with all the genes of the subgroup
(100%), while in AVM (right) this was not observed. The other lines, results of the mixture,
several peaks that reach 100%, which, for some subgroups, were even more relevant than
those obtained by the method ATF. However, when we see the result as a whole best
maximum percentage of ATF are noticed. While in the chart on the right, the results of the
method of scrambling and AVM, were confounded.
Aiming to understand the behavior of the ATF with smaller amounts of data, we
performed a cumulative section, for sampling times, of the data set. Thus, we created 16
different subsets, with values of gene modulation, which, along with the file of TFs, were
subjected to all processes of the methodology. This sectioning is not an usual approach in
clustering of genes modulated by values, since the greater the amount of time sampling, the
better for the algorithm to weave more stable relationships between genes and thus create
robust and reliable dendrograms (ERNST; BAR -JOSEPH, 2006). However, this procedure
was adopted so that they could observe the behavior and performance of the proposed
Graph 1. Maximum percentage of the more interactive TFs in the subgroups, obtained by ATF (left) and
AVM (direct), in 119 minutes alpha factor.
Apêndices
118
methodology (ATF), for different data sets, and also create conditions of equal comparison
between the methods. Figure 2 shows the comparison of method results for the different
sampling times. In it are represented the average maximum percentage of each subgroup.
These maximum percentages were calculated by the performance of TFs in the gene synthesis
of the subgroups.
Comparativo da média das porcentagens máximas de subgrupos
de ATF e AVM, em
alpha factor
0
10
20
30
40
50
60
70
80
90
100
110
120
14min
21min
28min
35min
42min
49min
56min
63min
70min
77min
84min
91min
98min
105min
112min
119min
Tempos amostrais
Porcentagens médias
ATF
AVM
Graph 2. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the maximum average
percentages of subgroups, for each sampling time in alpha factor. The mark on top of each bar corresp
onds
to standard deviation.
Figure 2 shows that, systemically, ATF had averages of maximum percentage greater
than AVM. So, it is more efficient in the clustering of genes, because of the sharing of TFs.
In the definition of the subgroups (Figure 3), ATF, also demonstrated higher bars than
those of AVM. Except for two sampling times (63 and 105 minutes), ATF has created more
time subgroups by sampling time.
Comparativo da quantidade de subgrupos de ATF e AVM, em
alpha factor
0
5
10
15
20
25
14min
21min
28min
35min
42min
49min
56min
63min
70min
77min
84min
91min
98min
105min
112min
119min
Tempos amostrais
Qtds. subgrupos
ATF
AVM
Graph 3. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the quantities of sub-
groups created for each sampling time of alpha factor.
Apêndices
119
We could say that the creation of a greater number of subgroups, concentrating less
genes, has isolated them in a better way, and facilitated the achievement of better maximums.
However, even when ATF generated fewer subgroups (63 and 105 minutes) their maximum
average percentage remained higher.
Considering all the percentages of all the sampling times of the alpha factor
experiment, from the largest to the smallest, in each subgroup and sampling time, graph 4
shows the performance of ATF and AVM.
The lines of graph 4 show the difference between ATF and AVM, in terms of quantity
and percentages obtained. ATF, using the same set of data of AVM obtained more maximum
values and, moreover, when these figures have declined, in ATF it was more pronounced than
an AVM. Showing that the number of TFs that do not interact with all of the genes of the
subgroups is reduced in comparison with AVM.
Conclusions
This analysis was a different approach from previous ones because it did not require
complex mathematical methods, neither so few parameters in the beginning. The upkeep of
the performance with different data sets showed that ATF can be used even in experiments
with few sampling times. According to the researchers Ernst and Bar-Joseph (2006), about a
third of microarray experiments has 3 to 8 sampling times.
The matrix of presence / absence provided a measurement of distances between the
genes on the basis of their TFs. With the value of distance matrices were created the
Comparativo de todas as porcentagens de subgrupos
de ATF e AVM, em
alpha factor
0
10
20
30
40
50
60
70
80
90
100
110
1
8
15
22
29
36
43
50
57
64
71
78
85
92
99
106
113
120
127
134
141
148
155
162
169
176
Quantidades
Porcentagens
ATF
AVM
Graph 4. Comparison of all the percentages obtained in subgroups of all sampling times
by ATF and AVM in alpha factor.
Apêndices
120
dendrograms. The ATF dendrogram showed better proximity to genes that showed more
homogeneous characteristics, and also managed to isolate well the heterogeneity of the
subgroups. This arrangement allowed the creation of better defined subgroups, which resulted
in more interactive TFs with the genes of the subgroups.
The analysis of several sets of data showed that the ATF arrange them in a better way
when compared to AVM, and also that this arrangement was not random, according to the fine
lines of Chart 1. The MIPS categorization also contributes to the validation of ATF, because
the diversity of categories was large for both methods, demonstrating that there is not one or
group of TF directly related to one category or the modulation profile.
Even with all the positive points highlighted, this methodology only limits those
organisms that have defined TFs, because unlike most of the tools and methods, it does not
seek to discover the TFs, but to use them, assuming that these are the right ones. Indeed, this
limitation will diminish as more experiments, looking for this kind of data, are performed for
different organisms.
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo