( PDF ) Agrupamento in silico de genes por fatores de transcrição e expressão diferencial.

Download PDF

ads:

UNIVERSIDADE DE SÃO PAULO

FACULDADE DE MEDICINA DE RIBEIRÃO PRETO

DEPARTAMENTO DE GENÉTICA

LUCIANO ANGELO DE SOUZA BERNARDES

Agrupamento in silico de genes por fatores de transcrição

e expressão diferencial

Ribeirão Preto – SP

2010

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

LUCIANO ANGELO DE SOUZA BERNARDES

Agrupamento in silico de genes por fatores de transcrição

e expressão diferencial

Ribeirão Preto – SP

2010

ads:

LUCIANO ANGELO DE SOUZA BERNARDES

Agrupamento in silico de genes por fatores de transcrição

e expressão diferencial

Tese apresentada à Faculdade de

Medicina de Ribeirão Preto da

Universidade de São Paulo para a

obtenção do título de Doutor em Ciências

Biológicas

Área de concentração: Genética

Orientadora: Prof

. Dr

. Silvana Giuliatti

Ribeirão Preto – SP

2010

Nome: Bernardes, Luciano Angelo de Souza

Título: Agrupamento in silico de genes por fatores de transcrição e expressão

diferencial

Tese apresentada à Faculdade de

Medicina de Ribeirão Preto da

Universidade de São Paulo para a

obtenção do título de Doutor em Ciências

Biológicas

Aprovado em:

Banca Examinadora

Prof. Dr.:

Instituição:

Prof. Dr.:

Instituição:

Prof. Dr.:

Instituição:

Prof. Dr.:

Instituição:

Prof. Dr.:

Instituição:

iii

Dedico este trabalho

Aos meus queridos pais, Diva e Jadir, pelo carinho e compreensão.

AGRADECIMENTOS

Agradeço à prof. Dra. Silvana Giuliatti, pela oportunidade e confiança.

À Dra. Mônica Campiteli pelas discussões e contribuições.

Ao prof. Dr. Ademilson Espencer Egea Soares, coordenador da Pós-graduação do

Departamento de Genética, pelo apoio.

Aos amigos contemporâneos que integram ou já integraram o Grupo de Bioinformática (GBi)

do Departamento de Genética, Daniel Macedo de Melo Jorge, Renato David Puga, Saulo

Amui, André Luis da Silva Breve, Gabriela Félix Persinoti, Nilson Nicolau Junior, Luiz

Fernando Martins Pignata e Pablo Rodrigo Sanches, pela convivência e paciência.

Aos amigos do Laboratório de Biologia Molecular da Faculdade de Ciências Farmacêuticas

de Ribeirão Preto – USP, pelos esclarecimentos relativos a área biológica.

A Daniel Macedo de Melo Jorge, Ricardo Vêncio, Gláucia e Meilyn pela amizade.

Aos alunos, funcionários e professores do Departamento de Genética com os quais convivi ao

longo dos anos de doutoramento.

À Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES), pelo suporte

financeiro.

RESUMO

Os organismos vivos apresentam milhares de genes, os quais, geralmente de forma conjunta,

são continuamente modulados. Entretanto, em resposta as alterações do ambiente, utilizando

sua capacidade bioquímica, podem se reprogramarem em função da disponibilidade de

nutrientes e as condições físicas e químicas do meio. Assim, se torna uma questão de suma

importância compreender os mecanismos que controlam e os elementos característicos

envolvidos na modulação dos genes das diferentes fases do desenvolvimento. Pouco ainda é

conhecido sobre o complexo que envolve a regulação gênica, mas os fatores de transcrição

são um desses elementos. A hipótese levantada é que se os fatores de transcrição são um dos

responsáveis pelo perfil de modulação gênica ao longo do tempo, os genes deveriam ser

agrupados pelos fatores induzidos que compartilham a cada tempo amostral observado,

permitindo um acompanhamento mais dinâmico e não somente pelo perfil de expressão.

Desenvolver métodos computacionais eficientes para analisar grande quantidade de dados

obtidos em experimentos é um problema desafiante para a computação/bioinformática. Os

métodos de agrupamento, atualmente, consideram todos os pontos do perfil de modulação dos

genes e quanto maior for a quantidade destes pontos melhor para o agrupamento. O objetivo

do projeto proposto foi agrupar genes utilizando fatores de transcrição e perfis de modulação.

Para permitir o agrupamento desta forma foi criada uma matriz de presença/ausência de

fatores de transcrição para genes, e perfis de modulação foram temporalmente acumulados.

Os resultados obtidos mostraram-se melhores que aqueles do método de agrupamento por

expressão, estes foram observados pelas interações dos fatores com os genes em subgrupos

analisados, chegando em sua maioria a abranger todos eles. A correlação dos subgrupos dos

dois métodos mostrou-se parcial, isto é, alguns genes em alguns subgrupos compartilham

mesmos TFs e tem perfil de expressão bastante similar.

ABSTRACT

In silico gene clustering by transcription factors and differential

expression

Living organisms have thousands of genes, which usually are continuously modulated.

However, in response to environmental changes, they can reprogram in function of nutrient

availability and physical and chemical conditions of the environmental. Thus, it becomes a

matter of paramount importance to understand the mechanisms that control and the elements

characteristic involved in the genes modulating process, on the various stages of

development. Little is known about the complex that involves gene regulation, but the

transcription factors are one of these elements. The basic hypothesis is that transcription

factors are responsible for a profile of gene modulation over time. Genes should be grouped

by the induced factors that share each sampling time observed, allowing a more dynamic

monitoring and not just the expression profile alone. Developing efficient computational

methods for analyzing large amount of data obtained in experiments is a challenging problem

in computer science/bioinformatics. The current clustering methods consider all the genes

modulation profile points and the higher the amount of these points the better the cluster. The

aim of the proposed project was to group genes using transcription factors and modulation

profiles. To allow the grouping it was created a presence/absence matrix of the transcription

factors for genes and modulation profiles that were temporally accumulated. The results

obtained using this approach were better than those used in expression clustering methods.

They were observed by the interactions of factors with the genes in analyzed subgroups, and

in general they to cover mostly all. The correlation of the subgroups of the two methods

proved to be partial, that is, some genes in some subgroups share the same TFs and have very

similar expression profile.

vii

LISTA DE FIGURAS

Figura 1. Exemplo de proteína helix-turned-helix.................................................................18

Figura 2. Exemplo de proteína do tipo zinc finger. ............................................................... 18

Figura 3. Exemplo de proteína bZIP..................................................................................... 19

Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH)..................................19

Figura 5. Exemplo de proteína homeodomain.......................................................................20

Figura 6. Montagem e ativação de complexo de transcrição.................................................21

Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia

proposta............................................................................................................................... 27

Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) ................................................30

Figura 9. Fragmento exemplo de arquivo tabulado (TTFR)..................................................31

Figura 10. Fragmento exemplo de arquivo tabulado (TFI)....................................................31

Figura 11. Fragmento exemplo da criação de tabelas cumulativas ........................................32

Figura 12. Fragmento exemplo da seleção de genes em TVMR............................................33

Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs,

chamados TDS..................................................................................................................... 34

Figura 14. Exemplo da construção da matriz de presença/ausência.......................................36

Figura 15. Fragmento exemplo de matriz de presença/ausência............................................37

Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento..38

Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM.....................39

Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos

subgrupos pelos ATF ou AVM.............................................................................................. 41

Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras

vermelhas) ........................................................................................................................... 42

Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras

vermelhas) pelas quantidades de subgrupos criados..............................................................43

Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos

amostrais, por ATF e AVM...................................................................................................44

Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência,

segundo a equação de Scott..................................................................................................45

Figura 19. Dendrograma criado por ATF.............................................................................. 46

Figura 20. Dendrograma criado por AVM.............................................................................59

Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF.......................................71

viii

Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM......................................72

Figura 21. categorização dos genes em subgrupos de ATF....................................................77

Figura 22. Categorização dos genes em subgrupos de AVM .................................................79

LISTA DE TABELAS

Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos......46

Tabela 2 – Genes e VMs do subgrupo ATFa119sg01 ............................................................ 47

Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01 48

Tabela 4 - Genes e VMs do subgrupo ATFa119sg02............................................................. 49

Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02 50

Tabela 6 - Genes e VMs do subgrupo ATFa119sg03............................................................. 51

Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03 52

Tabela 8 - Genes e VMs do subgrupo ATFa119sg04............................................................. 53

Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04 53

Tabela 10 - Genes e VMs do subgrupo ATFa119sg05........................................................... 54

Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05

............................................................................................................................................ 54

Tabela 12 - Genes e VMs do subgrupo ATFa119sg06........................................................... 55

Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06

............................................................................................................................................ 55

Tabela 14 - Genes e VMs do subgrupo ATFa119sg07........................................................... 56

Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07

............................................................................................................................................ 56

Tabela 16 - Genes e VMs do subgrupo ATFa119sg08........................................................... 57

Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08

............................................................................................................................................ 57

Tabela 18 - Genes e VMs do subgrupo ATFa119sg09........................................................... 58

Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09

............................................................................................................................................ 58

Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119 minutos ..59

Tabela 21 - Genes e VMs do subgrupo AVMa119sg01 .........................................................60

Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01

............................................................................................................................................ 61

Tabela 23 - Genes e VMs do subgrupo AVMa119sg02 .........................................................62

Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02

............................................................................................................................................ 62

Tabela 25 - Genes e VMs do subgrupo AVMa119sg03 .........................................................63

Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03

............................................................................................................................................ 64

Tabela 27 - Genes e VMs do subgrupo AVMa119sg04 .........................................................65

Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04

............................................................................................................................................ 65

Tabela 29 - Genes e VMs do subgrupo AVMa119sg05 .........................................................66

Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05

............................................................................................................................................ 67

Tabela 31 - Genes e VMs do subgrupo AVMa119sg06 .........................................................68

Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06

............................................................................................................................................ 68

Tabela 33 - Genes e VMs do subgrupo AVMa119sg07 .........................................................69

Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07

............................................................................................................................................ 69

Tabela 35 - Correlações gênicas entre os métodos ATF e AVM............................................. 73

Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias ........................75

Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos 76

Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos

............................................................................................................................................ 78

LISTA DE SIGLAS

ATF Agrupamento por fatores de transcrição

AVM Agrupamento por valores de modulação

bp Pares de bases (base pairs)

cDNA DNA complementar

DNA Ácido desoxirribonucléico (Desoxiribonucleic acid)

EST Etiqueta de Sequência Expressa (Expressed Sequence Tag)

HSE Choque de temperatura (heat-shock)

PCR Reação em cadeia de Polimerase (Polimerase Chain Reaction)

RNA Ácido ribonucléico (Ribonucleic acid)

TAC Tabelas Acumulativas Completas

TAR Tabelas Acumulativas Refinadas

TARS Tabelas Acumulativas Refinadas Selecionadas

TDS Tabela de Dados Sincronizados

TF Fator de transcrição (Transcription factor)

TFI Tabela de funções inferidas

TPA Tabela Presença Ausência

TRE Tabela Resultado Embaralhamento

TREG Tabela Resultados Embaralhamento Geral

TTFR Tabela de fatores de transcrição refinada

TVMR Tabela de valores de modulação refinada

VM Valores de modulação

xii

SUMÁRIO

1. Introdução........................................................................................................................14

1.1. Expressão gênica........................................................................................................... 14

1.1.1. Expressed Sequence Tags (EST)................................................................................. 14

1.1.2. Microarray ................................................................................................................. 15

1.2. Fatores de transcrição....................................................................................................16

1.3. Agrupamento.................................................................................................................22

1.4. Algoritmos de busca de motifs....................................................................................... 24

2. Objetivos..........................................................................................................................26

3. Metodologia.....................................................................................................................27

3.1. Recursos computacionais ..............................................................................................28

3.2. Dados do experimento alpha-factor...............................................................................28

3.3. Valores de modulação....................................................................................................29

3.4. Fatores de transcrição....................................................................................................30

3.5. Secção acumulativa.......................................................................................................32

3.6. Seleção dos genes..........................................................................................................33

3.7. Sincronização................................................................................................................34

3.8. Agrupamento de genes por valores de modulação.......................................................... 35

3.9. Matriz de presença/ausência de TFs............................................................................... 35

3.10. Agrupamento de genes por TFs ...................................................................................37

3.11. Subgrupos ...................................................................................................................37

3.12. Correlações entre os métodos de agrupamento............................................................. 39

3.13. Classificação funcional dos genes................................................................................39

3.14. Embaralhamento dos genes ......................................................................................... 40

3.15. Representação gráfica linear........................................................................................ 40

4. Resultados e discussões....................................................................................................42

4.1. Valores de modulação (VM).......................................................................................... 44

4.2. Agrupamento por fatores de transcrição (ATF) .............................................................. 45

4.2.1. ATFa119sg01 .............................................................................................................46

4.2.2. ATFa119sg02 .............................................................................................................49

4.2.3. ATFa119sg03 .............................................................................................................51

4.2.4. ATFa119sg04 .............................................................................................................53

4.2.5. ATFa119sg05 .............................................................................................................54

xiii

4.2.6. ATFa119sg06 .............................................................................................................55

4.2.7. ATFa119sg07 .............................................................................................................56

4.2.8. ATFa119sg08 .............................................................................................................57

4.2.9. ATFa119sg09 .............................................................................................................58

4.3. Agrupamento por valores de modulação gênica (AVM).................................................59

4.3.1. AVMa119sg01............................................................................................................60

4.3.2. AVMa119sg02............................................................................................................62

4.3.3. AVMa119sg03............................................................................................................63

4.3.4. AVMa119sg04............................................................................................................65

4.3.5. AVMa119sg05............................................................................................................66

4.3.6. AVMa119sg06............................................................................................................68

4.3.7. AVMa119sg07............................................................................................................69

4.4. Comparação entre ATF e AVM......................................................................................70

4.5. Correlações entre ATF e AVM....................................................................................... 73

4.6. Categorização MIPS-CYGD .........................................................................................75

5. Conclusões....................................................................................................................... 81

6. Referências bibliográficas ................................................................................................ 82

Apêndice A.......................................................................................................................... 89

Apêndice B.......................................................................................................................... 91

Apêndice C.......................................................................................................................... 95

Apêndice D........................................................................................................................ 101

Apêndice E ........................................................................................................................ 105

Apêndice F ........................................................................................................................ 109

Apêndice G: Manuscrito .................................................................................................... 113

Introdução

1. Introdução

Os organismos vivos, procariotos ou eucariotos, em sua maioria apresentam milhares

de genes. Durante toda sua vida eles produzem diversas proteínas através da modulação

diferenciada (repressão ou indução) de genes, estimulados por características intrínsecas ou

extrínsecas. Normalmente, em organismos multicelulares, o genoma é idêntico em todas as

células, o que as difere umas das outras é o conjunto distinto de genes que modulam. Em

organismos mais simples (unicelulares), conjuntos distintos de genes também se modulam,

considerando a disponibilidade de nutrientes, as condições físicas e químicas do meio, entre

outras e, ainda, em resposta, às alterações podem reprogramar esta modulação gênica, através

de sua capacidade bioquímica (CAUSTON et al, 2001). Assim, se torna uma questão de suma

importância compreender os mecanismos que controlam e os elementos característicos

envolvidos na modulação dos genes das diferentes fases do desenvolvimento.

1.1. Expressão gênica

Para estudo do transcriptoma, termo adotado para um conjunto de transcritos gênicos

(produto da modulação) (KATAYAMA et al, 2005), já foram desenvolvidas várias técnicas,

dentre elas estão o sequenciamento aleatório e parcial de um grande número de clones em

bibliotecas de cDNA, (ADAMS et al, 1991) e os microarranjos (do inglês microarray) de

oligonucleotídeos ou DNA (SCHENA et al, 1995). Essas técnicas permitem a obtenção rápida

e paralela de quantidade, com boa qualidade, de transcritos de milhares de genes em um único

experimento, o que pode favorecer o entendimento das funções e interpretações de

regulações.

1.1.1. Expressed Sequence Tags (EST)

A técnica de sequenciamento parcial e aleatório dos clones das bibliotecas de cDNA é

uma maneira de obter informações da expressão gênica. Esta se baseia no sequenciamento de

fragmentos de DNA (400 – 650pb), a partir das extremidades (3’ e/ou 5’), obtidos pela

clonagem de transcritos. A sequência nucleotídica destes fragmentos é obtida pelo

processamento de máquinas sequenciadoras automáticas (SMITH et al, 1986) e são

Introdução

denominados Etiquetas de Sequências Expressas (do inglês Expressed Sequence Tags [EST])

(ADAMS et al, 1991). Vários genomas de organismos, sejam eles parciais ou completos,

foram obtidos através dessa técnica, que provou ser útil para os estudos da expressão gênica,

anotação funcional, dentre outras (GOLDMAN et al, 2003; RUDD, 2003).

O crescimento da utilização dessa técnica para obtenção de ESTs de diferentes

organismos motivou o desenvolvimento de uma base pública de dados denominada GenBank

(BOGUSKI et al, 1993) e para uma melhor classificação foi em seguida criado o dbEST, um

banco de dados específico para ESTs (<http://www.ncbi.nlm.nih.gov/projects/dbEST>). Com

a disponibilidade destas ESTs foi possível esboçar análises do genoma funcional de vários

organismos (GERHOLD; CASKEY, 1996). As ESTs ainda podem ser utilizadas pela técnica

de microarray, depois que amplificadas por Polimerase Chain Reaction (PCR).

1.1.2. Microarray

Desenvolvida na década de 1990, a tecnologia de microarray proporcionou uma

revolução na forma como os genes eram estudados. Ela permite a análise da expressão de

milhares de genes, simultaneamente, e identificação de padrões de expressão gênica

relacionados à fisiologia celular. Assim, é possível observar quais genes tem modulação

aumentada (induzidos) e diminuída (reprimidos) quando as células crescem, dividem ou

respondem a determinados estímulos (SCHENA et al., 1995).

Experimentos de microarray envolvem a comparação de duas condições biológicas,

geralmente células em estado normal e células em um estado adverso (ex: choque térmico,

tumor, entre outros) (STOUGHTON, 2005). Para esta verificação, um tipo de célula é

marcado com fluoróforo verde e outro marcado com fluoróforo vermelho, em seguida estes

cDNAs são misturados e, em seguida, hibridizados a milhares de genes ou fragmentos, os

quais foram previamente fixados de forma precisa e ordenada, por um braço mecânico, na

superfície de um suporte sólido (lâminas de vidro ou náilon). Para determinar a intensidade da

fluorescência de cada ponto na lâmina, elas são analisadas por uma máquina através de

varredura digital. Esta relação de fluorescência dos elementos na lâmina permite determinar

os níveis relativos de expressão dos genes nos dois tipos de células.

Com o uso de microarrays de DNA pode-se medir as alterações nas taxas de

transcrição, que ocorrem em quase todos os genes numa determinada célula durante, por

exemplo, seu desenvolvimento, em resposta a perturbações experimentais, deleções gênicas,

Introdução

entre outras (BRENTANI et al, 2005; KIM et al, 2001; STOUGHTON, 2005). Pesquisadores

utilizam esta técnica para pesquisa sobre genomas de diversos organismos, dentre eles fungos.

Microarrays contendo genes de levedura foram utilizados em várias análises, como a

comparação da expressão gênica de células crescidas em meio contendo glicose (DERISI et

al, 1997), também na identificação de genes fase-específica durante a transição dimórfica dos

fungos patogênicos humanos Histoplasma capsulatum e Paracoccidioides brasiliensis (DE

GOUVÊA et al, 2008; HIRASAWA; FURUSAWA; SHIMIZU, 2010; NUNES et al, 2005).

Baseado em resultados da técnica de microarray, os agrupamentos de genes são

criados conforme suas modulações (indução ou repressão), dados os diversos tempos

amostrais dos experimentos realizados. Genes com modulações similares são dispostos mais

próximos uns dos outros em clados de uma estrutura em forma de dendrograma. Porém,

diversos mecanismos atuam nas modulações dos genes e, segundo Caddick e Dobson (2007),

o padrão de expressão não é, necessariamente, sincronizado. Agrupar genes com base no seu

perfil de expressão não diz como eles são regulados. Tal abordagem tem significantes

limitações. A regulação paralela de genes pode resultar em respostas similares originadas de

mecanismos, funcionalmente, diferentes. Suportado por esta declaração, mesmo que, vários

genes tenham suas modulações similares, não é garantido que o mesmo mecanismo seja o

atuante. Assim, quando uma determinada pesquisa objetiva hipotetizar os fatores de

transcrição atuantes na modulação de um ou grupo de genes, esse tipo de agrupamento pode

não ser o mais adequando, levando pesquisadores a interpretações equivocadas.

1.2. Fatores de transcrição

Fatores de transcrição (TF) é uma família de proteínas que desempenham um papel

importante na regulação da transcrição gênica. Elas se ligam a determinados pontos da

sequência de DNA, e por esta ligação controlam a transcrição da informação genética contida

no DNA em RNA, em resposta a estímulos específicos. A transcrição é um dos processos

mais amplamente estudados na biologia molecular (WASSERMAN; SANDELIN, 2004).

Pontos de ligação ao DNA são sequências curtas, entre 5 e 25 pares de bases de comprimento

(KARIN, 1990), com possíveis degenerações em seu padrão, chamados binding sites,

geralmente localizados anterior ao início do gene, estendendo-se por 800-1000 pares de bases,

em eucariotos inferiores; entretanto, não existe um consenso sobre isso. Após a transcrição, o

produto gerado é submetido, automaticamente, aos demais estágios da expressão gênica, tal

Introdução

como RNA splicing, resultando na produção da proteína correspondente (LATCHMAN,

1997).

O estudo das regiões regulatórias de genes, com padrões de transcrição similares,

revelaram a presença de sequências curtas de DNA comuns entre eles, o mesmo não foi

observado para genes que não tiveram o mesmo padrão de expressão. Por exemplo, genes

cuja transcrição é induzida em resposta a elevada temperatura contêm um elemento

regulatório comum conhecido como heat-shock (HSE), o qual é ausente em genes que não

mostram a mesma indução. A prova de que tais sequências são de crítica importância na

produção do transcrito gênico foram experimentos que transferiram o elemento HSE de um

gene induzível por temperatura para um gene de timidina kinase, que, normalmente, não é

induzível nesta condição. Esse gene híbrido foi introduzido em uma célula e a temperatura foi

elevada, logo se notou um aumento na produção de timidina kinase, indicando que o HSE foi

o indutor direto desse gene. Por este experimento, ficou provado que o elemento transferido é

um binding site de proteínas regulatórias conhecidas como TFs, as quais, alternativamente,

regulam a transcrição positiva ou negativamente do gene, de modo a produzir o efeito

observado na transcrição (LATCHMAN, 1995).

O mecanismo de ação do TF é a ligação ao DNA e sua influência na transcrição. A

análise detalhada de uma quantidade de TFs indicou que eles têm uma estrutura modular com

regiões específicas responsáveis por se ligarem ao DNA, enquanto outras regiões produzem

um efeito estimulatório ou inibitório a transcrição. Estudos sobre essas regiões de ligação, em

diferentes TFs, revelaram vários elementos, estruturalmente, distintos. Portanto, TFs são

frequentemente classificados com base em seus domínios. Os domínios são as porções do TF

que se ligam ao DNA, chamados DNA-binding domain, os mais bem caracterizados incluem:

 O motivo helix-turned-helix: composto de duas α hélices unidas por uma fita curta

de amino ácidos (WINTJENS; ROOMAN, 1996) (Figura 1);

Introdução

Figura 1. Exemplo de proteína helix-turned-helix. Obtida de Religa e colaboradores (2007).

 O motivo zinc finger: constitui uma proteína com uma pequeno trecho de 28-40

amino ácidos, contendo um domínio característico de duas cisteinas e duas

histidinas, a qual pode centralizar um ou mais íons de zinco (LAITY; LEE;

WRIGHT, 2001; PAPWORTH; KOLASINSKA; MINCZUK, 2006) (Figura 2);

Figura 2. Exemplo de proteína do tipo zinc finger. Imagem obtida de <http://en.wikipedia.org/wiki/File:

Zinc_finger_rendered.png>

 O motivo Basic Leucine Zipper Domain (bZIP domain): encontrado em muitos

domínios de ligação ao DNA de proteínas eucarióticas (VINSON et al., 2002)

(Figura 3)

Introdução

Figura 3. Exemplo de proteína bZIP. Imagem obtida de <http://upload.wikimedia.org/wikipedia/commons/

thumb/7/72/1FOS.png/300px-1FOS.png>

 O motivo basic helix-loop-helix (bHLH): formado por duas α hélices conectados

por um curto laço (LITTLEWOOD; EVAN, 1995) (Figura 4);

Figura 4. Exemplo de proteína motivo basic helix-loop-helix (bHLH). Imagem obtida de <http://en.wikipedia

.org/wiki/File:Basic_helix_loop_helix.png>

 O domínio homeodomain: se liga a sequências de DNA do tipo homeobox que, por

sua vez, codifica outros fatores de transcrição. Estas proteínas desempenham um

papel crítico na regulação do desenvolvimento (GEHRING; AFFOLTER;

BÜRGLIN, 1994) (Figura 5).

Introdução

Figura 5. Exemplo de proteína homeodomain. Figura obtida de Lynch e colaboradores (2006).

Muitos fatores de transcrição contêm regiões específicas, as quais são necessárias para

a ativação da transcrição. Estes domínios ativadores parecem funcionar por interagirem com

componentes do complexo transcricional basal. Este é um complexo de RNA polimerase II e

vários TFs, tais como TFIIB e TFIID, que são montados na região promotora do gene e

essenciais para que a transcrição ocorra. Estudos têm mostrado que domínios de ativação

interagem diretamente, com componentes deste complexo ou indiretamente, como moléculas

co-ativadoras, as quais, então, interagem com o complexo montado ou estimulam o seu nível

de atividade (Figura 6).

Introdução

Figura 6. Montagem e ativação de complexo de transcrição. Um ativador (A) ligado a seu binding site (ABS)

pode estimular a montagem com complexo transcricional basal consistindo de RNA polimerase e seus fatores

associados, ou estimular sua atividade uma vez que esteja montado. Figura adaptada de Latchman (1997).

No caminho inverso aos ativadores, estão os repressores da transcrição, que atuam

como inibidores da transcrição de genes específicos. Tais TFs inibidores mostraram atuar na

interferência de fatores que atuariam positivamente, bloqueando, assim, seu efeito

estimulatório a transcrição. Este efeito inibitório pode ser alcançado pelo impedimento da

ligação de fatores com ação positiva ao DNA via ação negativa do TF ligado ao DNA ou por

formação de um complexo proteína-proteína entre TFs que atuam positiva e negativamente.

Esses TFs inibitórios podem, assim, reduzir o nível de transcrição basal abaixo do observado

por interagir direta ou indiretamente com o complexo transcricional basal. Desta forma, eles

constituem uma antítese das moléculas de ativação. Portanto, o balanço entre a ligação de

ativadores e repressores transcricionais, às regiões regulatórias de genes, em particular, irá

determinar a taxa de sua transcrição em uma particular situação.

TFs podem ser regulados em dois níveis, chamados regulação da síntese de TF e

regulação da atividade de TF. Em uma variedade de diferentes situações, quando um TF é

sintetizado em um particular tecido ou tipo celular e não em outros tecidos, isto caracteriza

um tipo de regulação de síntese. A regulação da síntese de transcrição é um ponto de controle

Introdução

importante; entretanto, ele não pode ser o único mecanismo que controla a atividade dos TFs.

Se esse fosse o caso, o aumento da síntese de TFs em resposta a um particular estímulo seria

controlado pelo aumento da transcrição de seu gene correspondente, que por sua vez seria

requerido a de novo síntese de demais TFs, resultando, assim, na necessidade de transcrição

destes novos genes e assim por diante. Portanto, é necessário que exista um mecanismo

adicional o qual permita de novo transcrição de genes pela ativação de pré existentes TFs. A

ativação de TFs pré existentes pode ocorrer por diferentes mecanismos, o qual pode envolver

ligação ao DNA, alterações em interações proteína-proteína e fosforilação de TFs

(LATCHMAN, 2007).

Dado o importante papel dos TFs nos mais variados processos celulares, não seria

difícil relacionar alterações destes a causa de doenças. Uma quantidade de anormalidades no

desenvolvimento pode ser resultado de mutações que inativam ou super ativam TFs. Por

exemplo, mutações em genes da família POU que codificam o TF Pit-1 têm sido identificados

em pacientes com uma deficiência na glândula pituitária, pela qual não são produzidos os

hormônios do crescimento, prolactina e tirotropina, resultando em retardo mental e

crescimento deficiente (KELBERMAN et al, 2009; RADOVICK et al, 1992). Outra

deficiências já foram notadas em TFs das famílias PAX (TASSABEHJI et al, 1992; ZHOU et

al, 2008) e CBP (D’ARCANGELO; CURRAN, 1995; HALLAM; BOURTCHOULADZE,

2006; PETRIJ et al, 1995). O crescimento de células é controlado pela ativação de uma

variedade de proteínas que estimulam ou inibem o crescimento. O câncer pode surgir de um

aberrante aumento da ativação de genes específicos que codificam o crescimento. Estes genes

são conhecidos como oncogenes (JONES; THOMPSON, 2009; KOEFFLER; MCCORMICK;

DENNY, 1991). Similarmente, o câncer também pode surgir devido a inativação de proteínas

que inibem o crescimento, conhecidas como anti-oncogenes (KNUDSON, 1993;

MORANGE, 2007).

1.3. Agrupamento

Tal como uma técnica explorativa, a análise por agrupamento fornece uma descrição

ou uma redução na dimensão dos dados. Ela dispõe um conjunto de observações em dois ou

mais grupos desconhecidos, mutualmente exclusivos, baseado na combinação de variáveis.

Seu objetivo é construir grupos de forma que os perfis dos objetos de um mesmo grupo sejam

relativamente homogêneos, enquanto os perfis de objetos de diferentes grupos são

Introdução

relativamente heterogêneos, geralmente dispostos em forma de dendrograma

(HIERARCHICAL CLUSTERING, 2010; MANNING; RAGHAVAN; SCHÜTZE, 2009;

XPLORE, 2010).

Agrupamento de dados não requer informações a priori, isto é, não há quantidade de

grupos ou regra pré-determinada. Estes têm de ser descobertos a partir dos dados fornecidos

sem qualquer referência ou treinamento. A técnica de agrupamento de dados permite

diferentes escolhas relacionadas à natureza do algoritmo para combinação de dados em

grupos. Em geral as técnicas de agrupamento são dividas em hierárquica e não hierárquica.

Exemplos de técnicas hierárquicas são single linkage, complete linkage, average linkage,

median e ward (CLUSTERING, 2010; FRANCETIC, 2010; JAIN; MURTY; FLYNN, 1999).

A determinação do algoritmo mais adequado ao conjunto de dados é dependente do tipo de

dados disponíveis e do propósito da análise. Portanto, é melhor executar mais de um

algoritmo e analisar e comparar os resultados cuidadosamente. Uma forma mais objetiva de

análises é através das simulações pelas quais pode ser observada a estabilidade dos grupos

(XPLORE, 2010).

As distâncias entre pontos desempenham um importante papel no agrupamento de

dados. Existem várias medidas de distância, como Euclidiana, diagonal, Mahalanobis. A

medida ou métrica de distância deve ser cuidadosamente escolhida, considerando a correlação

entre as variáveis. A métrica Euclidiana não deve ser utilizada onde diferentes atributos têm

ampla variação dos valores médios e desvio padrão, uma vez que quantidade e valores

maiores em um dado atributo irão prevalecer sobre outros menores. Com as métricas diagonal

e Mahalanobis, os dados de entrada têm de ser convertidos antes do uso. Para utilização da

métrica diagonal o conjunto de dados deve ser modificado de modo com que todos os

atributos tenham igual variância. Enquanto para a métrica de Mahalanobis o conjunto de

dados deve ser modificado de forma que todos os atributos tenham médias zero e variância

unitária (DE MAESSCHALCK; JOUAN-RIMBAUD; MASSART, 2000).

Em qualquer estágio do procedimento de agrupamento hierárquico, esta técnica

executa a união ou divisão daquele que foi dado como grupo em um estágio anterior. Assim,

conceitualmente, irá dar origem a uma árvore como estrutura do processo de agrupamento.

Desta forma os grupos estruturados em qualquer fase não se sobrepõem ou são mutualmente

exclusivos. Os resultados deste método podem ser dispostos em forma de dendrograma. Esta

estrutura é um diagrama em forma de árvore que pode descrever as uniões e divisões que

foram feitas nos sucessivos níveis de agrupamento (XPLORE, 2010).

O método Ward (WARD, 1963) propõe um procedimento de agrupamento buscando

Introdução

formar partições, de uma maneira que minimize a perda associada a cada agrupamento e a

quantifique de uma forma facilmente interpretável. Ward definiu a informação de perda sob

termos do critério da soma do quadrado do erro. A principal diferença entre o método de Ward

e métodos de linkage consiste no procedimento de unificação. Linkage não une os grupos com

pequenas distâncias, mas ele junta grupos que não aumentem muito a partir de uma medida de

heterogeneidade. O propósito do método de Ward é unificar grupos tal que a variação dentro

destes grupos não é aumentada tão drasticamente, assim os grupos resultantes de um

agrupamento são os mais homogêneos possíveis.

1.4. Algoritmos de busca de motifs

O genoma representa a forma mais completa da informação hereditária dos

organismos. Codificado por DNA, o genoma é composto de trechos que codificam genes e de

trechos não codificantes. Estes trechos que codificam genes são aqueles que serão lidos pela

maquinaria de transcrição, através da qual serão gerados aos transcritos, também conhecidos

por RNA mensageiros (RNAm). Após passarem por um processo de amadurecimento,

promovido por splicings alternativos, são secretados para o citoplasma, onde os RNAm são

lidos e traduzidos em proteínas, pelos ribossomos. Muitas dessas proteínas da família dos

fatores de transcrição.

A parte não codificante, geralmente entre genes ou conjunto deles, é chamada região

intergênica. Constituída por trechos de DNA com poucos ou nenhum gene e, em uma

observação mais minuciosa, alguns destes trechos podem ser responsáveis pelo controle da

expressão de genes próximos, neste caso, chamados de região promotora. Ainda que, não

exista um consenso, para eucariotos inferiores (ex: fungos), é estimada que esta região

promotora seja constituída de 800 até 1.000 bases nucléicas (bp), e esteja localizada,

imediatamente, anterior ao trecho que codifica o gene (região cis reguladora).

Nestas regiões cis reguladoras encontram-se os motifs. Estes são trechos curtos, entre 5

e 25 bp, onde, por seus domínios, se ligam as proteínas da família fatores de transcrição,

chamados sítios de ligação dos fatores de transcrição (transcription factor binding sites;

TFBS). Há mais de três décadas, pesquisadores buscam por estes motifs (SANDVE;

DRABLOS, 2006). Para tal, diversos algoritmos foram escritos, os primeiros métodos foram

baseados em consenso. Que consiste na busca trechos similares em grupos de sequências,

permitindo ou não variações nos comprimentos e/ou nas posições. Os trechos comuns

Introdução

encontrados, assumidos como motifs, são, então, alinhados a um perfil correspondente, que

recebem uma pontuação. Assim, é gerado um novo consenso, o qual é considerado um

possível ponto de ligação para o fator de transcrição (PAVESI; MAURI; PESOLE, 2004).

Após o surgimento da técnica de microarray (KULESH et al, 1987; SCHENA et al,

1995) criou-se a possibilidade de que fossem gerados agrupamentos com base na expressão

desses genes, por agrupamento hierárquico ou k-means. Com base nestes, a busca por motifs,

passou a ser feita em grupos de genes com modulações similares, porém, a expressão gênica

pode ser originada por mecanismos funcionalmente diferentes. Considerando esse

comportamento, pesquisadores desenvolveram novos tipos de algoritmos, baseados em

probabilidade conjunta (HOLMES; BRUNO, 2000), os quais esboçam um modelo para a

relação sequência-expressão que usam o algoritmo de Gibbs (LAWRENCE et al, 1993) e

expectation/maximazation (DEMPSTER; LAIRD; RUBIM, 1977). Uma visão diferenciada

proporcionou o desenvolvimento um algoritmo que usa expressão logarítmica, que considera

conjuntos únicos de razões de expressões e retorna motifs estatisticamente significantes

(BUSSEMAKER; LI; SIGGIA, 2001).

Seguindo a linha do tempo, nova abordagem possibilitou a criação de um algoritmo

que usa matriz e regressão de expressão, o qual reconhece motifs em mudanças de expressão

sob determinadas condições (CONLON et al, 2003). A utilização de parâmetros a priori,

também, inspiraram algoritmos, estes consideram algum conhecimento ou expectativa prévia

sobre os conjuntos de dados, os quais podem ser pré-requisitos para quaisquer tipos de

algoritmos relacionados acima (PAVESI; MAURI; PESOLE, 2004). Da mesma forma, um

conjunto de dados utilizado como background, funcionando como controle negativo, também

seria um parâmetro adicional, visando a obtenção de resultados diferenciados (GANESH;

SIEGELE; IOERGER, 2003).

Utilizando comparação genômica, foram buscadas regiões e elementos

filogeneticamente conservados entre genomas de humano, diferentes raças de ratos e cães

para criar uma catálogo sistemático de motifs comuns em regiões promotoras. Uma

abordagem foi desenvolvida e aplicada para calcular e estatisticamente avaliar o perfil de

conservação de múltiplas sequências alinhadas de espécies próximo relacionadas

(DERMITZAKIS; REYMOND; ANTONARAKIS, 2005; OVCHARENKO; BOFFELLI;

LOOTS, 2004). Métodos mais avançados tendem a integrar múltiplos métodos

computacionais e dados experimentais. Em uma abordagem chamada seqVISTA,

pesquisadores integraram dados de CHIP-on-chip, motifs e microarray (HU et al, 2006;

LEMMENS et al, 2006).

Objetivos

2. Objetivos

Desenvolver uma metodologia de agrupamento de genes utilizando os fatores de

transcrição (TF) que demonstram interação com suas regiões promotoras e com modulação

positiva (induzidos) em experimentos de microarray, através da qual seja possível inferir TFs

atuantes na síntese de conjuntos de genes.

Metodologia

3. Metodologia

A Figura 7 demonstra todo o fluxo de processamentos da metodologia deste trabalho.

Figura 7. Fluxograma demonstrando todo o fluxo de processamentos da metodologia proposta.

Metodologia

3.1. Recursos computacionais

O computador servidor – Hewlett-Packard (HP), modelo ProLiant ML150 – utilizado

para execução dos processamentos in silico, possui como configuração de hardware:

processador Intel Xeon 3.2 gigahertz (GHz), corpo duplo (dual core), bi-processado; 2

gigabytes (GB) de memória Random Access Memory (RAM) e 4 Hard Disk (HD) de 160 GB.

Como configuração de software (utilizados neste trabalho): sistema operacional (SO)

GNU/Linux Fedora 6, kernel versão 2.6.22.7-57.fc6; linguagem de programação script

Practical Extraction and Report Language (Perl), versão 5.8.8; linguagem de processamentos

estatísticos e gráficos R, versão 2.9.0. Acessado remotamente por Secure Shell (SSH).

3.2. Dados do experimento alpha-factor

O experimento chamado alpha-factor foi obtido da cepa DBY8724, genótipo MATa

GAL2 ura3 bar1::URA3. Esta foi crescida em meio Yeast Extract Phosphate (YEP) a base de

glucose, quando uma amostra assíncrona foi retirada, em seguida foi adicionado alpha-factor

(feromônio) para sincronização/paralisação do ciclo celular na fase G1. A levedura tem dois

tipos sexuais, a e  (genótipos MATa e MAT



, respectivamente) que se fundem para formar

um diplóide MATa/MAT



. Assim que as células MATa são expostas ao alpha-factor (o

feromônio purificado do tipo sexual oposto), entram em um processo reversível de

diferenciação celular, quando células em crescimento vegetativo adquirem características de

gametas. Então, elas cessam a divisão e começam a se alongar em direção a maior

concentração de feromônio, formando uma estrutura denominada projeção de cruzamento

(BARDWELL, 2004).

As células de leveduras são não-móveis; elas possuem uma parede rígida e não podem

formar filopódios, como alguns protozoários. Esta morfogênese quimiotrófica envolve uma

série de modificações na parede celular. Proteínas envolvidas em sinalização, polarização,

adesão celular e fusão são localizadas na projeção de cruzamento (BULAWA, 1993; GUSTIN

et al, 1998). Por outro lado, no caminho de resposta da levedura, retroalimentações negativas

operam em muitos níveis para promover a dessensibilização/adaptação e recuperação. Estes

mecanismos de retroalimentação negativa, fosforilação e desfosforilação exercem papel

crucial na modulação da intensidade do sinal.

Metodologia

Após 120 minutos o feromônio (alpha-factor) foi retirado por meio de centrifugação e,

a cada 7 minutos, durante os 140 correntes próximos minutos (0, 7, 14, 21, 28, 35, 42, 49, 56,

63, 70, 77, 84, 91, 98 105, 112 e 119 minutos), amostras foram retiradas para análises de

conteúdo do DNA. O RNA foi extraído de cada amostra coletada, assim como a amostra

controle (culturas assíncronas das mesmas células exponencialmente crescentes, na mesma

temperatura e mesmo meio de cultura). O cDNA foi marcado com reagente fluorescente (Cy3

[verde] para amostras controle e Cy5 [vermelho] para amostras experimentais). Em seguida,

eles foram misturados e, competitivamente hibridizados em lâmina de microarray contendo

essencialmente todos os genes de levedura (DE-RISI et al, 1997). A razão do experimento

(vermelho) para o controle (verde) foi medida por microscopia de varredura laser (SHALON

et al, 1996).

3.3. Valores de modulação

Foi utilizado, como conjunto de dados de entrada, um arquivo tabulado (RAWDATA,

2008), contendo os resultados, obtidos pela técnica de microarray, oriundos dos experimentos

de Spellman e colaboradores, 1998. Este arquivo contém valores de modulação de 6.178

genes em diferentes condições experimentais. Para o conjunto de dados, referentes ao

experimento chamado alpha factor, foram selecionados todos os 18 pontos amostrais. Neste

experimento, os pesquisadores identificaram 800 genes envolvidos em ciclo celular

(CELLCYCLE, 2008), dos quais, foram extraídos os valores de modulação gênica referentes

a alpha factor, disponíveis na tabela RAWDATA (2008), para cada um dos pontos amostrais

selecionados. Os resultados foram armazenados em arquivos tabulados individuais,

denominados Tabela de valores de modulação refinada (TVMR) (Figura 8).

Metodologia

Figura 8. Fragmento exemplo de arquivo tabulado (TVMR) que contém o conjunto de dados de genes

transcritos e seus valores de modulação gênicas nos diversos tempos amostrais, para alpha factor.

3.4. Fatores de transcrição

A cada gene modulado foi relacionado a atuação de um ou mais fatores de transcrição

(TF) com sua região promotora. Existem aqueles TFs que tem atuação inferida por

processamento in silico e, aqueles cuja interação com a região promotora do gene alvo já foi

comprovada por experimentos em bancada, e posterior divulgação em literatura científica, que

são referidos como documentados. Estes TFs documentados, foram obtidos do web site Yeast

Search for Transcriptional Regulators And Consensus Tracking (YEASTRACT, 2010), onde

estão disponíveis, como arquivo em formato tabulado (FLATFILES, 2008). Este arquivo foi

processado, com base na lista dos 800 genes contidos no arquivo TVMR, gerando um novo

arquivo, também, em formato tabulado, com a relação dos TFs que interagem com estes

genes, chamado Tabela de fatores de transcrição refinada (TTFR) (Figura 9). Genes sem TFs

documentados foram desconsiderados.

Metodologia

Figura 9. Fragmento exemplo de arquivo tabulado (TTFR) contendo TFs documentados que interagem com a

região promotora dos genes.

As funções inferidas aos TF foram obtidas do conteúdo disponibilizado pelo serviço

Locus Information, localizado no web site do YEASTRACT (LOCUS INFORMATION,

2008), de onde foram capturadas as informações contidas nos itens: Standard Name (ex:

SOK2); Systematic Name (ex: YMR016C) e Description (função inferida). O armazenamento

destas informações foi feito em arquivo, formato tabulado, chamado de Tabela de funções

inferidas (TFI) (Figura 10).

Figura 10. Fragmento exemplo de arquivo tabulado (TFI) contendo os TFs e suas funções inferidas obtidas,

por acesso remoto, do site YEASTRACT.

Metodologia

3.5. Secção acumulativa

Para gerar as tabelas acumuladas, um script recebeu como conjunto de dados de

entrada a tabela RAWDATA (2008) e, desta selecionou, acumulativamente, os valores de

modulação referentes aos pontos amostrais, do primeiro até o último. Para alpha factor foram

criados 18 arquivos, formato tabulado, referentes aos 6.178 genes dos pontos amostrais 0 a

119 minutos. A cada processamento executado, correspondente a um tempo amostral, os

valores de modulação deste foram gravados em um novo arquivo. Estes arquivo foram

referenciados como Tabelas Acumulativas Completas (TAC). Por exemplo, o arquivo

tabulado referente ao tempo amostral alpha factor 49 minutos acumula todos os valores de

modulação dos tempos amostrais anteriores (0, 7, 14, 21, 28, 35, 42 minutos), inclusive os

valores do corrente. Seguindo esta dinâmica, o arquivo tabulado referente ao tempo amostral

0 minuto contêm somente os valores de modulação deste tempo. Enquanto, o arquivo

tabulado referente ao tempo amostral 119 minutos contêm todos os valores de modulação de

todos os tempos amostrais. Os mesmos processamentos foram aplicados para o arquivo

tabulado TVMR, o qual contêm os valores de modulação referentes aos genes envolvidos em

ciclo celular. Tais dados geraram os arquivos tabulados referenciados como Tabelas

Acumulativas Refinadas (TAR) (Figura 11).

Figura 11. Fragmento exemplo da criação de tabelas cumulativas, através do processamento dos

conjuntos de dados RAWDATA (2008) e TVMR, nos diversos tempos amostrais do experimento alpha

factor .

Metodologia

3.6. Seleção dos genes

Foram selecionados, do arquivo TAR de alpha factor, como induzidos, aqueles genes

cujo seu valor de modulação, no tempo amostral corrente, fosse igual ou superior a 0,5 (x



0,5). Para estes também deveria existir uma quantidade mínima de valores de modulação dos

pontos amostrais considerados, dado por:

MMU = int(qtd

/ 2) + 1 (1)

Onde qtd

é a quantidade de valores de modulação para o gene i do primeiro ponto

amostral até o ponto amostral j (ponto corrente). É importante notar que o conjunto original

de dados era incompleto, estando ausentes vários valores de modulação. A equação 1 foi

usada para seleção de um número de valores de modulação suficientes para a construção da

matriz de distâncias (seções 3.8 e 3.10). Seguindo esta regra, por exemplo, para um

determinado gene do tempo amostral alpha factor 49 minutos (oitavo tempo amostral)

deveriam existir, no mínimo, 5 (cinco) valores de modulação. Os genes que não preencheram

este requisito foram desconsiderados (Figura 12). Foi desenvolvido um script que tornou o

processo de seleção e gravação dos dados em arquivos, formato tabulado, chamados Tabelas

Acumulativas Refinadas Selecionadas (TARS), automatizado.

Figura 12. Fragmento exemplo da seleção de genes em TVMR, que demonstraram valor de modulação  0,5,

no ponto amostral corrente e metade mais um (MMU) dos tempos amostrais analisados, para alpha factor.

Metodologia

3.7. Sincronização

Para que os dados estivessem disponíveis de forma completa (nome do gene, valores

de modulação e fatores de transcrição), a cada processamento, relativo ao tempo amostral

corrente, foi feita a sincronização de TFs e valores de modulação, utilizando os arquivos

tabulados TARS e TTFR. Os arquivos gerados foram gravados em formato tabulado,

chamados Tabela de Dados Sincronizados (TDS). Por este procedimento, aqueles genes que

não satisfizeram as regras para valores de modulação (seção 3.6) foram eliminados, mesmo

que tivessem TFs documentados relacionados e vice-versa (seção 3.4). As regras deste

algoritmo foram implementadas em script, o qual automatizou o processamento e garantiu

que todos os dados, a partir de então, estivessem aptos aos demais processamentos (Figura

13).

Figura 13. Fragmento exemplo da sincronização de dados entre valores de modulações e TFs, chamados TDS,

nos diversos tempos amostrais corrente para alpha factor . A coluna em destaque evidencia o tempo amostral

corrente.

Metodologia

3.8. Agrupamento de genes por valores de modulação

Para cada tempo amostral, a partir do terceiro (14 minutos em alpha factor) até o

tempo amostral corrente, foi criada uma matriz de distâncias referente, utilizando os valores

de modulação dos arquivos tabulados TDS. Para confecção desta matriz foi utilizada a função

dist, da linguagem de processamentos estatísticos e gráficos R (R, 2008), configurado o

método euclidiano, dado pela equação:

(2)

Onde p e q são os genes comparados a cada momento. Cada valor da matriz de

distâncias foi dividido pelo maior valor desta matriz, para que estas distâncias não

ultrapassassem o intervalo [0,1], utilizando a função max. Pelos valores da matriz, foi feito o

agrupamento hierárquico (do inglês hierarchical clustering), utilizando a função hclust,

configurado o método ward (visa a mínima variância buscando grupos compactos), e por fim

a função plot, para gerar os dendrogramas (R, 2008).

3.9. Matriz de presença/ausência de TFs

A cada tempo amostral, a partir do terceiro, para os genes constantes em TDS (sessão

3.7), foi resgatada a diversidade não redundante de todos os TFs, que dispostos de forma

alfabética crescente, foram utilizados como rótulo de colunas. Individualmente, para os genes

analisados, oriundo de TDS, foram resgatados os respectivos TFs. Em seguida, foram obtidos

os Systematic names (arquivo TFI) e, assim, checados os valores de modulação dos genes

responsáveis pela síntese destes TFs, no arquivo tabulado TAC do tempo amostral corrente.

Àqueles TFs, cujos genes sintetizadores demonstraram, no mínimo, um valor de modulação

igual ou superior a 0,5 (x

 0,5), o bit 1 (um) foi atribuído a célula (formada pelo encontro do

gene [linha] com o TF [coluna]) correspondente. O bit 1 indica a presença ativa do TFs para o

gene. Por exemplo, tomado o gene YDR307W, no quinto tempo amostral alpha factor (28

minutos), a ele estão relacionados os TFs Pho2 e Yap1. Para estes dois foram resgatados os

genes responsáveis (Systematic names) por suas sínteses (YDL106C para Pho2 e YML007W

Metodologia

para Yap1). Foram então, avaliadas individualmente suas modulações nos tempos amostrais,

desde o primeiro (0 minuto) até o corrente (28 minutos), buscando por valores iguais ou

superiores a 0,5. Quando encontrado, foi atribuído bit 1 (um) à célula correspondente. Em

caso negativo, foi atribuído bit 0 (zero) (Figura 14).

Figura 14. Exemplo da construção da matriz de presença/ausência.

Em TDS, no tempo amostral 3, os VM3 de

todos os genes são  0,5 (cor vermelha). Os TFs dos genes foram checados em TCC por, no mínimo, um valor

de modulação  0,5. Quando encontrado, o TF relativo ao gene recebeu o bit

1 na matriz. Caso negativo,

recebeu bit zero.

Para aqueles TFs, cujo genes sintetizadores não foram encontrados ou modulados

iguais ou superiores a 0,5, foram atribuídos o bit 0 (zero) às células. Implementadas tais

regras em um script, cada gene ganhou uma sequência de zeros e uns referentes a seus TFs, e

assim, foi montada uma matriz de presença/ausência de TFs para cada tempo amostral, que

foram gravadas em arquivos, formato tabulado, chamados Tabela Presença Ausência (TPA)

(Figura 15).

Metodologia

Figura 15. Fragmento exemplo de matriz de presença/ausência referentes aos TFs atribuídos a cada gene,

para os diversos tempos amostrais em alpha factor. O bit 1 representa a presença do TF para o gene e bit

0 representa a ausência.

3.10. Agrupamento de genes por TFs

Utilizando o conteúdo dos arquivos tabulados TPA para cada tempo amostral, foram

criadas matrizes de distâncias. As distâncias foram calculadas pela função dist.binary, pacote

ade4 (DRAY; DUFOUR; CHESSEL, 2007), que utiliza o coeficiente de Gower & Legendre

(GOWER; LEGENDRE, 1986), dada pela equação:

d(i,j) = a / (a + b + c + d) (3)

Onde a: i = 1 e j = 1; b: i = 1 e j = 0; c: i = 0 e j = 1 e d: i = 0 e j = 0. A partir da matriz

de distâncias, os processamentos foram os mesmos da seção 3.8.

3.11. Subgrupos

Para efeitos de análises individualizadas, o dendrograma gerado para cada tempo

amostral, foi seccionado. Assim, foi criada uma quantidade tal de subgrupos (sub-árvores),

cujo critério de corte (divisão) foi que cada um destes contivesse, no mínimo, 3 genes

(Systematic names). Este processamento foi realizado utilizando a função rect.hclust (R,

2008). Esta função evidência os subgrupos na figura do dendrograma. Para que fosse

Metodologia

adicionada numeração crescente, relacionada aos subgrupos criados, ela teve seu código fonte

modificado. Este procedimento gerou vários arquivos individualizados, contendo os

Systematic names dos genes, em cada tempo amostral, os quais foram gravados em diretórios

correspondentes aos tempos amostrais. Esta secção de dendrogramas foi aplicada aos

agrupamentos obtidos pelos dois diferentes métodos (Figura 16).

Figura 16. Exemplo de subgrupos e numeração, baseado no dendrograma de agrupamento, considerando

o critério de, no mínimo, 3 genes por subgrupo para os diversos tempos amostrais de alpha factor.

Em seguida a criação destes arquivos individualizados, contendo os Systematic names

dos genes dos subgrupos, foram inseridas informações adicionais, relativas aos genes, como:

modulação mínima e máxima; TFs e suas funções inferidas. Foram, também, calculadas as

participações dos TFs para os genes dos subgrupos, e disponibilizadas em forma de razão e

porcentagem.

Metodologia

3.12. Correlações entre os métodos de agrupamento

Tomados como referência os subgrupos gerados pelo agrupamento por TFs (ATF), os

genes destes, foram buscados nos subgrupos gerados pelo agrupamento por valores de

modulação (AVM), para cada um dos tempos amostrais. Por exemplo, para o tempo amostral

21 minutos, foram tomados os genes do subgrupo 1 de ATF. Estes foram buscados em todos

os subgrupos gerados por AVM, do mesmo tempo amostral. Desta forma, o subgrupo 1 de

ATF foi comparado com todos os subgrupos de AVM e o mesmo acontece para os demais

subgrupos de ATF (Figura 17). O desenvolvimento e implementação do algoritmo, para

comparações, em um script tornou o processo automatizado.

Figura 17. Exemplo da correlação entre os subgrupos criados por ATF e AVM, para os diversos tempos

amostrais de alpha factor. Genes de subgrupos criado em ATF podem estar em diferentes subgrupos de

AVM e vice-versa.

3.13. Classificação funcional dos genes

Para conhecer a diversidade biológica funcional dos genes nos subgrupos, foi acessado

o web site Munich Information Center for Protein Sequences (MIPS), que mantém o banco de

dados Comprehensive Yeast Genome Database (CYGD), o qual disponibiliza o serviço

Functional Classification of Proteins (funCat; FUNCAT, 2008), de onde foi obtido o arquivo

com a relação gene/categoria funcional. O funCat categoriza cada gene em uma ou mais

categorias, com vários níveis de especificações. Entretanto, para esta análise foram utilizadas

somente as categorias mais generalistas.

Metodologia

3.14. Embaralhamento dos genes

Almejando verificar se os agrupamentos foram consistentes, realmente dispondo os

genes mais relacionados nos mesmos subgrupos e não uma obra ao acaso, seja para

agrupamento obtido por ATF ou AVM, foi realizado o embaralhamento destes genes. Depois

que todos os genes já estavam dispostos em subgrupos, eles foram remanejados,

aleatoriamente, 2.000 vezes. Porém, a quantidade inicial de subgrupos foi mantida. Todos os

procedimentos descritos na sessão 3.11 foram refeitos e a maior porcentagem, de cada

subgrupo, foi capturada e gravada em arquivo, em formato tabulado, chamado Tabela

Resultado Embaralhamento (TRE). Para cada tempo amostral, foram realizadas 1.000

iterações. O arquivo TRE, de cada iteração, teve seus resultados somados, e por este, foi

posicionado, de forma decrescente, em arquivo tabulado, único, contendo os 1.000 registros,

chamado Tabela Resultados Embaralhamento Geral (TREG).

3.15. Representação gráfica linear

A fim de facilitar a visualização dos resultados a cada tempo amostral e, também,

permitir a comparação dos resultados obtidos por ATF, AVM e embaralhamentos, foi extraído

de cada subgrupo a melhor participação de um TF (porcentagem). Para subgrupos gerados por

embaralhamento, foram extraídos os 5 primeiros e os 5 últimos registros em TREG. Estes

valores foram disponibilizados em um arquivo, formato tabulado. A partir do qual, um script

gerou o gráfico de linhas, que dispõe na abscissa a quantidade de subgrupos e na ordenada

valores de 0 a 100 relativos às porcentagens (Figura 18). No gráfico, a linha azul grossa

representa a melhor participação de um TF no subgrupo e as demais linhas finas representam

os 10 resultados de TREG.

Metodologia

Figura 18. Exemplo de gráfico de linhas que mostra a eficiência da distribuição de TFs nos subgrupos

pelos ATF ou AVM (linha grossa na cor azul) e embaralhamento (linhas finas), para alpha factor .

Resultados e discussões

4. Resultados e discussões

Para cada tempo amostral foi realizada a secção cumulativa do arquivo que contém os

valores de modulação dos genes, os quais, juntamente com o arquivo de TFs, foram

submetidos a todos os processos descritos no capítulo 3. Este seccionamento não é uma

abordagem usual em agrupamento de genes por valores de modulação, pois quanto maior a

quantidade de tempos amostrais, melhor para que o algoritmo teça relações mais estáveis

entre os genes e, assim, crie dendrogramas robustos e confiáveis (ERNST; BAR-JOSEPH,

2006). Contudo, este procedimento foi adotado para que se pudesse observar o

comportamento e desempenho da metodologia proposta (ATF), para diferentes conjuntos de

dados e, ainda, criar condições igualitárias de comparação entre os métodos. O Gráfico 1

demonstra a comparação dos resultados dos métodos, para os diversos tempos amostrais.

Nele, estão representadas as médias das porcentagens máximas, de cada subgrupo. Estas

porcentagens máximas, foram calculadas pela atuação de TFs na síntese de genes dos

subgrupos.

Comparativo da média das porcentagens máximas de subgrupos

de ATF e AVM, em

alpha factor

100

110

120

14min

21min

28min

35min

42min

49min

56min

63min

70min

77min

84min

91min

98min

105min

112min

119min

Tempos amostrais

Porcentagens médias

ATF

AVM

Gráfico 1. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas),

pelas

médias das porcentagens máximas dos subgrupos, para cada tempo amostral em alpha factor. A marcação

no topo de cada barra corresponde ao desvio padrão.

O Gráfico 1 demonstra que, de forma sistêmica, ATF alcançou médias de porcentagens

máximas maiores que AVM. Sendo, assim, mais eficiente no agrupamento de genes, em

Resultados e discussões

função do compartilhamento de TFs.

Na definição de subgrupos (Gráfico 2), ATF, também, demonstrou barras mais altas

que aquelas de AVM. Excetuando dois tempos amostrais (63 e 105 minutos), ATF criou mais

subgrupos por tempo amostral.

Comparativo da quantidade de subgrupos de ATF e AVM, em

alpha factor

14min

21min

28min

35min

42min

49min

56min

63min

70min

77min

84min

91min

98min

105min

112min

119min

Tempos amostrais

Qtds. subgrupos

ATF

AVM

Gráfico 2. Comparativo dos métodos de agrupamento ATF (barras azuis) e AVM (barras vermelhas) pelas

quantidades de subgrupos criados, para cada tempo amostral de alpha factor.

Poderia ser dito que, a criação de uma maior quantidade de subgrupos, concentrando

menos genes, os isolou de melhor forma, e propiciou o alcance de melhores máximas.

Entretanto, mesmo quando ATF gerou menos subgrupos (63 e 105 minutos) suas médias de

porcentagens máximas mantiveram-se mais altas.

Considerando todas as porcentagens de alpha factor, desde a maior até a menor, de

cada subgrupo e tempo amostral, o Gráfico 3 demonstra os desempenhos de ATF e AVM.

Resultados e discussões

As linhas do Gráfico 3 demonstram a diferença entre ATF e AVM, no que tange a

quantidade e porcentagens obtidas. ATF, utilizando o mesmo conjunto de dados que AVM,

obteve mais valores máximos e, ainda, quando estes valores declinaram, em ATF foi de uma

forma mais acentuada que AVM. Evidenciando que, a quantidade de TFs que não interagem

com todos os genes dos subgrupos é reduzida, em relação a AVM.

O procedimento de analisar cada um dos pontos amostrais foi repetitivo, o qual gerou

uma tamanha quantidade de resultados. Em virtude disto, foram abordados mais

detalhadamente, neste capítulo, apenas o tempo amostral alpha factor 119 minutos. Os

resultados relativos aos demais tempos amostrais, deste experimento, foram citados ao longo

do texto e relacionados no capítulo Apêndices.

4.1. Valores de modulação (VM)

Dos 800 genes, inicialmente selecionados no tempo amostral 119 minutos: 25 não

continham valores de modulação; 67 foram ≥ 0,5; 708 genes foram < 0,5. O histograma

apresentado no Gráfico 4, cujo intervalo de frequência foi definido pela equação de Scott

(TURLACH, 1993), demonstra a distribuição dos valores de modulação.

Comparativo de todas as porcentagens de subgrupos

de ATF e AVM, em

alpha factor

100

110

106

113

120

127

134

141

148

155

162

169

176

Quantidades

Porcentagens

ATF

AVM

Gráfico 3. Comparativo de todas as porcentagens obtidas em subgrupos de todos os tempos amostrais, por

ATF e AVM em apha factor.

Resultados e discussões

Gráfico 4. Histograma da distribuição de valores de modulação nos intervalos de frequência, segundo a

equação de Scott, para alpha factor 119 minutos.

Inicialmente, foram selecionados 67 genes com valores de modulação ≥ 0,5

(induzido). Para cada um destes (67), foram resgatados os fatores de transcrição induzidos e

com interações documentadas. Após a sincronização (capítulo 3, 66 genes se adequaram aos

requisitos (TFs e VMs). A estes 66 genes estavam relacionados 757 TFs, que depois de

checados suas induções, foram reduzidos a 349 (Apêndice A). O gene ausente na análise foi o

YCL013W, que segundo o site Saccharomyces Genome Data base (SGD) (SGD, 2010), foi

excluído devido a correção de sequência.

Valores de expressão gênica são altamente sujeitos a ruídos, o que pode comprometer

a integridade da análise (CAMPITELI et al, 2009). Por este motivo, o valor 0,5, que

demonstra a medida da expressão gênica, resultado da equação log2(razão), em relação a um

valor referencial (zero) (SPELLMAN et al, 1998), foi eleito como o limiar para seleção dos

genes, como o menor valor, biologicamente, relevante para padronização do método ATF.

Este valor é, geralmente, escolhido de forma arbitrária (CAMPITELI et al, 2009).

4.2. Agrupamento por fatores de transcrição (ATF)

Tomados os 66 genes selecionados e os 349 TFs a eles relacionados, foi criada a

matriz de presença/ausência de TFs (Apêndice B). A partir desta, foi criada a matriz de

distâncias que, depois de normalizada, foi utilizada para confecção do dendrograma (Figura

19).

Resultados e discussões

Figura 19. Dendrograma criado por ATF, considerando os genes induzidos em 119 minutos do experimento

alpha factor.

Para uma análise mais detalhada das relações entre os genes, em função de TFs, foram

criados subgrupos. A quantidade destes, foi determinada por procedimento iterativo de divisão

do dendrograma, cuja condição de parada foi a quantidade mínima de 3 genes em algum(ns)

dos subgrupo(s), conforme ilustra a Figura 19, pelos retângulos de borda vermelha e detalhada

na Tabela 1.

Tabela 1 – Distribuição dos genes em subgrupos de ATF, para alpha factor 119 minutos

Id. do subgrupo Nro. no dendrograma Qtd. de genes

ATFa119sg01 1 17

ATFa119sg02 2 5

ATFa119sg03 3 9

ATFa119sg04 4 6

ATFa119sg05 5 7

ATFa119sg06 6 7

ATFa119sg07 7 5

ATFa119sg08 8 3

ATFa119sg09 9 7

Total 66

Satisfeita a condição de parada, foram criados, ao todo, 9 subgrupos. Alguns deles

(subgrupos 5, 6 e 9) contendo a mesma quantidade, 7 genes. Entretanto, de forma geral, a

distribuição foi bastante heterogênea.

4.2.1. ATFa119sg01

Para os 17 genes do subgrupo ATFa119sg01, foram isolados seus maior e menor VM

(Tabela 2).

Resultados e discussões

Tabela 2 – Genes e VMs do subgrupo ATFa119sg01

Systematic name Maior VM Menor VM

YML034W 0,76 -0,97

YGL021W 1,16 -1,39

YLR190W 1,19 -1,26

YML119W 1,21 -1,28

YNL058C 1,53 -1,81

YDR146C 0,75 -1,29

YJR092W 0,75 -1,10

YMR032W 1,28 -0,94

YPL155C 0,64 -0,84

YPL141C 1,13 -1,31

YHR023W 0,99 -1,19

YGR108W 1,20 -1,88

YPR156C 1,51 -1,86

YJL051W 1,17 -0,92

YGL116W 0,93 -0,77

YMR001C 1,22 -1,59

YPL242C 1,16 -1,13

Depois dos subgrupos formados e VMs detalhadas, foram resgatados: os TFs, as

anotações (Apêndice C), e efetuados os cálculos de interações dos TFs para com os genes

(Tabela 3).

Resultados e discussões

Tabela 3 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg01

TF Razão

Porcentagem

Systematic names

Fkh1 17/17

100,00 YML034W;YGL021W;YLR190W;YML119W;YNL058C;

YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;

YHR023W;YGR108W;YPR156C;YJL051W;YGL116W;

YMR001C; YPL242C

Fkh2 17/17

100,00 YML034W;YGL021W;YLR190W;YML119W;YNL058C;

YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;

YHR023W;YGR108W;YPR156C;YJL051W;YGL116W;

YMR001C; YPL242C

Mcm1

14/17

82,35 YGL021W;YLR190W;YML119W;YNL058C;YDR146C;

YJR092W;YMR032W;YHR023W;YGR108W;YPR156C;

YJL051W;YGL116W; YMR001C;YPL242C

Ste12 9/17 52,94 YDR146C;YJR092W;YMR032W;YPL155C;YPL141C;

YHR023W;YGR108W;YPR156C; YGL116W

Rap1 6/17 35,29 YLR190W;YDR146C;YJR092W;YGR108W; YJL051W;

YGL116W

Sok2 4/17 23,53 YDR146C;YHR023W;YGR108W;YPR156C

Ino4 3/17 17,65 YDR146C;YPL155C;YGL116W

Yox1 3/17 17,65 YGL116W;YMR001C;YPL242C

Reb1 3/17 17,65 YML119W;YDR146C;YMR001C

Swi4 2/17 11,76 YGR108W;YPR156C

Mbp1

2/17 11,76 YGR108W;YPL242C

Abf1 2/17 11,76 YMR032W;YPL242C

Stp2 1/17 5,88 YHR023W

Azf1 1/17 5,88 YDR146C

Rlm1 1/17 5,88 YNL058C

Cha4 1/17 5,88 YPL242C

Pho4 1/17 5,88 YJL051W

Ino2 1/17 5,88 YDR146C

Cin5 1/17 5,88 YML119W

Hap4 1/17 5,88 YML119W

Ash1 1/17 5,88 YJR092W

Ume6

1/17 5,88 YJL051W

Smp1

1/17 5,88 YGL116W

Bas1 1/17 5,88 YGL116W

Tec1 1/17 5,88 YPR156C

Pela observação da tabela 3, nota-se que Fkh1, anotado como fatores de transcrição da

família forkhead com um menor papel na expressão de genes da fase G2/M, além disso

regulam negativamente o alongamento da transcrição, possui um regulação positiva no

silenciamento da cromatina no HML e HMR e regula a preferência do doador durante a

mudança de fase (Forkhead family transcription factor with a minor role in the expression of

G2/M phase genes; negatively regulates transcriptional elongation; positive role in chromatin

silencing at HML and HMR; regulates donor preference during switching) e Fkh2, anotado

como fatores de transcrição da família forkhead com um maior papel na expressão de genes

da fase G2/M, além disso regulam positivamente o alongamento da transcrição, possui um

Resultados e discussões

regulação negativa no silenciamento da cromatina no HML e HMR e atua como substrato da

Quinase Cdc28p/Clb5p (Forkhead family transcription factor with a major role in the

expression of G2/M phase genes; positively regulates transcriptional elongation; negative

role in chromatin silencing at HML and HMR; substrate of the Cdc28p/Clb5p kinase)

(LOCUS INFORMATION, 2008), são os TFs mais ativos, interagindo com 100% dos genes.

4.2.2. ATFa119sg02

Os 5 genes que compõem o subgrupo ATFa119sg02, são (Tabela 4):

Tabela 4 - Genes e VMs do subgrupo ATFa119sg02

Systematic name Maior VM Menor VM

YOR315W 1.07 -1.09

YPR149W 1.44 -1.98

YPR013C 0.76 -0.28

YLR413W 0.82 -1.90

YBR054W 1.54 -1.84

Em seguida, foram anexados os TFs, as anotações (Apêndice C), e efetuados os

cálculos de interações dos TFs relativos aos genes (Tabela 5).

Resultados e discussões

Tabela 5 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg02

TF Razão

Porcentagem Systematic names

Sok2 5/5 100,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W

Ste12 5/5 100,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W

Yap6 5/5 100,00 YOR315W;YPR149W;YPR013C;YLR413W;YBR054W

Cin5 4/5 80,00 YOR315W;YPR013C;YLR413W;YBR054W

Swi4 4/5 80,00 YOR315W;YPR149W;YPR013C;YBR054W

Tec1 4/5 80,00 YOR315W;YPR149W;YPR013C;YLR413W

Stp2 3/5 60,00 YPR149W;YLR413W;YBR054W

Fkh2 3/5 60,00 YOR315W;YPR149W;YBR054W

Ino4 2/5 40,00 YOR315W;YPR013C

Phd1 2/5 40,00 YOR315W;YPR013C

Fkh1 2/5 40,00 YOR315W;YPR013C

Rap1 2/5 40,00 YOR315W;YPR149W

Azf1 1/5 20,00 YPR013C

Rlm1 1/5 20,00 YOR315W

Rgm1

1/5 20,00 YBR054W

Hap4 1/5 20,00 YBR054W

Sum1

1/5 20,00 YOR315W

Cup9 1/5 20,00 YPR013C

Hsf1 1/5 20,00 YBR054W

Mig1 1/5 20,00 YPR149W

Hcm1

1/5 20,00 YPR013C

Abf1 1/5 20,00 YBR054W

Mcm1

1/5 20,00 YOR315W

A Tabela 5 indica, que 3 TFs tem participação em todos os genes de ATFa119sg02:

Sok2, anotado como proteína nuclear que desempenha um papel regulador na AMP cíclico

(cAMP) dependentes da proteína quinase (PKA) na via de transdução de sinal; regula

negativamente a diferenciação da pseudohifa; homólogos a diversos fatores de transcrição

(Nuclear protein that plays a regulatory role in the cyclic AMP (cAMP)-dependent protein

kinase (PKA) signal transduction pathway; negatively regulates pseudohyphal differentiation;

homologous to several transcription factors); Ste12, anotado como fator de transcrição que é

ativado por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na

interação ou crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p

para regular os genes específicos para o crescimento invasivo (Transcription factor that is

activated by a MAP kinase signaling cascade, activates genes involved in mating or

pseudohyphal/invasive growth pathways; cooperates with Tec1p transcription factor to

regulate genes specific for invasive growth; e Yap6, anotado como provável fator de

transcrição formado por leucina básica de zipper (bZIP), aumenta a super-expressão de sódio

e lítio (Putative basic leucine zipper (bZIP) transcription factor; overexpression increases

Resultados e discussões

sodium and lithium tolerance) (LOCUS INFORMATION, 2008).

4.2.3. ATFa119sg03

Para o subgrupo ATFa119sg03 foram isolados 9 genes, com os seguintes VMs (Tabela

6):

Tabela 6 - Genes e VMs do subgrupo ATFa119sg03

Systematic name Maior VM Menor VM

YLR452C 2,41 -0,91

YKL185W 2,18 -1,5

YNL327W 2,71 -2,14

YKL164C 2,53 -2,24

YER145C 0,52 -1,12

YHR005C 0,99 -1,01

YDR055W 2,23 -1,46

YHL028W 0,73 -0,46

YBR202W 1,04 -1,21

Em seguida, para cada gene foram atribuídos seus TFs, totalizados e exibidos na

Tabela 7.

Resultados e discussões

Tabela 7 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg03

TF Razão

Porcentagem Systematic names

Sok2 9/9 100,00 YLR452C;YKL185W;YNL327W;YKL164C;YER145C;

YHR005C;YDR055W;YHL028W;YBR202W

Ste12 7/9 77,78 YLR452C;YKL164C;YER145C;YHR005C;YDR055W;

YHL028W;YBR202W

Mcm1

7/9 77,78 YLR452C;YKL185W;YNL327W;YKL164C;YHR005C;

YHL028W;YBR202W

Phd1 5/9 55,56 YKL164C;YER145C;YHR005C;YHL028W;YBR202W

Rap1 5/9 55,56 YLR452C;YNL327W;YER145C;YHL028W;YBR202W

Tec1 5/9 55,56 YKL164C;YER145C;YHR005C;YDR055W;YBR202W

Ace2 5/9 55,56 YKL185W;YNL327W;YKL164C;YDR055W;YHL028W

Swi5 4/9 44,44 YKL185W;YNL327W;YKL164C;YDR055W

Rlm1 3/9 33,33 YKL164C;YDR055W;YHL028W

Smp1 3/9 33,33 YKL185W;YKL164C;YHL028W

Swi4 2/9 22,22 YER145C;YDR055W

Mal33

1/9 11,11 YHL028W

Azf1 1/9 11,11 YNL327W

Pho4 1/9 11,11 YDR055W

Yox1 1/9 11,11 YBR202W

Hap4 1/9 11,11 YDR055W

Mig1 1/9 11,11 YHL028W

Hsf1 1/9 11,11 YHL028W

Ash1 1/9 11,11 YDR055W

Ume6

1/9 11,11 YDR055W

Abf1 1/9 11,11 YHL028W

Fkh2 1/9 11,11 YHL028W

Xbp1 1/9 11,11 YHL028W

O subgrupo ATFa119sg03 apresenta, apenas, Sok2 (abordados em ATFa119sg02),

seguindo Sok2, os TFs Ste12 e Mcm1 estão presentes em mais de 3/4 destes genes. Ste12, que,

também, foi abordado em ATFa119sg02, e Mcm1, anotado como fator de transcrição que

atuam em células específicas de transcrição e da resposta ao feromônio; desempenha um

papel central na formação de complexos ativadores e repressores (Transcription factor

involved in cell-type-specific transcription and pheromone response; plays a central role in

the formation of both repressor and activator complexes) (LOCUS INFORMATION, 2008).

Resultados e discussões

4.2.4. ATFa119sg04

Para ATFa119sg04 foram relacionados os seguintes genes (Tabela 8)

Tabela 8 - Genes e VMs do subgrupo ATFa119sg04

Systematic name Maior VM Menor VM

YDR033W 1.61 -1.96

YMR031C 0.63 -0.94

YJL157C 2.12 -1.41

YEL032W 0.98 -1.14

YLR274W 0.95 -0.84

YAR018C 0.82 -0.79

Em seguida, foram calculadas as interações do TFs com os seus genes (Tabela 9):

Tabela 9 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg04

TF Razão

Porcentagem Systematic names

Mcm1

6/6 100,00 YDR033W;YMR031C;YJL157C;YEL032W; YLR274W;YAR018C

Ste12 3/6 50,00 YMR031C;YJL157C;YEL032W

Fkh2 3/6 50,00 YDR033W;YMR031C;YAR018C

Yox1 3/6 50,00 YEL032W;YLR274W;YAR018C

Cin5 1/6 16,67 YDR033W

Reb1 1/6 16,67 YLR274W

A tabela 9, destaca Mcm1, anotado como fator de transcrição que atuam em células

específicas de transcrição e da resposta ao feromônio; desempenha um papel central na

formação de complexos ativadores e repressores (Transcription factor involved in cell-type-

specific transcription and pheromone response; plays a central role in the formation of both

repressor and activator complexes), que é o TF dominante (LOCUS INFORMATION, 2008).

Resultados e discussões

4.2.5. ATFa119sg05

Para o subgrupo 5 de agrupamento por TFs foram relacionados os seguintes genes

(Tabela 10):

Tabela 10 - Genes e VMs do subgrupo ATFa119sg05

Systematic name Maior VM Menor VM

YHL040C 0,91 -1,16

YNR067C 2,74 -1,71

YAL022C 0,61 -0,52

YBL023C 1,08 -1,01

YBR069C 0,62 -0,77

YOR066W 1,36 -0,92

YPR019W 1,32 -1,01

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

11).

Tabela 11 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg05

TF Razão

Porcentagem

Systematic names

Yox1 6/7 85,71 YNR067C;YAL022C;YBL023C;YBR069C;YOR066W; YPR019W

Ste12 4/7 57,14 YHL040C;YNR067C;YBR069C;YOR066W

Hcm1

3/7 42,86 YHL040C;YBL023C;YOR066W

Phd1 2/7 28,57 YHL040C;YBR069C

Cin5 2/7 28,57 YHL040C;YBR069C

Hap4 2/7 28,57 YHL040C;YPR019W

Yap6 2/7 28,57 YNR067C;YAL022C

Mbp1

2/7 28,57 YBL023C;YOR066W

Mcm1

2/7 28,57 YAL022C;YOR066W

Swi5 2/7 28,57 YNR067C;YAL022C

Ace2 2/7 28,57 YNR067C;YBL023C

Stp2 1/7 14,29 YBR069C

Mal33

1/7 14,29 YAL022C

Thi2 1/7 14,29 YHL040C

Ime4 1/7 14,29 YAL022C

Swi4 1/7 14,29 YBL023C

Stb1 1/7 14,29 YAL022C

Sut1 1/7 14,29 YNR067C

Smp1

1/7 14,29 YAL022C

Presente em 85% dos genes, o TF Yox1, anotado como homeodomínio contendo

repressor transcricional, liga-se a Mcm1p e células iniciais do ciclo (ECBs) nos promotores de

genes do ciclo celular, regulando expressão em M/G1 fase, a expressão é regulada pelo ciclo

celular; potencial substrato Cdc28p (Homeodomain-containing transcriptional repressor,

binds to Mcm1p and to early cell cycle boxes (ECBs) in the promoters of cell cycle-regulated

Resultados e discussões

genes expressed in M/G1 phase; expression is cell cycle-regulated; potential Cdc28p

substrate) (LOCUS INFORMATION, 2008). Este só não atua sobre o gene YHL040C, que é

regulado por outros 6 diferentes TFs.

4.2.6. ATFa119sg06

Para o subgrupo 6 de ATF, foram relacionados os seguintes genes (Tabela 12):

Tabela 12 - Genes e VMs do subgrupo ATFa119sg06

Systematic name Maior VM Menor VM

YOR153W 0,87 -0,74

YPL025C 0,63 -0,47

YOR114W 0,50 -0,46

YGL008C 0,82 -0,65

YOL114C 0,68 -0,38

YBR093C 1,47 -1,00

YPR119W 1,54 -2,36

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

13).

Tabela 13 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg06

TF Razão

Porcentagem

Systematic names

Swi4 7/7 100,00 YOR153W;YPL025C;YOR114W;YGL008C;YOL114C;YBR093C;

YPR119W

Fkh2 5/7 71,43 YPL025C;YGL008C;YOL114C;YBR093C;YPR119W

Rap1 4/7 57,14 YOR153W;YGL008C;YBR093C;YPR119W

Sok2 3/7 42,86 YOR153W;YPL025C;YOR114W

Mbp1 3/7 42,86 YOR153W;YGL008C;YPR119W

Ash1 3/7 42,86 YOR153W;YPL025C;YOL114C

Fkh1 2/7 28,57 YOL114C;YPR119W

Mcm1 2/7 28,57 YGL008C;YPR119W

Ace2 2/7 28,57 YPL025C;YGL008C

Thi2 1/7 14,29 YBR093C

Azf1 1/7 14,29 YGL008C

Ino4 1/7 14,29 YOR153W

Pho4 1/7 14,29 YBR093C

Phd1 1/7 14,29 YPL025C

Hap4 1/7 14,29 YOR153W

Hsf1 1/7 14,29 YGL008C

Sut1 1/7 14,29 YBR093C

Xbp1 1/7 14,29 YPR119W

Tec1 1/7 14,29 YBR093C

Reb1 1/7 14,29 YPR119W

Resultados e discussões

Swi4, anotado como componente de interação do DNA e um complexo SBF (Swi4p-

Swi6p), um ativador de transcrição que, em conjunto com MBF (Mbp1-Swi6p) regula a

transcrição tardia em alvos específicos de G1, incluindo ciclinas e genes necessários para a

síntese e reparo de DNA (DNA binding component of the SBF complex (Swi4p-Swi6p), a

transcriptional activator that in concert with MBF (Mbp1-Swi6p) regulates late G1-specific

transcription of targets including cyclins and genes required for DNA synthesis and repair)

(LOCUS INFORMATION, 2008). É o TF que está presente em todos os genes deste

subgrupo.

4.2.7. ATFa119sg07

Para o subgrupo 7 de ATF foram relacionados os seguintes genes (Tabela 14):

Tabela 14 - Genes e VMs do subgrupo ATFa119sg07

Systematic name Maior VM Menor VM

YNL057W 1,14 -1,17

YPL036W 0,72 -0,67

YNL216W 0,74 -0,63

YPL128C 0,60 -0,57

YPL124W 0,62 -0,46

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

15):

Tabela 15 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg07

TF Razão

Porcentagem Systematic names

Ste12

3/5 60,00 YPL036W;YNL216W;YPL128C

Azf1 2/5 40,00 YPL036W;YPL124W

Abf1 2/5 40,00 YNL057W;YPL036W

Ime4 1/5 20,00 YPL036W

Swi4 1/5 20,00 YPL124W

Rgm1

1/5 20,00 YPL036W

Fkh2 1/5 20,00 YNL057W

Rap1 1/5 20,00 YNL216W

Reb1 1/5 20,00 YNL216W

Para o subgrupo ATFa119sg07, Ste12, anotado como fator de transcrição que é ativado

por uma cascata de sinalização da MAP quinase, ativa os genes envolvidos na interação ou

crescimento invasivo da pseudohifa, coopera com o fator de transcrição Tec1p para regular os

genes específicos para o crescimento invasivo (Transcription factor that is activated by a

Resultados e discussões

MAP kinase signaling cascade, activates genes involved in mating or pseudohyphal/invasive

growth pathways; cooperates with Tec1p transcription factor to regulate genes specific for

invasive growth) (LOCUS INFORMATION, 2008). É o TF mais atuante, entretanto, diferente

do observado em ATFa119sg02, para este subgrupo corresponde a apenas 60% dos genes.

4.2.8. ATFa119sg08

Para o subgrupo 8 de ATF, foram relacionados os seguintes genes (Tabela 16):

Tabela 16 - Genes e VMs do subgrupo ATFa119sg08

Systematic name Maior VM Menor VM

YPL264C 0,64 -0,32

YPL269W 0,64 -0,61

YPL158C 2,10 -1,65

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

17).

Tabela 17 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg08

TF Razão

Porcentagem Systematic names

Mbp1

3/3 100,00 YPL264C;YPL269W;YPL158C

Swi5 1/3 33,33 YPL158C

Ino4 1/3 33,33 YPL158C

Ace2

1/3 33,33 YPL158C

Mbp1, anotado como fator de transcrição envolvido na regulação da progressão do

ciclo celular de G1 para fase S, forma um complexo com Swi6p que liga ao complexo

regulatório do MluI do ciclo celular em promotores de genes da síntese do DNA

(Transcription factor involved in regulation of cell cycle progression from G1 to S phase,

forms a complex with Swi6p that binds to MluI cell cycle box regulatory element in promoters

of DNA synthesis genes) (LOCUS INFORMATION, 2008). É o TF mais atuante, porém, este

subgrupo é constituído por poucos genes.

Resultados e discussões

4.2.9. ATFa119sg09

Para o subgrupo 9 de ATF, foram relacionados os seguintes genes (Tabela 18):

Tabela 18 - Genes e VMs do subgrupo ATFa119sg09

Systematic name Maior VM Menor VM

YPR111W 0,67 -0,44

YOR298W 0,57 -0,50

YOL132W 0,70 -0,43

YHR006W 0,57 -0,48

YOR383C 1,28 -1,67

YOR235W 0,88 -0,54

YOR258W 0,76 -0,40

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

19):

Tabela 19 - Distribuição dos genes em função de suas interações com TFs, em ATFa119sg09

TF Razão

Porcentagem

Systematic names

Ino4 5/7 71,43 YPR111W;YOR298W;YHR006W;YOR235W; YOR258W

Sok2 3/7 42,86 YOR298W;YOL132W;YOR383C

Rme1 2/7 28,57 YOR383C;YOR235W

Stp2 1/7 14,29 YHR006W

YPR015C

1/7 14,29 YOR383C

Yap6 1/7 14,29 YOR235W

Mig1 1/7 14,29 YOR383C

Rap1 1/7 14,29 YPR111W

Pho4 1/7 14,29 YOR383C

Mcm1 1/7 14,29 YHR006W

Yrr1 1/7 14,29 YOR258W

Ifh1 1/7 14,29 YOR235W

Tye7 1/7 14,29 YHR006W

Ino4, anotado como fator de transcrição necessários para inbir a repressão dos genes

regulados do inositol e colina envolvidos na síntese de fosfolípides e forma um complexo com

Ino2p, que liga o complexo do inositol e colina através de um domínio básico hélice-loop-

hélice (Transcription factor required for derepression of inositol-choline-regulated genes

involved in phospholipid synthesis; forms a complex, with Ino2p, that binds the inositol-

choline-responsive element through a basic helix-loop-helix domain) (LOCUS

INFORMATION, 2008). Obteve neste subgrupo, sua maior representação, porém, ainda

assim, não interagiu com todos os genes.

Resultados e discussões

4.3. Agrupamento por valores de modulação gênica (AVM)

O agrupamento dos genes por sua expressão gerou o dendrograma (Figura 20):

Figura 20. Dendrograma criado por AVM, considerando os genes induzidos em 119 minutos do

experimento alpha factor.

A mesma metodologia utilizada em ATF, foi aplicada para este método de

agrupamento, portanto, subgrupos foram criados. Da mesma forma foi estabelecida a

condição de parada, subgrupo(s) com a quantidade mínima de 3 genes. Para o dendrograma

referente a 119 minutos, foram criados os seguintes subgrupos (Tabela 20):

Tabela 20 - Distribuição dos genes em subgrupos de AVM, para alpha factor 119

minutos

Id. do subgrupo Nro. no dendrograma Qtd. de genes

AVMa119sg01 1 13

AVMa119sg02 2 7

AVMa119sg03 3 7

AVMa119sg04 4 10

AVMa119sg05 5 15

AVMa119sg06 6 3

AVMa119sg07 7 11

Total 66

Resultados e discussões

Depois dos subgrupos formados, da mesma forma que para ATF, foram adicionadas

informações de maior e menor modulação, TFs, anotações e efetuados cálculos de

participação dos TFs.

4.3.1. AVMa119sg01

Para o subgrupo 1 de AVM, foram relacionados os seguintes genes (Tabela 21).

Tabela 21 - Genes e VMs do subgrupo AVMa119sg01

Systematic name Maior VM Menor VM

YDR033W 1,61 -1,96

YOL132W 0,70 -0,43

YPL158C 2,10 -1,65

YER145C 0,52 -1,12

YBR093C 1,47 -1,00

YHL040C 0,91 -1,16

YOR383C 1,28 -1,67

YLR413W 0,82 -1,90

YBR054W 1,54 -1,84

YAL022C 0,61 -0,52

YBR202W 1,04 -1,21

YBR069C 0,62 -0,77

YAR018C 0,82 -0,79

Em seguida, para o subgrupo 1, foram calculadas as interações dos TFs com as

sínteses dos genes (Tabela 22).

Resultados e discussões

Tabela 22 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg01

TF Razão

Porcentagem

Systematic names

Sok2 6/13 46,15 YOL132W;YER145C;YOR383C;YLR413W;YBR054W;YBR202W

Ste12 6/13 46,15 YER145C;YHL040C;YLR413W;YBR054W;YBR202W;YBR069C

Cin5 5/13 38,46 YDR033W;YHL040C;YLR413W;YBR054W;YBR069C

Phd1 4/13 30,77 YER145C;YHL040C;YBR202W;YBR069C

Yox1 4/13 30,77 YAL022C;YBR202W;YBR069C;YAR018C

Mcm1 4/13 30,77 YDR033W;YAL022C;YBR202W;YAR018C

Fkh2 4/13 30,77 YDR033W;YBR093C;YBR054W;YAR018C

Tec1 4/13 30,77 YER145C;YBR093C;YLR413W;YBR202W

Stp2 3/13 23,08 YLR413W;YBR054W;YBR069C

Yap6 3/13 23,08 YLR413W;YBR054W;YAL022C

Swi4 3/13 23,08 YER145C;YBR093C;YBR054W

Rap1 3/13 23,08 YER145C;YBR093C;YBR202W

Thi2 2/13 15,38 YBR093C;YHL040C

Pho4 2/13 15,38 YBR093C;YOR383C

Hap4 2/13 15,38 YHL040C;YBR054W

Swi5 2/13 15,38 YPL158C;YAL022C

Mal33 1/13 7,69 YAL022C

YPR015C

1/13 7,69 YOR383C

Rgm1 1/13 7,69 YBR054W

Rme1 1/13 7,69 YOR383C

Ino4 1/13 7,69 YPL158C

Ime4 1/13 7,69 YAL022C

Mbp1 1/13 7,69 YPL158C

Hsf1 1/13 7,69 YBR054W

Mig1 1/13 7,69 YOR383C

Stb1 1/13 7,69 YAL022C

Smp1 1/13 7,69 YAL022C

Hcm1 1/13 7,69 YHL040C

Sut1 1/13 7,69 YBR093C

Abf1 1/13 7,69 YBR054W

Ace2 1/13 7,69 YPL158C

Pela observação da tabela 22, é notado que Sok2, anotado como proteína nuclear que

desempenha um papel regulador na AMP cíclico (cAMP) dependentes da proteína quinase

(PKA) na via de transdução de sinal; regula negativamente a diferenciação da pseudohifa;

homólogos a diversos fatores de transcrição (Nuclear protein that plays a regulatory role in

the cyclic AMP (cAMP)-dependent protein kinase (PKA) signal transduction pathway;

negatively regulates pseudohyphal differentiation; homologous to several transcription

factors) e Ste12, anotado como fator de transcrição que é ativado por uma cascata de

sinalização da MAP quinase, ativa os genes envolvidos na interação ou crescimento invasivo

da pseudohifa, coopera com o fator de transcrição Tec1p para regular os genes específicos

para o crescimento invasivo (Transcription factor that is activated by a MAP kinase signaling

cascade, activates genes involved in mating or pseudohyphal/ invasive growth pathways;

Resultados e discussões

cooperates with Tec1p transcription factor to regulate genes specific for invasive growth) .

São os TFs mais ativos no subgrupo, porém suas participações (46,15%), abrangem menos da

metade dos genes do subgrupo.

4.3.2. AVMa119sg02

Para o subgrupo 2 de AVM, foram relacionados os seguintes genes (Tabela 23).

Tabela 23 - Genes e VMs do subgrupo AVMa119sg02

Systematic name Maior VM Menor VM

YMR031C 0,63 -0,94

YHR005C 0,99 -1,01

YBL023C 1,08 -1,01

YOR066W 1,36 -0,92

YEL032W 0,98 -1,14

YLR274W 0,95 -0,84

YPR019W 1,32 -1,01

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

24).

Tabela 24 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg02

TF Razão

Porcentagem Systematic names

Mcm1

5/7 71,43 YMR031C;YHR005C;YOR066W;YEL032W;YLR274W

Yox1 5/7 71,43 YBL023C;YOR066W;YEL032W;YLR274W;YPR019W

Ste12 4/7 57,14 YMR031C;YHR005C;YOR066W;YEL032W

Mbp1

2/7 28,57 YBL023C;YOR066W

Hcm1

2/7 28,57 YBL023C;YOR066W

Swi4 1/7 14,29 YBL023C

Sok2 1/7 14,29 YHR005C

Fkh2 1/7 14,29 YMR031C

Phd1 1/7 14,29 YHR005C

Tec1 1/7 14,29 YHR005C

Hap4 1/7 14,29 YPR019W

Reb1 1/7 14,29 YLR274W

Ace2 1/7 14,29 YBL023C

Na tabela 24, três quartos dos genes são regulados por Mcm1, anotado como fator de

transcrição que atuam em células específicas de transcrição e da resposta ao feromônio;

desempenha um papel central na formação de complexos ativadores e repressores

(Transcription factor involved in cell-type-specific transcription and pheromone response;

plays a central role in the formation of both repressor and activator complexes) e Yox1,

Resultados e discussões

anotado como homeodomínio contendo repressor transcricional, liga-se a Mcm1p e células

iniciais do ciclo (ECBs) nos promotores de genes do ciclo celular, regulando expressão em

M/G1 fase, a expressão é regulada pelo ciclo celular; potencial substrato Cdc28p

(Homeodomain-containing transcriptional repressor, binds to Mcm1p and to early cell cycle

boxes (ECBs) in the promoters of cell cycle-regulated genes expressed in M/G1 phase;

expression is cell cycle-regulated; potential Cdc28p substrate) (LOCUS INFORMATION,

2008). Contudo, sem unanimidade, esses dois TFs interagem com todos os genes do

subgrupo.

4.3.3. AVMa119sg03

Para o subgrupo 3 de AVM, foram relacionados os seguintes genes (Tabela 25).

Tabela 25 - Genes e VMs do subgrupo AVMa119sg03

Systematic name Maior VM Menor VM

YLR452C 2,41 -0,91

YJL157C 2,12 -1,41

YKL185W 2,18 -1,50

YNL327W 2,71 -2,14

YKL164C 2,53 -2,24

YDR055W 2,23 -1,46

YNR067C 2,74 -1,71

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

26).

Resultados e discussões

Tabela 26 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg03

TF Razão

Porcentagem Systematic names

Sok2 5/7 71,43 YLR452C;YKL185W;YNL327W;YKL164C;YDR055W

Ste12 5/7 71,43 YLR452C;YJL157C;YKL164C;YDR055W;YNR067C

Mcm1

5/7 71,43 YLR452C;YJL157C;YKL185W;YNL327W;YKL164C

Swi5 5/7 71,43 YKL185W;YNL327W;YKL164C;YDR055W;YNR067C

Ace2 5/7 71,43 YKL185W;YNL327W;YKL164C;YDR055W;YNR067C

Rlm1 2/7 28,57 YKL164C;YDR055W

Rap1 2/7 28,57 YLR452C;YNL327W

Smp1 2/7 28,57 YKL185W;YKL164C

Tec1 2/7 28,57 YKL164C;YDR055W

Azf1 1/7 14,29 YNL327W

Pho4 1/7 14,29 YDR055W

Phd1 1/7 14,29 YKL164C

Yox1 1/7 14,29 YNR067C

Hap4 1/7 14,29 YDR055W

Yap6 1/7 14,29 YNR067C

Swi4 1/7 14,29 YDR055W

Ash1 1/7 14,29 YDR055W

Ume6

1/7 14,29 YDR055W

Sut1 1/7 14,29 YNR067C

Neste subgrupo existe uma quantidade maior de TFs com razão, chegando perto de 3/4

dos genes, são eles: Sok2, Ste12, Mcm1, Swi5 e Ace2. Entretanto, somente Swi5 e Ace2

compartilham os mesmos genes. Swi5 anotado como fator de transcrição que ativa a

transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização do núcleo

ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p

(Transcription factor that activates transcription of genes expressed at the M/G1 phase

boundary and in G1 phase; localization to the nucleus occurs during G1 and appears to be

regulated by phosphorylation by Cdc28p kinase) e Ace2, anotado como fator de transcrição

que ativa a transcrição de genes expressos na fronteira M/G1 fase e na fase G1, a localização

do núcleo ocorre durante o G1 e parece ser regulada por fosforilação por quinases Cdc28p

(Transcription factor that activates expression of early G1-specific genes, localizes to

daughter cell nuclei after cytokinesis and delays G1 progression in daughters, localization is

regulated by phosphorylation; potential Cdc28p substrate) (LOCUS INFORMATION, 2008),

são concordantes, como TFs ativadores.

Resultados e discussões

4.3.4. AVMa119sg04

Para o subgrupo 4 de AVM, foram relacionados os seguintes genes (Tabela 27).

Tabela 27 - Genes e VMs do subgrupo AVMa119sg04

Systematic name Maior VM Menor VM

YML034W 0,76 -0,97

YGL021W 1,16 -1,39

YJR092W 0,75 -1,10

YPL155C 0,64 -0,84

YPL141C 1,13 -1,31

YGR108W 1,20 -1,88

YOR153W 0,87 -0,74

YPR119W 1,54 -2,36

YOR315W 1,07 -1,09

YMR001C 1,22 -1,59

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

28).

Tabela 28 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg04

TF Razão

Porcentagem Systematic names

Fkh1 9/10 90,00 YML034W;YGL021W;YJR092W;YPL155C;YPL141C;

YGR108W;YPR119W;YOR315W;YMR001C

Fkh2 9/10 90,00 YML034W;YGL021W;YJR092W;YPL155C;YPL141C;

YGR108W;YPR119W;YOR315W;YMR001C

Mcm1

6/10 60,00 YGL021W;YJR092W;YGR108W;YPR119W;YOR315W;

YMR001C

Ste12 5/10 50,00 YJR092W;YPL155C;YPL141C;YGR108W;YOR315W

Rap1 5/10 50,00 YJR092W;YGR108W;YOR153W;YPR119W;YOR315W

Swi4 4/10 40,00 YGR108W;YOR153W;YPR119W;YOR315W

Ino4 3/10 30,00 YPL155C;YOR153W;YOR315W

Sok2 3/10 30,00 YGR108W;YOR153W;YOR315W

Mbp1

3/10 30,00 YGR108W;YOR153W;YPR119W

Ash1 2/10 20,00 YJR092W;YOR153W

Reb1 2/10 20,00 YPR119W;YMR001C

Rlm1 1/10 10,00 YOR315W

Phd1 1/10 10,00 YOR315W

Cin5 1/10 10,00 YOR315W

Yox1 1/10 10,00 YMR001C

Sum1 1/10 10,00 YOR315W

Hap4 1/10 10,00 YOR153W

Yap6 1/10 10,00 YOR315W

Tec1 1/10 10,00 YOR315W

Xbp1 1/10 10,00 YPR119W

Resultados e discussões

Dois diferentes TFs neste subgrupo (4) são atuantes em 9 dos 10 genes. Fkh1 e Fkh2,

com as, respectivas, anotações: fatores de transcrição da família forkhead com um menor

papel na expressão de genes da fase G2/M, além disso regulam negativamente o alongamento

da transcrição, possui um regulação positiva no silenciamento da cromatina no HML e HMR

e regula a preferência do doador durante a mudança de fase (Forkhead family transcription

factor with a minor role in the expression of G2/M phase genes; negatively regulates

transcriptional elongation; positive role in chromatin silencing at HML and HMR; regulates

donor preference during switching) e fatores de transcrição da família forkhead com um

maior papel na expressão de genes da fase G2/M, além disso regulam positivamente o

alongamento da transcrição, possui um regulação negativa no silenciamento da cromatina no

HML e HMR e atua como substrato da Quinase Cdc28p/Clb5p (Forkhead family

transcription factor with a major role in the expression of G2/M phase genes; positively

regulates transcriptional elongation; negative role in chromatin silencing at HML and HMR;

substrate of the Cdc28p/Clb5p kinase) (LOCUS INFORMATION, 2008). Pela anotação é

possível notar que um desempenha função contrária do outro.

4.3.5. AVMa119sg05

Para o subgrupo 5 de AVM, foram relacionados os seguintes genes (Tabela 29).

Tabela 29 - Genes e VMs do subgrupo AVMa119sg05

Systematic name Maior VM Menor VM

YNL057W 1,14 -1,17

YLR190W 1,19 -1,26

YML119W 1,21 -1,28

YNL058C 1,53 -1,81

YDR146C 0,75 -1,29

YPL036W 0,72 -0,67

YMR032W 1,28 -0,94

YHR023W 0,99 -1,19

YGL008C 0,82 -0,65

YPR156C 1,51 -1,86

YJL051W 1,17 -0,92

YHL028W 0,73 -0,46

YPR149W 1,44 -1,98

YGL116W 0,93 -0,77

YPL242C 1,16 -1,13

Resultados e discussões

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

30).

Tabela 30 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg05

TF Razão

Porcentagem

Systematic names

Fkh2 14/15

93,33 YNL057W;YLR190W;YML119W;YNL058C;YDR146C;YMR032W;

YHR023W;YGL008C;YPR156C;YJL051W;YHL028W;YPR149W;

YGL116W;YPL242C

Mcm1

12/15

80,00 YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W;

YGL008C;YPR156C;YJL051W;YHL028W; YGL116W;YPL242C

Fkh1 10/15

66,67 YLR190W;YML119W;YNL058C;YDR146C;YMR032W;YHR023W;

YPR156C;YJL051W;YGL116W;YPL242C

Ste12 8/15 53,33 YDR146C;YPL036W;YMR032W;YHR023W;YPR156C;YHL028W;

YPR149W;YGL116W

Rap1 7/15 46,67 YLR190W;YDR146C;YGL008C;YJL051W;YHL028W;YPR149W;

YGL116W

Sok2 5/15 33,33 YDR146C;YHR023W;YPR156C;YHL028W;YPR149W

Abf1 5/15 33,33 YNL057W;YPL036W;YMR032W;YHL028W;YPL242C

Azf1 3/15 20,00 YDR146C;YPL036W;YGL008C

Swi4 3/15 20,00 YGL008C;YPR156C;YPR149W

Rlm1 2/15 13,33 YNL058C;YHL028W

Ino4 2/15 13,33 YDR146C;YGL116W

Mbp1

2/15 13,33 YGL008C;YPL242C

Smp1

2/15 13,33 YHL028W;YGL116W

Ace2 2/15 13,33 YGL008C;YHL028W

Stp2 2/15 13,33 YHR023W;YPR149W

Yox1 2/15 13,33 YGL116W;YPL242C

Hsf1 2/15 13,33 YGL008C;YHL028W

Mig1 2/15 13,33 YHL028W;YPR149W

Tec1 2/15 13,33 YPR156C;YPR149W

Reb1 2/15 13,33 YML119W;YDR146C

Rgm1

1/15 6,67 YPL036W

Cin5 1/15 6,67 YML119W

Yap6 1/15 6,67 YPR149W

Ume6

1/15 6,67 YJL051W

Bas1 1/15 6,67 YGL116W

Xbp1 1/15 6,67 YHL028W

Mal33

1/15 6,67 YHL028W

Cha4 1/15 6,67 YPL242C

Ime4 1/15 6,67 YPL036W

Pho4 1/15 6,67 YJL051W

Phd1 1/15 6,67 YHL028W

Ino2 1/15 6,67 YDR146C

Hap4 1/15 6,67 YML119W

Presente em 93,33% dos genes, o TF Fkh2, já citado no subgrupo 4, é o mais atuante.

Este só não atua sobre o gene YPL036W, que é regulado por outros 5 diferentes TFs.

Resultados e discussões

4.3.6. AVMa119sg06

Para o subgrupo 6 de AVM, foram relacionados os seguintes genes (Tabela 31).

Tabela 31 - Genes e VMs do subgrupo AVMa119sg06

Systematic name Maior VM Menor VM

YOR298W 0,57 -0,50

YOR114W 0,50 -0,46

YPL124W 0,62 -0,46

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

32).

Tabela 32 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg06

TF Razão

Porcentagem Systematic names

Swi4

2/3 66,67 YOR114W;YPL124W

Sok2

2/3 66,67 YOR298W;YOR114W

Azf1

1/3 33,33 YPL124W

Ino4

1/3 33,33 YOR298W

Mesmo estando no limiar da quantidade mínima de genes por subgrupo. No subgrupo

6, nenhum TF foi predominante, atuando sobre todos eles. Os dois mais atuantes que

interagem com 2 dos 3 genes são: Swi4, anotado como componente de interação do DNA e

um complexo SBF (Swi4p-Swi6p), um ativador de transcrição que, em conjunto com MBF

(Mbp1-Swi6p) regula a transcrição tardia em alvos específicos de G1, incluindo ciclinas e

genes necessários para a síntese e reparo de DNA (DNA binding component of the SBF

complex (Swi4p-Swi6p), a transcriptional activator that in concert with MBF (Mbp1-Swi6p)

regulates late G1-specific transcription of targets including cyclins and genes required for

DNA synthesis and repair) e Sok2, anotado como proteína nuclear que desempenha um papel

regulador na AMP cíclico (cAMP) dependentes da proteína quinase (PKA) na via de

transdução de sinal; regula negativamente a diferenciação da pseudohifa; homólogos a

diversos fatores de transcrição (Nuclear protein that plays a regulatory role in the cyclic AMP

(cAMP)-dependent protein kinase (PKA) signal transduction pathway; negatively regulates

pseudohyphal differentiation; homologous to several transcription factors) (LOCUS

INFORMATION, 2008). Os genes do subgrupo 6 tem seus valores de modulação bem

próximos do limiar de exclusão, talvez essa fraca expressão explique a falta de um TF

predominante, assim como, a contraversão destes dois, mais atuantes.

Resultados e discussões

4.3.7. AVMa119sg07

Para o subgrupo 7 de AVM, foram relacionados os seguintes genes (Tabela 33).

Tabela 33 - Genes e VMs do subgrupo AVMa119sg07

Systematic name Maior VM Menor VM

YPL264C 0,64 -0,32

YPL269W 0,64 -0,61

YPR111W 0,67 -0,44

YNL216W 0,74 -0,63

YPL128C 0,60 -0,57

YPL025C 0,63 -0,47

YOL114C 0,68 -0,38

YHR006W 0,57 -0,48

YPR013C 0,76 -0,28

YOR235W 0,88 -0,54

YOR258W 0,76 -0,40

Em seguida, foram calculadas as interações do TFs com os genes do subgrupo (Tabela

34).

Tabela 34 - Distribuição dos genes em função de suas interações com TFs, em AVMa119sg07

TF Razão

Porcentagem Systematic names

Ino4 5/11 45,45 YPR111W;YHR006W;YPR013C;YOR235W;YOR258W

Ste12 3/11 27,27 YNL216W;YPL128C;YPR013C

Swi4 3/11 27,27 YPL025C;YOL114C;YPR013C

Sok2 2/11 18,18 YPL025C;YPR013C

Phd1 2/11 18,18 YPL025C;YPR013C

Yap6 2/11 18,18 YPR013C;YOR235W

Mbp1

2/11 18,18 YPL264C;YPL269W

Ash1 2/11 18,18 YPL025C;YOL114C

Rap1 2/11 18,18 YPR111W;YNL216W

Fkh1 2/11 18,18 YOL114C;YPR013C

Fkh2 2/11 18,18 YPL025C;YOL114C

Stp2 1/11 9,09 YHR006W

Azf1 1/11 9,09 YPR013C

Rme1

1/11 9,09 YOR235W

Cin5 1/11 9,09 YPR013C

Cup9 1/11 9,09 YPR013C

Hcm1

1/11 9,09 YPR013C

Mcm1

1/11 9,09 YHR006W

Yrr1 1/11 9,09 YOR258W

Ifh1 1/11 9,09 YOR235W

Tec1 1/11 9,09 YPR013C

Tye7 1/11 9,09 YHR006W

Ace2 1/11 9,09 YPL025C

Reb1 1/11 9,09 YNL216W

Resultados e discussões

Este último subgrupo de AVM, contendo 11 genes, não é notada a predominância de

qualquer TF. Analogicamente ao subgrupo 6, os VMs máximos estão bem próximos do limiar

de exclusão. Neste subgrupo, é destacado um TF diferente, Ino4, anotado como fator de

transcrição necessários para inbir a repressão dos genes regulados do inositol e colina

envolvidos na síntese de fosfolípides e forma um complexo com Ino2p, que liga o complexo

do inositol e colina através de um domínio básico hélice-loop-hélice (Transcription factor

required for derepression of inositol-choline-regulated genes involved in phospholipid

synthesis; forms a complex, with Ino2p, that binds the inositol-choline-responsive element

through a basic helix-loop-helix domain) (LOCUS INFORMATION, 2008).

4.4. Comparação entre ATF e AVM

Comparando os métodos ATF e AVM, por suas capacidades de agrupamento de genes,

em função da interação com TFs, é possível notar que, de forma sistêmica, ATF obteve

melhores porcentagens máximas, as quais, representam as interações dos TFs para com os

genes dos subgrupos. Ele foi capaz de dispor genes que têm TFs compartilhadas, mais

próximos no dendrograma, montado a partir da matriz de distâncias. A linha azul (mais

grossa) do Gráfico 5, demonstra as porcentagens máximas obtidas por ATF.

Resultados e discussões

Os resultados obtidos por AVM, são demonstrados, também, pela linha azul (mais

grossa) no Gráfico 6.

Gráfico 5. Porcentagens máximas, obtidas em subgrupos por ATF, em alpha factor 119 minutos.

Resultados e discussões

Juntamente, nos Gráficos 5 e 6, é possível observar o resultado do embaralhamento

dos genes. No método ATF (Gráfico 5) é possível notar alguns picos que chegam a 100%, os

quais, para alguns subgrupos, foram até mais relevantes que os obtidos pelo método ATF.

Entretanto, quando se observa o resultado como um todo, são notáveis as melhores

porcentagens máximas deste método desenvolvido. Enquanto que, no Gráfico 6, os resultados

do embaralhamento e do método AVM, se confundem. O método de ATF, de forma geral

obteve melhores picos, chegando, a maioria deles, a 100%. Este mesmo comportamento, é

pouco notado em AVM. Esta tendência foi observada em todos os tempos amostrais, pela

secção do conjunto de dados (Apêndice D).

Gráfico 6. Porcentagens máximas, obtidas em subgrupos por AVM, em alpha factor 119 minutos.

Resultados e discussões

4.5. Correlações entre ATF e AVM

A correlação dos resultados obtidos pelos métodos ATF e AVM, mostrou genes que

compartilham perfil de modulação e TFs (Tabela 35).

Tabela 35 - Correlações gênicas entre os métodos ATF e AVM

SATF SAVM Qtd. correl.

Systematic names

ATFa119sg01 AVMa119sg04 7 YML034W;YGL021W;YJR092W;YPL155C;

YPL141C;YGR108W;YMR001C

ATFa119sg01 AVMa119sg05 10 YLR190W;YML119W;YNL058C;YDR146C;

YMR032W;YHR023W;YPR156C;YJL051W;

YGL116W;YPL242C

ATFa119sg02 AVMa119sg01 2 YLR413W;YBR054W

ATFa119sg02 AVMa119sg04 1 YOR315W

ATFa119sg02 AVMa119sg05 1 YPR149W

ATFa119sg02 AVMa119sg07 1 YPR013C

ATFa119sg03 AVMa119sg01 2 YER145C;YBR202W

ATFa119sg03 AVMa119sg02 1 YHR005C

ATFa119sg03 AVMa119sg03 5 YLR452C;YKL185W;YNL327W;YKL164C;

YDR055W

ATFa119sg03 AVMa119sg05 1 YHL028W

ATFa119sg04 AVMa119sg01 2 YDR033W;YAR018C

ATFa119sg04 AVMa119sg02 3 YMR031C;YEL032W;YLR274W

ATFa119sg04 AVMa119sg03 1 YJL157C

ATFa119sg05 AVMa119sg01 3 YHL040C;YAL022C;YBR069C

ATFa119sg05 AVMa119sg02 3 YBL023C;YOR066W;YPR019W

ATFa119sg05 AVMa119sg03 1 YNR067C

ATFa119sg06 AVMa119sg01 1 YBR093C

ATFa119sg06 AVMa119sg04 2 YOR153W;YPR119W

ATFa119sg06 AVMa119sg05 1 YGL008C

ATFa119sg06 AVMa119sg06 1 YOR114W

ATFa119sg06 AVMa119sg07 2 YPL025C;YOL114C

ATFa119sg07 AVMa119sg05 2 YNL057W;YPL036W

ATFa119sg07 AVMa119sg06 1 YPL124W

ATFa119sg07 AVMa119sg07 2 YNL216W;YPL128C

ATFa119sg08 AVMa119sg01 1 YPL158C

ATFa119sg08 AVMa119sg07 2 YPL264C;YPL269W

ATFa119sg09 AVMa119sg01 2 YOL132W;YOR383C

ATFa119sg09 AVMa119sg06 1 YOR298W

ATFa119sg09 AVMa119sg07 4 YPR111W;YHR006W;YOR235W;YOR258W

Legenda: SATF: subgrupos gerados em ATF; SAVM: subgrupos gerados em AVM;

Qtd. correl: Quantidade de correlações; Systematic names: identificação das sequências.

Para checar a correlação entre ATF e AVM, foram buscados os genes constantes nos

subgrupos de ATF em todos os subgrupos de AVM. Quando, a quantidade de genes

correlacionados foi igual ou superior a dois, pôde-se observar que estes compartilham TFs e

têm perfil de modulação similar (Tabela 35).

Resultados e discussões

Os genes de ATFa119sg01 estão divididos entre os subgrupos AVMa119sg04 e

AVMa119sg05. Para ATFa119sg01 os TFs prevalentes, com 100% de participação, são Fkh1 e

Fkh2, os mesmos observados em AVMa119sg04, porém, as porcentagens são inferiores. Em

AVMa119sg05, Fkh1 não aparece como o mais atuante, apenas Fkh2 está no topo, mas tal

como em AVMa119sg04, não atua sobre todos o genes. Estudos indicam que Fkh2 é essencial

para a correta expressão de SWI5 e CLB2, durante certos períodos do ciclo celular, e,

também, é fosforilado em tempo adequado. Além disso, o seu relacionamento com a proteína

Fkh1, demonstrou que estas proteínas atuam em vias de sobreposição para regular a

morfologia e separação celular (PIC et al, 2000).

A maior correlação de ATFa119sg02 e ATFFa119sg03 são com AVMa119sg01 e

AVMa119sg03, os quais demonstram interações com os TF Sok2 e Ste12, porém, com

intensidade diferente, para os dois métodos.

ATFa119sg04 demonstra maior correlação com AVMa119sg02, cuja interação

principal é dada por Mcm1. Este TF, essencial para viabilidade, participa na ativação e

repressão da transcrição e, também, na replicação do DNA (KUO; GRAYHACK, 1994).

O subgrupo ATFa119sg05 correlaciona com os subgrupos AVMa119sg01 e

AVMa119sg02, porém, em AVMa119sg02 o TF Yox1 demonstram maior atividade. Estudos

demonstraram que a ausência de uma expressão essencial (mínima) deste TF leva a perda da

regulação do ciclo celular em princípio de fases (early cell cycle boxes [ECB]) (PRAMILA et

al, 2002).

O subgrupo ATFa119sg06 tem baixa correlação com AVMa119sg04, o que os liga não

é o TF mais atuante Swi4, mas sim Fkh2, já discutido em ATFa1119sg01. Aquele que, em

AVM, tem como Swi4 o TF mais interativo é AVMa119sg06. Entretanto, a correlação,

também é baixa, apenas 2 dentre 7 genes. Em S. cerevisiae, Swi4 forma um complexo com

Swi6, o qual ativa a expressão gênica durante a transição de fases G1/S do ciclo celular

mitótico (BAETZ et al, 2001). O gene que sintetiza Swi6 não faz parte da lista de genes de

ciclo celular (CELLCYCLE, 2008).

Em ATFa119sg07, o TF mais atuante é Ste12, porém, ele não interage com todos o

genes do subgrupo. Suas maiores correlações são com os subgrupos AVMa119sg05 e

AVMa119sg07, ainda assim baixa, apenas 2 genes com cada. Para esses dois últimos

subgrupos, Ste12 tem baixa interação com seus genes.

O subgrupo ATFa119sg08, talvez o mais interessante, pelo predominância do TF

Mbp1, o mais ativo. Este, não apareceu de forma relevante em qualquer dos subgrupos de

AVM. Sua correlação é indicada a AVMa119sg07, o qual tem Mbp1 interagindo apenas com 2

Resultados e discussões

de 11 genes. Estudos mostraram que cepas que tiveram os genes MBP1 e SWI4 deletados

foram inviáveis, demonstrando que suas atividades trancricionais têm papel importante na

transição das fases G1/S (RAITHATHA; STUART, 2005; KOCH et al, 1993).

O último subgrupo, ATFa119sg09, tem maior correlação com AVMa119sg07 (4

genes), destacando Ino4 como TF mais ativo, porém, em ATF a atividade é maior.

4.6. Categorização MIPS-CYGD

Para se conhecer a distribuição dos genes, segundo a categoria de suas funções, dentro

dos subgrupos, foi utilizado o catálogo MIPS-CYGD, que dispõe 28 categorias, mais

generalistas (RUEPP et al, 2004). Este catálogo, permite que, um determinado gene seja

enquadrado em uma ou mais categorias. Portanto, a soma dos genes categorizados, nos

subgrupos, é, de modo geral, maior que o total original. Alguns genes, não tiveram categoria

definida, para estes foi criada a categoria “00 - There are no MIPS data gene”. Os genes desta

categoria foram relacionados somente a ela. Da diversidade original de categorias, 17 foram

relacionadas ao conjunto de dados estudado, porém, em nenhum dos subgrupos, este conjunto

de categorias foi completamente observado. A soma de todos os genes, categorizados em uma

ou mais categorias, totalizou 161 (Tabela 36).

Tabela 36 - Totalização dos genes, enquadrados em uma ou mais categorias

Cód. Cat. Categorias Qtd. genes

10 CELL CYCLE AND DNA PROCESSING 26

00 There are no MIPS data gene 16

16 PROTEIN WITH BINDING FUNCTION OR COFACTOR

REQUIREMENT (structural or catalytic)

20 CELLULAR TRANSPORT, TRANSPORT FACILITATION AND

TRANSPORT ROUTES

32 CELL RESCUE, DEFENSE AND VIRULENCE 12

01 METABOLISM 11

43 CELL TYPE DIFFERENTIATION 11

42 BIOGENESIS OF CELLULAR COMPONENTS 11

34 INTERACTION WITH THE ENVIRONMENT 10

11 TRANSCRIPTION 8

14 PROTEIN FATE (folding, modification, destination) 8

40 CELL FATE 7

18 REGULATION OF METABOLISM AND PROTEIN FUNCTION 5

30 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION

MECHANISM

02 ENERGY 3

12 PROTEIN SYNTHESIS 1

41 DEVELOPMENT (Systemic) 1

Total 161

Resultados e discussões

A contagem de todas as categorias, em todos os subgrupos oriundos de ATF, totalizou

83 (Tabela 37), o que gerou, uma média de 9,2 categorias por subgrupo.

Tabela 37 - Quantidade de categorias por subgrupos de ATF, para alpha factor 119 minutos

Id. Subgrupo Qtd. Genes Qtd. Categorias

ATFa119sg01 17 14

ATFa119sg02 5 6

ATFa119sg03 9 14

ATFa119sg04 6 12

ATFa119sg05 7 6

ATFa119sg06 7 10

ATFa119sg07 5 11

ATFa119sg08 3 2

ATFa119sg09 7 8

Total 66 83

A Figura 20 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF

(Apêndice E).

Resultados e discussões

Figura 21. categorização dos genes em subgrupos de ATF, para alpha factor 119 minutos, segundo o catálogo

MIPS-CYGD.

00; 5

01; 3

02; 1

10; 9

11; 1

14; 4

16; 3

18; 2

20; 3

32; 4

34; 1

40; 3

42; 4

43; 4

00; 1

11; 2

14; 1

20; 1

32; 1

43; 1

00; 1

01; 1

10; 4

14; 1

16; 3

18; 1

30; 1

32; 1

34; 1

40; 2

42; 2

43; 2

00; 1

01; 1

10; 3

16; 2

20; 3

32; 1

00; 3

01; 1

02; 1

10; 1

16; 1

18; 1

20; 2

32; 2

34; 2

43; 1

00; 1

01; 1

02; 1

10; 3

11; 2

12; 1

16; 2

20; 1

32; 1

34; 1

42; 2

00; 2

10; 1

00; 2

01; 3

10; 2

11; 1

14; 1

20; 1

42; 1

43; 1

01; 1

10; 3

11; 2

14; 1

16; 3

18; 1

20; 2

30; 3

32; 2

34; 5

40; 2

41; 1

42; 2

43; 2

00 - There are no MIPS data gene

01 - METABOLISM

02 - ENERGY

10 - CELL CYCLE AND DNA PROCESSING

11 - TRANSCRIPTION

12 - PROTEIN SYNTHESIS

14 - PROTEIN FATE (folding, modification, destination)

16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic)

18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION

20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES

30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM

32 - CELL RESCUE, DEFENSE AND VIRULENCE

34 - INTERACTION WITH THE ENVIRONMENT

40 - CELL FATE

41 - DEVELOPMENT (Systemic)

42 - BIOGENESIS OF CELLULAR COMPONENTS

43 - CELL TYPE DIFFERENTIATION

ATFa119sg01 ATFa119sg02 ATFa119sg03

ATFa119sg04 ATFa119sg05 ATFa119sg06

ATFa119sg07 ATFa119sg08 ATFa119sg09

Resultados e discussões

Da mesma forma foi feito para os subgrupos obtidos por AVM. A contagem de todas

as categorias, em todos os subgrupos, totalizou 70 (Tabela 38), o que gerou uma média de 10

categorias por subgrupo.

Tabela 38 - Quantidade de categorias por subgrupos de AVM, para alpha factor 119 minutos

Id. Subgrupo Qtd. Genes Qtd. Categorias

AVMa119sg01 13 11

AVMa119sg02 7 5

AVMa119sg03 7 14

AVMa119sg04 10 12

AVMa119sg05 15 14

AVMa119sg06 3 5

AVMa119sg07 11 9

Total 66 70

A Figura 21 demonstra a distribuição dos genes, por categorias, nos subgrupos de ATF

(Apêndice F).

Resultados e discussões

Figura 22. Categorização dos genes em subgrupos de AVM, para alpha factor 119 minutos, segundo o

catálogo MIPS-CYGD.

00; 5

01; 2

10; 4

11; 4

12; 1

14; 1

16; 2

32; 1

42; 1

00; 2

01; 3

10; 2

14; 1

16; 1

20; 5

32; 4

34; 1

40; 1

42; 2

43; 1

00; 1

01; 3

10; 5

11; 1

14; 3

16; 2

18; 2

20; 2

32; 2

34; 1

42; 1

43; 3

00; 5

02; 3

10; 5

11; 1

14; 2

16; 2

20; 5

32; 4

34; 4

40; 3

42; 4

43; 3

00; 1

01; 1

10; 2

42; 1

43; 1

00; 2

10; 4

30; 1

34; 1

01; 2

10; 4

11; 2

14; 1

18; 2

20; 1

30; 2

32; 1

34; 3

40; 3

41; 1

42; 2

43; 3

16; 2

AVMa119sg01 AVMa119sg02 AVMa119sg03

AVMa119sg04

AVMa119sg05

AVMa119sg06

AVMa119sg07

00 - There are no MIPS data gene

01 - METABOLISM

02 - ENERGY

10 - CELL CYCLE AND DNA PROCESSING

11 - TRANSCRIPTION

12 - PROTEIN SYNTHESIS

14 - PROTEIN FATE (folding, modification, destination)

16 - PROTEIN WITH BINDING FUNCTION OR COFACTOR REQUIREMENT (structural or catalytic)

18 - REGULATION OF METABOLISM AND PROTEIN FUNCTION

20 - CELLULAR TRANSPORT, TRANSPORT FACILITATION AND TRANSPORT ROUTES

30 - CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM

32 - CELL RESCUE, DEFENSE AND VIRULENCE

34 - INTERACTION WITH THE ENVIRONMENT

40 - CELL FATE

41 - DEVELOPMENT (Systemic)

42 - BIOGENESIS OF CELLULAR COMPONENTS

43 - CELL TYPE DIFFERENTIATION

Resultados e discussões

Os dois métodos de agrupamento seguiram a mesma tendência. Para os subgrupos

com mais genes, a diversidade de categorias foi maior e para aqueles com menos genes, tal

diversidade foi menor. Este comportamento, faz supor que não existe um conjunto de genes

dentro da mesma categoria, o qual utiliza um ou conjunto de TFs específicos. Genes de

diferentes categorias, podem interagir com os mesmos TFs ou vice-versa.

Conclusões

5. Conclusões

 A metodologia desenvolvida é uma abordagem diferenciada dos dados, a qual proporciona

resultados em função dos fatores de transcrição.

 O agrupamento por fatores de transcrição demonstrou uma disposição diferenciada dos

fatores de transcrição, em relação àquela observada no agrupamento por valores de

modulação.

 A criação de subgrupos possibilitou isolamento de genes sob a atuação de um ou grupo

determinado de fatores de transcrição.

 Pela quantidade de subgrupos gerados em agrupamento por fatores de transcrição, os

genes foram melhor distribuídos, o que proporcionou a identificação de fatores de

transcrição atuantes, na maioria dos subgrupos, para todos os genes do subgrupo.

 Esta abordagem é limitada a organismos que tenham os fatores de transcrição já

disponíveis na literatura.

 A correlação entre os dois métodos de agrupamento demonstrou que, para vários genes os

fatores de transcrição são compartilhados e os perfis de modulação são similares.

 O embaralhamento dos genes demonstrou que o agrupamento por fatores de transcrição é

consistente para uma abordagem geral dos dados analisados.

 A categorização MIPS demonstrou que existem genes, nos subgrupos, com diversas

categorias atribuídas, para os dois métodos de agrupamento, evidenciando que

determinados fatores de transcrição ou grupos destes e perfis de modulação não são

exclusivos de genes de uma mesma categoria.

Referências bibliográficas

6. Referências bibliográficas

ADAMS, M.D., KELLEY, J.M., GOCAYNE, J.D., DUBNICK, M., POLYMEROPOULOS,

M.H., XIAO, H., MERRIL, C.R., WU, A., OLDE, B., MORENO, R.F., KERLAVAGE, A.R.,

McCOMBIE, W.R., VENTER, J.C., Complementary DNA sequencing: expressed sequence

tags and human genome project. Science. Jun 21;252(5013):1651-6, 1991

BAETZ, K., MOFFAT, J., HAYNES, J., CHANG, M., ANDREWS, B., Transcriptional

coregulation by the cell integrity mitogen-activated protein kinase Slt2 and the cell cycle

regulator Swi4. Mol. Cell. Biol, p. 6515-6528, Vol. 21, No. 19, 2001.

BARDWELL, L. A walk-through of the yeast mating pheromone response pathway. Peptides,

vol. 26, pp. 339-350, 2004.

BOGUSKI, M.Ss, LOWE, T.M., TOLSTOSHEV, C.M., dbEST--database for "expressed

sequence tags", Nat Genet. Aug;4(4):332-3, 1993.

BRENTANI, R.R., CARRARO, D.M., VERJOVSKI-ALMEIDA, S., REIS, E.M., NEVES,

E.J., DE SOUZA, S.J., CARVALHO, A.F., BRENTANI, H., REIS, L.F., Gene expression

arrays in cancer research: methods and applications. Crit Rev Oncol Hematol.

May;54(2):95-105, 2005

BULAWA, C.E., Genetics and molecular biology of chitin synthesis in fungi. Annu Rev

Microbiol.; 47:505-34, 1993.

BUSSEMAKER, H.J., LI, H., SIGGIA, E.D., Regulatory element detection using correlation

with expression. Nat Genet., 27(2):167–71, 2001.

CADDICK, M.X., DOBSON, C., Gene Regulation, in: GOLDMAN, G.H. (Ed.), OSMANI,

S.A., (Ed.), The Aspergilli: Genomics, Medical Aspects, Biotechnology, and Research

Methods (Hardcover). New York, CRC Press, 2007.

CAMPITELI, M.G., SORIANI, F.M., MALAVAZI, I., KINOUCHI, O., PEREIRA, C.A.,

GOLDMAN, G.H. A reliable measure of similarity based on dependency for short time series:

an application to gene expression networks.BMC Bioinformatics. Londres, 10:270, 2009.

CAUSTON, H.C., REN, B., KOH, S.S., HARBISON, C.T., KANIN, E., JENNINGS, E.G.,

LEE, T.I., TRUE, H.L., LANDER, E.S., YOUNG, R.A., Remodeling of yeast genome

expression in response to environmental changes. Mol Biol Cell. Feb;12(2):323-37, 2001.

CELLCYCLE. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/

CellCycle98.xls> . Acesso em jun. 2008.

CLUSTERING. Disponível em: <http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/

hierarchical.html>. Acesso em mar. 2010.

De acordo com a Associação Brasileira de Normas Técnicas (ABNT).

Referências bibliográficas

CONLON, E.M., LIU, X.S., LIEB, J.D., LIU, J.S., Integrating regulatory motif discovery and

genome-wide expression analysis. Proc Natl Acad Sci U S A, Mar 18;100(6):3339-44, 2003.

DE GOUVÊA, P.F., SORIANI, F.M., MALAVAZI, I., SAVOLDI, M., GOLDMAN, M.H.,

LOSS, O., BIGNELL, E., DA SILVA FERREIRA, M.E., GOLDMAN, G.H., Functional

characterization of the Aspergillus fumigatusPHO80 homologue. Fungal Genet Biol.

;45(7):1135-46, 2008.

DE MAESSCHALCK, R., JOUAN-RIMBAUD, D., MASSART, D.L. The Mahalanobis

distance. Chemometrics and Intelligent Laboratory Systems, Volume 50, Issue 1, 4, Pages

1-18, January 2000.

DEMPSTER, A.P.; LAIRD, N.M.; RUBIN, D.B., Maximum Likelihood from Incomplete

Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B

(Methodological), 39 (1): 1–38, 1977.

DERISI, J.L., IYER, V.R., BROWN, P.O., Exploring the metabolic and genetic control of

gene expression on a genomic scale. Science. Oct 24;278(5338):680-6, 1997.

DERMITZAKIS, E.T., REYMOND, A., ANTONARAKIS, S.E., Conserved non-genic

sequences - an unexpected feature of mammalian genomes. Nat Rev Genet. Feb;6(2):151-7,

2005.

DRAY, S., Dufour, A.B., Chessel, D., The ade4 package-II: Two-table and K-table methods. R

News. 7(2): 47-52, 2007.

ERNST, J., BAR-JOSEPH, Z. Stem: a tool for the analysis of short time series data. BMC

Bioinformatics, vol. 7, no. 191, 2006.

FLATFILES. Disponível em: <http://www.yeastract.com/download/

RegulationTwoColumnTable_Documented_20090427.tsv.gz>. Acesso em jun. 2008.

FRANCETIC. Disponível em: <http://mrvar.fdv.uni-lj.si/pub/mz/mz2.1/francetic.pdf>.

Acesso em mar. 2010.

FUNCAT. Disponível em: <http://mips.helmholtz-muenchen.de/genre/proj/yeast/Search/

Catalogs/catalog.jsp>. Acesso em: jun. 2008.

GANESH, R., SIEGELE, D.A., IOERGER, T.R., MOPAC: motif finding by preprocessing

and agglomerative clustering from microarrays. Pac Symp Biocomput., 41-52, 2003.

GEHRING, W.J., AFFOLTER, M., BÜRGLIN, T., Homeodomain proteins. Annual review of

biochemistry. 63: 487–526, 1994.

GERHOLD, D., CASKEY, C.T., It's the genes! EST access to human genome content.

Bioessays. Dec;18(12):973-81, 1996.

Referências bibliográficas

GOLDMAN, G.H., DOS REIS MARQUES, E., DUARTE RIBEIRO, D.C., DE SOUZA

BERNARDES, L.A., QUIAPIN, A.C., VITORELLI, P.M., SAVOLDI, M., SEMIGHINI, C.P.,

DE OLIVEIRA, R.C., NUNES, L.R., TRAVASSOS, L.R., PUCCIA, R., BATISTA, W.L.,

FERREIRA, L.E., MOREIRA, J.C., BOGOSSIAN, A.P., TEKAIA, F., NOBREGA, M.P.,

NOBREGA, F.G., GOLDMAN, M.H., Expressed sequence tag analysis of the human

pathogen Paracoccidioides brasiliensis yeast phase: identification of putative homologues of

Candida albicans virulence and pathogenicity genes. Eukaryot Cell. Feb;2(1):34-48, 2003.

GOWER, J.C., LEGENDRE, P., Metric and Euclidean Properties of Dissimilarity Coefficients.

Journal of Classification, New York, 3, 5-48, 1986.

GUSTIN, M. C., ALBERTYN, J., ALEXANDER, M., DAVENPORT, K., Map kinase

pathways in the yeast saccharomyces cerevisiae. Microbiology and Molecular biology

reviews, p. 1264-1300, Vol. 62, No. 4, 1998.

HALLAM, T.M., BOURTCHOULADZE, R., Rubinstein-Taybi syndrome: molecular findings

and therapeutic approaches to improve cognitive dysfunction. Cell Mol Life Sci.

Aug;63(15):1725-35, 2006.

HIRASAWA, T., FURUSAWA, C., SHIMIZU, H., Saccharomyces cerevisiae and DNA

microarray analyses: what did we learn from it for a better understanding and exploitation of

yeast biotechnology? Appl Microbiol Biotechnol. Jun;87(2):391-400, 2010.

HOLMES, I., BRUNO, W.J., Finding regulatory elements using joint likelihoods for sequence

and expression profile data. Proc Int Conf Intell Syst Mol. Biol., 8:202–10, 2000.

HIERARCHICAL CLUSTERING. Disponível em: <http://www.resample.com/xlminer/help/

HClst/HClst_intro.htm>. Acesso em mar. 2010.

HU, Z., FU, Y., HALEES, A., KIELBASA, S., WENG, S., SeqVISTA: a new module of

integrated computational tools for studying transcriptional regulation. Proc Natl Acad Sci

USA. 32:W235–W241, 2004.

JAIN, A.K., MURTY, M.N., FLYNN, P.J., Data Clustering: A Review. ACM Computing

Surveys, Vol. 31, No. 3, September, 1999.

JONES, R.G., THOMPSON, C.B., Tumor suppressors and cell metabolism: a recipe for

cancer growth. Genes Dev. Mar 1;23(5):537-48, 2009

KARIN, M., Too many transcription factors: positive and negative interactions. New Biol. 2

(2): 126–31, 1990.

Referências bibliográficas

KATAYAMA, S., TOMARU, Y., KASUKAWA, T., WAKI, K., NAKANISHI, M.,

NAKAMURA, M., NISHIDA, H., YAP, C.C., SUZUKI, M., KAWAI, J., SUZUKI, H.,

CARNINCI, P., HAYASHIZAKI, Y., WELLS, C., FRITH, M., RAVASI, T., PANG, K.C.,

HALLINAN, J., MATTICK, J., HUME, D.A., LIPOVICH, L., BATALOV, S., ENGSTROM,

P.G., MIZUNO, Y., FAGHIHI, M.A., SANDELIN, A., CHALK, A.M., MOTTAGUI-TABAR,

S., LIANG, Z., LENHARD, B., WAHLESTEDT, C., RIKEN Genome Exploration Research

Group, Genome Science Group (Genome Network Project Core Group), FANTOM

Consortium, Antisense transcription in the mammalian transcriptome. Science. Sep

2;309(5740):1564-6, 2005.

KIM, S.K., LUND, J., KIRALY, M., DUKE, K., JIANG, M., STUART, J.M., EIZINGER, A.,

WYLIE, B.N., DAVIDSON, G.S.. A gene expression map for Caenorhabditis elegans.

Science. Sep 14;293(5537):2087-92, 2001.

KELBERMAN, D., RIZZOTI, K., LOVELL-BADGE, R., ROBINSON, I.C., DATTANI,

M.T., Genetic regulation of pituitary gland development in human and mouse. Endocr Rev.

Dec;30(7):790-829. Epub 2009 Oct 16, 2009.

KOCH, C., MOLL, T., NEUBERG, M., AHORN, H., NASMYTH, K., A role for the

transcription factors Mbp1 and Swi4 in progression from G1 to S phase. Science, Sep

17;261(5128):1551-7, 1993.

KOEFFLER, H.P., MCCORMICK, F., DENNY, C., Molecular mechanisms of cancer. West J

Med. Nov;155(5):505-14, 1991.

KULESH, D.A., CLIVE, D.R., ZARLENGA, D.S., GREENE, J.J., Identification of

interferon-modulated proliferation-related cDNA sequences. Proc Natl Acad Sci USA; 84

(23): 8453–8457, 1987.

KUO, M.H., GRAYHACK, E., A library of yeast genomic MCM1 binding sites contains

genes involved in cell cycle control, cell wall and membrane structure, and metabolism. Mol.

Cell. Biol. Jan;14(1):348-59, 1994.

LAITY, J.H., LEE, B.M., WRIGHT, P.E., Zinc finger proteins: new insights into structural

and functional diversity. Current opinion in structural biology 11 (1): 39–46, 2001.

LATCHMAN, D.S. Transcription factors: an overview. Int. J. Biochem. Cell Biol. 29 (12):

1305–12, 1997.

LATCHMAN, D.S., Regulation of transcription factor activity. In:______. Eukaryotic

trancription factor. 5ed. Londres:Academic Press, p.312-372, 2007.

LAWRENCE, C.E., ALTSCHUL, S.F., BOGUSKI, M.S., LIU, J.S., NEUWALD, A.F.,

WOOTTON, J.C., Detecting subtle sequence signals: a Gibbs sampling strategy for multiple

alignment. Science, Oct 8;262(5131):208-14, 1993.

LEMMENS, K., DHOLLANDER, T., DE BIE. T., MONSIEURS, P., ENGELEN, K.,

SMETS, B., WINDERICKX, J., DE MOOR, B., MARCHAL, K., Inferring transcriptional

modules from ChIP-chip, motif and microarray data.Genome Biol. 7(5):R37, 2006.

Referências bibliográficas

LITTLEWOOD, T.D., EVAN, G.I. Transcription factors 2: helix-loop-helix. Protein profile 2

(6): 621–702, 1995.

LOCUS INFORMATION. Disponível em: <http://www.yeastract.com/view.php?

existing=locus&orfname=[gene_name]>. Acessado em jun. 2008.

LYNCH, V.J., ROTH, J.J., WAGNER, G.P., Adaptive evolution of Hox-gene homeodomains

after cluster duplications. BMC Evolutionary Biology, 6:86, 2006.

MANNING, C. D., RAGHAVAN, P., SCHÜTZE, H. Hierarchical Clustering. In:______. An

Introduction to Information Retrieval, Cambridge:Cambridge University Press, p.377-402,

2009.

MORANGE, M., The field of cancer research: an indicator of present transformations in

biology. Oncogene. Dec 6;26(55):7607-10, 2007.

NUNES, L.R., COSTA DE OLIVEIRA, R., LEITE, D.B., DA SILVA, V.S., DOS REIS

MARQUES, E., DA SILVA FERREIRA, M.E., RIBEIRO, D.C., DE SOUZA BERNARDES,

L.A., GOLDMAN, M.H., PUCCIA, R., TRAVASSOS, L.R., BATISTA, W.L., NOBREGA,

M.P., NOBREGA, F.G., YANG, D.Y., DE BRAGANCA PEREIRA, C.A., GOLDMAN, G.H.,

Transcriptome analysis of Paracoccidioides brasiliensis cells undergoing mycelium-to-yeast

transition. Eukaryot Cell. Dec;4(12):2115-28, 2005.

OVCHARENKO, I., BOFFELLI, D., LOOTS, G.G., eShadow: a tool for comparing closely

related sequences.Genome Res. Jun;14(6):1191-8, 2004.

PAPWORTH, M., KOLASINSKA, P., MINCZUK, M., Designer zinc-finger proteins and

their applications.Gene. Jan 17;366(1):27-38, 2005.

PAVESI, G., MAURI, G., PESOLE, G., In silico representation and discovery of transcription

factor binding sites. Brief Bioinform., 5: 217-236, 2004.

PIC, A., LIM, F.L., ROSS, S.J., VEAL, E.A., JOHNSON, A.L., SULTAN, M.R., WEST, A.G.,

JOHNSTON, L.H., SHARROCKS, A.D., MORGAN, B.A. The forkhead protein Fkh2 is a

component of the yeast cell cycle transcription factor SFF. The EMBO Journal, 19, 3750 –

3761, 2000.

PRAMILA, T., MILES, S., GUHATHAKURTA, D., JEMIOLO, D., BREEDEN,

L.L.Conserved homeodomain proteins interact with MADS box protein Mcm1 to restrict

ECB-dependent transcription to the M/G1 phase of the cell cycle. Genes Dev. December 1;

16(23): 3034–3045, 2002.

R development Core Team: R: A language and environment for statistical computing. In: R

Foundation for Statistical Computing, Vienna, Austria. 2008. Disponível

em:<http://www.R-project.org>. Acesso em : nov. 2008.

Referências bibliográficas

RAITHATHA, S.A., STUART, D.T. Meiosis-specific regulation of the Saccharomyces

cerevisiae S-phase cyclin CLB5 is dependent on MluI cell cycle box (MCB) elements in its

promoter but is independent of MCB-binding factor activity. Genetics, Vol. 169, 1329-1342,

March, 2005.

RAWDATA. Disponível em: <http://genome-www.stanford.edu/cellcycle/data/rawdata/

combined.txt>. Acesso em jun. 2008.

RELIGA, T.L., JOHNSON, C.M., VU, D.M., BREWER, S.H., DYER, R.B., FERSHT, A.R.,

The helix-turn-helix motif as an ultrafast independently folding domain: The pathway of

folding of Engrailed homeodomain. Proc Natl Acad Sci U S A, 104, 9272-9277, 2007.

RUDD, S., Expressed sequence tags: alternative or complement to whole genome sequences?

Trends Plant Sci. Jul;8(7):321-9, 2003.

RUEPP, A., ZOLLNER, A., MAIER, D., ALBERMANN, K., HANI, J., MOKREJS, M.,

TETKO, I., GÜLDENER, U., MANNHAUPT, G., MÜNSTERKÖTTER, M., MEWES, H.W.,

The FunCat, a functional annotation scheme for systematic classification of proteins from

whole genomes. Nucleic Acids Res 32, 5539-5545, 2004.

SANDVE, G.K., DRABLØS, F., A survey of motif discovery methods in an integrated

framework. Biol Direct., Apr 6;1:11, 2006.

SCHENA, M., SHALON, D., DAVIS, R.W., BROWN, P.O.,Quantitative monitoring of gene

expression patterns with a complementary DNA microarray. Science. Oct 20;270(5235):467-

70, 1995.

SGD. Disponível em: <http://www.yeastgenome.org>. Acesso em: mar. 2010.

SMITH, L.M., SANDERS, J.Z., KAISER, R.J., HUGHES, P., DODD, C., CONNELL, C.R.,

HEINER, C., KENT, S.B., HOOD, L.E. Fluorescence detection in automated DNA sequence

analysis. Nature. Jun 12-18;321(6071):674-9, 1986.

SPELLMAN, P.T., SHERLOCK, G., ZHANG, M.Q., IYER, V.R., ANDERS, K., EISEN,

M.B., BROWN, .PO., BOTSTEIN, D., FUTCHER, B., Comprehensive identification of cell

cycle-regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization.

Mol Biol Cell. Dec;9(12):3273-97, 1998.

STOUGHTON, R.B., Applications of DNA microarrays in biology.Annu Rev Biochem.;

74:53-82, 2005.

TASSABEHJI, M., READ, A.P., NEWTON, V.E., HARRIS, R., BALLING, R., GRUSS, P.,

STRACHAN, T., Waardenburg's syndrome patients have mutations in the human homologue

of the Pax-3 paired box gene. Nature. Feb 13;355(6361):635-6, 1992.

TURLACH, B.A., Bandwidth selection in kernel density estimation: a review. In CORE

and Institut de Statistique, pp. 23-493, 1993.

Referências bibliográficas

VINSON, C., MYAKISHEV, M., ACHARYA, A., MIR, A.A., MOLL, J.R., BONOVICH, M.,

Classification of human B-ZIP proteins based on dimerization properties. Molecular and

cellular biology, 22 (18): 6321–35, 2002.

WARD, J.H., Hierarchical Grouping to Optimize an Objective Function. Journal of the

American Statistical Association, Vol. 58, No. 301, pp. 236-244, 1963.

WASSERMAN, W.W., SANDELIN, A., Applied bioinformatics for the identification of

regulatory elements. Nature Reviews Genetics, 5, 276-287, 2004.

WINTJENS, R., ROOMAN, M., Structural classification of HTH DNA-binding domains and

protein-DNA interaction modes. Journal of molecular biology, 262 (2): 294–313, 1996.

XPLORE. Disponível em: <http://fedc.wiwi.hu-berlin.de/xplore/tutorials/

xaghtmlframe142.html>. Acesso em: mar. 2010.

YEASTRACT. Disponível em: <http://www.yeastract.com>. Acesso em: mar. 2010.

ZHOU, H.M., WANG, J., ROGERS, R., CONWAY, S.J., Lineage-specific responses to

reduced embryonic Pax3 expression levels. Dev Biol. Mar 15;315(2):369-82, 2007.

Apêndices

Apêndice A – Tabela contendo a relação de TFs induzidos atribuídos aos genes.

Tabela contendo a relação de TFs induzidos atribuídos aos genes

Systematic names TFA TFU TFs

YAL022C 18 8 Ime4; Mal33; Mcm1; Smp1; Stb1; Swi5; Yap6; Yox1

YAR018C 4 3 Fkh2; Mcm1; Yox1

YBL023C 7 5 Ace2; Hcm1; Mbp1; Swi4; Yox1

YBR054W 31 11 Abf1; Cin5; Fkh2; Hap4; Hsf1; Rgm1; Sok2; Ste12;

Stp2; Swi4; Yap6

YBR069C 12 5 Cin5; Phd1; Ste12; Stp2; Yox1

YBR093C 21 7 Fkh2; Pho4; Rap1; Sut1; Swi4; Tec1; Thi2

YBR202W 12 7 Mcm1; Phd1; Rap1; Sok2; Ste12; Tec1; Yox1

YDR033W 12 3 Cin5; Fkh2; Mcm1

YDR055W 18 11 Ace2; Ash1; Hap4; Pho4; Rlm1; Sok2; Ste12; Swi4;

Swi5; Tec1; Ume6

YDR146C 16 10 Azf1; Fkh1; Fkh2; Ino2; Ino4; Mcm1; Rap1; Reb1;

Sok2; Ste12

YEL032W 5 3 Mcm1; Ste12; Yox1

YER145C 19 6 Phd1; Rap1; Sok2; Ste12; Swi4; Tec1

YGL008C 15 8 Ace2; Azf1; Fkh2; Hsf1; Mbp1; Mcm1; Rap1; Swi4

YGL021W 6 3 Fkh1; Fkh2; Mcm1

YGL116W 19 9 Bas1; Fkh1; Fkh2; Ino4; Mcm1; Rap1; Smp1; Ste12;

Yox1

YGR108W 21 8 Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Sok2; Ste12; Swi4

YHL028W 28 14 Abf1; Ace2; Fkh2; Hsf1; Mal33; Mcm1; Mig1; Phd1;

Rap1; Rlm1; Smp1; Sok2; Ste12; Xbp1

YHL040C 19 6 Cin5; Hap4; Hcm1; Phd1; Ste12; Thi2

YHR005C 10 5 Mcm1; Phd1; Sok2; Ste12; Tec1

YHR006W 6 4 Ino4; Mcm1; Stp2; Tye7

YHR023W 12 6 Fkh1; Fkh2; Mcm1; Sok2; Ste12; Stp2

YJL051W 8 6 Fkh1; Fkh2; Mcm1; Pho4; Rap1; Ume6

YJL157C 7 2 Mcm1; Ste12

YJR092W 7 6 Ash1; Fkh1; Fkh2; Mcm1; Rap1; Ste12

YKL164C 16 9 Ace2; Mcm1; Phd1; Rlm1; Smp1; Sok2; Ste12;

Swi5; Tec1

YKL185W 6 5 Ace2; Mcm1; Smp1; Sok2; Swi5

YLR190W 6 4 Fkh1; Fkh2; Mcm1; Rap1

YLR274W 5 3 Mcm1; Reb1; Yox1

YLR413W 17 6 Cin5; Sok2; Ste12; Stp2; Tec1; Yap6

YLR452C 12 4 Mcm1; Rap1; Sok2; Ste12

YML034W 3 2 Fkh1; Fkh2

YML119W 14 6 Cin5; Fkh1; Fkh2; Hap4; Mcm1; Reb1

YMR001C 6 5 Fkh1; Fkh2; Mcm1; Reb1; Yox1

YMR031C 9 3 Fkh2; Mcm1; Ste12

YMR032W 7 5 Abf1; Fkh1; Fkh2; Mcm1; Ste12

YNL057W 4 2 Abf1; Fkh2

YNL058C 5 4 Fkh1; Fkh2; Mcm1; Rlm1

YNL216W 4 3 Rap1; Reb1; Ste12

YNL327W 12 6 Ace2; Azf1; Mcm1; Rap1; Sok2; Swi5

YNR067C 13 6 Ace2; Ste12; Sut1; Swi5; Yap6; Yox1

YOL114C 9 4 Ash1; Fkh1; Fkh2; Swi4

YOL132W 3 1 Sok2

YOR066W 7 5 Hcm1; Mbp1; Mcm1; Ste12; Yox1

Continua

Apêndices

conclusão

Systematic names TFA TFU TFs

YOR114W 2 2 Sok2; Swi4

YOR153W 29 7 Ash1; Hap4; Ino4; Mbp1; Rap1; Sok2; Swi4

YOR235W 9 4 Ifh1; Ino4; Rme1; Yap6

YOR258W 5 2 Ino4; Yrr1

YOR298W 7 2 Ino4; Sok2

YOR315W 34 14 Cin5; Fkh1; Fkh2; Ino4; Mcm1; Phd1; Rap1; Rlm1;

Sok2; Ste12; Sum1; Swi4; Tec1; Yap6

YOR383C 20 5 Mig1; Pho4; Rme1; Sok2; YPR015C

YPL025C 10 6 Ace2; Ash1; Fkh2; Phd1; Sok2; Swi4

YPL036W 19 5 Abf1; Azf1; Ime4; Rgm1; Ste12

YPL124W 5 2 Azf1; Swi4

YPL128C 3 1 Ste12

YPL141C 4 3 Fkh1; Fkh2; Ste12

YPL155C 5 4 Fkh1; Fkh2; Ino4; Ste12

YPL158C 6 4 Ace2; Ino4; Mbp1; Swi5

YPL242C 11 7 Abf1; Cha4; Fkh1; Fkh2; Mbp1; Mcm1; Yox1

YPL264C 4 1 Mbp1

YPL269W 4 1 Mbp1

YPR013C 26 12 Azf1; Cin5; Cup9; Fkh1; Hcm1; Ino4; Phd1; Sok2;

Ste12; Swi4; Tec1; Yap6

YPR019W 6 2 Hap4; Yox1

YPR111W 6 2 Ino4; Rap1

YPR119W 12 8 Fkh1; Fkh2; Mbp1; Mcm1; Rap1; Reb1; Swi4; Xbp1

YPR149W 29 9 Fkh2; Mig1; Rap1; Sok2; Ste12; Stp2; Swi4; Tec1;

Yap6

YPR156C 10 7 Fkh1; Fkh2; Mcm1; Sok2; Ste12; Swi4; Tec1

Total 757 349

Legenda: Systematic names: Identificação das sequências; TFA: Todos os TFs inicialmente

atribuídos aos genes; TFU: Apenas TFs induzidos; TFs: Relação dos TFs dos genes.

Apêndices

Apêndice B - Matriz de presença/ausência de TFs para os 66 genes selecionados em alpha

factor 119 minutos.

Abf1

Ace2

Ash1

Azf1

Bas1

Cha4

Cin5

Cup9

Fkh1

Fkh2

Hap4

Hcm1

Hsf1

Ifh1

Ime4

Ino2

Ino4

Mal33

Mbp1

Mcm1

Mig1

Phd1

Pho4

Rap1

Reb1

Rgm1

Rlm1

YML034W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YNL057W 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL264C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0

YPL269W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0

YGL021W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YDR033W 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YLR190W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0

YPR111W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0

YML119W 0 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0

YNL058C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1

YOR298W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YOL132W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YDR146C 0 0 0 1 0 0 0 0 1 1 0 0 0 0 0 1 1 0 0 1 0 0 0 1 1 0 0

YLR452C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0

YPL036W 1 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0

YNL216W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0

YJR092W 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0

YMR032W 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YMR031C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YJL157C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YPL155C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YPL141C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL128C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YHR023W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YGR108W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0

YOR153W 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 0 0 0 0 1 0 0 0

YPL025C 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

YOR114W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YGL008C 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0

YOL114C 0 0 1 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL124W 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YKL185W 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YNL327W 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0

YPL158C 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0

YKL164C 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 1

YER145C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0

YPR156C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YHR005C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0

YBR093C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0

YHL040C 0 0 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

YHR006W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0

Continua

Apêndices

continuação

Rme1

Smp1

Sok2

Stb1

Ste12

Stp2

Sum1

Sut1

Swi4

Swi5

Tec1

Thi2

Tye7

Ume6

Xbp1

YPR015C

Yap6

Yox1

Yrr1

YML034W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YNL057W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL264C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL269W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YGL021W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YDR033W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YLR190W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPR111W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YML119W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YNL058C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YOR298W 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YOL132W 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YDR146C 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YLR452C 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL036W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YNL216W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YJR092W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YMR032W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YMR031C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YJL157C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL155C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL141C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YPL128C 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YHR023W 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0

YGR108W 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YOR153W 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YPL025C 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YOR114W 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YGL008C 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YOL114C 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YPL124W 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

YKL185W 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0

YNL327W 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0

YPL158C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0

YKL164C 0 1 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 0 0

YER145C 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0

YPR156C 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 0

YHR005C 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0

YBR093C 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0

YHL040C 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YHR006W 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0

continua

Apêndices

continuação

Abf1

Ace2

Ash1

Azf1

Bas1

Cha4

Cin5

Cup9

Fkh1

Fkh2

Hap4

Hcm1

Hsf1

Ifh1

Ime4

Ino2

Ino4

Mal33

Mbp1

Mcm1

Mig1

Phd1

Pho4

Rap1

Reb1

Rgm1

Rlm1

YDR055W 0 1 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1

YJL051W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 0 0

YPR119W 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0

YHL028W 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 1 1 1 0 1 0 0 1

YOR383C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0

YOR315W 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 1

YPR149W 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0

YPR013C 0 0 0 1 0 0 1 1 1 0 0 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0

YLR413W 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YBR054W 1 0 0 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YOR235W 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0

YNR067C 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YAL022C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 0

YBR202W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 0 0 0

YBL023C 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0

YBR069C 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

YGL116W 0 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0

YOR066W 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0

YEL032W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YMR001C 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0

YLR274W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0

YPL242C 1 0 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0

YAR018C 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0

YPR019W 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

YOR258W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0

continua

Apêndices

conclusão

Rme1

Smp1

Sok2

Stb1

Ste12

Stp2

Sum1

Sut1

Swi4

Swi5

Tec1

Thi2

Tye7

Ume6

Xbp1

YPR015C

Yap6

Yox1

Yrr1

YDR055W 0 0 1 0 1 0 0 0 1 1 1 0 0 1 0 0 0 0 0

YJL051W 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0

YPR119W 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0

YHL028W 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0

YOR383C 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0

YOR315W 0 0 1 0 1 0 1 0 1 0 1 0 0 0 0 0 1 0 0

YPR149W 0 0 1 0 1 1 0 0 1 0 1 0 0 0 0 0 1 0 0

YPR013C 0 0 1 0 1 0 0 0 1 0 1 0 0 0 0 0 1 0 0

YLR413W 0 0 1 0 1 1 0 0 0 0 1 0 0 0 0 0 1 0 0

YBR054W 0 0 1 0 1 1 0 0 1 0 0 0 0 0 0 0 1 0 0

YOR235W 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0

YNR067C 0 0 0 0 1 0 0 1 0 1 0 0 0 0 0 0 1 1 0

YAL022C 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 1 0

YBR202W 0 0 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 1 0

YBL023C 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0

YBR069C 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0

YGL116W 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YOR066W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YEL032W 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YMR001C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YLR274W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YPL242C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YAR018C 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YPR019W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0

YOR258W 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1

Apêndices

Apêndice C – Tabela das anotações funcionais dos genes induzidos (x

≥ 0,5) em alpha

factor 119 minutos.

Systematic

Name

Standard

Name

Alias Description

YAL022C FUN26 YAL022C Nucleoside transporter with broad nucleoside selectivity;

localized to intracellular membranes

YAR018C KIN3 FUN52,

NPK1

Nonessential protein kinase with unknown cellular role

YBL023C MCM2 YBL023C Protein involved in DNA replication; component of the

Mcm2-7 hexameric complex that binds chromatin as a part of

the pre-replicative complex

YBR054W YRO2 YBR054W Putative protein of unknown function; the authentic, non-

tagged protein is detected in a phosphorylated state in highly

purified mitochondria in high-throughput studies;

transcriptionally regulated by Haa1p

YBR069C TAT1 TAP1,

VAP1

Amino acid transport protein for valine, leucine, isoleucine,

and tyrosine, low-affinity tryptophan and histidine

transporter; overexpression confers FK506 and FTY720

resistance

YBR093C PHO5 PHOE Repressible acid phosphatase (1 of 3) that also mediates

extracellular nucleotide-derived phosphate hydrolysis;

secretory pathway derived cell surface glycoprotein; induced

by phosphate starvation and coordinately regulated by PHO4

and PHO2

YBR202W MCM7 CDC47 Component of the hexameric MCM complex, which is

important for priming origins of DNA replication in G1 and

becomes an active ATP-dependent helicase that promotes

DNA melting and elongation when activated by Cdc7p-Dbf4p

in S-phase

YDR033W MRH1 YDR033W

Protein that localizes primarily to the plasma membrane, also

found at the nuclear envelope; the authentic, non-tagged

protein is detected in mitochondria in a phosphorylated state;

has similarity to Hsp30p and Yro2p

YDR055W PST1 HPF2 Cell wall protein that contains a putative GPI-attachment

site; secreted by regenerating protoplasts; up-regulated by

activation of the cell integrity pathway, as mediated by

Rlm1p; upregulated by cell wall damage via disruption of

FKS1

YDR146C SWI5 YDR146C Transcription factor that activates transcription of genes

expressed at the M/G1 phase boundary and in G1 phase;

localization to the nucleus occurs during G1 and appears to

be regulated by phosphorylation by Cdc28p kinase

YEL032W MCM3 YEL032W Protein involved in DNA replication; component of the

Mcm2-7 hexameric complex that binds chromatin as a part of

the pre-replicative complex

YER145C FTR1 YER145C High affinity iron permease involved in the transport of iron

across the plasma membrane; forms complex with Fet3p;

expression is regulated by iron

continua

Apêndices

continuação

Systematic

Name

Standard

Name

Alias Description

YGL008C PMA1 KTI10 Plasma membrane H+-ATPase, pumps protons out of the cell;

major regulator of cytoplasmic pH and plasma membrane

potential; part of the P2 subgroup of cation-transporting

ATPases

YGL021W ALK1 YGL021W Protein kinase; accumulation and phosphorylation are

periodic during the cell cycle; phosphorylated in response to

DNA damage; contains characteristic motifs for degradation

via the APC pathway; similar to Alk2p and to mammalian

haspins

YGL116W CDC20 PAC5 Cell-cycle regulated activator of anaphase-promoting

complex/cyclosome (APC/C), which is required for

metaphase/anaphase transition; directs ubiquitination of

mitotic cyclins, Pds1p, and other anaphase inhibitors;

potential Cdc28p substrate

YGR108W CLB1 SCB1 B-type cyclin involved in cell cycle progression; activates

Cdc28p to promote the transition from G2 to M phase;

accumulates during G2 and M, then targeted via a destruction

box motif for ubiquitin-mediated degradation by the

proteasome

YHL028W WSC4 YFW1,

YHC8

ER membrane protein involved in the translocation of soluble

secretory proteins and insertion of membrane proteins into

the ER membrane; may also have a role in the stress response

but has only partial functional overlap with WSC1-3

YHL040C ARN1 YHL040C Transporter, member of the ARN family of transporters that

specifically recognize siderophore-iron chelates; responsible

for uptake of iron bound to ferrirubin, ferrirhodin, and related

siderophores

YHR005C GPA1 CDC70,

DAC1,

SCG1

GTP-binding alpha subunit of the heterotrimeric G protein

that couples to pheromone receptors; negatively regulates the

mating pathway by sequestering G(beta)gamma and by

triggering an adaptive response; activates Vps34p at the

endosome

YHR006W STP2 YHR006W

Transcription factor, activated by proteolytic processing in

response to signals from the SPS sensor system for external

amino acids; activates transcription of amino acid permease

genes

YHR023W MYO1 YHR023W

Type II myosin heavy chain, required for wild-type cytokinesis

and cell separation; localizes to the actomyosin ring; binds to

myosin light chains Mlc1p and Mlc2p through its IQ1 and

IQ2 motifs respectively

YJL051W IRC8 YJL051W Bud tip localized protein of unknown function; mRNA is

targeted to the bud by a She2p dependent transport system;

mRNA is cell cycle regulated via Fkh2p, peaking in G2/M

phase; null mutant displays increased levels of spontaneous

Rad52p foc

YJL157C FAR1 YJL157C Cyclin-dependent kinase inhibitor that mediates cell cycle

arrest in response to pheromone; also forms a complex with

Cdc24p, Ste4p, and Ste18p that may specify the direction of

polarized growth during mating; potential Cdc28p substrate

continua

Apêndices

continuação

Systematic

Name

Standard

Name

Alias Description

YJR092W BUD4 YJR092W Protein involved in bud-site selection and required for axial

budding pattern; localizes with septins to bud neck in mitosis

and may constitute an axial landmark for next round of

budding; potential Cdc28p substrate

YKL164C PIR1 CCW6 O-glycosylated protein required for cell wall stability;

attached to the cell wall via beta-1,3-glucan; mediates

mitochondrial translocation of Apn1p; expression regulated

by the cell integrity pathway and by Swi5p during the cell

cycle

YKL185W ASH1 YKL185W Zinc-finger inhibitor of HO transcription; mRNA is localized

and translated in the distal tip of anaphase cells, resulting in

accumulation of Ash1p in daughter cell nuclei and inhibition

of HO expression; potential Cdc28p substrate

YLR190W MMR1 YLR190W Phosphorylated protein of the mitochondrial outer membrane,

localizes only to mitochondria of the bud; interacts with

Myo2p to mediate mitochondrial distribution to buds; mRNA

is targeted to the bud via the transport system involving She2p

YLR274W MCM5 BOB1,

CDC46

Component of the hexameric MCM complex, which is

important for priming origins of DNA replication in G1 and

becomes an active ATP-dependent helicase that promotes

DNA melting and elongation when activated by Cdc7p-Dbf4p

in S-phase

YLR413W NO_C YLR413W Putative protein of unknown function; YLR413W is not an

essential gene

YLR452C SST2 YLR452C GTPase-activating protein for Gpa1p, regulates

desensitization to alpha factor pheromone; also required to

prevent receptor-independent signaling of the mating

pathway; member of the RGS (regulator of G-protein

signaling) family

YML034W SRC1 HEH1,

YML033W

Inner nuclear membrane (INM) protein with a putative role in

sister chromatid segregation, potentially phosphorylated by

Cdc28p; contains helix-extension-helix (HEH) motif, nuclear

localization signal sequence

YML119W NO_C YML119W

Putative protein of unknown funtion; YML119W is not an

essential gene; potential Cdc28p substrate

YMR001C CDC5 MSD2,

PKX2

Polo-like kinase with similarity to Xenopus Plx1 and S. pombe

Plo1p; found at bud neck, nucleus and SPBs; has multiple

functions in mitosis and cytokinesis through phosphorylation

of substrates; may be a Cdc28p substrate

YMR031C NO_C YMR031C Protein of unknown function with similarity to Ykl050cp and

Uso1p; the authentic, non-tagged protein is detected in a

phosphorylated state in highly purified mitochondria in high-

throughput studies; YMR031C is not an essential gene

YMR032W

HOF1 CYK2 Bud neck-localized, SH3 domain-containing protein required

for cytokinesis; regulates actomyosin ring dynamics and

septin localization; interacts with the formins, Bni1p and

Bnr1p, and with Cyk3p, Vrp1p, and Bni5p

continua

Apêndices

continuação

Systematic

Name

Standard

Name

Alias Description

YNL057W NO_C YNL057W Dubious open reading frame unlikely to encode a protein,

based on available experimental and comparative sequence

data

YNL058C NO_C YNL058C Putative protein of unknown function; green fluorescent

protein (GFP)-fusion protein localizes to the vacuole;

YNL058C is not an essential gene

YNL216W RAP1 GRF1,

TBA1,

TUF1

DNA-binding protein involved in either activation or

repression of transcription, depending on binding site context;

also binds telomere sequences and plays a role in telomeric

position effect (silencing) and telomere structure

YNL327W EGT2 YNL327W Glycosylphosphatidylinositol (GPI)-anchored cell wall

endoglucanase required for proper cell separation after

cytokinesis, expression is activated by Swi5p and tightly

regulated in a cell cycle-dependent manner

YNR067C DSE4 ENG1 Daughter cell-specific secreted protein with similarity to

glucanases, degrades cell wall from the daughter side causing

daughter to separate from mother

YOL114C NO_C YOL114C Putative protein of unknown function with similarity to human

ICT1 and prokaryotic factors that may function in translation

termination; YOL114C is not an essential gene

YOL132W GAS4 YOL132W 1,3-beta-glucanosyltransferase, involved with Gas2p in spore

wall assembly; has similarity to Gas1p; localizes to the cell

wall

YOR066W MSA1 YOR29-17 Activator of G1-specific transcription factors, MBF and SBF,

that regulates both the timing of G1-specific gene

transcription, and cell cycle initiation; potential Cdc28p

substrate

YOR114W NO_C YOR114W

Hypothetical protein

YOR153W PDR5 LEM1,

STS1,

YDR1

Plasma membrane ATP-binding cassette (ABC) transporter,

short-lived multidrug transporter actively regulated by Pdr1p;

also involved in steroid transport, cation resistance, and

cellular detoxification during exponential growth

YOR235W NO_C YOR235W

Hypothetical protein; null mutant displays increased levels of

spontaneous Rad52 foci

YOR258W HNT3 YOR258W

Member of the third branch of the histidine triad (HIT)

superfamily of nucleotide-binding proteins; similar to

Aprataxin, a Hint related protein that is mutated in

individuals with ataxia with oculomotor apraxia

YOR298W MUM3 YOR298W

Protein of unknown function involved in the organization of

the outer spore wall layers; has similarity to the tafazzins

superfamily of acyltransferases

YOR315W SFG1 YOR315W

Nuclear protein, putative transcription factor required for

growth of superficial pseudohyphae (which do not invade the

agar substrate) but not for invasive pseudohyphal growth;

may act together with Phd1p; potential Cdc28p substrate

YOR383C FIT3 YOR383C Mannoprotein that is incorporated into the cell wall via a

glycosylphosphatidylinositol (GPI) anchor, involved in the

retention of siderophore-iron in the cell wall

continua

Apêndices

continuação

Systematic

Name

Standard

Name

Alias Description

YPL025C NO_C YPL025C Hypothetical protein

YPL036W PMA2 YPL036W Plasma membrane H+-ATPase, isoform of Pma1p, involved

in pumping protons out of the cell; regulator of cytoplasmic

pH and plasma membrane potential

YPL124W SPC29 LPH3,

NIP29

Inner plaque spindle pole body (SPB) component, links the

central plaque component Spc42p to the inner plaque

component Spc110p; required for SPB duplication

YPL128C TBF1 LPI16 Telobox-containing general regulatory factor; binds to

TTAGGG repeats within subtelomeric anti-silencing regions

(STARs) and possibly throughout the genome and mediates

their insulating capacity by blocking silent chromatin

propagation

YPL141C NO_C YPL141C Putative protein kinase; similar to Kin4p; green fluorescent

protein (GFP)-fusion protein localizes to the cytoplasm;

YPL141C is not an essential gene

YPL155C KIP2 YPL155C Kinesin-related motor protein involved in mitotic spindle

positioning, stabilizes microtubules by targeting Bik1p to the

plus end; Kip2p levels are controlled during the cell cycle

YPL158C NO_C YPL158C Protein of unknown function; null mutant displays increased

frequency of mitochondrial genome loss (petite formation)

and reduced growth rate in minimal glycerol media

YPL242C IQG1 CYK1 Essential protein required for determination of budding

pattern, promotes localization of axial markers Bud4p and

Cdc12p and functionally interacts with Sec3p, localizes to the

contractile ring during anaphase, member of the IQGAP

family

YPL264C NO_C YPL264C Putative membrane protein of unknown function; physically

interacts with Hsp82p; YPL264C is not an essential gene

YPL269W KAR9 YPL269W Karyogamy protein required for correct positioning of the

mitotic spindle and for orienting cytoplasmic microtubules,

localizes at the shmoo tip in mating cells and at the tip of the

growing bud in small-budded cells through anaphase

YPR013C NO_C YPR013C Putative zinc finger protein; YPR013C is not an essential gene

YPR019W MCM4 CDC54,

HCD21

Essential helicase component of heterohexameric MCM2-7

complexes which bind pre-replication complexes on DNA and

melt the DNA prior to replication; accumulates in the nucleus

in G1; homolog of S. pombe Cdc21p

YPR111W DBF20 YPR111W Ser/Thr kinase involved in late nuclear division, one of the

mitotic exit network (MEN) proteins; necessary for the

execution of cytokinesis

YPR119W CLB2 YPR119W B-type cyclin involved in cell cycle progression; activates

Cdc28p to promote the transition from G2 to M phase;

accumulates during G2 and M, then targeted via a destruction

box motif for ubiquitin-mediated degradation by the

proteasome

continua

Apêndices

100

conclusão

Systematic

Name

Standard

Name

Alias Description

YPR149W NCE102 NCE2 Protein of unknown function; contains transmembrane

domains; involved in secretion of proteins that lack classical

secretory signal sequences; component of the detergent-

insoluble glycolipid-enriched complexes (DIGs)

YPR156C TPO3 YPR156C Polyamine transport protein specific for spermine; localizes

to the plasma membrane; member of the major facilitator

superfamily

NO_C: UNCHARACTERIZED

Apêndices

101

Apêndice D - Gráficos dos agrupamentos ATF e AVM originais e embaralhados referentes

aos diversos tempos amostrais de alpha factor

continua

Apêndices

102

continuação

continua

Apêndices

103

continuação

continua

Apêndices

104

conclusão

Apêndices

105

Apêndice E – Identificação dos genes agrupados por ATF distribuídos em categorias MIPS.

Genes, separados em subgrupos de ATF, enquadrados em uma ou mais categorias, para alpha factor 119

minutos

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

ATFa119sg01 10 CELL CYCLE AND DNA

PROCESSING

'9/17 52,94

YGL021W; YDR146C;

YMR032W; YPL155C;

YHR023W; YGR108W;

YGL116W; YMR001C;

YPL242C

ATFa119sg01 00 There are no MIPS data gene '5/17 29,41

YML034W; YLR190W;

YML119W; YNL058C;

YJL051W

ATFa119sg01 14 PROTEIN FATE (folding,

modification, destination)

'4/17 23,53

YGL021W; YPL141C;

YGL116W; YMR001C

ATFa119sg01 42 BIOGENESIS OF CELLULAR

COMPONENTS

'4/17 23,53

YMR032W; YPL155C;

YHR023W; YPL242C

ATFa119sg01 43 CELL TYPE

DIFFERENTIATION

'4/17 23,53

YJR092W; YMR032W;

YHR023W; YPL242C

ATFa119sg01 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'4/17 23,53

YGL021W; YHR023W;

YPR156C; YPL242C

ATFa119sg01 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'3/17 17,65

YPL155C; YHR023W;

YPR156C

ATFa119sg01 16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'3/17 17,65

YJR092W; YMR032W;

YPL242C

ATFa119sg01 40 CELL FATE '3/17 17,65

YMR032W; YHR023W;

YPL242C

ATFa119sg01 01 METABOLISM '3/17 17,65

YGL021W; YPL141C;

YMR001C

ATFa119sg01 18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'2/17 11,76

YGR108W; YGL116W

ATFa119sg01 11 TRANSCRIPTION '1/17 5,88 YDR146C

ATFa119sg01 02 ENERGY '1/17 5,88 YHR023W

ATFa119sg01 34 INTERACTION WITH THE

ENVIRONMENT

'1/17 5,88 YDR146C

ATFa119sg02 11 TRANSCRIPTION '2/5 40,00

YOR315W; YPR013C

ATFa119sg02 14 PROTEIN FATE (folding,

modification, destination)

'1/5 20,00

YPR149W

ATFa119sg02 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'1/5 20,00

YBR054W

ATFa119sg02 00 There are no MIPS data gene '1/5 20,00

YLR413W

ATFa119sg02 43 CELL TYPE

DIFFERENTIATION

'1/5 20,00

YOR315W

ATFa119sg02 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'1/5 20,00

YPR149W

continua

Apêndices

106

continuação

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

ATFa 119sg03 34 INTERACTION WITH THE

ENVIRONMENT

'5/9 55,56

YLR452C; YKL185W;

YER145C; YHR005C;

YHL028W

ATFa 119sg03 10 CELL CYCLE AND DNA

PROCESSING

'3/9 33,33

YNL327W; YDR055W;

YBR202W

ATFa 119sg03 16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'3/9 33,33

YLR452C; YHR005C;

YBR202W

ATFa 119sg03 30 CELLULAR

COMMUNICATION/SIGNAL

TRANSDUCTION MECHANISM

'3/9 33,33

YLR452C; YHR005C;

YHL028W

ATFa 119sg03 11 TRANSCRIPTION '2/9 22,22

YLR452C; YKL185W

ATFa 119sg03 42 BIOGENESIS OF CELLULAR

COMPONENTS

'2/9 22,22

YKL164C; YHL028W

ATFa 119sg03 43 CELL TYPE

DIFFERENTIATION

'2/9 22,22

YKL185W; YDR055W

ATFa 119sg03 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'2/9 22,22

YKL164C; YER145C

ATFa 119sg03 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'2/9 22,22

YKL164C; YHL028W

ATFa 119sg03 40 CELL FATE '2/9 22,22

YKL185W; YNL327W

ATFa 119sg03 14 PROTEIN FATE (folding,

modification, destination)

'1/9 11,11

YLR452C

ATFa 119sg03 41 DEVELOPMENT (Systemic) '1/9 11,11

YKL185W

ATFa 119sg03 01 METABOLISM '1/9 11,11

YNL327W

ATFa 119sg03 18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'1/9 11,11

YLR452C

ATFa119sg04 10 CELL CYCLE AND DNA

PROCESSING

'4/6 66,67

YJL157C; YEL032W;

YLR274W; YAR018C

ATFa119sg04 16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'3/6 50,00

YJL157C; YEL032W;

YLR274W

ATFa119sg04 43 CELL TYPE

DIFFERENTIATION

'2/6 33,33

YJL157C; YAR018C

ATFa119sg04 42 BIOGENESIS OF CELLULAR

COMPONENTS

'2/6 33,33

YJL157C; YAR018C

ATFa119sg04 40 CELL FATE '2/6 33,33

YJL157C; YAR018C

ATFa119sg04 14 PROTEIN FATE (folding,

modification, destination)

'1/6 16,67

YAR018C

ATFa119sg04 00 There are no MIPS data gene '1/6 16,67

YMR031C

ATFa119sg04 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'1/6 16,67

YDR033W

continua

Apêndices

107

continuação

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

ATFa119sg04 30 CELLULAR

COMMUNICATION/SIGNAL

TRANSDUCTION MECHANISM

'1/6 16,67

YJL157C

ATFa119sg04 01 METABOLISM '1/6 16,67

YAR018C

ATFa119sg04 34 INTERACTION WITH THE

ENVIRONMENT

'1/6 16,67

YJL157C

ATFa119sg04 18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'1/6 16,67

YJL157C

ATFa119sg05 10 CELL CYCLE AND DNA

PROCESSING

'3/7 42,86

YNR067C; YBL023C;

YPR019W

ATFa119sg05 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'3/7 42,86

YHL040C; YAL022C;

YBR069C

ATFa119sg05 16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'2/7 28,57

YBL023C; YPR019W

ATFa119sg05 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'1/7 14,29

YHL040C

ATFa119sg05 00 There are no MIPS data gene '1/7 14,29

YOR066W

ATFa119sg05 01 METABOLISM '1/7 14,29

YNR067C

ATFa119sg06 00 There are no MIPS data gene '3/7 42,86

YPL025C; YOR114W;

YOL114C

ATFa119sg06 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'2/7 28,57

YOR153W; YGL008C

ATFa119sg06 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'2/7 28,57

YOR153W; YBR093C

ATFa119sg06 34 INTERACTION WITH THE

ENVIRONMENT

'2/7 28,57

YOR153W; YGL008C

ATFa119sg06 10 CELL CYCLE AND DNA

PROCESSING

'1/7 14,29

YPR119W

ATFa119sg06 43 CELL TYPE

DIFFERENTIATION

'1/7 14,29

YPR119W

ATFa119sg06 02 ENERGY '1/7 14,29

YGL008C

ATFa119sg06 16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'1/7 14,29

YOR153W

ATFa119sg06 01 METABOLISM '1/7 14,29

YBR093C

ATFa119sg06 18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'1/7 14,29

YPR119W

ATFa119sg07 10 CELL CYCLE AND DNA

PROCESSING

'3/5 60,00

YNL216W; YPL128C;

YPL124W

continua

Apêndices

108

conclusão

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

ATFa119sg07 11 TRANSCRIPTION '2/5 40,00

YNL216W; YPL128C

ATFa119sg07 42 BIOGENESIS OF CELLULAR

COMPONENTS

'2/5 40,00

YNL216W; YPL124W

ATFa119sg07 16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'2/5 40,00

YNL216W; YPL128C

ATFa119sg07 00 There are no MIPS data gene '1/5 20,00

YNL057W

ATFa119sg07 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'1/5 20,00

YPL036W

ATFa119sg07 02 ENERGY '1/5 20,00

YPL036W

ATFa119sg07 32 CELL RESCUE, DEFENSE AND

VIRULENCE

'1/5 20,00

YNL216W

ATFa119sg07 12 PROTEIN SYNTHESIS '1/5 20,00

YNL216W

ATFa119sg07 01 METABOLISM '1/5 20,00

YNL216W

ATFa119sg07 34 INTERACTION WITH THE

ENVIRONMENT

'1/5 20,00

YPL036W

ATFa119sg08 00 There are no MIPS data gene '2/3 66,67

YPL264C; YPL158C

ATFa119sg08 10 CELL CYCLE AND DNA

PROCESSING

'1/3 33,33

YPL269W

ATFa119sg09 01 METABOLISM '3/7 42,86

YPR111W; YOR298W;

YOL132W

ATFa119sg09 10 CELL CYCLE AND DNA

PROCESSING

'2/7 28,57

YPR111W; YOR298W

ATFa119sg09 00 There are no MIPS data gene '2/7 28,57

YOR235W; YOR258W

ATFa119sg09 14 PROTEIN FATE (folding,

modification, destination)

'1/7 14,29

YPR111W

ATFa119sg09 11 TRANSCRIPTION '1/7 14,29

YHR006W

ATFa119sg09 42 BIOGENESIS OF CELLULAR

COMPONENTS

'1/7 14,29

YOL132W

ATFa119sg09 43 CELL TYPE

DIFFERENTIATION

'1/7 14,29

YOR298W

ATFa119sg09 20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'1/7 14,29

YOR383C

Apêndices

109

Apêndice F – Identificação dos genes agrupados por AVM distribuídos em categorias

MIPS.

Genes, separados em subgrupos de AVM, enquadrados em uma ou mais categorias, para alpha factor 119

minutos

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

AVMa119sg01

20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'5/13 38,46

YER145C; YHL040C;

YOR383C; YAL022C;

YBR069C

AVMa119sg01

32 CELL RESCUE, DEFENSE AND

VIRULENCE

'4/13 30,77

YDR033W; YBR093C;

YHL040C; YBR054W

AVMa119sg01

01 METABOLISM '3/13 23,08

YOL132W; YBR093C;

YAR018C

AVMa119sg01

10 CELL CYCLE AND DNA

PROCESSING

'2/13 15,38

YBR202W; YAR018C

AVMa119sg01

00 There are no MIPS data gene '2/13 15,38

YPL158C; YLR413W

AVMa119sg01

42 BIOGENESIS OF CELLULAR

COMPONENTS

'2/13 15,38

YOL132W; YAR018C

AVMa119sg01

14 PROTEIN FATE (folding,

modification, destination)

'1/13 7,69 YAR018C

AVMa119sg01

43 CELL TYPE

DIFFERENTIATION

'1/13 7,69 YAR018C

AVMa119sg01

16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'1/13 7,69 YBR202W

AVMa119sg01

40 CELL FATE '1/13 7,69 YAR018C

AVMa119sg01

34 INTERACTION WITH THE

ENVIRONMENT

'1/13 7,69 YER145C

AVMa119sg02

16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'5/7 71,43

YHR005C; YBL023C;

YEL032W; YLR274W;

YPR019W

AVMa119sg02

10 CELL CYCLE AND DNA

PROCESSING

'4/7 57,14

YBL023C; YEL032W;

YLR274W; YPR019W

AVMa119sg02

00 There are no MIPS data gene '2/7 28,57

YMR031C; YOR066W

AVMa119sg02

30 CELLULAR

COMMUNICATION/SIGNAL

TRANSDUCTION MECHANISM

'1/7 14,29

YHR005C

AVMa119sg02

34 INTERACTION WITH THE

ENVIRONMENT

'1/7 14,29

YHR005C

AVMa119sg03

10 CELL CYCLE AND DNA

PROCESSING

'4/7 57,14

YJL157C; YNL327W;

YDR055W; YNR067C

continua

Apêndices

110

continuação

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

AVMa119sg03

43 CELL TYPE

DIFFERENTIATION

'3/7 42,86

YJL157C; YKL185W;

YDR055W

AVMa119sg03

40 CELL FATE '3/7 42,86

YJL157C; YKL185W;

YNL327W

AVMa119sg03

34 INTERACTION WITH THE

ENVIRONMENT

'3/7 42,86

YLR452C; YJL157C;

YKL185W

AVMa119sg03

11 TRANSCRIPTION '2/7 28,57

YLR452C; YKL185W

AVMa119sg03

42 BIOGENESIS OF CELLULAR

COMPONENTS

'2/7 28,57

YJL157C; YKL164C

AVMa119sg03

16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'2/7 28,57

YLR452C; YJL157C

AVMa119sg03

30 CELLULAR

COMMUNICATION/SIGNAL

TRANSDUCTION MECHANISM

'2/7 28,57

YLR452C; YJL157C

AVMa119sg03

01 METABOLISM '2/7 28,57

YNL327W; YNR067C

AVMa119sg03

18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'2/7 28,57

YLR452C; YJL157C

AVMa119sg03

14 PROTEIN FATE (folding,

modification, destination)

'1/7 14,29

YLR452C

AVMa119sg03

41 DEVELOPMENT (Systemic) '1/7 14,29

YKL185W

AVMa119sg03

20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'1/7 14,29

YKL164C

AVMa119sg03

32 CELL RESCUE, DEFENSE AND

VIRULENCE

'1/7 14,29

YKL164C

AVMa119sg04

10 CELL CYCLE AND DNA

PROCESSING

'5/10 50,00

YGL021W; YPL155C;

YGR108W; YPR119W;

YMR001C

AVMa119sg04

14 PROTEIN FATE (folding,

modification, destination)

'3/10 30,00

YGL021W; YPL141C;

YMR001C

AVMa119sg04

43 CELL TYPE

DIFFERENTIATION

'3/10 30,00

YJR092W; YPR119W;

YOR315W

AVMa119sg04

01 METABOLISM '3/10 30,00

YGL021W; YPL141C;

YMR001C

AVMa119sg04

20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'2/10 20,00

YPL155C; YOR153W

continua

Apêndices

111

continuação

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

AVMa119sg04

16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'2/10 20,00

YJR092W; YOR153W

AVMa119sg04

32 CELL RESCUE, DEFENSE AND

VIRULENCE

'2/10 20,00

YGL021W; YOR153W

AVMa119sg04

18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'2/10 20,00

YGR108W; YPR119W

AVMa119sg04

11 TRANSCRIPTION '1/10 10,00

YOR315W

AVMa119sg04

00 There are no MIPS data gene '1/10 10,00

YML034W

AVMa119sg04

42 BIOGENESIS OF CELLULAR

COMPONENTS

'1/10 10,00

YPL155C

AVMa119sg04

34 INTERACTION WITH THE

ENVIRONMENT

'1/10 10,00

YOR153W

AVMa119sg05

10 CELL CYCLE AND DNA

PROCESSING

'5/15 33,33

YDR146C; YMR032W;

YHR023W; YGL116W;

YPL242C

AVMa119sg05

00 There are no MIPS data gene '5/15 33,33

YNL057W; YLR190W;

YML119W; YNL058C;

YJL051W

AVMa119sg05

20 CELLULAR TRANSPORT,

TRANSPORT FACILITATION

AND TRANSPORT ROUTES

'5/15 33,33

YPL036W; YHR023W;

YGL008C; YPR156C;

YPR149W

AVMa119sg05

42 BIOGENESIS OF CELLULAR

COMPONENTS

'4/15 26,67

YMR032W; YHR023W;

YHL028W; YPL242C

AVMa119sg05

32 CELL RESCUE, DEFENSE AND

VIRULENCE

'4/15 26,67

YHR023W; YPR156C;

YHL028W; YPL242C

AVMa119sg05

34 INTERACTION WITH THE

ENVIRONMENT

'4/15 26,67

YDR146C; YPL036W;

YGL008C; YHL028W

AVMa119sg05

43 CELL TYPE

DIFFERENTIATION

'3/15 20,00

YMR032W; YHR023W;

YPL242C

AVMa119sg05

02 ENERGY '3/15 20,00

YPL036W; YHR023W;

YGL008C

AVMa119sg05

40 CELL FATE '3/15 20,00

YMR032W; YHR023W;

YPL242C

AVMa119sg05

14 PROTEIN FATE (folding,

modification, destination)

'2/15 13,33

YPR149W; YGL116W

continua

Apêndices

112

conclusão

Id. Subgrupo Cód.

Cat.

Categorias Razão

Perc.

Systematic name genes

AVMa119sg05

16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'2/15 13,33

YMR032W; YPL242C

AVMa119sg05

11 TRANSCRIPTION '1/15 6,67 YDR146C

AVMa119sg05

30 CELLULAR

COMMUNICATION/SIGNAL

TRANSDUCTION MECHANISM

'1/15 6,67 YHL028W

AVMa119sg05

18 REGULATION OF

METABOLISM AND PROTEIN

FUNCTION

'1/15 6,67 YGL116W

AVMa119sg06

10 CELL CYCLE AND DNA

PROCESSING

'2/3 66,67

YOR298W; YPL124W

AVMa119sg06

00 There are no MIPS data gene '1/3 33,33

YOR114W

AVMa119sg06

42 BIOGENESIS OF CELLULAR

COMPONENTS

'1/3 33,33

YPL124W

AVMa119sg06

01 METABOLISM '1/3 33,33

YOR298W

AVMa119sg06

43 CELL TYPE

DIFFERENTIATION

'1/3 33,33

YOR298W

AVMa119sg07

00 There are no MIPS data gene '5/11 45,45

YPL264C; YPL025C;

YOL114C; YOR235W;

YOR258W

AVMa119sg07

10 CELL CYCLE AND DNA

PROCESSING

'4/11 36,36

YPL269W; YPR111W;

YNL216W; YPL128C

AVMa119sg07

11 TRANSCRIPTION '4/11 36,36

YNL216W; YPL128C;

YHR006W; YPR013C

AVMa119sg07

16 PROTEIN WITH BINDING

FUNCTION OR COFACTOR

REQUIREMENT (structural or

catalytic)

'2/11 18,18

YNL216W; YPL128C

AVMa119sg07

01 METABOLISM '2/11 18,18

YPR111W; YNL216W

AVMa119sg07

14 PROTEIN FATE (folding,

modification, destination)

'1/11 9,09 YPR111W

AVMa119sg07

42 BIOGENESIS OF CELLULAR

COMPONENTS

'1/11 9,09 YNL216W

AVMa119sg07

32 CELL RESCUE, DEFENSE AND

VIRULENCE

'1/11 9,09 YNL216W

AVMa119sg07

12 PROTEIN SYNTHESIS '1/11 9,09 YNL216W

Apêndices

113

Apêndice G: Manuscrito

In silico gene clustering by transcription factors and differential expression

Luciano Angelo de Souza Bernardes

; Silvana Giuliatti

Department of genetics of Faculdade de Medicina de Ribeirão Preto – FMRP - USP

Abstract

Living organisms are continuously modulating their genes in response to intrinsic and

extrinsic changes. Little is known about the complex that involves gene regulation, but the

transcription factors are one of these elements. The basic hypothesis is that if the transcription

factors are responsible for a gene modulation profile along the time, genes should be grouped

by the factors that induced the share each time the sample was observed, allowing a more

dynamic follow-up and not only by the expression profile. To develop efficient computational

methods to analyze large amount of data obtained in experiments is a challenging problem for

computational / bioinformatics. The goal was to group genes using transcription factors and

modulation profiles. The clustering methods are currently considering all points of the

modulation profile of genes and the greater the amount of these items, better is for clustering.

To enable cluster by transcription factors it was created a matrix of presence / absence of

genes for transcription factors and modulation profiles were temporally accumulated. The

results obtained were better than those of the clustering method for expression, which were

observed by the interactions of factors with the genes in analyzed subgroups, resulting in its

majority to cover all of them. The correlation of the subgroups of the two methods was

partial, which means, some genes in some subgroups share the same TFs and have very

similar expression profile.

Introduction

Living organisms, prokaryotes or eukaryotes, in general have thousands of genes.

Throughout its life they produce different proteins through differentiate modulating

(repression or induction) of genes, stimulated by intrinsic or extrinsic characteristics. Usually,

in multicellular organisms, the genome is identical in all cells, what differs from each other is

the distinct set of genes that modulates. In simpler organisms (unicellular), distinct sets of

Apêndices

114

genes also modulate, considering the availability of nutrients, the physical and chemical

environment, among others, and also in response to changes that may reprogram gene

modulation, through its biochemical capacity (CAUSTON et al, 2001). Thus, it becomes a

matter great importance to understand the mechanisms that control and the characteristic

elements of genes involved in modulating the different stages of development.

Transcription Factors

Transcription factors (TF) is a family of proteins that play an important role in

regulating gene transcription. They bind to certain points of the sequence of DNA, and by this

connection, in response to specific stimuli, control the transcription of genetic information in

DNA into RNA. Transcription is one of the most widely studied processes in molecular

biology (WASSEMAN; SANDELIN, 2004). Points of DNA binding (binding sites or motifs)

are short sequences, between 5 and 25 pairs of length base (KARIN, 1990) with possible

degeneration into its patterns. In lower eukaryotes, it is estimated that these points are located

immediately preceding the beginning of the gene, a region that comprises 800-1000 pair

bases. However there is no consensus about this. After the transcription, the product generated

is automatically submitted to the other stages of gene expression such as RNA splicing,

resulting in the production of the corresponding protein (LATCHMAN, 1997).

The study of regulatory regions of genes with similar transcription patterns revealed

the presence of short sequences of DNA shared between them, the same was not observed in

genes that have not had the same pattern of expression. For example, genes which

transcription is induced in response to high temperature contain a common regulatory element

known as heat-shock (HSE), which is absent in genes that do not show the same induction.

Evidence that these sequences are of critical importance in the production of gene

transcription were experiments that transferred the HSE element of a temperature-inducible

gene to a thymidine kinase gene, which is usually not inducible in this condition. This hybrid

gene was introduced into a cell and the temperature was heighten, soon it was noticed an

increase in the production of thymidine kinase, indicating that the HSE was the direct inducer

of this gene. This experiment proved that the transferred element is a binding site for

regulatory proteins known as TFs, which alternatively regulate the gene transcription

positively or negatively, to produce the observed effect on transcription (LATCHMAN, 1995).

Apêndices

115

Searching Algorithms for motifs

For over three decades, researchers search for these motifs (SANDVE; DRABLOS,

2006). For this, several algorithms were written, the first methods were based on consensus

which is the search of snippets into groups of similar sequences, allowing or not variations in

the lengths and / or heading. The passages commonly encountered assumed as motifs, are

then aligned with a corresponding profile, which receives a score. Therefore, it generated a

new consensus, which is considered a potential hotspot for the transcription factor (PAVESE;

MAURI; PESOLA, 2004).

After the advent of microarray (KULESK et al, 1987, SCHENA et al, 1995) it was

created the possibility that clusters were generated based on the expression of these genes by

hierarchical clustering or k-means. On this basis, the search for motifs began to be conducted

in groups of genes with similar modulations, however, gene expression could be caused by

functionally different mechanisms. Considering this behavior, researchers have developed

new types of algorithms, based on joint probability (HOLMES, BRUNO, 2000), which

outlines a model for the relation sequence-expression using the Gibbs algorithm

(LAWRENCE et al, 1993) and Expectation / maximization (DEMPSTER, LAIRD; RUBIM,

1977). A different perspective enabled the development of an algorithm that uses logarithmic

term, which considers only unique sets of expression reasons and returns statistically

significant motifs (BUSSEMAKER, LI; SIGGGIA, 2001).

Following the timeline, a new approach enabled the creation of an algorithm using the

matrix and regression of expression, which recognizes motifs in changes of expression under

certain conditions (COLON et al, 2003). The use of parameters in the beginning, also,

inspired algorithms, they consider any prior knowledge or expectation about the data sets,

which may be prerequisites for any type of algorithms listed above (PAVESE; MAURI;

PESOLA, 2004). Similarly, a set of data used as a background, working as a negative control,

would also be an additional parameter, in order to obtain different results (GANESH;

SIEGEL; IOERGER, 2003).

Using genomic comparison, regions and elements were sought phylogenetically

conserved regions between the genomes of humans, and different breeds of rats and dogs to

create a systematic catalog of common motifs in promoter regions. An approach was

developed and applied to compute and statistically evaluate conservation profiles of multiple

sequences aligned closely related species (DERMITZAKIS; REYMOND; ANTONARAKIS,

2005; OVCHARENKO; BOFFELLI; LOOTS, 2004). More advanced methods tend to

Apêndices

116

integrate multiple computational methods and experimental data. In an approach called

seqVISTA, researchers incorporated data from CHIP-on-chip, microarray and motifs (HU et

al, 2006; LEMMENS et al, 2006).

Dados de Saccharomyces cerevisiae

Many experiments were performed, whether sideboard or in silico motifs on this and

also on certain bodies, which allowed the creation of specialized databases on organisms. The

Saccharomyces cerevisiae Genome Database (SGD; CHERRY et al., 1997) is perhaps the

broadest, which provides information on the various genes of this organism. This allows

approaches and processes that are only nowadays are currently possible. For example, the

analytical tools available on the site Yeast Search for Transcriptional Regulators And

Consensus Tracking (YEASTRACT; TEIXEIRA et al., 2006).

From this last one, we collected data of transcription factors and functional notes

needed for the development of the proposed analysis, while data on gene modulation were

obtained from the experiment by Spellman and colleagues (1998).

Methodology

Modulation values were used (VM), obtained by the microarray technique, of 800

genes involved in cell cycle, the Saccharomyces cerevisiae fungus, available by Spellman and

colleagues (1998; these data have been used in many other studies). The TFs, whose

interaction with the target gene has been proved by experiments in sideboards and subsequent

disclosure statement in the scientific literature, were obtained from the site YEASTRACT

(TEIXEIRA et al., 2006).

VMs and TFs data related to genes were synchronized. Then, we selected genes with

MV equal to or greater than a threshold value at a sample time of 119 minutes. After that, it

was made the diversity of all TFs, and created a matrix of presence / absence that gave a bit 1

for the presence of TF gene or bit 0 otherwise. Using this matrix of presence / absence it was

created a distance matrix of genes and from this the dendrogram was created. Next step was to

divide the dendrogram for the creation of subgroups, with at least three genes each. For each

subgroup, we calculated the ratio and percentages of interactions of TFs with the genes of the

subgroups. Still, were performed processes such as: functional categorization; shuffling of

Apêndices

117

genes to test the efficiency of the methodology, and correlation between the methodologies by

cluster transcription factors (ATF) and grouping by modulation profile (AVM).

Results and Discussion

Graph 1 shows the maximum percentage of the more interactive TF, for each of the

created subgroups. On the left one it is shown the performance of ATF (thick blue line) and

the right performance of AVM (thick blue line). The remaining lines (thin) show the results

obtained by the shuffling of genes.

The layout of the thick blue line obtained by the ATF method (left) showed that

various subgroups have at least one TF that interacts with all the genes of the subgroup

(100%), while in AVM (right) this was not observed. The other lines, results of the mixture,

several peaks that reach 100%, which, for some subgroups, were even more relevant than

those obtained by the method ATF. However, when we see the result as a whole best

maximum percentage of ATF are noticed. While in the chart on the right, the results of the

method of scrambling and AVM, were confounded.

Aiming to understand the behavior of the ATF with smaller amounts of data, we

performed a cumulative section, for sampling times, of the data set. Thus, we created 16

different subsets, with values of gene modulation, which, along with the file of TFs, were

subjected to all processes of the methodology. This sectioning is not an usual approach in

clustering of genes modulated by values, since the greater the amount of time sampling, the

better for the algorithm to weave more stable relationships between genes and thus create

robust and reliable dendrograms (ERNST; BAR -JOSEPH, 2006). However, this procedure

was adopted so that they could observe the behavior and performance of the proposed

Graph 1. Maximum percentage of the more interactive TFs in the subgroups, obtained by ATF (left) and

AVM (direct), in 119 minutes alpha factor.

Apêndices

118

methodology (ATF), for different data sets, and also create conditions of equal comparison

between the methods. Figure 2 shows the comparison of method results for the different

sampling times. In it are represented the average maximum percentage of each subgroup.

These maximum percentages were calculated by the performance of TFs in the gene synthesis

of the subgroups.

Comparativo da média das porcentagens máximas de subgrupos

de ATF e AVM, em

alpha factor

100

110

120

14min

21min

28min

35min

42min

49min

56min

63min

70min

77min

84min

91min

98min

105min

112min

119min

Tempos amostrais

Porcentagens médias

ATF

AVM

Graph 2. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the maximum average

percentages of subgroups, for each sampling time in alpha factor. The mark on top of each bar corresp

onds

to standard deviation.

Figure 2 shows that, systemically, ATF had averages of maximum percentage greater

than AVM. So, it is more efficient in the clustering of genes, because of the sharing of TFs.

In the definition of the subgroups (Figure 3), ATF, also demonstrated higher bars than

those of AVM. Except for two sampling times (63 and 105 minutes), ATF has created more

time subgroups by sampling time.

Comparativo da quantidade de subgrupos de ATF e AVM, em

alpha factor

14min

21min

28min

35min

42min

49min

56min

63min

70min

77min

84min

91min

98min

105min

112min

119min

Tempos amostrais

Qtds. subgrupos

ATF

AVM

Graph 3. Comparison of ATF clustering methods (blue bars) and AVM (red bars) by the quantities of sub-

groups created for each sampling time of alpha factor.

Apêndices

119

We could say that the creation of a greater number of subgroups, concentrating less

genes, has isolated them in a better way, and facilitated the achievement of better maximums.

However, even when ATF generated fewer subgroups (63 and 105 minutes) their maximum

average percentage remained higher.

Considering all the percentages of all the sampling times of the alpha factor

experiment, from the largest to the smallest, in each subgroup and sampling time, graph 4

shows the performance of ATF and AVM.

The lines of graph 4 show the difference between ATF and AVM, in terms of quantity

and percentages obtained. ATF, using the same set of data of AVM obtained more maximum

values and, moreover, when these figures have declined, in ATF it was more pronounced than

an AVM. Showing that the number of TFs that do not interact with all of the genes of the

subgroups is reduced in comparison with AVM.

Conclusions

This analysis was a different approach from previous ones because it did not require

complex mathematical methods, neither so few parameters in the beginning. The upkeep of

the performance with different data sets showed that ATF can be used even in experiments

with few sampling times. According to the researchers Ernst and Bar-Joseph (2006), about a

third of microarray experiments has 3 to 8 sampling times.

The matrix of presence / absence provided a measurement of distances between the

genes on the basis of their TFs. With the value of distance matrices were created the

Comparativo de todas as porcentagens de subgrupos

de ATF e AVM, em

alpha factor

100

110

106

113

120

127

134

141

148

155

162

169

176

Quantidades

Porcentagens

ATF

AVM

Graph 4. Comparison of all the percentages obtained in subgroups of all sampling times

by ATF and AVM in alpha factor.

Apêndices

120

dendrograms. The ATF dendrogram showed better proximity to genes that showed more

homogeneous characteristics, and also managed to isolate well the heterogeneity of the

subgroups. This arrangement allowed the creation of better defined subgroups, which resulted

in more interactive TFs with the genes of the subgroups.

The analysis of several sets of data showed that the ATF arrange them in a better way

when compared to AVM, and also that this arrangement was not random, according to the fine

lines of Chart 1. The MIPS categorization also contributes to the validation of ATF, because

the diversity of categories was large for both methods, demonstrating that there is not one or

group of TF directly related to one category or the modulation profile.

Even with all the positive points highlighted, this methodology only limits those

organisms that have defined TFs, because unlike most of the tools and methods, it does not

seek to discover the TFs, but to use them, assuming that these are the right ones. Indeed, this

limitation will diminish as more experiments, looking for this kind of data, are performed for

different organisms.

Livros Grátis
( http://www.livrosgratis.com.br )
 
Milhares de Livros para Download:
 
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas

Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo