Download PDF
ads:
Patricia Nunes Gon¸calves
CorrefSum: Revis˜ao de Coes˜ao Referencial
em Sum´arios Extrativos
ao Leopoldo
2008
ads:
Livros Grátis
http://www.livrosgratis.com.br
Milhares de livros grátis para download.
Patricia Nunes Gon¸calves
CorrefSum: Revis˜ao de Coes˜ao Referencial
em Sum´arios Extrativos
Disserta¸ao submetida a avalia¸ao como re-
quisito parcial para a obten¸ao do grau de
Mestre em Computa¸ao Aplicada.
Orientador:
Renata Vieira
UNIVERSIDADE DO VALE DO RIO DOS SINOS
CI
ˆ
ENCIAS EXATAS E TECNOL
´
OGICAS
PROGRAMA INTERDISCIPLINAR DE P
´
OS-GRADUAC¸
˜
AO EM
COMPUTAC¸
˜
AO APLICADA
ao Leopoldo
2008
ads:
Dedicat´oria
Dedico este trabalho:
aos meus pais, Hil´ario (in memorian) e Nina.
Agradecimentos
Agrade¸co primeiramente a Deus por ter-me guiado no desenvolvimento deste tra-
balho.
A minha orientadora, Professora Dra. Renata Vieira, pelo incentivo, ˆanimo,
paciˆencia, amizade, apoio e orienta¸ao, que foram imprescind´ıveis para a conclus˜ao desta
disserta¸ao.
A minha co-orientadora, Professora Dra. Lucia Rino, pela recep¸ao durante a visita
a Universidade Federal de ao Carlos, pela amizade e incentivo durante essa jornada.
Aos meus pais Hil´ario e Nina, por me ensinarem a viver com paix˜ao e alegria. Por
me incentivarem a vida toda a perseguir meus sonhos. Ao meu marido, Rodrigo pelo
apoio e incentivo. Ao meu irm˜ao Nilton e demais familiares p elo carinho.
Aos amigos e colegas do LEL, Sandrinha, Zeca, C´esar, Jonatan, Mirian e espe-
cialmente para Patricia Pizz inato, minha fiel amiga que me ajudou muito nesta etapa
final.
Ao NILC em especial aos professores Thiago Pardo, Gra¸ca Nunes, por me recebe-
rem de forma ao carinhosa no laborat´orio e por me fazer sentir em casa, mesmo estando
ao longe.
Aos amigos de ao Carlos que tive a oportunidade de conhecer, Ariane, Thiago
Carbonel, Jorge, Gawa, especialmente para
´
Elen que acabou se tornando uma amiga
insepar´avel (apesar da distˆancia) nos ´ultimos meses.
Aos amigos que me apoaiaram nos momentos dif´ıceis, Cristiane, Marcio, Rafael,
Mara, Daniela, Cristiano, Nataniel, Leandro, Francisco, Luciana, Paula, Marcos Garcia,
Luiz Acau˜a e Vivi.
E ´e claro, os colegas insepar´aveis no mestrado Cony, Roberto, Luciano, Paulo,
Pessin, ergio e Andressa, em especial para Luiz Carlos pela amizade e parceria nas
viagens, festas, estudos e congressos.
A Capes pelo apoio financeiro e ao projeto Farol Procad-Capes por me proporcionar
realizar um intercˆambio durante a realiza¸ao deste trabalho.
Resumo
Com o avan¸co da Internet, cada vez mais convivemos com a sobrecarga de in-
forma¸ao.
´
E nesse contexto que a ´area de sumariza¸ao autom´atica de textos tem se
tornado uma ´area proeminente de pesquisa. A sumariza¸ao ´e o processo de discernir as
informa¸oes mais importantes dos textos para produzir uma vers˜ao resumida. Sumari-
zadores extrativos escolhem as s enten¸cas mais relevantes do texto e as reagrupam para
formar o sum´ario. Muitas vezes, as frases selecionadas do texto ao preservam a coes˜ao
referencial necess´aria para o entendimento do texto. O foco deste trabalho ´e, portanto,
na an´alise e recupera¸ao da coes˜ao referencial desses sum´arios. O objetivo ´e desenvol-
ver um sistema que realiza a manuten¸ao da coes˜ao referencial dos sum´arios extrativos
usando como fonte de informa¸ao as cadeias de correferˆencia presentes no texto-fonte.
Para exp e rimentos e avalia¸ao dos resultados foram utilizados dois sumarizadores: Gist-
Summ e SuPor-2. Foram utilizadas duas formas de avalia¸ao: autom´atica e subjetiva. Os
resultados mostram o potencial dessa abordagem e indicam maneiras de avan¸car nesta
pesquisa.
Palavras-chave: Processamento de L´ıngua Natural, Sumariza¸ao Autom´atica,
Cadeias de Correferˆencia, Coerˆencia e Coes˜ao Textual.
Abstract
With the advance of Internet technology we see the problem of information over-
load. In this context, automatic summarization is an important research area. Summa-
rization is the process of identifying the most relevant information brought about in a
text and on that basis to rewrite a short version of it. Extractive s ummarizers choose
the most relevant sentences in a text and regroup them to form the summary. Usually
the juxtaposition of the selected sentences violate the referential cohesion that is needed
for the interpretation of the text. This work focuses on the analysis and recovery of re-
ferential cohesion of extractive summaries on the basis of knowledge about correference
chains as presented in the source text. Some experiments were undertaken considering the
summarizers GistSumm and SuPor-2. Evaluation was done in two ways, automatically
and subjectively. The results indicate that this is a promising area of work and ways of
advancing in this research are discussed.
Keywords: Natural Language Processing, Automatic Summarization, Corefe-
rence Chains, Coherence and Textual Cohesion.
Lista de Figuras
1 Exemplo de Cadeias de Correferˆencia . . . . . . . . . . . . . . . . . . . . . 17
2 Rela¸ao de Correferˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Texto de exemplo para cadeias de correferˆencia retirado de corpus (CIEN -
CIA 2005 6515.txt) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Etapas da Sumariza¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5 Texto retirado do artigo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6 Texto retirado do artigo com a sa´ıda produzida pela ferramenta. . . . . . . 51
7
´
Arvore morfossint´atica gerada pelo PALAVRAS . . . . . . . . . . . . . . . 54
8 Formato texto gerado pelo PALAVRAS . . . . . . . . . . . . . . . . . . . . 54
9 Formato TIGER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
10 Interface gr´afica do MMAX . . . . . . . . . . . . . . . . . . . . . . . . . . 56
11 Arquivo base para o MMAX . . . . . . . . . . . . . . . . . . . . . . . . . . 56
12 Arquivo XML de sa´ıda do MMAX . . . . . . . . . . . . . . . . . . . . . . . 57
13 Arquivo de sa´ıda do MMAX com as Cadeias de Correferˆencia . . . . . . . 57
14 Arquitetura do sistema GistSumm . . . . . . . . . . . . . . . . . . . . . . . 59
15 odulo de treinamento do SuPor-2 . . . . . . . . . . . . . . . . . . . . . . 61
16 odulo de sele¸ao do SuPor-2 . . . . . . . . . . . . . . . . . . . . . . . . . 61
17 Arquivo de Tokens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
18 Arquivo de part-of-speech . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
19 Arquivo de informa¸oes de sintaxe . . . . . . . . . . . . . . . . . . . . . . . 66
20 Arquivo HTML com informa¸oes com as cadeias de correferˆencia . . . . . . 67
21 Vis˜ao geral do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
22 Texto CIENCIA 2001 6410 . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
23 Sum´ario gerado pelo Gistsumm do texto CIENCIA 2001 6410. . . . . . . . 70
24 Trecho do arquivo XML-Phrases do texto CIENC IA 2001 6410 . . . . . . . 71
25 Trecho do arquivo XML-Markables do texto CIENCIA 2001 6410 . . . . . 71
26 Identifica¸ao de todos os termos das duas cadeias que aparecem no texto
CIENCIA 2001 6410 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
27 Sum´ario revisado do texto CIENCIA 2001 6410 . . . . . . . . . . . . . . . 76
28 Interface do sistema - sele¸ao dos arquivos. . . . . . . . . . . . . . . . . . . 77
29 Interface do sistema - troca de express˜oes e an´alise das cadeias manualmente. 77
30 Texto CIENCIA 2002 22023 . . . . . . . . . . . . . . . . . . . . . . . . . . 103
31 Sum´ario GistSumm do texto CIENCIA 2002 22023 . . . . . . . . . . . . . 103
32 Sum´ario gerado pelo GistSumm e corrigido pelo CorrefSum do texto CI-
ENCIA 2002 22023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Lista de Tabelas
1 Anota¸ao de classifica¸ao do corpus Summ-it . . . . . . . . . . . . . . . . . 67
2 Resultados do conjunto de treino do Summ-it . . . . . . . . . . . . . . . . 82
3 Resultados do conjunto de teste do Summ-it . . . . . . . . . . . . . . . . . 83
4 Dados Rouge - Sum´arios Originais GistSumm e Sum´arios Corrigidos- Dados
de treino . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
5 Dados Rouge - Sum´arios Originais GistSumm e Sum´arios Corrigidos- Dados
de teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
6 Resultados Rouge: Compara¸ao com textos com 1 ou mais trocas e 2 ou
mais trocas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7 Avalia¸ao Subjetiva da Legibilidade . . . . . . . . . . . . . . . . . . . . . . 87
8 Avalia¸ao Subjetiva da Informatividade . . . . . . . . . . . . . . . . . . . . 87
9 Resultados dos 50 textos do Summ-it . . . . . . . . . . . . . . . . . . . . . 89
10 Avalia¸ao Rouge com sum´arios originais e corrigidos gerados pelo Supor-2 . 90
11 SuPor-2 - Limite de taxa de compress˜ao axima de 30% . . . . . . . . . . 91
12 Avalia¸ao Rouge com sum´arios originais e corrigidos gerados pelo Supor-2
com limite de taxa de compress˜ao . . . . . . . . . . . . . . . . . . . . . . . 91
13 Avalia¸ao Subjetiva da Legibilidade - SuPor-2 . . . . . . . . . . . . . . . . 92
14 Avalia¸ao Subjetiva da Informatividade - SuPor-2 . . . . . . . . . . . . . . 92
15 Resultados dos experimentos com sistema de correferˆencia autom´atica . . . 93
16 Resultados Rouge - compara¸ao entre anota¸ao manual e anota¸ao au-
tom´atica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
17 Substitui¸oes do Grupo A . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
18 Substitui¸oes do Grupo B . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
19 Substitui¸oes do Grupo C . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
20 Substitui¸oes do Grupo D . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
21 Tabela Resumida dos Grupos A, B, C e D . . . . . . . . . . . . . . . . . . 99
22 Resultados do Rouge - Sum´arios SuPor-2 . . . . . . . . . . . . . . . . . . . 135
23 Resultados do Rouge - Sum´arios SuPor-2 (continua¸ao) . . . . . . . . . . . 136
Lista de Abreviaturas
ART Anaphor Resolution Tool
DMSUMM Discourse Modeling Summarizer
HTML Hipertext Markup Language
ML Machine Learning
MMAX Multi-Modal Annotation in XML
NILC N´ucleo Interinstitucional de Ling¨u´ıstica Computacional
PLN Processamento de Linguagem Natural
POS Part-of-Speech
RA Resolu¸ao de An´aforas
RI Recupera¸ao de Informa¸ao
ROUGE Recall-Oriented Understudy for Gisting Evaluation
RST Rhethorical Structure Theory
SA Sumariza¸ao Autom´atica
TFISF Term Frequency Inverse Sentence Frequency
XML eXtensible Markup Language
Sum´ario
1 Introdu¸ao 15
1.1 Contextualiza¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Objetivo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.2 Objetivos Espec´ıficos . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.3 Organiza¸ao da Disserta¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 Fundamenta¸ao Torica 20
2.1 Coerˆencia e Coes˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.1 Coerˆencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Coes˜ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.3 Rela¸ao entre Coerˆencia e Coes˜ao . . . . . . . . . . . . . . . . . . . 25
2.2 Correferˆencia e An´afora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.2.1 Sintagmas Nominais . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.2 Classifica¸ao dos Sintagmas Nominais . . . . . . . . . . . . . . . . . 28
2.2.3 Cadeias de Correferˆencia . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.4 Ferramentas de Resolu¸ao de An´afora e Correferˆencia . . . . . . . . 34
2.3 Sumariza¸ao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.1 Avalia¸ao de Sum´arios . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.3.2 Ferramentas de Sumariza¸ao Autom´atica . . . . . . . . . . . . . . . 42
3 Trabalhos Relacionados 45
3.1 Trabalhos de Resolu¸ao de Correferˆencia . . . . . . . . . . . . . . . . . . . 45
3.2 Trabalhos de Resolu¸ao de Correferˆencia e Sumariza¸ao . . . . . . . . . . . 47
4 Materiais e etodos 53
4.1 PALAVRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 MM AX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 GI STSUMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.4 SuPor-2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.5 Sistema de Resolu¸ao Autom´atica de Correferˆencia . . . . . . . . . . . . . 62
4.6 ROUGE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.7 Desc ri¸ao do Corpus Summ-it . . . . . . . . . . . . . . . . . . . . . . . . . 64
5 Sistema CorrefSum 68
5.1 Vis˜ao Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.2 odulo de Leitura do Arquivo . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.3 odulo Processamento das Informa¸oes . . . . . . . . . . . . . . . . . . . . 70
5.4 odulo de Revis˜ao dos Sum´arios . . . . . . . . . . . . . . . . . . . . . . . 75
5.5 odulo de I nterface . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6 Experimentos e Avalia¸ao 79
6.1 Experimentos e Avalia¸ao - GistSumm . . . . . . . . . . . . . . . . . . . . 81
6.1.1 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.1.2 Avalia¸ao Rouge dos Sum´arios do GistSumm Revisados . . . . . . . 84
6.1.3 Avalia¸ao Subjetiva dos Sum´arios do GistSumm Revisados . . . . . 86
6.2 Experimentos e Avalia¸ao - Supor-2 . . . . . . . . . . . . . . . . . . . . . . 88
6.2.1 Experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
6.2.2 Avalia¸ao Rouge dos Sum´arios do Supor-2 Revisados . . . . . . . . 90
6.2.3 Avalia¸ao Subjetiva dos Sum´arios do Supor Revisados . . . . . . . 92
6.3 Experimentos com Sistema de Resolu¸ao de Correferˆencia Autom´atico . . 93
6.4 Avalia¸ao Qualitativa das Substitui¸oes . . . . . . . . . . . . . . . . . . . . 95
6.5 Discus s˜oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.5.1 Anota¸ao de correferˆencia . . . . . . . . . . . . . . . . . . . . . . . 102
6.5.2 An´alise de Substitui¸oes . . . . . . . . . . . . . . . . . . . . . . . . 104
7 Considera¸oes Finais 107
7.1 Contribui¸oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.2 Limita¸oes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
Referˆencias 111
Anexo A - Question´arios Sum´arios GistSumm 116
Anexo B - Question´arios Sum´arios SuPor-2 124
Anexo C - Tabela Dados Rouge SuPor-2 135
Sum´ario
15
Cap´ıtulo 1
Introdu¸ao
1.1 Contextualiza¸ao
Atualmente, com o advento da Internet, a informa¸ao est´a dispon´ıvel de maneira
apida e em grande quantidade, ocasionando a sobrecarga de informa¸ao. Com isso, a
necessidade de filtrar e discernir informa¸ao de maior relevˆancia tem se tornado cada vez
maior.
Conforme Pardo (PARDO, 2005a), ´e nesse contexto que a ´area de sumariza¸ao
autom´atica de textos tem se tornado uma ´area proeminente. Com o avan¸co da Internet,
onde as pessoas se eem em um mar de informa¸ao em constante expans˜ao e atualiza¸ao,
um grande interesse acadˆemico, comercial e governamental surgiu por essa ´area. A id´eia
de pro duzir um texto contendo apenas as informa¸oes centrais, a partir de um texto mais
elaborado se harmoniza perfeitamente com esta tendˆencia global.
A sumariza¸ao ´e uma atividade bastante comum. Quando uma pessoa narra um
evento geralmente se utiliza de um resumo. Inconscientemente as pessoas est˜ao sempre
sumarizando.
´
E tamb´e m muito comum encontrar resumos na forma escrita, como pre-
vis˜oes meteorol´ogicas, chamadas em jornais e revistas, resenhas e abstracts de livros e
teses.
16
A sumariza¸ao ´e o processo de sele¸ao de informa¸oes mais importantes de um
texto, que nesta ´area chamamos de texto-fonte (PARDO, 2002). Na ´area de sumariza¸ao
autom´atica existem duas principais abordagens, a superficial e a profunda, as quais carac-
terizam etodos distintos de sumariza¸ao autom´atica. A abordagem superficial utiliza,
sobretudo, etodos experimentais e estat´ısticos, enquanto a profunda est´a relacionada a
teorias formais e ling¨u´ısticas.
O foco deste trabalho est´a relacionado `a qualidade dos sum´arios extrativos, gerados
pela abordagem superficial. Essa abordagem utiliza a escolha de senten¸cas de maior
relevˆancia do texto para compor o sum´ario.
A sucess˜ao de palavras em um texto formam uma cadeia que vai muito al´em da
simples seq¨uencialidade, pois deve existir um entrela¸camento significativo que aproxima
as partes formadoras do texto. Uns dos mecanismos que estabelecem a conectividade e
a coes˜ao de um texto ao os referentes textuais. Cada palavra escrita estabelece rela¸oes
de sentido e significado tanto entre os elementos que a antecedem como os que o sucedem
construindo uma cadeia textual significativa (KOCH, 2003). A coes˜ao em um texto traz
uma rela¸ao de unidade demonstrando que o texto trata de um assunto principal.
´
E
comum sum´arios extrativos ao preservarem a coes˜ao referencial original necess´aria para
o entendimento do texto.
Conforme (KOCH; TRAVAGLIA, 1996), coes˜ao referencial ´e um componente da su-
perf´ıcie do texto que faz remiss˜ao a outro(s) elemento(s) nela presentes ou infer´ıveis a
partir do universo textual. A constru¸ao de cadeias de correferˆencia ´e parte do processo
de estrutura¸ao coesa de um texto.
Uma cadeia de correferˆencia ´e o conjunto de todas as men¸oes a uma determinada
entidade encontradas no texto. Por exemplo, observe o texto na Figura 1.
Neste exemplo, temos a cadeia de correferˆencia formada p elas palavras: “o
agrˆonomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina)”,
“Guerra”e “o agrˆonomo”. A hip´otese considerada neste trabalho ´e de que a coes˜ao refe-
17
A discuss˜ao sobre a biotecnologia nacional est´a enviesada, pois est´a sendo entendida como sinˆonimo de
transgenia. A opini˜ao ´e do agrˆonomo Miguel Guerra, da UFSC (Universidade Federal de Santa
Catarina). Guerra citou a micropropaga¸ao de vegetais (produ¸ao de mudas em laborat´orio, feita para
evitar doen¸cas e selecionar vegetais saud´aveis) como exemplo de biotecnologia de baixo custo. Com ela,
aumentou-se a pro du ¸ao de moranguinho, no sul do pa´ıs , de 3,2 kg para 60 kg por hectare. Para o
agrˆonomo, o Brasil deve buscar o desenvolvimento de transgenias que tentem melhorar as condi¸oes da
agricultura local, como o cultivo de plantas com a capacidade de captar certos elementos presentes na terra.
Figura 1: Exemplo de Cadeias de Correferˆencia
rencial dos sum´arios extrativos pode ser melhorada se a inf orma¸ao a respeito da cadeia
de correferˆencia do texto-fonte for levada em considera¸ao.
Suponha que o sum´ario extrativo resulte em: “Para o agrˆonomo, o Brasil deve
buscar o desenvolvimento de transgenias que tentem melhorar as condi¸oes da agricultura
local, como o cultivo de plantas com a capacidade de captar certos elementos presentes
na terra” ao seria poss´ıvel o leitor recuperar o referente pretendido para a express˜ao
“o agrˆonomo”. Se a cadeia for levada em considera¸ao ela poderia ser utilizada e a
express˜ao “o agrˆonomo” poderia ser substitu´ıda por “o agrˆonomo Miguel Guerra, da
UFSC (Universidade Federal de Santa Catarina)”.
Dado que a pesquisa na ´area de resolu¸ao de correferˆencia tem se desenvolvido
nos ´ultimos anos, consideramos que a informa¸ao sobre as cadeias pode ser obtida por
algoritmos desse tipo. Neste trabalho, no entanto, teremos `a disposi¸ao um corpus com
informa¸oes de cadeias anotados manualmente, contando com informa¸oes mais precisas
sobre as cadeias.
Logo em seguida apresentamos os objetivos desse trabalho relacionados ao pro-
blema de coes˜ao referencial em sum´arios extrativos autom´aticos, e a utiliza¸ao da in-
forma¸ao das cadeias como uma solu¸ao ao problema.
18
1.2 Objetivo do Trabalho
1.2.1 Objetivo Geral
Este trabalho tem como objetivo geral investigar e propor processos de enrique-
cimento de sum´arios extrativos procurando observar e melhorar a coes˜ao referencial dos
sum´arios atrav´es das informa¸oes das cadeias de correferˆencia. Nesse sentido, ser´a desen-
volvida uma ferramenta que, a partir de cadeias de correferˆencia, verifica problemas de
coes˜ao em sum´arios extrativos produzidos automaticamente e prop˜oe corre¸oes.
1.2.2 Objetivos Espec´ıficos
Estudar o fenˆomeno das cadeias de correferˆencia nos textos da L´ıngua Portuguesa
com base em corpus anotado;
Gerar sum´arios para os textos do corpus utilizando os sumarizadores extrativos
GistSumm (PARDO, 2005a) e SuPor-2 (LEITE; RINO, 2006a);
Estudar e implementar m´etodos de an´alise dos sum´arios extrativos para verificar
coes˜ao referencial com base na informa¸ao das cadeias de correferˆencia;
Projetar e implementar uma interface para a ferramenta, com op¸ao de interven¸ao
humana no processo de corre¸ao;
Avaliar os sum´arios modificados com base na an´alise das cadeias de correferˆencia.
1.3 Organiza¸ao da Disserta¸ao
Este trabalho est´a organizado da seguinte forma, o cap´ıtulo 2 apresenta uma in-
trodu¸ao aos principais conceitos deste trabalho: coerˆencia e coes˜ao textual; sintagma
nominal e suas classifica¸oes; sumariza¸ao autom´atica.
19
O cap´ıtulo 3 apresenta uma vis˜ao geral dos materiais e etodos da pesquisa: corpus
e ferramentas. ao apresentadas as ferramentas PALAVRAS, MMAX, GistSumm, SuPor-
2 e Rouge utilizadas nesta pesquisa.
No cap´ıtulo 4, o sistema CorrefSum, desenvolvido neste trabalho, ´e apresentado e
cada um dos seus odulos detalhados. No cap´ıtulo 5, ao apresentados os resultados dos
experimentos realizados neste trabalho usando o GistSumm e o SuPor-2. Este cap´ıtulo
apresenta, ainda, as avalia¸oes que cercam esses experimentos. Foram realizadas duas
diferentes avalia¸oes: avalia¸ao autom´atica e avalia¸ao subjetiva.
Por fim, no cap´ıtulo 6 ao feitas as considera¸oes finais da disserta¸ao, apresentamos
as contribui¸oes e limita¸oes deste trabalho.
20
Cap´ıtulo 2
Fundamenta¸c˜ao Torica
O objetivo deste cap´ıtulo ´e apresentar conceitos importantes relacionados a este
trabalho, tais como os conceitos de coerˆencia, coes˜ao textual e cadeias de correferˆencia.
Uma vis˜ao geral da ´area de sumariza¸ao autom´atica tamb´em ser´a apresentada.
2.1 Coerˆencia e Coes˜ao
2.1.1 Coerˆencia
A Coerˆencia de um texto est´a apoiada na compreens˜ao do sentido do texto. O
sentido do texto deve resultar em uma compreens˜ao global e ao apenas superficial e
local. Um texto compreendido apenas em parte, em geral, ao ´e coerente. Observe o
seguinte exemplo: “Jo˜ao tinha terminado de estudar para a prova quando chegamos, mas
ainda estava estudando”. Nesse exemplo, observamos que, se a frase for lida por partes,
ela faz sentido, mas, quando terminamos de ler, ela perde o sentido e, conseq¨uentemente,
a coerˆencia (KOCH; TRAVAGLIA, 1990).
Para que o texto seja coerente deve haver uma unidade de sentido no texto. A
coerˆencia ocorre na continuidade e linearidade de s entido entre as express˜oes do texto.
21
Um texto sem continuidade ´e considerado um amontoado de palavras e frases sem sentido
e sem coerˆencia.
Muitas vezes, para entender um texto, ´e necess´ario que o leitor ative seu conheci-
mento de mundo. Ao ativar esse conhecimento, a pessoa estabelece liga¸oes ao expl´ıcitas
entre os termos componentes, fazendo com que o texto torne-se coerente.
A coerˆencia de um texto tamb´em depende da sua boa forma¸ao em termos de in-
terlocu¸ao comunicativa. O sentido do texto, geralmente, ´e compreendido no seu obje tivo,
pois o escritor utiliza um argumento asico na sua constru¸ao. Existe uma inten¸ao por
parte do escritor ao redigir um texto (KOCH, 2000).
Segundo (KOCH; TRAVAGLIA, 1990), a coerˆencia subdivide-se em 4 grandes gru-
pos: c oerˆenc ia semˆantica, coerˆencia sinatica, coerˆencia estil´ıstica e coerˆencia pragatica.
Coerˆencia Semˆantica
A coerˆencia semˆantica refere-se `a rela¸ao entre significados das frases, levando em
considera¸ao a seq¨uencialidade em um determinado texto. Al´em disso, est´a presente nas
rela¸oes de sentido entre os termos componentes de um texto, por exemplo, hipon´ımia
e hiperon´ımia. Considere o seguinte exemplo como um caso de problema de coerˆencia
semˆantica: “Jo˜ao possui um belo ve´ıculo.
´
E um cavalo ´arabe puro sangue.” Ness e
exemplo, temos os termos “cavalo” e “ve´ıculo”, mas o termo “cavalo” ao ´e um hipˆonimo
de “ve´ıculo”, tornando o texto incoerente.
Coerˆencia Sinatica
A c oerˆenc ia sint´atica refere-se aos meios sinaticos para expressar a coerˆencia. Um
exemplo disso ´e o uso de conectivos, de pronomes ou de sintagmas nominais definidos
e indefinidos. Observe o seguinte exemplo: “Maria foi ao baile, entretanto ele ao fora
22
convidada.” Nesse exemplo, temos o emprego do pronome “ele” que poderia somente se
referir ao substantivo “baile”. Todavia, a palavra “baile”, dentro de um senso comum,
ao pode concordar com ser “convidada”, tornando, assim, a frase incoerente. Esse
exemplo traz uma clara id´eia de um problema de coerˆencia sint´atica.
Coerˆencia Estil´ıstica
A coerˆencia estil´ıstica refere-se ao estilo ling¨u´ıstico de escrita. Um exemplo de
quebra de estilo ling¨u´ıstico em um texto ´e o uso de g´ırias e termos inapropriados em
artigos acadˆemicos e textos formais. Por exemplo, “Este artigo apresenta resultados
preliminares, pois o treco ainda ao est´a pronto”. Nesse exemplo, considerando que a
frase esteja num texto acadˆemico formal, a palavra “treco” ao deveria ser utilizada,
pois o termo ´e inapropriado para o contexto e pode provocar estranhamento no leitor/in-
terlocutor, que ao espera o uso de um termo totalmente informal neste tipo de produ¸ao.
Coerˆencia Pragm´atica
Este tipo de coerˆencia ´e mais pertinente ao ato de fala do que ao texto escrito. A
coerˆencia pragm´atica diz respeito a uma seq¨uˆencia comunicativa dada uma situa¸ao
espec´ıfica. Por exemplo, pessoa A pergunta: “Vocˆe me empresta sua caneta?” e pessoa
B responde: “Hoje c omi chocolate o dia todo.” Podemos observar que, nesse exemplo, a
resposta da pessoa B ao tem rela¸ao de sentido com a pergunta realizada pela p es soa A,
portanto essa seq¨encia, no ato de fala, torna-se incoerente. Se o foco fosse a es crita das
frases, p oder´ıamos afirmar que ambas est˜ao semˆantica e sintaticamente corretas, dado o
motivo deste tipo de co erˆencia ser mais pertinente ao ato de fala do que ao texto escrito.
Podemos observar que nesse exemplo a resposta da pessoa B ao tem rela¸ao de sentido
com a pergunta realizada pela pessoa A. Portanto essa seq¨encia no ato de fala torna-se
incoerente.
23
Considerando os opicos descritos nessa se¸ao, os casos de maior relevˆancia no con-
texto deste trabalho ao os de coerˆencia sint´atica e semˆantica, pois est˜ao mais diretamente
ligados `a quest˜ao da correferˆencia.
2.1.2 Coes˜ao
Segundo (KOCH; TRAVAGLIA, 1996), a coes˜ao de um texto ´e a rela¸ao que se es-
tabelece entre os elementos do texto. Ela utiliza marcas ling¨u´ısticas, tamb´em chamadas
de elementos coesivos, que se encontram conectados `as palavras do texto permitindo uma
seq¨uˆencia linear. Esses elementos coesivos devem obedecer a uma ordem gramatical e ao
totalmente dependentes desta ordem.
A coes˜ao est´a no n´ıvel superficial do texto e ´e imprescind´ıvel em um texto bem
formado.
´
E o primeiro passo para entender o sentido e subdivide-se em dois grandes
grupos (KOCH; TRAVAGLIA, 1996): coes˜ao referencial e coes˜ao seq¨uencial.
Coes˜ao Referencial
A co es ˜ao referencial estabelece a coes˜ao entre dois ou mais elementos do texto, es-
ses elementos remetem-se a um mesmo referente, isto ´e, um elemento do universo
textual.
Segundo (JURAFSKY; MARTIN, 2000), existem duas formas de fazer remiss˜ao a um
elemento: an´afora e cat´afora.
An´afora: Faz remiss˜ao a um elemento a introduzido em um discurso. Por exemplo:
Jo˜ao foi a festa. Ele se divertiu muito.” Nesse exemplo, temos o termo “Ele”,
que se refere a “Jo˜ao”, que a havia sido introduzido no discurso. O termo “Ele” ´e
anaf´orico em rela¸ao `a “Jo˜ao”.
Cat´afora: Traz um termo no texto que ao consegue se resolver at´e que encontra
24
seu referente na seq¨uˆencia do texto. Isto ´e, a remiss˜ao encontra-se `a frente do
referente. Por exemplo: Ele ainda ao chegou, meu irm˜ao sempre se atrasa.”
Nesse exemplo, temos o termo “Ele”, que se refere a “meu irm˜ao”, termo que o
aparece na seq¨uˆencia do texto.
Al´em da utiliza¸ao de an´aforas e cat´aforas, a coes˜ao referencial (KOCH; TRAVAGLIA,
1996) ainda faz uso do mecanismo de reitera¸ao, utilizando o emprego de sinˆonimos,
meron´ımia, hiperon´ımia e nomes gen´ericos, conforme exemplos a seguir.
Emprego de sinˆonimos: Um garoto estava correndo. O menino estava apavo-
rado”. Nesse exemplo “Um garoto” e “O menino” ao sinˆonimos.
Meron´ımia: O carro roubado foi encontrado. Os pneus ao estavam no ve´ıculo.”
Nesse exemplo “Os pneus” fazem parte do “carro”.
Hiperon´ımia: “Dentre os mam´ıferos estudados para essa pesquisa[...]A vaca foi
escolhida para a pesquisa.” Nesse exemplo, temos uma rela¸ao de hiperon´ımia entre
“a vaca” e “os mam´ıferos”.
Nomes Gen´ericos: “Todos ouviram o barulho da moto. Olharam para o fim da rua
e viram a coisa chegando apido.” Nesse exemplo, “a coisa” est´a substituindo “a
moto” como um nome gen´erico.
Coes˜ao Seq¨uencial
A coes˜ao seq¨uencial diz respeito `a progress˜ao textual. Neste caso, existem elementos no
texto que se unem para dar a id´eia de seq¨uencialidade e continuidade da id´eia central do
texto.
Num texto coeso, suas partes ao interdependentes, sendo elas de axima im-
portˆancia para a compress˜ao geral do texto. Chamamos isso de progress˜ao textual.
A coes˜ao seq¨uencial faz uso de dois pro cedimentos: coes˜ao seq¨uencial por re-
corrˆencia e coes˜ao seq¨uencial por progress˜ao:
25
Coes˜ao Seq¨uencial por Recorrˆencia: ´e obtida pelos mecanismos de recorrˆencia de
termos e estruturas, de conte´udos semˆanticos e de recursos fonol´ogicos (ritmo, rima
e eco). Por exemplo: “O homem nadava, nadava e nadava buscando salvar sua
vida.”
Coes˜ao Seq¨uencial por Progress˜ao: ´e utilizada para possibilitar manuten¸ao
tem´atica e encadeamentos.
1. A manuten¸ao tem´atica faz uso de termos com a mesma contig¨uidade
semˆantica, por exemplo, “O incˆendio no edif´ıcio provocou s´erios acidentes.
arias ambulˆancias foram chamadas para realizar o atendimento `as v´ıtimas
e transport´a-las a um hospital.” Atrav´es dos termos que est˜ao destacados
neste exemplo, ´e poss´ıvel que o leitor ative seu esquema cognitivo, desfazendo
ambig¨uidades e avan¸cando na perspectiva do texto.
2. O encadeamento permite estabelecer rela¸oes semˆanticas entre ora¸oes, enun-
ciados ou seq¨uˆencias do texto. Por exemplo, Primeiramente trarei in-
forma¸oes sobre coerˆencia e coes˜ao, a seguir falarei sobre sumariza¸ao au-
tom´atica e finalmente trarei informa¸oes sobre materiais e m´etodos que ser˜ao
utilizados.” Ness e exemplo, temos os termos destacados realizando a fun¸ao
de ordena¸ao e encadeamento numa determinada linha de tempo.
Dentre esses conceitos, os de coes˜ao referencial e manuten¸ao tem´atica ao os de
maior relevˆancia para este trabalho.
2.1.3 Rela¸ao entre Coerˆencia e Coes˜ao
Como visto anteriormente nesta se¸ao, a coerˆencia relaciona-se com a linearidade e
sentido do texto, diferentemente da coes˜ao que est´a na parte superficial do texto e utiliza
mecanismos coesivos para realizar a c onex˜ao entre termos e frases. A coes˜ao utiliza marcas
expl´ıcitas no texto que ao aceis de identificar (KOCH; TRAVAGLIA, 1990).
26
A rela¸ao entre a co erˆencia e a coes˜ao existe porque a coerˆencia ´e estabelecida a
partir da seq¨uencialidade na leitura do texto e, por sua vez, a coes˜ao fornece pistas para
tornar o texto coerente utilizando os mecanismos coesivos. Portanto, a coe s˜ao ´e o ponto
de partida para se estabelecer a coerˆencia de um texto.
A interpreta¸ao entre a coerˆencia e a coes˜ao, conforme (KOCH, 2000), nos diz que
a coerˆencia est´a na profundidade de um texto e a coes˜ao na parte superficial do mesmo.
Embora a coes˜ao auxilie na compreens˜ao do sentido do texto, ela ao ´e suficiente
para estabelecer a coerˆencia. Entretanto, um texto sem coes˜ao traz incoerˆencias locais de
acil identifica¸ao.
Sum´arios extrativos (por eliminarem partes do texto) podem facilmente corromper
a coes˜ao de um texto e conseq¨uentemente sua coerˆencia.
2.2 Correferˆencia e An´afora
Tradicionalmente, a an´afora se define como toda retomada de um elemento anterior
em um texto, mantendo-se a identidade referencial. Quando uma entidade ´e mencionada
pela primeira vez no texto, se faz o processo de evoca¸c~ao da entidade. Durante a leitura,
na seq¨encia do texto, quando essa entidade ´e novamente mencionada, temos a realiza¸ao
do acesso a essa entidade. A express˜ao que faz o acesso ´e dita como anaf´orica e a ex-
press˜ao a quem ela se refere no texto ´e dita como seu antecedente. A rela¸ao entre essas
duas express˜oes (an´afora e antecedente) ´e dita como rela¸c~ao de correfer^encia (JU-
RAFSKY; MARTIN, 2000). Na Figura 2 temos uma representa¸ao visual deste conceito.
Segundo (KOCH, 2003), as an´aforas possuem um papel importante na constru¸ao
da coerˆencia de um texto. ao apenas na coerˆencia, mas tamem na compreens˜ao glo-
bal e sentido do texto. Durante a leitura, ocorre o processamento textual, em que fica
claro que existem representa¸oes de entidades no texto. A partir da´ı, o leitor faz uso do
encadeamento referencial para resolver qual das entidades descritas no texto deve ser sele-
27
Figura 2: Rela¸ao de Correferˆencia
cionada para interpreta¸ao do sentido do texto. Essas entidades ao geralmente evocadas
ou acessadas por sintagmas nominais.
A seguir apresentamos o conceito de sintagmas nominais, a sua classifica¸ao e as
cadeias de correferˆencia.
2.2.1 Sintagmas Nominais
Os sintagmas consistem num conjunto de elementos que representam uma unidade
significativa dentro da ora¸ao e que mant´em entre si rela¸oes de dependˆencia e ordem.
Os sintagmas costumam organizar-se em torno de um n´ucleo que, por si o, pode ser
considerado um sintagma (KOCH; SILVA, 2002).
A natureza de um sintagma est´a na presen¸ca de seu n´ucleo. Se o n´ucleo for um
verbo, o sintagma ´e verbal, se for um substantivo ´e um sintagma nominal. Al´em de
substantivo, o sintagma nominal pode ainda apresentar n´ucleos como pronome pessoal,
pronome demonstrativo, pronome indefinido, pronome interrogativo e pronome possessivo,
logo abaixo temos exemplos com diferentes n´ucleos.
N´ucleo nome pr´oprio: William Eberhard descobriu que as larvas provocam
mudan¸cas no comportamento da hospedeira.”
28
N´ucleo substantivo comum: Pesquisas em camundongos foram realizadas.”
Pronome: Ela surgiu a partir de c´elulas isoladas da vaca Vit´oria.”
Geralmente, os sintagmas nominais ao as express˜oes utilizadas para evoca¸ao e
acesso de entidades mencionadas em um texto.
De acordo com (PERINI, 2003), o sintagma nominal pode se tornar uma estrutura
bem complexa, p ois pode apresentar grandes diferen¸cas estruturais, como, por exemplo,
apresentar determinante(s) e/ou modificador(es). Os determinantes antecedem o n´ucleo
e os modificadores podem aparecer antes e depois do n´ucleo. Observe esses elementos em
alguns exemplos de sintagmas nominais com uso de determinantes e modificadores (em
destaque nos exemplos abaixo):
Determinantes: O uso de determinantes ´e muito comum em sintagmas nominais,
podem ser artigos definidos, indefinidos, adjetivos entre outros. Os ping¨uins ao
acostumados a mar aberto.”
Modificadores
Pr´e-modificadores: aparecem antecedendo o n´ucleo. O pequeno astro vai
passar a uma certa distˆancia do Sol.”
os-modificadores: aparecem ap´os o ucleo. Amostras celulares de ani-
mais amea¸cados de extin¸ao foram coletadas.”
2.2.2 Classifica¸ao dos Sintagmas Nominais
Os sintagmas nominais ao express˜oes ling¨u´ısticas usadas para referenciar enti-
dades mencionadas nos textos. Conforme trabalhos de (VIEIRA, 1998) e (COLLOVINI;
VIEIRA, 2006b), os sintagmas nominais ao divididos em 4 classes distintas: novas no
29
discurso, an´aforas diretas, an´aforas indiretas e associativas.
Novas no Discurso
Quando um sintagma nominal introduz um novo referente no discurso (evoca¸ao),
sem apresentar parte de seu sentido, ancorado em uma express˜ao anterior, definimos esse
sintagma como novo no discurso. As express˜oes dadas como novas no discurso ao ao
anaf´oricas, a que ao mencionadas pela primeira vez.
´
E muito c omum que as express˜oes novas sejam mencionadas no in´ıcio dos textos.
Durante a seq¨uencialidade do discurso, outras express˜oes poder˜ao ser utilizadas fazendo
referˆencia a uma entidade mencionada anteriormente. As express˜oes novas no discurso
podem servir de antecedentes para as an´aforas.
An´afora Direta
A an´afora direta possui uma rela¸ao de identidade com seu antecedente e sua ex-
press˜ao ling¨u´ıstica apresenta o mesmo nome-n´ucleo do antecedente. Por exemplo: “Um
grupo que re´une 13 sociedades cient´ıficas nacionais enviou uma carta ao Senado Federal
para pedir mudan¸cas no projeto da nova Lei de Biosseguran¸ca. Na carta os cientistas
falam sobre elulas-tronco.” Nesse exemplo, temos em destaque o sintagma nominal
“uma carta”. Na segunda vez em que ele ´e mencionado, o termo torna-se anaf´orico
direto, possuindo mesmo nome-n´ucleo mencionado anteriormente.
An´afora Indireta
A an´afora indireta ´e tamb´em caracterizada pela rela¸ao de identidade com o ante-
cedente, mas ao possui o mesmo nome-n´ucleo. Vejamos o exemplo: “Os EUA foi um
30
dos ´ultimos pa´ıses a assinar a Declara¸ao de Helsinque. O texto tra¸ca diretrizes
para ´etica em pesquisas...”, nesse exemplo, o termo “O texto” est´a referindo-se ao “a De-
clara¸ao de Helsinque”. Como podemos notar, eles ao possuem o mesmo nome-n´ucleo,
mas os dois termos referem-se `a mesma entidade.
Segundo (TEIXEIRA, 2007), an´aforas indiretas ao ao explic´aveis por simples pro-
cessos de associa¸ao, mas por complexos processos cognitivos. Como, por exemplo, pro-
cessos inferenciais nos quais o leitor ativa a representa¸ao da informa¸ao armazenada em
sua mem´oria. A classe anaf´orica indireta possui, portanto, arios tip os. Abaixo, temos
alguns exemplos:
Rela¸ao de nome pr´oprio e nome comum: Aplica¸ao de um nome comum para refe-
renciar um nome pr´oprio dito anteriormente. Veja o exemplo: “William Eberhard
descobriu que as larvas da Hymenoepimecis provocam mudan¸cas no comporta-
mento da hospedeira. A aranha modifica o formato da teia para que o casulo da
vespa possa se desenvolver.”
Rela¸ao de Sinon´ımia: Utiliza¸ao de sinˆonimos para o mesmo referente. Por exem-
plo: “Isso quer dizer que os camundongos transgˆenicos reduziram a gordura de
seu corpo. Os ratos estudados[...]”
Nominaliza¸ao de verbos: Aplica¸ao de um substantivo para referenciar um verbo.
Por exemplo: “O presidente da Comiss˜ao Nacional de
´
Etica em Pesquisa propˆos
na 52
a
Reuni˜ao Anual da Sociedade Brasileira para o Progresso da Ciˆencia.... A
proposta foi discutida pelos cientistas[...]”
Hipon´ımia/Hipern´ımia: Rela¸c ˜oes de hipon´ımia e hipern´ımia tamb´em ao utiliza-
das para refereciar entidades a mencionadas. Por exemplo: “As mudan¸cas nas
popula¸oes de ping¨uins tamem serviram como indicativo do problema clim´atico.
Os animais usavam geleiras para se abrigar e procriar.”
Numerais: Utiliza¸ao de numerais c omo termo anaf´orico. Por exemplo: As
31
mol´eculas DM43 e a DM64 parecem especificamente talhadas para neutralizar
os principais efeitos do veneno das serpentes. As duas tˆem essa fun¸ao antiof´ıdica.”
Rela¸oes pronominais: Inser¸ao de pronomes para identificar um referente no texto.
Esse caso ´e o mais comum de an´aforas indiretas, pois o emprego de pronomes evita a
repeti¸ao de um grupo nominal. a algumas formas de pronominaliza¸ao, vejamos
alguns exemplos:
1. Pronomes pessoais: “Carlos Nobre participou do debate Cen´arios da
Amazˆonia... a defesa feita por ele foi contra o desmatamento da floresta...”
2. Pronomes demonstrativos: “Os dados preliminares sugerem que o animal pode
tanto ter sido um placent´ario quanto um marsupial. Se essa hip´otese for
verdadeira, os pesquisadores...”
3. Pronomes possessivos: “Benjamin Wolozin escreveu em seu artigo que obteve
a primeira reconstru¸ao de m´ultiplos genomas diretamente de uma amostra
natural.”
4. Pronomes indefinidos: “As propostas foram discutidas entre pesquisadores e
governo, entretanto nenhuma foi aceita.”
An´aforas Associativas
De acordo com (VIEIRA, 1998), a an´afora associativa introduz um novo referente no
discurso. Entretanto, seu significado est´a fortemente ancorado em uma express˜ao anterior.
A an´afora associativa pode ser de arios tipos, vejamos alguns exemplos:
Rela¸ao conjunto/sub-conjunto: “Adalberto Ver´ıssimo, da ONG Imazon, apresentou
estudo segundo o qual as cidades em regi˜oes amazˆonicas ocupadas de forma
predat´oria duram por volta de 23 anos. Ele citou como exemplo as cidades de
Paragominas (PA), cailˆandia (MA) e Humait´a (AM).”
32
Rela¸ao grupo/membros: “Um tratamento para a obesidade que faz vocˆe perder
peso e reduzir a taxa de gordura do corpo ´e o que sugere um estudo realizado por
um grupo de cientistas britˆanicos ser´a publicado hoje na revista Nature. Um
dos cientistas, John Clapham, diz que esse ´e um alvo vi´avel para rem´edios
contra a obesidade.”
Rela¸ao objeto/substˆancia: Uma estrela ´e composta de as hidrogˆenio con-
densada pela gravidade.”
Rela¸ao entidade/atributo: “O mecanismo que faz as pessoas sentirem falta de ar
em regi˜oes montanhosas...Cientistas descobriram que esses gases atuam na regula¸ao
respirat´oria, fazendo com que os vasos sangu´ıneos e vias respirat´orias dila-
tem.”
Rela¸ao parte/todo: “As larvas ao parasitar a aranha provocam mudan¸cas no
comportamento da hospedeira. A rela¸ao esp´uria come¸ca no abdome.”
2.2.3 Cadeias de Correferˆencia
O conceito de correferˆencia foi dado no in´ıcio desta se¸ao, entretanto, cabe observar
que nem to das as an´aforas ao correferentes. Como as an´aforas associativas introduzem
um novo referente no discurso, elas ao ao exatamente correferentes com seus anteceden-
tes. Apenas as an´aforas diretas e indiretas ao correferentes.
Uma cadeia de correferˆencia pode ser definida como o conjunto de todas as
men¸oes (express˜oes referenciais) a uma determinada entidade (referente) encontrada em
um texto. Este conjunto ´e respons´avel pela constru¸ao coesa de um texto. Vejamos um
exemplo: considere o texto mostrado na Figura 3, onde foram encontradas 8 cadeias de
correferˆencias, detalhadas a seguir:
33
O Ibama (Instituto Brasileiro do Meio Ambiente e dos Recursos Naturais Renoaveis) apli-
cou, desde maio passado, multas de cerca de R$ 50 milh˜oes a pelo menos 200 fazendeiros
cujas terras est˜ao `as margens do Taquari. Segundo o Ibama, nas propriedades multadas
houve desmatamento nas margens do rio, com a finalidade de abrir espa¸co `a agricultura
ou `a cria¸ao de gado. Em conseq¨encia, a eros˜ao despejou toneladas de terra no Taquari.
O coordenador do Programa Pantanal do Minist´erio do Meio Ambiente, Paulo Guilherme
Cabral, recebeu o estudo da Embrapa sobre o Taquari no in´ıcio de julho. Ele disse que
a ministra Marina Silva criou um grupo de trabalho para analisar as propostas . Existem,
segundo Cabral, projetos polˆemicos dentro do estudo, como a dragagem (retirada de terra
do rio). “Onde vamos colocar essa terra no Pantanal?”, questiona. A Sema (Secretaria
do Meio Ambiente de Mato Grosso do Sul) informou que defende a dragagem e estuda a
contrata¸ao de uma empresa para o servi¸co. A situa¸ao do rio Taquari motivou a cria¸ao
do Programa Pantanal, quando o ent˜ao presidente Fernando Henrique Cardoso, e m 1995,
sobrevoou a regi˜ao e ficou impressionado com o rio assoreado, invadindo fazendas.
Figura 3: Texto de exemplo para cadeias de correferˆencia retirado de corpus (CIEN-
CIA 2005 6515.txt)
Cadeia 1: O Ibama (Instituto Brasileiro do MeioAmbiente e dos Recursos Naturais
Renoaveis) - o Ibama
Cadeia 2: o Taquari - o rio - o Taquari - o Taquari - o rio Taquari
Cadeia 3: terra - terra do rio
Cadeia 4: O coordenador do Programa Pantanal do Minist´erio do Meio Ambiente,
Paulo Guilherme Cabral - Ele - Cabral
Cadeia 5: o estudo da Embrapa - o estudo
Cadeia 6: a dragagem (retirada de terra de o rio) - a dragagem - o servi¸co
Cadeia 7: o Pantanal - a regi˜ao
Cadeia 8: A situa¸ao de o rio Taquari - o rio assoreado
Podemos observar que as cadeias de correferˆencia ao componentes textuais com-
plexos e demonstram a unidade de sentido em um texto. Segundo (KOCH, 2003), as ex-
press˜oes referenciais que comp˜oem as cadeias de correferˆencias ao em apenas a fun¸ao de
referir. Pelo contr´ario, funcionam como express˜oes multifuncionais dentro de um texto,
34
pois contribuem para elaborar o sentido global do texto e indicam pontos de vista, si-
nalizando dificuldades de acesso ao referente e recategorizando os objetos presentes na
mem´oria do leitor.
Nesse sentido, consideramos que as cadeias podem servir de subs´ıdios para an´alise
da qualidade dos sum´arios extrativos.
2.2.4 Ferramentas de Resolu¸ao de An´afora e Correferˆencia
Nessa se¸ao, ao descritos os trabalhos desenvolvidos nessa ´area considerando a
l´ıngua portuguesa. O desenvolvimento de algoritmos que realizam a resolu¸ao de an´afora
´e ´util em diversas tarefas e aplica¸oes na ´area de PLN, como, por exemplo, recupera¸ao
e extra¸ao de informa¸oes, sumariza¸ao autom´atica, tradutores, entre outros. A pesquisa
do processamento autom´atico de textos utilizando a l´ıngua portuguesa, em especial o
processamento de resolu¸ao de an´afora e correferˆencia, ainda ´e muito rece nte. a um
grande esfor¸co no meio acadˆemico no desenvolvimento de algoritmos desse tipo. Vejamos
a seguir alguns trabalhos referentes a esse assunto.
Em (GASPERIN; GOULART; VIEIRA, 2003), temos uma ferramenta desenvolvida
para resolu¸ao anaf´orica de descri¸oes de finidas chamada ART-Anaphor Resolution Tool.
Para entrada da ferramenta, ao fornecidos arquivos XML pro ce ssados pelo PALA-
VRAS (BICK, 2000). Em um dos arquivos ´e fornecida a informa¸ao de sintagmas. Enao,
os sintagmas nominais ao escolhidos e organizados na forma de um conjunto de sintagmas.
Os autores consideraram todas as descri¸oes definidas
1
do texto como an´aforas e todos os
sintagmas nominais como seus poss´ıveis antecedentes. A heur´ıstica para identifica¸ao de
an´aforas diretas funciona da seguinte forma:
1. Seleciona o primeiro candidato a an´afora e realiza a extra¸ao do n´ucleo.
2. Localiza os n´ucleos dos sintagmas nominais.
1
Sintagmas nominais com artigo definido (“o”/“a”) como determinante.
35
3. Verifica se os n´ucleos ao iguais. Se forem iguais, ´e indicada uma rela¸ao anaf´orica
entre eles.
Como sa´ıda, a ferramenta gera um arquivo XML no padr˜ao utilizado pelo
MMAX (M¨uLLER; STRUBE, 2001) com um apontamento para o sintagma nominal an-
tecedente.
O trabalho desenvolvido por (COELHO, 2005) foi de implementa¸ao do algoritmo
de Lappin e Leass (LAPPIN; LEASS, 1994) para resolu¸ao anaf´orica pronominal em textos
da l´ıngua portuguesa. Para esse trabalho, ele usou um corpus anotado com informa¸oes
morfol´ogicas e sint´aticas. Baseado nessa informa¸ao o algoritmo procura pronomes em um
texto e procura reconhecer seu antecedente. O algoritmo trabalha com os textos anotados
no formato XML e foi desenvolvido utilizando a linguagem Java
2
na implementa¸ao.
Os trabalhos apresentados em (COLLOVINI, 2005) e (COLLOVINI; VIEIRA, 2006b)
tiveram por objetivo classificar de forma autom´atica as descri¸oes definidas em quatro clas-
ses: novas no discurso, an´aforas diretas, an´aforas indiretas e asso ciativas. Para essa tarefa,
foram extra´ıdas 16 features morfol´ogicas e sint´aticas para o aprendizado de aquina. O
algoritmo utilizado foi o J48, implementado no pacote Weka (WITTEN; FRANK, 2000).
O trabalho apresentado em (COELHO et al., 2006) traz um estudo de corpus sobre
resolu¸ao das descri¸oes definidas utilizando a informa¸ao semˆantica fornecida pelo par-
ser PALAVRAS (BICK, 2000). O objetivo foi melhorar a performance da resolu¸ao das
an´aforas associativas e indiretas.
O trabalho apresentado em (COLLOVINI; VIEIRA, 2006a) prop˜oe a ecnica de ba-
lanceamento de corpus p or repeti¸ao de exemplos com obje tivo de melhorar os resultados
alcan¸cados em (COLLOVINI, 2005).
a o trabalho (RIBEIRO-JUNIOR et al., 2007) prop˜oe uma combina¸ao das duas
t´ecnicas apresentadas nos trabalhos de (COLLOVINI; VIEIRA, 2006a) e (COELHO et al.,
2006), utilizando tanto as informa¸oes semˆanticas para classifica¸ao das express˜oes nas
2
http:sun.java.com
36
4 classes, quando a t´ecnica de balanceamento de corpus. Foram implementadas as 16
features apresentadas em (COLLOVINI; VIEIRA, 2006a), mais duas novas features baseadas
nas informa¸oes semˆanticas.
Em (CHAVES, 2007), a autora desenvolveu uma adapta¸ao do algoritmo de (MIT-
KOV, 2002) para a l´ıngua portuguesa. Essa abordagem busca resolver an´aforas pronomi-
nais com o foco de pronomes pessoais de 3
a
pessoa. Esse trabalho ao utiliza aprendizado
de aquina nem conhecimento semˆantico. Para cada candidato `a antecedente o sistema
realiza, baseado em regras de natureza multil´ıng¨ue, um sistema de p ontua¸ao. Dentre os
candidatos ´e selecionado o antecedente que tiver o maior n´umero de pontos.
O trabalho desenvolvido por (SOUZA, 2007) busca extrair e montar cadeias de
correferˆencia de um texto.
´
E o primeiro a considerar todos os tipos de sintagmas nominais.
O sistema utilizada aprendizado de aquina para esta tarefa. Para o treinamento do
sistema foram utilizado textos do gˆenero jornal´ıstico. Maiores detalhes sobre o sistema
podem ser encontrados neste trabalho na se¸ao 4.5.
Com o desenvolvimento da ´area de resolu¸ao de an´aforas e correferˆencias, podemos
come¸car a pensar em aplica¸oes de tais sistemas em outras tarefas de PLN, o que ´e o
caso neste trabalho. Aqui procuramos integrar resultados de resolu¸ao de an´aforas e m
sumariza¸ao autom´atica.
2.3 Sumariza¸ao
Sumariza¸ao ´e um processo muito comum. Hoje vemos sum´arios de arios tipos:
not´ıcias em jornais, notici´arios, trailler de filme, sinopse de livros, guias de televis˜ao, entre
outros. Um sum´ario pode ser gerado de arias formas: um pequeno filme, um trecho de
´audio, mas a forma mais comum encontrada na ´area de pesquisa ´e textual.
Sumariza¸ao autom´atica de textos ´e um campo de pesquisa que tem chamado a
aten¸ao da ´area de PLN nos ´ultimos anos. Em parte, isso se a pelo fato de que a
37
sumariza¸ao incorpora muitos aspectos de conhecimento de linguagem natural e, tamb´em,
pelo pr´oprio fato de que um sumarizador gere um texto tamem em linguagem natural.
Segundo (MANI, 2001), a sumariza¸ao ´e o proce sso de sele¸ao das informa¸oes mais
relevantes de um texto, com o objetivo de produzir uma vers˜ao resumida do mesmo. Um
sum´ario deve conter o conte´udo principal do texto fonte que beneficie um le itor ou uma
tarefa. Por exemplo, um sum´ario pode ser gerado para uma finalidade espec´ıfica. A
gera¸ao do sum´ario vai depender da finalidade do leitor ou grupo de leitores. Quando um
sum´ario tem o foco no usu´ario ´e chamado de user-focused. Entretando, os sum´arios mais
pesquisados nessa ´area ao os sum´arios gen´ericos. Os sum´arios gen´ericos independem de
usu´ario leitor. Neste trabalho consideramos sum´arios gen´ericos.
Um item importante dentro da ´area de sumariza¸ao autom´atica ´e o conceito de taxa
de compress˜ao. O tamanho do sum´ario pode ser dimensionado em fun¸ao do tamanho
do texto fonte. Para definir a taxa de compress˜ao podemos considerar que o texto fonte
tem 100% e o sum´ario pode ser gerado usando, por exemplo, 30% de taxa de compress˜ao.
Neste caso, o sum´ario gerado ter´a 30% do total das palavras do texto fonte.
Um sum´ario pode ser um abstract ou extrato. Um extrato ´e um sum´ario onde as
senten¸cas que o comp˜oe ao copiadas do texto fonte. a um abstract pode ser formado
por trechos do texto fonte ou at´e mesmo por gera¸ao de segmentos textuais a partir do
texto original (MANI, 2001).
O process o de sumariza¸ao ´e dividido em trˆes etapas (JONES, 1999), como mostra
a Figura 4.
An´alise: ´e a interpreta¸ao do texto para cria¸ao de uma representa¸ao conceitual.
Transforma¸ao: ´e a transforma¸ao da representa¸ao interna do texto original em
uma representa¸ao interna do sum´ario.
S´ıntese: ´e a gera¸ao do sum´ario em linguagem natural observando a representa¸ao
gerada no passo anterior.
38
Figura 4: Etapas da Sumariza¸ao
A ´area de sumariza¸ao ´e, ainda, aplicada em diferentes dimens˜oes, como, por
exemplo, o sum´ario pode ser gerado a partir de um ´unico texto fonte ou at´e mesmo de
m´ultiplos documentos (RADEV, 2004).
A ´area de sumariza¸ao segue duas principais abordagens:
Abordagem Superficial: Utiliza, geralmente, m´etodos combinados com ecnicas es-
tat´ısticas para comporem sum´arios. Alguns exemplos desses etodos ao:
Palavra-Chave (LUHN, 1958): A id´eia principal do texto ´e expressa pelas pala-
vras que mais aparecem no texto. Algumas abordagens optam pela escolha de
palavras que aparecem no t´ıtulo do texto-fonte.
Localiza¸ao da senten¸ca (BAXENDALE, 1958): Para sele¸ao das senten¸cas mais
relevantes de um texto ´e levada em considera¸ao sua localiza¸ao. Acredita-se
que a primeira e/ou a ´ultima senten¸ca do par´agrafo podem vir a serem as mais
importantes.
Palavras sinalizadoras (PAICE, 1981): Neste m´e todo, um dicion´ario ´e previ-
amente montado para servir de base de consulta para sele¸ao de senten¸cas
relevantes. As senten¸cas ser˜ao consideradas relevantes se conterem uma ou
mais palavras desse dicion´ario.
39
Frase auto-indicativa (PAICE, 1981): Utiliza algumas frases previamente seleci-
onadas, como por exemplo: “O objetivo deste trabalho ´e...” ou “O foco deste
artigo ´e...”, na sumariza¸ao de trabalhos acadˆemicos.
Abordagem Profunda: Utiliza conhecimento ling¨u´ıstico para realizar a tarefa de
sumariza¸ao. Alguns exemplos de conhecimento ling¨u´ıstico, que podem ser aplicados
nesse tipo de abordagem, ao (PARDO, 2005b):
Rela¸oes Semˆanticas: Capturam a rela¸ao sobre a forma como os conhecimen-
tos descritos no texto se relacionam.
Rela¸oes Intencionais: Como visto na se¸ao 2.1.1 deste trabalho, todo texto
possui uma inten¸ao que ´e transmitida pelo escritor ao escrevˆe-lo. Esse etodo
visa analisar as rela¸oes entre as inten¸oes descritas no texto.
RST (Rhetorical Structure Theory):
´
E uma das mais importantes teorias
discursivas utilizadas em sumariza¸ao autom´atica. A RST realiza a an´alise
para descobrir como um texto est´a organizado funcionalmente, ou seja, qual a
fun¸ao de suas partes para que o objetivo do texto seja satisfeito.
Os sum´arios podem ser de trˆes tipos:
Indicativo: Uma s´ıntese do texto, que serve como ponto de partida para a leitura
do texto principal, ´e apresentada.
Informativo: O sum´ario gerado ´e auto-suficiente a ponto de ao necessitar uma
leitura complementar do texto-fonte.
Cr´ıtico: Uma avalia¸ao cr´ıtica, ou opini˜ao do texto-fonte, ´e expressa. a, p ortanto,
informa¸ao extra.
Nesse contexto de sumariza¸ao autom´atica, os sum´arios informativos ao os mais
estudados. Os sum´arios que ao utilizados nesta disserta¸ao ao desse tipo.
40
2.3.1 Avalia¸ao de Sum´arios
A avalia¸ao, na ´area de sumariza¸ao, ´e notoriamente uma tarefa ´ardua. Geral-
mente, o problema envolve ju´ızes humanos na avalia¸ao de sum´arios. O problema na ava-
lia¸ao humana ocorre quando os ju´ızes ao concordam em rela¸ao a avalia¸ao do sum´ario.
Al´em dos problemas de concordˆancia entre juizes, a avalia¸ao humana torna-se muito cara
de ser produzida em fun¸ao do tempo e custo.
A dificuldade em se avaliar sum´arios est´a na e labora¸ao dos dados de referˆencia,
pois as etricas de avalia¸ao ao de compara¸ao entre sum´arios ideais e sum´arios au-
tom´aticos. Os sum´arios ideais, preferencialmente, ao devem ser gerados por ferramentas
autom´aticas, pois sistemas autom´aticos ao garantem qualidade textual, uma vez que
a mesma estaria ligada `a pr´opria qualidade do sistema de sumariza¸ao. A op¸ao mais
comum ´e a gera¸ao manual de sum´arios ideais. Os sum´arios ideais podem ser constru´ıdos
pelo pr´oprio autor do texto (pois se considera que existe um dom´ınio sobre o assunto
principal descrito no texto) ou, at´e mesmo, por pessoas que desenvolvem sum´arios profis-
sionais (RINO; PARDO, 2006).
Os sum´arios podem ser avaliados sob dois aspectos:
1. N´ıvel de Informatividade: Refere-se `a preservao da id´eia central do texto-fonte.
Com essa avalia¸ao ´e poss´ıvel medir o quanto o sum´ario ´e informativo e correspon-
dente ao texto-fonte.
2. Qualidade: Essa avalia¸ao diz respeito `a constru¸ao do sum´ario enquanto texto.
´
E
avaliado o quanto o sum´ario preserva a coes˜ao e a coerˆencia textual, gramaticalidade,
pontua¸ao, entre outros.
Atualmente, a um acr´escimo nas pesquisas sobre diferentes etricas para ava-
lia¸ao de sum´arios autom´aticos. Os principais etodos adotados de avalia¸ao de sum´arios
ao
3
:
3
Considere Ni n´umero de senten¸cas do sum´ario ideal, Na n´umero de senten¸cas do sum´ario autom´atico
41
Precision: Indica o ´ındice de senten¸cas relevantes no sum´ario autom´atico, segue sua
ormula: (P=Nc/Na).
Recall: Indica a representatividade do sum´ario em rela¸ao a todos os dados consi-
derados relevantes, ormula: (R=Nc/Ni).
F-Measure: Utiliza as medidas de Precision e Recall para produzir uma ´unica me-
dida de eficiˆencia, observe a ormula: (Fm=2*R*P/R+P).
Relative Utility (RU): Apresenta uma medida que busca identificar a utilidade do
sum´ario(trabalho desenvolvido em (RADEV; JING; BUDZIKOWSKA, 2000)). A medida
´e obtida manualmente, sendo que ju´ızes humanos fornecem uma nota para cada
senten¸ca do texto-fonte, indicando sua importˆancia. A partir dessa pontua¸ao, ´e
formado o sum´ario ideal. As senten¸cas do sum´ario produzido automaticamente
tamem recebem notas. Enao, ao comparadas as notas entre o sum´ario ideal e
o sum´ario autom´atico. Se as medidas forem pr´oximas (entre o sum´ario ideal e o
autom´atico), o sum´ario autom´atico ´e considerado suficientemente informativo para
ser ´util.
Rouge - Recall-Oriented Understudy for Gisting Evaluation:
´
E um pacote de me-
didas para determinar a qualidade dos sum´arios autom´aticos comparando-os a
sum´arios ideais. As medidas ROUGE utilizam, principalmente, a co-ocorrˆencia de
n-gramas, de forma completamente autom´atica (LIN, 2000) Maiores detalhes sobre
a ROUGE podem ser encontrados na se¸ao 4.6.
Todas as medidas, descritas acima, ao utilizadas para avaliar a informatividade do
sum´ario. Para avaliar sua qualidade a respeito de coes˜ao e coerˆencia, ainda ao realizadas
avalia¸oes humanas. Como, por exemplo, no trabalho desenvolvido em (PARDO; RINO,
2002), em que se solicitou que os ju´ızes humanos verificassem a textura do sum´ario e sua
legibilidade.
e Nc n´umero de senten¸cas iguais entre o sum´ario ideal e o autom´atico.
42
Outros crit´erios que podem ser utilizados na avalia¸ao da qualidade do sum´ario,
ao: presen¸ca de referˆencia anaf´orica ao resolvida, falta de coes ˜ao entre as senten¸cas,
presen¸ca de palavras diferentes que expressam o mesmo pensamento/id´eia central, orto-
grafia, gram´atica, compreens˜ao, siglas seguidas de suas express˜oes completas entre outras.
Esses crit´erios est˜ao ligados a avalia¸ao da qualidade do sum´ario.
Neste trabalho, a medida de qualidade ´e a mais relevante. No entanto, outras
medidas poder˜ao ser tamem consideradas.
2.3.2 Ferramentas de Sumariza¸ao Autom´atica
Essa se¸ao ´e dedicada `a ferramentas de sumariza¸ao desenvolvidas e testadas para
l´ıngua portuguesa.
O sistema DMSumm (PARDO, 2002) - Discourse Modeling Summarizer ´e um su-
marizador baseado em modelagem discursiva e utiliza a abordagem profunda na suma-
riza¸ao. A entrada no sistema ´e feita por um arquivo com informa¸oes referentes ao dis-
curso anotado manualmente. O DMSumm implementa em seu sumarizador as seguintes
abordagens: semˆantica, relacional e ret´orica. O objetivo desse sumarizador ´e a cons-
tru¸ao de sum´arios coerentes. O DMSumm ´e baseado no modelo de discurso Problema-
Solu¸ao (JORDAN, 1980), que ´e um modelo bastante utilizado em diversos gˆeneros e
dom´ınios textuais.
O sumarizador NeuralSumm (PARDO; RINO; NUNES, 2003) utiliza Redes Neurais
como t´ecnica de Machine Learning para sele¸ao das senten¸cas mais relevantes em um texto
para compor o sum´ario, sendo assim um sumarizador extrativo. ao utilizadas features
que se rvem para identificar as senten¸cas em essenciais, complementares e sup´erfluas. As
senten¸cas essenciais ao as primeiras selecionadas para composi¸ao do sum´ario, as com-
plementares ser˜ao ou ao acrescentadas no sum´ario, dependendo da taxa de compress˜ao
determinada pelo usu´ario, e as senten¸cas sup´erfluas ao descartadas.
43
O GistSumm (PARDO, 2005a) ´e um sumarizador autom´atico de texto que utiliza
abordagem superficial para selecionar as senten¸cas que ir˜ao compor o sum´ario. O Gist-
Summ procura simular a forma de sumariza¸ao humana, buscando a senten¸ca que melhor
expressa a id´eia do texto (senten¸ca-gist). Al´em da senten¸ca-gist o sumarizador busca
outras senten¸cas que complementam a senten¸ca-gist. Maiores detalhes sobre a ferramenta
est˜ao dispon´ıveis na se¸ao 4.3 deste trabalho.
O RheSuma-2 (RINO; CARBONEL, 2006) ´e uma ferramenta de sumariza¸ao au-
tom´atica que utiliza a abordagem profunda. O RheSuma-2 foi concebido a partir de duas
outras ferramentas: DiZer (PARDO; NUNES, 2006) e o RheSumaRST (SENO, 2005). O
DiZer ´e respons´avel pela an´alise do texto e gera¸ao das informa¸oes ret´oricas. O Rhe-
SumaRST ´e um gerador de sum´arios a partir das informa¸oes RST (MANN; THOMPSON,
1987). Al´em da teoria discursiva RST o sistema implementa a teoria de veias (CRISTEA;
IDE; ROMARY, 1998) como uma solu¸ao para quebras de cadeias de correferˆencia.
O SatSumm (NETO; B; GOMES, 2007) ´e uma ferramenta que implementa um suma-
rizador utilizando abordagem superficial. O foco dessa ferramenta ´e um sumarizar textos
jornal´ısticos por conterem sempre uma id´eia central bem definida. Alguns passos ao
realizados antes do processamento dos sum´arios como, por exemplo: casefold, stemming
e remo¸ao de stopwords. A ecnica estat´ıstica utilizada no SatSumm ´e o TF-ISF-Term
Frequency Inverse Sentence Frequency. O SatSumm apresenta uma interface gr´afica para
uma melhor manipula¸ao da ferramenta pelo usu´ario.
O trabalho de Carbonel (CARBONEL, 2007) traz um estudo aprofundado dos
fenˆomenos textuais que ocorrem nos sum´arios gerados automaticamente, sendo o foco
dele o estudo sobre as quebras dos elos correferenciais. Al´em desse estudo, esse trabalho
prop˜oe e implementa um sumarizador autom´atico usando a Teoria das Veias (CRISTEA;
IDE; ROMARY, 1998). Essa teoria prop˜oe um mapeamento do fenˆomeno referencial a partir
da constru¸ao ret´orica baseada na RST. Esse trabalho foi a reimplementa¸ao do sistema
Rhesuma-RST.
44
O sistema de sumariza¸ao autom´atico SuPor-2 descrito em (LEITE; RINO, 2006a),
utiliza aprendizado de aquina para sele¸ao das informa¸oes do texto para gera¸ao do
sum´ario. Esse sumarizador ´e um sistema que utiliza o etodo extrativo na composi¸ao
dos sum´arios. Maiores detalhes desse sistema, podem ser encontrados na se¸ao 4.4 desta
disserta¸ao.
Neste cap´ıtulo, foram discutidos importantes conceitos para esta proposta. Foi
apresentada a conceitualiza¸ao de co erˆencia e coes˜ao e sua importˆancia para a compre-
ens˜ao de um texto. Vimos, tamem, correferˆencia e an´aforas, assim como, sintagmas
nominais com suas classifica¸oes e alguns sistemas que utilizam essa informa¸ao para pro-
cessamento de linguagem natural. Os sintagmas nominais ao objetos de estudo neste
trabalho.
Finalizamos o cap´ıtulo com a conceitualiza¸ao da ´area de sumariza¸ao autom´atica
e com algumas ferramentas que foram desenvolvidas para a l´ıngua portuguesa.
45
Cap´ıtulo 3
Trabalhos Relacionados
Na ´ultima ecada, a pesquisa tem crescido na ´area de automatiza¸ao de pro ces sos
de textos em forma eletrˆonica. Um dos problemas, que em-se estudado nessa ´area, ´e a
resolu¸ao de correferˆencia. Ultimamente, temos visto o surgimento de trabalhos que rela-
cionam resolu¸ao de correferˆencia e sumariza¸ao, ´area em que se insere nesta disserta¸ao.
3.1 Trabalhos de Resolu¸ao de Correferˆencia
Nesta se¸ao, ao descritos os trabalhos relacionados `a resolu¸ao de correferˆencia.
O trabalho de Mitkov (MITKOV, 1998) apresenta uma proposta para resolu¸ao de
correferˆencia para pronomes. Mitkov prop˜oe um algoritmo de baixo custo computacional
e de apida execu¸ao. A abordagem evita a an´alise sinatica complexa e an´alise de dis-
curso. O trabalho de Mitkov utiliza um tagger para extrair informa¸oes de part-of-speech
(pos), um simples identificador de sintagmas nominais e um lo calizador de antecedentes
candidatos. O algoritmo funciona da seguinte forma: a) processa os textos os textos ao
processados para selecionar os sintagmas nominais e etiquetar com as informa¸oes de pos;
b) realiza uma busca na senten¸ca corrente e outras duas anteriores, procurando os sintag-
mas nominais; c) verifica e seleciona os sintagmas nominais que concordam em enero e
46
n´umero com o pronome anaf´orico, formando, enao, um conjunto de candidatos; d) aplica
um algoritmo que ir´a indicar o antecedente com base em 10 features, os sintagmas nomi-
nais recebem uma pontua¸ao e ´e escolhido como antecedente o sintagma nominal com a
maior pontua¸ao.
No trabalho de Amo (AMO et al., 1999) foi desenvolvido um algoritmo para resolu¸ao
de correferˆencia com foco somente em nomes pr´oprios. Foi analisada a rela¸ao denominada
por eles de “replicˆancia”, que ´e a rela¸ao entre nomes pr´oprios baseados na ortografia.
Para o desenvolvimento do algoritmo, foi utilizada a linguagem Prolog
1
. O algoritmo
aprende a partir de uma base de exemplos, no qual ele aplica uma apida an´alise sobre
pares de substantivos. O objetivo, nesse trabalho, ´e o reconhecimento da existˆencia da
resolu¸ao de correferˆencia utilizando a ortografia das palavras. Vejamos alguns exemplos
adotados por esse trabalho, correferˆencia entre os seguintes nomes: Jos´e Luiz Martinez,
J L Martinez, J. Martinez, Martinez, Luiz Martinez ou ent˜ao, a correferˆencia baseada na
utiliza¸ao de abreviaturas, como por exemplo: Uni˜ao Europ´eia - UE e Boletim Oficial do
Estado - BOE.
Luo e outros pesquisadores em (LUO et al., 2004), utiliza Machine Learning para
resolu¸ao de correferˆencia. Ele define que a resolu¸ao de correferˆencia ´e o particionamento
das men¸oes para uma entidade. Uma men¸ao ´e uma instˆancia do referente para um objeto
no mundo real. a uma cole¸ao de men¸oes, que se referem a um mesmo objeto em um
documento, forma uma entidade. A ecnica de ML, utilizada nesse trabalho, foi o Bell
Tree. Maiores detalhes desta ecnica podem ser encontrados no trabalho mencionado.
Foram extra´ıdas 17 features para o aprendizado. Nos testes e na avalia¸ao dos resultados
foi utilizado o corpus MUC6 (MUC-6, 1995).
Para resolu¸ao de correferˆencia no trabalho de Ponzetto (PONZETTO; STRUBE,
2006), os autores utilizaram o alculo de entropia como t´ecnica de machine learning. A
resolu¸ao de correferˆencia ´e considerada uma tarefa de classifica¸ao em que dado um par
de express˜oes ele deve ser categorizado como referente ou ao. Para realizar essa tarefa
1
http://www.swi-prolog.org
47
de classifica¸ao, foi necess´ario um pr´e-processamento para etiqueta¸ao do texto, com
informa¸oes de part-of-speech, reconhecimento de entidades mencionadas e um chunker
que delimita os sintagmas. Para an´alise de correferˆencia ao analisadas 12 features.
O trabalho de Nicolae (NICOLAE, 2006) des taca a importˆancia de reconhecimento
de entidades mencionadas em diversas ´areas como: a tradu¸ao autom´atica, recupera¸ao
de informa¸ao e na sumariza¸ao autom´atica. O objetivo desse trabalho ´e a detec¸ao de
entidades mencionadas (selecionar todas entidades mencionadas em um texto) e agrup´a-
las em classes (classes que representam o mundo real). Foram utilizados alguns recursos
da Wordnet (MILLER, 1995), como, por exemplo, informa¸oes de sinon´ımias e hipon´ımias
para ser utilizado como parˆametros na an´alise. Para o desenvolvimento do algoritmo
foram extra´ıdas features que foram utilizadas no processamento de resolu¸ao da cadeia
de correferˆencia.
O objetivo do trabalho de Ng descrito em (NG, 2007) ´e propor novas features
ling¨u´ısticas para resolu¸ao de correferˆencia e realizar um comparativo entre os resultados
obtidos com essas novas features propostas com outros sistemas e algoritmos que utilizam
conhecimento semˆantico. Esse trabalho segue diversos outros, do mesmo autor, que pos-
suem o mesmo prop´osito de identificar cadeias de correferˆencia de forma autom´atica (NG,
2005b), (NG, 2005a) e (NG, 2003).
3.2 Trabalhos de Resolu¸ao de Correferˆencia e Su-
mariza¸ao
Os trabalhos, citados na se¸ao anterior, destacam-se pelas diferentes formas de
resolu¸ao de correferˆencia. Esta tarefa ´e de grande importˆancia para ´area de PLN e
suas sub-´areas, como a sumariza¸ao autom´atica. A seguir, destacamos os trabalhos que
utilizam a resolu¸ao de correferˆencia especificamente na sumariza¸ao autom´atica.
A pesquisa descrita por Azzam em (AZZAM; HUMPHREYS; GAIZAUSKAS, 1999)
48
descreve o uso de cadeias de correferˆencia para a produ¸ao de sum´arios. Diferentemente
desta disserta¸ao, o trabalho de Azzam usa as informa¸oes de cadeias de correferˆencia para
sele¸ao das senten¸cas que ir˜ao compor o sum´ario, pois considera que a “melhor” cadeia ´e
o opico mais relevante do texto. Para a sele¸ao da “melhor” cadeia foram utilizados os
seguintes crit´erios:
Tamanho da Cadeia: A cadeia que conem a maior quantidade de express˜oes ´e
considerada a “melhor” cadeia. Em caso de empate, outros crit´erios ao avaliados.
Propaga¸ao da Cadeia: Envolve um alculo da distˆancia, pois considera que a cadeia
que mais se expande no texto deve ser considerada a melhor.
In´ıcio da Cadeia: Como ´ultimo crit´erio, ´e utilizada uma medida que considera a
cadeia que conem a express˜ao no primeiro par´agrafo do texto ou, at´e mesmo, no
t´ıtulo.
No trabalho desenvolvido por Nenkova em (NENKOVA; SIDDHARTHAN; MCKEOWN,
2005), destaca-se a pesquisa em aprendizado autom´atico do status cognitivo do ouvinte/-
leitor, na ´area de sumariza¸ao autom´atica para ultiplos documentos. Essa ´e uma ´area
rica para pesquisas, pois sum´arios gerados a partir de diferentes documentos podem con-
ter, na maioria das vezes, muita informa¸ao, pouca informa¸ao ou at´e mesmo repeti¸ao
de informa¸ao sobre seu referente. O foco do trabalho ´e na modelagem de referentes para
pessoas (nomes pr´oprios). Esse trabalho est´a apoiado na seguinte premissa: Se o referente
´e desconhecido para o ouvinte/leitor, exatamente no ponto em que ele ´e mencionado no
discurso, deveria ter sido inclu´ıda uma descri¸ao sobre esse referente anteriormente. Para
isso foram montados dois diferentes cen´arios para a pesquisa:
Cen´ario 1: A pessoa ´e conhecida ou ao pelo ouvinte/leitor.
Cen´ario 2: A pessoa ´e o maior ou menor protagonista da not´ıcia.
49
Para essa pesquisa foi utilizada a ecnica de ´arvores de decis˜ao para identificar as
possibilidades dentro desses cen´arios.
Em (KASHANI; POPOWICH, 2006) foi desenvolvido por Kashani e Popowich um
algoritmo para resolu¸ao de correferˆencia no tratamento de pronomes. O algoritmo de-
senvolvido nesse trabalho, realiza a gera¸ao de pronomes em sum´arios autom´aticos, com
o objetivo de evitar a repeti¸ao do nome. Para o desenvolvimento dos experimentos foi
utilizada a ferramenta Lingpipe
2
que realiza a tokeniza¸ao, detec¸ao de entidades men-
cionadas e resolu¸ao de correferˆencia. O funcionamento do algoritmo a-se da seguinte
forma: ele descobre o referente e troca pelo pronome correspondente. ao considerados
apenas pronomes da 3a. pessoa do singular, pois se considerassem outros tipos de prono-
mes haveria mudan¸ca na estrutura da senten¸ca. Os autores destacam que esse trabalho
pode, ainda, ser aplicado na sumariza¸ao de multi-documentos.
Um dos trabalhos de maior relevˆancia para essa disserta¸ao ´e apresentado
em (STEINBERGER et al., 2007) por Steinberger et al. Esse trabalho prop˜oe duas for-
mas de uso para aplica¸ao de correferˆencia na ´area de sumariza¸ao. A primeira forma
de uso teve como proposta a gera¸ao de sum´arios explorando a informa¸ao lexical e a
resolu¸ao autom´atica de correferˆencia. Foram realizados experimentos de compara¸ao
entre sum´arios gerados usando somente informa¸ao lexical e sum´arios gerados utilizando
informa¸ao lexical e resolu¸ao anaf´orica. A segunda forma de uso realiza uma verifica¸ao
no sum´ario, com objetivo de realizar a corre¸ao dos referentes. Para a resolu¸ao de corre-
ferˆencia, nos dois experimentos, foi utilizado o GUITAR (POESIO; KABADJOV, 2004) como
ferramenta que possibilita resolu¸ao de pronomes e resolu¸ao de descri¸oes definidas. No
primeiro experimento, os autores utilizaram a informa¸ao das cadeias, extra´ıdas com o
GUITAR, para realizar a troca dos termos nominais anaf´oricos pelo primeiro elemento
da sua cadeia de correferˆencia. Vejamos um exemplo dess a transforma¸ao em um texto
como demonstra a Figura 5.
No texto, como mostra a Figura 5, foi poss´ıvel encontrar 8 cadeias anaf´oricas:
2
http://www.alias-i.com/lingpipe/
50
Figura 5: Texto retirado do artigo
Cadeia 1: Australia - we - Australia
Cadeia 2: its new conservative government (Australia’s new conservative govern-
ment) - the government
Cadeia 3: its tough deficit-slashing budget (Australia’s tough deficit-slashing bud-
get) - it
Cadeia 4: violent protests by Aborigines, unions, students and welfar e groups -
anti-budget street protests
Cadeia 5: Aborigines, unions, students and welfare groups - the protesters
Cadeia 6: spending cuts - it - the hundreds of measures implemented to claw back
the deficit
Cadeia 7: Treasurer Peter Costello - Costello
Cadeia 8: deficit - the deficit
Na Figura 6 temos a forma como ficaram as senten¸cas ap´os o processamento do
experimento. Observamos que o algoritmo proposto nesse trabalho efetuou a troca de
todas as express˜oes pelo primeiro termo da cadeia. Todas as express˜oes que foram trocadas
est˜ao em destaque na Figura 6. Ap´os esse processamento de troca de express˜oes, os autores
51
processam um algoritmo que ir´a selecionar os principais termos do texto. As senten¸cas
que possuem os principais termos ser˜ao selecionadas para compor o sum´ario.
Figura 6: Texto retirado do artigo com a sa´ıda produzida p ela ferramenta.
No segundo experimento foi realizada a verifica¸ao das cadeias nos sum´arios gera-
dos, o m´etodo funciona da seguinte forma:
Aplicar o algoritmo de resolu¸ao anaf´orica no texto e criar as cadeias de corre-
ferˆencia.
Identificar as senten¸cas que ao extra´ıdas para gera¸ao do sum´ario.
Analisar que para cada cadeia de correferˆencia ´e efetuada a troca da primeira
ocorrˆencia da cadeia no sum´ario pela primeira ocorrˆencia no texto-fonte. Ap´os
esse passo, todas as cadeias que aparecem no sum´ario e no texto-fonte come¸car˜ao
com a mesma forma lexical.
Rodar o algoritmo de resolu¸ao anaf´orica no sum´ario
Analisar para toda express˜ao nominal no sum´ario: se a express˜ao ´e parte de uma
cadeia no texto-fonte e ela ao est´a resolvida no sum´ario (por ao resolvida entende-
se que ao foi poss´ıvel encontrar seu antecedente) ou se ela passou a fazer parte de
uma diferente cadeia no sum´ario ent˜ao se troca a express˜ao anaf´orica pelo n´ucleo
da primeira express˜ao da cadeia do texto-fonte.
52
Esta disserta¸ao segue a mesma linha de (STEINBERGER et al., 2007). Diferente-
mente do que ´e proposto pelos autores, optar por sempre substituir o termo anaf´orico pela
primeira express˜ao da cadeia, nossa abordagem ´e desenvolver heur´ısticas para indicar qual
´e a “melhor” express˜ao que dever´a ser escolhida para substitui¸ao.
Os trabalhos relacionados que utilizam correferˆencia na sumariza¸ao, citados
acima, mostram que a um consider´avel interesse em pesquisa nessa ´area. Cabe res-
saltar que os trabalhos relacionados consideram, principalmente, a l´ıngua inglesa, sendo
esta uma primeira proposta para desenvolvimento de um sistema com a utiliza¸ao da
correferˆencia na edi¸ao de sum´arios para a l´ıngua portuguesa.
53
Cap´ıtulo 4
Materiais e M´etodos
Este cap´ıtulo apresenta os materiais e m´etodos utilizados no desenvolvimento deste
trabalho. Servem de base ao trabalho o corpus Summ-it e as ferramentas PALAVRAS,
MMAX, ROUGE, GistSumm e SuPor-2. O analisador sint´atico PALAVRAS ´e usado
na an´alise gramatical dos textos; a ferramenta MMAX ´e usada na anota¸ao de corre-
ferˆencia do corpus; a ferramenta ROUGE ´e usada para realizar a avalia¸ao autom´atica
dos sum´arios; e os sumarizadores autom´aticos GistSumm e SuPor-2 ao utilizados na
gera¸ao dos sum´arios extrativos.
4.1 PALAVRAS
O analisador sinatico PALAVRAS, descrito em (BICK, 2000), ´e uma ferramenta
robusta utilizada para a an´alise sinatica autom´atica do portuguˆes. Na an´alise morfos-
sinatica, o PALAVRAS traz informa¸oes como classe gramatical, gˆenero, n´umero e flex˜ao
verbal. Apresenta, tamb´em, informa¸oes sobre a estrutura da senten¸ca, sua an´alise estru-
tural (sintagmas nominais e verbais) e a fun¸ao de seus constituintes.
O analisador possui trˆes formatos de sa´ıda. O primeiro formato utiliza a forma
gr´afica de ´arvore, que represe nta a estrutura do texto, em que as folhas ao compostas
54
pelas express˜oes ling¨u´ısticas e os ramos da ´arvore representam a an´alise sinatica da
senten¸ca. Na Figura 7 temos a an´alise da frase “O fumo ´e extremamente prejudicial `a
sa´ude”, cuja an´alise sinatica indica, por exemplo, as fun¸oes S (sujeito) e P (predicado).
Mais abaixo, temos a an´alise morfossint´atica, por exemplo, art (artigo) e n (substantivo).
Figura 7:
´
Arvore morfossint´atica gerada pelo PALAVRAS
O segundo formato gerado ´e uma sa´ıda no formato texto, Figura 8, que traz as
mesmas informa¸oes geradas na ´arvore, em que, em cada linha, o primeiro s´ımbolo repre-
senta a fun¸ao sint´atica para cada elemento ou grupo; depois dos dois pontos, temos a
categoria da palavra; entre parˆenteses, temos forma canˆonica e as informa¸oes de flex˜ao,
gˆenero e n´umero e, ap´os os parˆenteses, temos a palavra da senten¸ca. O s´ımbolo “=”, no
in´ıcio de cada linha, representa o n´ıvel da express˜ao na ´arvore sint´atica.
UTT: c l ( f c l )
S : g ( np )
=D: a r t ( o <a rtd> M S ) O
=H: n ( fumo M S ) fumo
p r e j u d i c i a l [ p r e j u d i c i a l ] ADJ M S @<SC
Cs : g ( ap )
=D: adv ( extremamente <quant >) extremamente
=H: adj ( p r e j u d i c i a l M S ) p r e j u d i c i a l
=D: g ( pp )
==H: prp ( a <sam>) a
==D: g ( n p )
===D: a r t ( o <a rtd> <sam> F S ) a
===H: n ( sa´ude F S) sa ´ude
Figura 8: Formato texto gerado pelo PALAVRAS
55
O terceiro formato ´e um arquivo XML no padr˜ao de anota¸ao Tiger
1
. Nesse for-
mato, o modelo de dados ´e baseado em grafos de sintaxe, isto ´e, grafos direcionados
ac´ıclicos com uma ´unica raiz. Palavras, etiquetas de part-of-speech, etiquetas morfol´ogicas
e lemma ao atributos do elemento “terminal”. Elementos ao-terminais ao representados
atraes de um elemento chamado “nonterminal” e apontam aos terminais correspondentes
atraes de um identificador. Um exemplo de uso desse f ormato de co difica¸ao pode ser
visto na Figura 9
Figura 9: Formato TIGER
4.2 MMAX
O MMAX - Multi-Modal Annotation in XML - (M ¨uLLER; STRUBE, 2001) ´e um
software utilizado para anota¸oes de discurso. O MMAX foi utilizado para anota¸ao
de correferˆencia do corpus Summ-it. Essa anota¸ao foi realizada de forma manual em
1
http://www.ims.uni-stuttgart.de/projekte/TIGER/
TIGERSearch/doc/html/TigerXML.html
56
duas etapas. Na primeira etapa, os anotadores utilizaram a ferramenta para delimita¸ao
dos sintagmas nominais. Na segunda etapa, foi realizada a identifica¸ao das cadeias e a
classifica¸ao das express˜oes em novas no discurso, associativas, diretas e indiretas. Suas
defini¸oes foram apresentadas na se¸ao 2.2.2 deste trabalho.
Na Figura 10, mostrada abaixo, temos um exemplo da forma¸ao da cadeia atraes
dos referentes “o mal de Alzheimer, doen¸ca degenerativa do c´erebro que mais afeta os ido-
sos pelo mundo”, “a doen¸ca”, “o mal de Alzheimer” e, novamente, “a doen¸ca” formando
uma cadeia de correferˆencia.
Figura 10: Interface gr´afica do MMAX
Como entrada da ferramenta MMAX, ´e fornecido um arquivo XML com as pa-
lavras que fazem parte do texto que se quer anotar. Cada palavra possui um atributo
identificador (id). O arquivo XML de entrada do MMAX pode ser visualizado na Fi-
gura 11.
Figura 11: Arquivo base para o MMAX
Como sa´ıda, a ferramenta MMAX produz um arquivo XML, representado na Fi-
57
gura 12. Cada anota¸ao realizada usando o MMAX ´e identificada pelo elemento markable,
como pode ser visto na Figura 12. As informa¸oes de delimita¸ao e classifica¸ao do sin-
tagma nominal ao dadas atrav´es dos atributos span e np form. Al´em dessas informa¸oes,
o arquivo disponibiliza a informa¸ao de correferˆencia atrav´es dos atributos member, status
e is anaphoric. O valor “old”, para o atributo status, indica que a express˜ao ´e “velha” no
discurso, isto ´e, uma entidade a mencionada. Se o valor de status for “new”, indica que
a express˜ao ´e “nova” e ´e a primeira vez que ela aparece no texto. O atributo is anaphoric
indica a classe anaf´orica, que pode ser: direta (direct) ou indireta (indirect). Esse atributo
somente receber´a um desses valores se o atributo status tiver o valor “old”.
Figura 12: Arquivo XML de sa´ıda do MMAX
Com a sa´ıda gerada pelo MMAX, ´e poss´ıvel identificar a cadeia de correferˆencia
atraes do atributo member, pois toda a cadeia ter´a o mesmo identificador para esse
atributo. Veja, como exemplo, a Figura 13, que mostra os atributos member com o valor
“set 7” indicando que todas as express˜oes fazem parte da mesma cadeia de correferˆencia.
Figura 13: Arquivo de sa´ıda do MMAX com as Cadeias de Correferˆencia
Como mostra a Figura 13, as express˜oes est˜ao apontando para o markable 1, e
este markable est´a com o atributo status com o valor new indicando que o markable 1 ´e
a express˜ao nova no discurso. Todos os markables da Figura 13 fazem parte da mesma
58
cadeia de correferˆencia.
4.3 GISTSUMM
O GistSumm foi desenvolvido por Thiago Pardo (PARDO, 2005a) no NILC - N´ucleo
Interinstitucional de Ling¨u´ıstica Computacional. O GistSumm ´e um sumarizador au-
tom´atico de texto que utiliza abordagem superficial para selecionar as senten¸cas que ir˜ao
compor o sum´ario. O sumarizador utiliza o etodo extrativo e possui duas premissas:
Todo texto possui uma id´eia principal;
´
E poss´ıvel identificar em um texto uma senten¸ca que melhor representa sua id´eia
principal (senten¸ca-gist).
Com base nessas premissas o GistSumm tem como objetivo a identifica¸ao da
senten¸ca-gist e as se nten¸cas que a complementam para composi¸ao do sum´ario extrativo.
Na Figura 14 temos a arquitetura do sistema GistSumm.
O processo inicia com a entrada de um texto-fonte, o qual se deseja sumarizar
(passo 1). No passo 2, inicia-se a segmenta¸ao sentencial, a qual delimita todas as sen-
ten¸cas do texto-fonte observando os sinais de pontua¸ao tradicionais (ponto final, ex-
clama¸ao e interroga¸ao). Logo em seguida, no passo 3, as palavras das senten¸cas ao
armazenadas em vetores. No passo 4, o GistSumm transforma todas as palavras em
min´usculas buscando uma padroniza¸ao. Com a ajuda de um exico, o sistema trans-
forma todas as palavras em sua forma lexical e, al´em disso, utilizando uma stoplist, faz
a retirada de stopwords da frase (por exemplo, artigos e preposi¸oes). Ap´os essa pre-
para¸ao, ´e aplicado o m´etodo de ranqueamento das senten¸cas. Esse etodo ´e selecionado
pelo usu´ario no momento da sumariza¸ao. O GistSumm implementa dois m´etodos de
ranqueamento: o etodo de Keywords e Average Keywords.
59
Figura 14: Arquitetura do sistema GistSumm
Por qualquer um dos etodos, a senten¸ca com maior pontua¸ao ´e considerada
como sendo a senten¸ca-gist do texto-fonte. Por isso, no GistSumm, os etodos de ran-
queamento ao utilizados para determinar a id´eia principal do texto-fonte. As senten¸cas e
suas pontua¸oes ao passadas para o passo 6, para realizar a sele¸ao de senten¸cas. No pro-
cesso de sele¸ao de senten¸cas do texto-fonte para formar o sum´ario, o GistSumm executa
os seguintes itens:
1. Calcula a edia da pontua¸ao das senten¸cas do texto-fonte e assume essa como
sendo a baseline para corte das poss´ıveis senten¸cas que formar˜ao o sum´ario;
2. Seleciona, para formar o sum´ario, juntamente com a senten¸ca-gist, todas as sen-
ten¸cas do texto-fonte que contenham pelo menos uma palavra que tenha uma das
canˆonicas da senten¸ca-gist e possuam uma pontua¸ao maior que a baseline calculada
60
no item 1.
No passo 7, os sum´arios ao gerados e as senten¸cas ao escolhidas baseadas numa
taxa de compress˜ao definida pelo usu´ario no in´ıcio do processo de gera¸ao do sum´ario.
A escolha pela ferramenta GistSumm justifica-se pelo fato de ser uma ferramenta
robusta de gera¸ao de sum´arios extrativos, que ao requer treinamento espec´ıfico (que ´e o
caso de sumarizadores que utilizam t´ecnicas de machine learning) nem anota¸ao adicional
(como no caso de sumarizadores que utilizam anota¸oes de abordagens ling¨u´ısticas para
sumarizar).
4.4 SuPor-2
O SuPor-2 (LEITE; RINO, 2006a) ´e uma vers˜ao modificada do SuPor (oDOLO,
2003) (Ambiente para Sumariza¸ao Autom´atica de Textos em Portuguˆes), um sumariza-
dor extrativo que depende de informa¸oes fornecidas p or um engenheiro de conhecimento
para treino e combina¸ao de diversos m´etodos de extra¸ao de informa¸oes relevantes. O
SuPor-2 utiliza um classificador para treino e sele¸ao das senten¸cas mais relevantes do
texto-fonte. O algoritmo de classifica¸ao utilizado foi o Na¨ıve-Bayes. Para treinamento e
classifica¸ao o sistema utiliza a ferramenta Weka (WITTEN; FRANK, 2000)
As features utilizadas pelo SuPor-2 ao baseadas na freq¨encia das palavras, ta-
manho e posi¸ao da senten¸ca, ocorrˆencia de nomes pr´oprios, an´alise de cadeias lexicais, e
outras an´alises do discurso (detalhadas em (LEITE; RINO, 2006a)).
A Figura 15 mostra os passos para o treinamento do classificador. O sistema
SuPor-2 usa um exico e uma StopList na fase de pr´e-processamento das informa¸oes,
logo em seguida o sistema pro cessa as features que ser˜ao us adas no classificador. O
sistema monte um conjunto de tuplas que ´e processado pelo sistema Weka. A sa´ıda do
odulo de treinamento ´e um arquivo com os parˆametros do classificador. Como foi usado
o Na¨ıve-Bayes, esse arquivo conem as probabilidades usadas pelo classificador na etapa
61
de extra¸ao.
Figura 15: odulo de treinamento do SuPor-2
Figura 16: odulo de sele¸ao do SuPor-2
A Figura 16 mostra as etapas de sele¸ao de senten¸cas. Para isso, o sistema usa
novamente um exico e a StopList na fase de pr´e-processamento. O Conjunto de tuplas ´e
montado com suas respectivas features e processado pelo classificador que foi gerado no
odulo de treinamento. O classificador, ent˜ao, realiza a sele¸ao das senten¸cas de maior
relevˆancia do texto fonte para gera¸ao no sum´ario. O n´umero de senten¸cas que ir˜ao
compor esse sum´ario estar´a relacionado a taxa de compress˜ao desejada.
A justificativa pela escolha do sistema de sumariza¸ao SuPor-2 ´e pelo fato de ser
um dos melhores sistemas de sumariza¸ao autom´atica para o portuguˆes, conforme descrito
62
em (LEITE; R INO, 2006b) e (LEITE et al., 2007).
4.5 Sistema de Resolu¸ao Autom´atica de Corre-
ferˆencia
O sistema desenvolvido por Souza em (SOUZA, 2007) tem como objetivo automati-
zar a resolu¸ao de correferˆencia para a l´ıngua portuguesa usando uma abordagem baseada
em aprendizado de aquina supervisionado.
O sistema seleciona subconjuntos de express˜oes (cadeias de correferˆencia) de um
texto, atrav´es da identifica¸ao dos pares de express˜oes anaf´oricas. Com o objetivo es-
pec´ıfico de aprender um classificador, uma base de dados dever´a ser constitu´ıda atrav´es
da extra¸ao de exemplos de um corpus anotado.
Esses subconjuntos ao extra´ıdos juntamente com 10 caracter´ısticas que ser˜ao uti-
lizadas pelo classificador. Essas caracter´ısticas ao:
1. Compara¸ao de n´ucleo: compara o n´ucleo dos dois sintagmas;
2. Distˆancia: determina a distˆancia em frases entre os dois sintagmas.
3. Antecedente ´e pronome: verifica se o ucleo do sintagma eleito como antecedente ´e
um pronome.
4. An´afora ´e pronome: verifica se o n´ucleo do sintagma eleito como an´afora ´e um
pronome.
5. ao nomes pr´oprios: verifica se ambos sintagmas ao nomes pr´oprios
6. Concordˆancia de enero: verifica caso o enero (masculino/feminino) dos dois sin-
tagmas coincidam.
63
7. Concordˆancia de n´umero: verifica se os dois sintagmas concordam em n´umero (ou
seja, ambos est˜ao no singular ou ambos no plural);
8. Sujeito: verifica se ambos sintagmas ao sujeitos
9. Concordˆancia semˆantica: caso os dois nomes ucleos sejam diferentes e possuam
etiquetas semˆanticas idˆenticas
10. Mesmo grupo semˆantico: caso os dois nomes n´ucleos sejam diferentes e possuam
etiquetas semˆanticas que perten¸cam ao mesmo grupo, o valor deste atributo ´e ver-
dadeiro.
O sistema seleciona, classifica e agrupa as express˜oes para a montagem das cadeias
de correferˆencia.
´
E importante salientar que esse trabalho ´e a primeira abordagem para a resolu¸ao
de correferˆencia de sintagmas nominais de qualquer tipo para a l´ıngua portuguesa. Ou-
tros trabalhos apresentam solu¸oes restritas `a resolu¸ao anaf´orica pronominal como os
trabalhos apresentados em (COELHO, 2005) e (CHAVES, 2007).
Esse sistema foi utilizado em um dos experimentos realizados neste trabalho, seus
resultados ao discutidos na se¸ao 6.3 do cap´ıtulo 6.
4.6 ROUGE
A ROUGE (LIN, 2004) ´e um sistema de pacote de medidas implementado para
realizar avalia¸ao de informatividade de sum´arios de forma autom´atica. A vantagem
da utiliza¸ao de um sistema autom´atico est´a no baixo custo, se comparado com uma
avalia¸ao manual, e de acil reprodu¸ao. A ferramenta Rouge ´e independente de l´ıngua,
sendo poss´ıvel aplic´a-la para o portuguˆes.
O sistema utiliza como base um sum´ario de referˆencia para ser comparado com
64
o sum´ario autom´atico. Para realizar a an´alise, o sistema usa co-ocorrˆenc ia de n-gramas,
isto ´e verifica se as palavras do sum´ario de referˆencia ocorrem no sum´ario autom´atico.
O pacote de medidas da ROUGE oferece cinco medidas:
Rouge-1: utiliza a contagem de co-ocorrˆencia de unigramas para avalia¸ao da infor-
matividade.
Rouge-2: verifica a freq¨uˆencia de cada par de palavras (bigramas) na compara¸ao
entre os sum´arios.
Rouge-3 e Rouge-4: semelhante `as outras medidas, mas utilizam a compara¸ao de
3-grama e 4-grama para verifica¸ao de co-ocorrˆencia. ao ao muito utilizadas, pois
´e incomum acontecer seq¨uˆencias de 3 e 4 palavras entre os sum´arios autom´atico e
referˆencia.
Rouge-L: localiza as maiores seq¨uˆencias entre os dois sum´arios, realizando uma
avalia¸ao similar `a co-ocorrˆencia de n-gramas.
Dentre essas medidas, a mais utilizada ´e a Rouge-1. O sistema fornece precis˜ao,
cobertura e F-measure para cada texto processado e a m´edia em rela¸ao a um conjunto
de textos processados.
4.7 Descri¸ao do Corpus Summ-it
O corpus Summ-it (COLLOVINI et al., 2007), utilizado neste estudo, constitui-se
de 50 textos jornal´ısticos da Folha de ao Paulo, retirados do caderno de ciˆencias do
jornal, escritos em portuguˆes do Brasil. O mesmo foi disponibilizado atrav´es do Projeto
PLN-BR
2
.
2
http://www.nilc.icmc.usp.br:8180/portal/
65
O corpus foi proces sado pelo parser PALAVRAS (BICK, 2000), para extrair in-
forma¸oes morfossint´aticas e anotado, manualmente, com informa¸oes de correferˆencia,
utilizando-se a ferramenta MMAX que foi descrita na se¸ao 4.2.
Figura 17: Arquivo de Tokens
Ap´os o processamento dos textos no PALAVRAS, usou-se um conversor desen-
volvido no Laborat´orio de Engenharia da Linguagem para a gera¸ao de trˆes arquivos
XML. O arquivo que aparace na Figura 17 mostra o arquivo XML com as pala-
vras (tokens). O segundo arquivo possui as informa¸oes de part-of-speech, Figura 18,
e o ´ultimo arquivo apresenta as informa¸oes de sintaxe do texto, como mostra a Figura 19.
Figura 18: Arquivo de part-of-speech
66
Os arquivos XML, com as informa¸oes ling¨u´ısticas, est˜ao em trˆes arquivos
separados, pois foi utilizado o princ´ıpio da separabilidade e foi mantida uma codifica¸ao
asica para todos arquivos utilizando o princ´ıpio de uniformidade. O modelo adotado
para armazenamento dessas informa¸oes ´e o XCES
3
. Esse padr˜ao foi tamem adotado
pelo Projeto PLN-BR. As ´unicas tags utilizadas ao as tags <struct> e <feature> e elas
ao respons´aveis por toda estrutura de armazenamento de informa¸oes ling¨u´ısticas.
Figura 19: Arquivo de informa¸oes de sintaxe
Cada texto do corpus possui um sum´ario manual feito por sumarizadores huma-
nos (COELHO, 2007). O corpus conta, tamb´em, com relat´orios HTML de cadeias de
correferˆencia, conforme ilustrado na Figura 20.
O corpus Summ-it possui um total de 5047 sintagmas nominais, compondo 560
cadeias de correferˆencia, sendo que a cadeia mais extensa possui 16 elementos. A ta-
bela 1 ilustra os resultados da anota¸ao das desc ri¸oes definidas, seguindo a classifica¸ao
apresentada na se¸ao 2.2.2.
3
http://www.cs.vassar.edu/XCES/
67
Figura 20: Arquivo HTML com informa¸oes com as cadeias de correferˆencia
Tabela 1: Anota¸ao de classifica¸ao do corpus Summ-it
Classifica¸oes Quantidades
Novas no Discurso 1428
An´aforas Associativas 183
An´aforas Diretas 407
An´aforas Indiretas 291
Total de descri¸oes definidas classificadas: 2309
Neste cap´ıtulo foram apresentadas as ferramentas PALAVRAS, MMAX, ROUGE,
GISTSUMM e SUPOR-2, que ao importantes no contexto deste trabalho para os pro-
cessos de cria¸ao do corpus, gera¸ao e avalia¸ao de sum´arios autom´aticos.
68
Cap´ıtulo 5
Sistema CorrefSum
Neste cap´ıtulo ser˜ao abordadas quest˜oes relativas `a implementa¸ao do sistema,
detalhando cada um dos odulos desenvolvidos.
5.1 Vis˜ao Geral
O sistema, desenvolvido neste trabalho, tem como objetivo realizar a corre¸ao da
coes˜ao referencial dos sum´arios, usando como fonte de informa¸ao as informa¸oes das
cadeias de correferˆencia presentes no texto-fonte.
A solu¸ao foi implementada utilizando a linguagem de programa¸ao Java
1
, que
permite tanto a portabilidade entre sistemas operacionais, quanto torna o sistema imple-
mentado livre para distribui¸ao.
O sistema implementado possui 4 grandes odulos: odulo leitura de arquivos,
odulo de processamento de informa¸oes, odulo de revis˜ao dos sum´arios e odulo de
interface.
Na Figura 21, temos uma vis˜ao geral do sistema. Os odulos de processamento
de informa¸oes e revis˜ao dos sum´arios ao considerados odulos principais deste sistema.
1
http://java.sun.com/
69
Nas pr´oximas se¸oes, os odulos componentes deste sistema ser˜ao detalhados.
Figura 21: Vis˜ao geral do sistema
5.2 odulo de Leitura do Arquivo
O objetivo deste odulo ´e realizar a leitura e o armazenamento das informa¸oes
referentes aos sum´arios, os quais ser˜ao corrigidos em estruturas de dados que possibilitem
uma rapidez de processamento.
O sistema recebe cinco arquivos de entrada para cada sum´ario que ser´a processado.
Tes arquivos ao fornecidos pelo parser PALAVRAS (BICK, 2000) (citado na se¸ao 4.1),
contendo a an´alise sinatica do texto-fonte. O quarto arquivo ´e resultado da anota¸ao
manual das cadeias de correferˆencia, usando o software MMAX (M¨uLLER; STRUBE, 2001),
(citado na se¸ao 4.2). O quinto arquivo ´e o sum´ario produzido por um sumarizador
autom´atico.
´
E importante salientar que a gera¸ao desses arquivos ´e considerada, neste
trabalho, etapa de pr´e-processamento.
Os arquivos fornecidos pelo PALAVRAS e p elo MMAX ao arquivos em formatos
XML. O padr˜ao XML utilizado para armazenamento das informa¸oes ling¨u´ısticas ´e o
XCES, tal como proposto pelo projeto PLN-BR
2
. O formato XCES foi escolhido por
permitir o armazenamento de arios n´ıveis ling¨u´ısticos com o mesmo formato de anota¸ao,
tornando o processamento ´agil e apido.
´
E importante destacar que uma sa´ıda em formato
2
http://www.nilc.icmc.usp.br:8180/portal/
70
XCES ao ´e fornecida pelos sistemas PALAVRAS e MMAX. Para isso, foi implementado
um conversor de formatos pela equipe do Laborat´orio da Engenharia da Linguagem da
Unisinos. O arquivo de sa´ıda do sumarizador autom´atico est´a em formato texto (.TXT).
Ele ´e utilizado no formato produzido pelo sumarizador.
5.3 odulo Processamento das Informa¸oes
Esse odulo ´e respons´avel por localizar as senten¸cas do texto-fonte que foram
inclu´ıdas no sum´ario, selecionar todas as cadeias de correferˆencia presentes (relativas aos
sintagmas nominais presentes no sum´ario) e realizar a pontua¸ao de cada elemento dessas
cadeias.
Vejamos um exemplo de um texto na Figura 22 e um sum´ario na Figura 23.
[S1]Ao contr´ario do que muita gente pensa, a internet ao est´a reduzindo os contatos entre as pessoas , nem
substituindo-os por rela¸oes impessoais conduzidas por computador. [S2]A conclus˜ao ´e de Barry Ellm an,
do Centro para Estudos Urbanos e Comunit´arios da Universidade de Toronto, Canad´a. [S3]Segundo o
pesquisador, os contatos via redes de computadores est˜ao, na verdade, ampliando a so cia liza¸ao das p es soas.
[S4]Um dos exemplos que ele apresenta ´e o de um estudo feito em um sub´urbio de Toronto, segundo o qual
as pessoas “plugadas” em uma rede local conheciam trˆes vezes mais vizinhos do que os ao-conectados.
[S5]Al´em disso, vizinhos conectados se encontraram pessoalmente 60% mais do que os exclu´ıdos da rede.
[S6]Os umeros gerais da internet apontam o mesmo fenˆomeno, diz Ellman. [S7] Segu ndo e le, pessoas ligadas
por computadores tiveram mais contatos pessoais com seus amigos e parentes do que p e ssoas ao-conectadas.
[S8]O artigo do pesquisador est´a na edi¸ao de hoje da revista “Science”.
Figura 22: Texto CIENCIA 2001 6410
Segundo ele, pessoas ligadas por computadores tiveram mais contatos pessoais com seus amigos e parentes
do que pessoas ao-conectadas.
Figura 23: Sum´ario gerado pelo Gistsumm do texto CIENCIA 2001 6410.
No exemplo, a senten¸ca 7 (S7) do texto-fonte foi inclu´ıda no sum´ario. Ap´os a
localiza¸ao da senten¸ca, ´e iniciado o processo de sele¸ao de todas as cadeias que fazem
parte do sum´ario, o sistema procura todos os sintagmas nominais que est˜ao dentro do
intervalo da senten¸ca. Seguimos no mesmo exemplo do texto CIENCIA 2001 6410, na
Figura 24 temos a representa¸ao em XML, que define o intervalo de palavras pertencente
a essa senten¸ca.
71
< s t r u c t t ype = phrase from = word 136 to = word 155 >
< f e a t name= id val u e = phr7 />
< f e a t name= cat v a l ue = s />
</s t r u c t >
Figura 24: Trecho do arquivo XML-Phrases do texto CIENCIA 2001 6410
. . .
< s t r u c t t ype = markable from = word 137 to = word 137 >
< f e a t name= id val u e = markable 4 2 />
< f e a t name= np n v alu e = no />
< f e a t name= member v alu e = s e t 1 4 />
</s t r u c t >
< s t r u c t t ype = markable from = word 139 to = word 142 >
< f e a t name= id val u e = markable 4 3 />
< f e a t name= np n v alu e = yes />
< f e a t name= np form v alu e = barenp />
</s t r u c t >
< s t r u c t t ype = markable from = word 142 to = word 142 >
< f e a t name= id val u e = markable 4 4 />
< f e a t name= np n v alu e = yes />
< f e a t name= np form v alu e = barenp />
< f e a t name= member v alu e = s e t 1 1 />
</s t r u c t >
< s t r u c t t ype = markable from = word 144 to = word 151 >
< f e a t name= id val u e = markable 4 5 />
< f e a t name= np n v alu e = yes />
< f e a t name= np form v alu e = quantnp />
</s t r u c t >
. . .
Figura 25: Trecho do arquivo XML-Markables do texto CIENCIA 2001 6410
Com base nesse exemplo (Figura 24), observamos que a senten¸ca 7, identifi-
cada pelo id=“phr7”, ´e composta pelo conjunto de palavras que est˜ao no intervalo de
id=“word 136”, at´e a palavra com id= “word 155”. Para localizar todos os markables,
que pertencem a essa senten¸ca, ´e necess´ario selecionar todos os markables neste mesmo
intervalo de palavras(“words”), usando as informa¸oes do arquivo XML-Markables forne-
cido pelo MMAX. A Figura 25 mostra a representa¸ao em XML dessas informa¸oes.
Observamos, na Figura 25, que os markables com os seguintes valores de
id´s: “markables 42”, “markables 43”, “markables 44” e “markables 45” foram seleciona-
dos, pois se u intervalo est´a contido dentro do intervalo de palavras da frase selecionada.
No pr´oximo passo, os markables “markables 43” e “markables 45” ao desconsiderados,
pois ao fazem parte de nenhuma cadeia de correferˆencia. Is so pode ser verificado por
ao possu´ırem o atributo “member” como informa¸ao. O sistema seleciona os marka-
bles “markables 42” e “markables 44” identificando ent˜ao a pres en¸ca de dois elementos
72
pertencentes a cadeias de correferˆencia nesse sum´ario. Essas cadeias ao definidas pelos
atributos “member”, que informam que as cadeias de correferˆencia “set 14” e “set 11” de-
ver˜ao ser analisadas pelo sistema. Esse processo ´e repetido para cada uma das frases do
sum´ario.
Ap´os a identifica¸ao das cadeias de correferˆencia, ´e realizada a localiza¸ao de todos
elementos pertencentes a cada uma das cadeias. Essa informa¸ao tamb´em ´e fornecida pelo
mesmo arquivo XML de markables. A Figura 26 ilustra a localiza¸ao de todos os membros
das cadeias “set 14” e “set 11”.
Identificados todos os termos de cada uma das cadeias pertencentes ao sum´ario,
o sistema realiza a pontua¸ao para cada membro da cadeia. Esse sistema de pontua¸ao
foi inspirado no trabalho de Mitkov em (MITKOV, 1998), no entanto, os crit´erios foram
definidos pela autora do trabalho. A pontua¸ao utilizada segue os seguintes crit´erios:
1. Nome Pr´oprio: ´e atribu´ıdo 1 ponto se o sintagma nominal possuir algum nome
pr´oprio. Para selecionar essa informa¸ao, ´e usado o arquivo de part-of-speech (POS)
fornecido pelo Palavras. As palavras do texto ao etiquetadas com a etiqueta
pos=“prop” indicando que a palavra ´e um nome pr´oprio.
2. Maior: ´e atribu´ıdo 1 ponto caso o sintagma seja o maior sintagma da sua cadeia,
em n´umero de caracteres.
3. Primeiro: ´e atribu´ıdo 1 ponto caso o sintagma seja o primeiro elemento de sua
cadeia.
4. Aposto: ´e atribu´ıdo 1 ponto caso o sintagma possua v´ırgulas (geralmente usada
como marca de aposto).
Todos os markables, selecionados na etapa anterior, ao pontuados com base nessas
caracter´ısticas. Os pontos ao cumulativos e servir˜ao como crit´erio de sele¸ao do elemento
de cadeia que dever´a ser escolhido para substituir o termo no sum´ario.
73
. . . .
< s t r u c t t ype = markable from = word 32 to = word 45 >
< f e a t name= id val u e = markable 5 4 />
< f e a t name= np form v alu e = pn />
< f e a t name= member v alu e = s e t 1 4 />
< f e a t name= text v alu e = Barry Ellman , do Centro para Est udos Urbanos e
Co mu ni t´ar io s da U n i vers i d ade de Toronto , Canad´a />
</s t r u c t >
< s t r u c t t ype = markable from = word 159 to = word 160 >
< f e a t name= id val u e = markable 4 9 />
< f e a t name= np form v alu e = def np />
< f e a t name= member v alu e = s e t 1 4 />
< f e a t name= text v alu e = o pes q u isa d o r />
</s t r u c t >
< s t r u c t t ype = markable from = word 73 to = word 73 >
< f e a t name= id val u e = markable 2 5 />
< f e a t name= member v alu e = s e t 1 4 />
< f e a t name= text v alu e = e l e />
</s t r u c t >
< s t r u c t t ype = markable from = word 134 to = word 134 >
< f e a t name= id val u e = markable 4 1 />
< f e a t name= np form v alu e = pn />
< f e a t name= member v alu e = s e t 1 4 />
< f e a t name= text v alu e = Ellman />
</s t r u c t >
< s t r u c t t ype = markable from = word 137 to = word 137 >
< f e a t name= id val u e = markable 4 2 />
< f e a t name= member v alu e = s e t 1 4 />
< f e a t name= text v alu e = e l e />
</s t r u c t >
< s t r u c t t ype = markable from = word 159 to = word 160 >
< f e a t name= id val u e = markable 4 9 />
< f e a t name= np form v alu e = def np />
< f e a t name= member v alu e = s e t 1 4 />
< f e a t name= text v alu e = o pes q u isa d o r />
</s t r u c t >
< s t r u c t from = word 56 to = word 56 ty pe = markable >
< f e a t name= id val u e = markable 1 9 />
< f e a t name= np form v alu e = barenp />
< f e a t name= member v alu e = s e t 1 1 />
< f e a t name= text v alu e = computadores />
</s t r u c t >
< s t r u c t from = word 142 to = word 142 type = markable >
< f e a t name= id val u e = markable 4 4 />
< f e a t name= np form v alu e = barenp />
< f e a t name= member v alu e = s e t 1 1 />
< f e a t name= text v alu e = computadores / >
</s t r u c t >
. . .
Figura 26: Identifica¸ao de todos os termos das duas cadeias que aparecem no texto
CIENCIA 2001 6410
74
Ainda usando o texto CIENCIA 2001 6410 como exemplo, mostramos, abaixo, o
sistema de pontos para cada elemento das cadeias presentes no sum´ario.
1. Cadeia “set 14”
Barry Ellman, do Centro para Estudos Urbanos e Comunit´arios da Universi-
dade de Toronto, Canad´a - 4 pontos
o pesquisador - 0 pontos
ele - 0 pontos
Ellman -1 ponto
ele - 0 pontos
o pesquisador - 0 pontos
2. Cadeia “set 11”
Computadores - 1 ponto
Computadores - 0 pontos
Podemos observar que o sintagma “Barry Ellman, do Centro para Estudos Urbanos
e Comunit´arios da Universidade de Toronto, Canad´a” foi pontuado com 4 pontos, pois ele
possui as 4 caracter´ısticas p ontuadas (nome pr´oprio, maior, primeiro e aposto); o sintagma
“Ellman” foi pontuado com 1 ponto, por ser nome-pr´oprio. Em rela¸ao `a outra cadeia, o
primeiro sintagma “computadores” recebeu 1 ponto apenas, por ser o primeiro; o outro
sintagma “computadores” ao foi pontuado, pois ao possui nenhuma das caracter´ısticas.
Essas informa¸oes ser˜ao utilizadas pelo odulo de revis˜ao dos sum´arios, que uti-
lizar´a a informa¸ao dos pontos para selecionar o melhor elemento da cadeia para fazer a
substitui¸ao.
Caso oc orra uma pr´oxima frase no sum´ario, em que apare¸ca um sintagma de uma
cadeia de correferˆencia que foi tratada pelo algoritmo descrito acima, este sintagma ao
75
´e substitu´ıdo. Tomemos a senten¸ca 8, do texto CIENCIA 2001 6410 ([S8] da Figura 22),
como exemplo: “O artigo do pesquisador est´a na edi¸ao de hoje da revista Science.” Se
essa senten¸ca estivesse inclu´ıda no s um´ario, o sistema desconsideraria o tratamento da
cadeia do elemento “o pesquisador”, pois essa cadeia a teria sido tratada anteriormente,
quando foi analisada a cadeia do elemento “ele” na senten¸ca 7.
5.4 odulo de Revis˜ao dos Sum´arios
O odulo de revis˜ao dos s um´arios tem como objetivo substituir sintagmas nominais
pela melhor express˜ao, ou a mais informativa de sua cadeia, gerando um novo sum´ario
(sum´ario revisado), idealmente, sem quebras das cadeias de correferˆencia.
Para escolher a melhor express˜ao, o sistema utiliza a pontua¸ao gerada pelo odulo
de processamento de informa¸oes, levando em conta a taxa de compress˜ao do sum´ario.
Os sum´arios originais, gerados pelo sumarizador autom´atico, foram selecionados com uma
taxa de compress˜ao de 70%, gerando sum´arios de 30% em rela¸ao ao texto-fonte. Em
favor da coes˜ao referencial, neste trabalho estamos considerando uma taxa de compress˜ao
superior, podendo, o sum´ario revisado, chegar a 40% (com aplica¸ao deste sistema) com
as trocas de express˜oes.
Ainda tomando o texto CIENCIA 2001 6410 como exemplo, o sistema deve ve-
rificar qual express˜ao dentro da cadeia de correferˆencia dever´a ser substitu´ıda. Nesse
momento, o crit´erio de sele¸ao da melhor express˜ao ser´a decidido atrav´es da pontua¸ao.
O elemento da c adeia que tiver o maior umero de pontos ser´a selecionado. Com base nos
pontos das cadeias do sum´ario, o elemento “ele” no sum´ario original dever´a ser substitu´ıdo
pelo sintagma nominal “Barry Ellman, do Centro para Estudos Urbanos e Comunit´arios
da Universidade de Toronto, Canad´a”, gerando um sum´ario revisado. Essa gera¸ao do
sum´ario revisado tamb´em ´e feita por esse odulo, que gera um arquivo no formato texto.
Na Figura 27, temos o sum´ario revisado a com a s ubstitui¸ao dos termos.
76
Segundo Barry Ellman, do Centro para Estudos Urbanos e Comunit´arios da Universidade de Toronto,
Canad´a, pessoas ligadas por computadores tiveram mais contatos pessoais com seus amigos e parentes do
que pessoas ao- cone ctad as.
Figura 27: Sum´ario revisado do texto CIENCIA 2001 6410
Com rela¸ao `a taxa de compress˜ao, podemos observar que o sum´ario original do
texto CIENCIA 2001 6410, gerado pelo sistema GistSumm, possui uma taxa de com-
press˜ao de 12%
3
). Esse sum´ario, ap´os a troca da express˜ao, ficou com uma taxa de
compress˜ao de 22%.
O odulo de revis˜ao dos sum´arios ´e resp ons´avel por resguardar a taxa de com-
press˜ao configurada pelo sistema. Caso o sum´ario revisado ultrapasse a taxa, foi desenvol-
vido um algoritmo que seleciona apenas a primeira parte do sintagma (quando o sintagma
tiver v´ırgula). Por exemplo, se o sum´ario do texto CIENCIA 2001 6410 estivesse com a
taxa de compress˜ao no limite, o sintagma “Barry Ellman, do Centro para Estudos Urba-
nos e Comunit´arios da Universidade de Toronto, Canad´a” seria selecionado somente at´e a
parte que antecede a v´ırgula: “Barry Ellman”. O sistema elimina, tamem, os parˆenteses,
caso eles apare¸cam no sintagma escolhido para substitui¸ao.
5.5 odulo de Interface
Foi desenvolvida uma interface que permite ao usu´ario operar o sistema de forma
acil e interativa. A interface pode ser divida em duas partes. A primeira parte possibilita
a sele¸ao dos arquivos para processamento. Nela, o sistema permite a parametriza¸ao
da taxa axima de compress˜ao, que ser´a respeitada no momento da troca da melhor
express˜ao da cadeia. a, tamb´em, a escolha da subs titui¸ao autom´atica pelo algoritmo
ou a sele¸ao de manipula¸ao manual das substitui¸oes. A Figura 28 mostra a interface do
sistema exibindo a primeira parte da sele¸ao dos arquivos.
3
Os sum´arios foram gerados pelo Gistsumm com taxa de compress˜ao de 70%, mas o sistema tem um
dispositivo de seguran¸ca que impede o acr´escimo de mais senten¸cas no sum´ario, caso seja gerado um
sum´ario maior que a taxa de compress˜ao desejada.
77
Figura 28: Interface do sistema - sele¸ao dos arquivos.
A segunda parte da interface permite que o usu´ario do sistema efetue as trocas das
cadeias de correferˆencia de forma manual. O usu´ario clica no bot˜ao (ao lado do sintagma
nominal) e na metade direita da interface aparecem as op¸oes (todos os elementos daquela
cadeia) que poder˜ao ser usadas para efetuar a troca das express˜oes. O usu´ario tem a total
liberdade de escolher a melhor express˜ao, conforme sua an´alise pessoal. A Figura 29 traz
a ilustra¸ao da interface com a possibilidade de troca manual de express˜oes.
Figura 29: Interface do sistema - troca de express˜oes e an´alise das cadeias manualmente.
78
Quando o usu´ario escolhe a op¸ao autom´atica (Figura 28), no campo “sum´ario
revisado” da tela (Figura 29), aparece o sum´ario revisado automaticamente. O sistema
permite reiniciar as trocas das express˜oes quantas vezes o usu´ario desejar. Caso a op¸ao
manual seja selecionada, esse campo da tela ser´a preenchido com o sum´ario original e
ficar´a aguardando as substitui¸oes propostas p elo usu´ario.
Este cap´ıtulo apresentou o sistema desenvolvido para realizar a pesquisa sobre
cadeias de correferˆencia, sumariza¸ao autom´atica e co es˜ao referencial proposta nesta dis-
serta¸ao. Os experimentos realizados com o sistema ao descritos na pr´oxima se¸ao.
79
Cap´ıtulo 6
Experimentos e Avalia¸ao
Neste cap´ıtulo apresentamos os experimentos realizados utilizando o sistema Cor-
refSum descrito no cap´ıtulo 5. Para os experimentos utilizamos dois sumarizadores ex-
trativos: GistSumm e o Supor-2.
Os experimentos foram realizados com base no c orpus Summ-it (descrito na
se¸ao 4.7). Para o experimento inicial, o corpus foi dividido em duas partes, uma parte
foi utilizada no desenvolvimento das heur´ısticas e a outra parte foi usada para teste des-
sas heur´ısticas. Durante a fase de desenvolvimento, os textos e os sum´arios gerados pela
ferramenta GistSumm foram observados e serviram como base de estudo para o desen-
volvimento de heur´ısticas de troca de express˜oes de elementos da mesma cadeia. Foram
considerados 30 textos para desenvolvimento das heur´ısticas e na fase de teste foram uti-
lizados 20 textos. Os sum´arios gerados pelo sistema SuPor-2 foram utilizados de forma
integral, pois as heur´ısticas a estavam desenvolvidas e testadas.
Os seguintes itens foram analisados para cada texto:
Quantidade de cadeias no texto
Quantidade de cadeias no sum´ario
Quantidade de trocas efetuadas
80
Taxa de compress˜ao antes da troca
Taxa de compress˜ao depois da troca
Para avaliar os sum´arios revisados gerados pelo CorrefSum, utilizamos duas for-
mas de avalia¸ao: avalia¸c ˜ao autom´atica e avalia¸ao subjetiva. Para avalia¸ao autom´atica,
foi utilizada a medida de avalia¸ao Rouge (LIN, 2000). A Rouge utiliza como parˆametro
de compara¸ao um sum´ario de referˆencia. Para isso, usamos os sum´arios gerados ma-
nualmente por sumarizadores profissionais, conforme descrito em (COELHO, 2007). A
Rouge fornece as seguintes medidas: Precis˜ao, Cobertura e F-Measure. Essas medidas
ao disponibilizadas para cada texto individualmente e tamem pelo conjunto de textos
processados. Neste trabalho, estamos usando a Rouge-1 que usa a compara¸ao por uni-
gramas para avalia¸ao. A Rouge-1 ´e a medida que tem sido utilizada e aceita por arios
trabalhos nessa ´area, como por exemolo, os trabalhos de (CARBONEL, 2007), (LEITE et al.,
2007) e (FILHO; PARDO; NUNES, 2007).
Para a avalia¸ao subjetiva, foram escolhidos 10 textos originais e revisados pelo
CorrefSum que apresentaram uma maior diferen¸ca de desempenho para a medida ROUGE.
Para essa avalia¸ao, usamos 5 ju´ızes humanos, falantes nativos da l´ıngua e especialistas na
l´ıgua portuguesa. A avalia¸ao foi separada em duas partes: na se¸ao 6.1.3, temos os resul-
tados da avalia¸ao dos sum´arios do GistSumm e na se¸ao 6.2.3, a avalia¸ao dos sum´arios
do Supor-2. Os ju´ızes responderam a um question´ario sobre os sum´arios extrativos com e
sem revis˜ao, com objetivo de avaliar informatividade e legibilidade. Os sum´arios presentes
no question´ario ao foram identificados como original e corrigido com a inten¸ao de ao
influenciar na resposta do avaliador. Os question´arios encontram-se nos Anexos A e B.
Este cap´ıtulo traz, ainda, uma an´alise qualitativa das substitui¸oes realizadas pelo
GistSumm no corpus Summ-it e, na ´ultima se¸ao, temos algumas discuss˜oes sobre quest˜oes
relacionadas `a implementa¸ao do sistema.
81
6.1 Experimentos e Avalia¸ao - GistSumm
Nesta se¸ao, ao descritos os experimentos, avalia¸ao autom´atica e subje tiva, rea-
lizados com o sumarizador GistSumm.
6.1.1 Experimento
Os sum´arios gerados pelo GistSumm a partir do corpus Summ-it foram divididos
em duas partes, uma para estudo e an´alise, utilizada no desenvolvimento das heur´ısticas
de troca de express˜oes, ao qual chamamos conjunto de treino, e uma segunda parte para
testes das heur´ısticas. Na Tabela 2, temos os resultados para o conjunto de treino onde
foram selecionados 30 sum´arios do corpus Summ-it.
82
Tabela 2: Resultados do conjunto de treino do Summ-it
NOME DO TEXTO QTDE CADEIAS QTDE CADEIAS QTDE. TX.COMPRESS
˜
AO TX.COMPRE SS
˜
AO
NO TEXTO NO SUM
´
ARIO TROCAS ANTES (%) DEPOIS (%)
CIENCIA 2000 17082 10 6 1 30 30
CIENCIA 2000 17088 11 7 2 27 29
CIENCIA 2000 17101 17 8 1 29 29
CIENCIA 2000 17108 9 6 1 30 36
CIENCIA 2000 17109 12 8 4 19 26
CIENCIA 2000 17112 9 6 3 22 28
CIENCIA 2000 17113 16 9 3 23 26
CIENCIA 2001 19858 11 6 2 28 31
CIENCIA 2002 22005 12 6 2 30 35
CIENCIA 2002 22010 10 6 1 28 32
CIENCIA 2002 22015 16 7 4 27 28
CIENCIA 2002 22023 12 8 4 21 27
CIENCIA 2002 22027 22 10 3 26 28
CIENCIA 2002 22029 19 15 3 30 36
CIENCIA 2003 24212 19 10 2 27 27
CIENCIA 2003 24219 13 8 1 27 28
CIENCIA 2003 24226 15 8 3 28 30
CIENCIA 2004 26415 6 4 1 16 17
CIENCIA 2004 26417 14 6 2 30 33
CIENCIA 2004 26423 24 13 3 28 29
CIENCIA 2004 26425 21 12 3 26 30
CIENCIA 2005 28743 9 4 1 27 28
CIENCIA 2005 28747 11 7 4 16 21
CIENCIA 2005 28752 14 7 0 27 27
CIENCIA 2005 28754 15 10 1 27 29
CIENCIA 2005 28755 14 12 3 27 28
CIENCIA 2005 28756 13 7 3 24 34
CIENCIA 2005 28764 12 8 1 33 34
CIENCIA 2005 28766 23 17 3 27 30
CIENCIA 2005 28774 21 11 2 25 27
SOMA 430 252 67 - -
M
´
EDIA 14,33 8,4 2,23 26,16 29,1
Podemos observar que, em edia, os textos-fonte possuem 14,33 cadeias de cor-
referˆencia. Por sua vez, 8,4 dessas cadeias aparecem nos sum´arios. Como resultado do
processamento, obtivemos um total de 67 trocas, com 2,23 trocas por texto, em m´edia.
Das 252 cadeias analisadas, 185 ao necessitaram de troca, pois os elementos da cadeia,
avaliados como melhores pelas heur´ısticas, a estavam contidos no sum´ario. O n´umero
aximo de trocas efetuadas em um ´unico sum´ario foi 4, houve tamb´em 1 caso em que
nenhuma troca foi necess´aria.
A taxa de compress˜ao m´edia dos sum´arios originais gerados pelo GistSumm foi de
26,16% e os sum´arios revisados ap´os a aplica¸ao do sistema CorrefSum obtiveram uma
83
m´edia de taxa de compress˜ao de 29,10%. Observamos que os sum´arios aumentaram em
m´edia 3% em rela¸ao ao seu tamanho original.
Na Tabela 3 temos os resultados para os 20 sum´arios restantes do corpus Summ-it
usados como base de teste para o sistema. Esses textos, em edia possuem 7,8 cadeias
de correferˆencia e os sum´arios possuem 3,9 diferentes cadeias, em edia. Em rela¸ao
a trocas de express˜oes observamos um total de 22 trocas tendo em e dia 1,1 trocas
por texto, 55 express˜oes analisadas ao necessitaram de troca. Em rela¸ao `a taxa
de compress˜ao observamos uma m´edia de 24,1% e ap´os o proces samento pelo sistema
CorrefSum os sum´arios alcan¸caram uma edia de 27,25% de taxa de compress˜ao em
rela¸ao ao seu texto-fonte.
Tabela 3: Resultados do conjunto de teste do Summ-it
NOME DO TEXTO QTDE CA DEIAS QTDE CADEIAS QTDE. TROCAS TAXA COMPRESS
˜
AO TAXA COMPRESS
˜
AO
NO TEXTO NO SUM
´
ARIO ANTES (%) DEPOIS (%)
CIENCIA 2000 6380 10 4 0 26 26
CIENCIA 2000 6381 11 5 1 21 25
CIENCIA 2000 6389 9 2 1 11 16
CIENCIA 2000 6391 6 3 1 24 30
CIENCIA 2001 6406 6 1 1 19 21
CIENCIA 2001 6410 8 2 1 12 20
CIENCIA 2001 6414 8 4 2 18 18
CIENCIA 2001 6416 8 3 2 26 35
CIENCIA 2001 6423 3 2 0 40 40
CIENCIA 2002 6441 5 3 2 25 31
CIENCIA 2003 6457 9 8 1 28 30
CIENCIA 2003 6465 11 5 0 25 25
CIENCIA 2003 6472 4 3 1 36 39
CIENCIA 2004 6480 10 4 2 27 33
CIENCIA 2004 6488 5 4 0 27 27
CIENCIA 2004 6494 8 3 1 17 19
CIENCIA 2005 6507 6 6 1 27 29
CIENCIA 2005 6514 8 4 1 23 23
CIENCIA 2005 6515 11 7 1 29 29
CIENCIA 2005 6518 10 5 3 21 29
SOMA 156 78 22 - -
M
´
EDIA 7,8 3,9 1,1 24,1 27,25
Com base nesses resultados observamos que houve trocas em grande parte dos
sum´arios, indicando a possibilidade de problemas na coes˜ao referencial ou a existˆencia de
uma express˜ao mais completa que pudesse tornar o texto mais informativo.
84
6.1.2 Avalia¸ao Rouge dos Sum´arios do GistSumm Revisados
A Tabela 4 mostra os resultados da medida ROUGE para os sum´arios originais
gerados pelo GistSumm e os sum´arios corrigidos. A avalia¸ao autom´atica usa como base
os sum´arios de referˆencia (COELHO, 2007), constru´ıdos manualmente por sumarizadores
humanos.
Tabela 4: Dados Rouge - Sum´arios Originais GistSumm e Sum´arios Corrigidos- Dados de
treino
GISTSUMM-ORIGINAL GISTSUMM-CORRIGIDO
NOME TEXTO COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
CIENCIA 2000 17082 61,36 56,84 59,02 61,36 57,45 59,34
CIENCIA 2000 17088 38,71 38,30 38,50 41,94 39,80 40,84
CIENCIA 2000 17101 45,55 45,10 45,32 48,52 47,57 48,04
CIENCIA 2000 17108 56,52 57,14 56,83 58,70 49,09 53,47
CIENCIA 2000 17109 29,21 46,43 35,86 40,45 48,00 43,90
CIENCIA 2000 17112 22,00 29,33 25,14 33,00 34,02 33,50
CIENCIA 2000 17113 45,04 48,36 46,64 31,30 38,68 34,60
CIENCIA 2001 19858 55,37 64,90 59,76 59,32 63,64 61,40
CIENCIA 2002 22005 57,31 64,05 60,49 73,68 68,85 71,19
CIENCIA 2002 22010 67,90 78,18 72,68 67,90 70,49 69,17
CIENCIA 2002 22015 47,89 57,63 52,31 53,05 57,95 55,39
CIENCIA 2002 22023 25,20 32,98 28,57 34,96 35,83 35,39
CIENCIA 2002 22027 62,75 70,59 66,44 65,36 69,93 67,57
CIENCIA 2002 22029 67,14 71,50 69,25 77,93 68,60 72,97
CIENCIA 2003 24212 66,46 69,43 67,91 64,02 66,88 65,42
CIENCIA 2003 24219 54,13 53,15 53,64 55,05 51,72 53,33
CIENCIA 2003 24226 45,18 52,66 48,63 50,76 53,76 52,22
CIENCIA 2004 26415 29,13 60,00 39,22 33,98 63,64 44,30
CIENCIA 2004 26417 34,57 37,58 36,01 40,74 40,49 40,62
CIENCIA 2004 26423 44,49 55,56 49,41 48,31 55,61 51,70
CIENCIA 2004 26425 57,14 71,80 63,64 63,27 68,13 65,61
CIENCIA 2005 28743 54,61 61,94 58,04 53,95 60,29 56,94
CIENCIA 2005 28747 20,88 38,78 27,14 32,97 45,46 38,22
CIENCIA 2005 28752 46,63 54,29 50,17 46,01 53,19 49,34
CIENCIA 2005 28754 55,83 89,15 68,66 64,56 88,67 74,72
CIENCIA 2005 28755 59,55 58,89 59,22 61,80 58,20 59,95
CIENCIA 2005 28756 41,29 50,79 45,55 54,84 47,22 50,75
CIENCIA 2005 28764 47,76 55,81 51,47 52,24 51,22 51,72
CIENCIA 2005 28766 51,50 63,98 57,06 60,50 65,05 62,69
CIENCIA 2005 28774 49,28 54,84 51,91 55,56 55,83 55,69
M
´
EDIA 48,41 56,60 51,83 53,15 56,03 54,25
Observamos que os sum´arios do GistSumm obtiveram 48,41% de cobertura em
rela¸ao ao sum´ario de referˆencia, e com aplica¸ao do CorrefSum, a cobertura passou
para 53,15%. Em rela¸ao `a precis˜ao, o valor passou de 56,60% para 56,03%. A medida
F-measure que mostra uma edia harmˆonica entre precis˜ao e cobertura que passou de
85
51,83% para 54,25%.
A Tabela 5 mostra os dados obtidos com os sum´arios originais e sum´arios revisados
em rela¸ao aos outros 20 textos do corpus Summ-it.
Tabela 5: Dados Rouge - Sum´arios Originais GistSumm e Sum´arios Corrigidos- Dados de
teste
GISTSUMM-ORIGINAL GISTSUMM-CORRIGIDO
NOME TEXTO COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
CIENCIA 2000 6380 34,21 37,14 35,62 34,21 37,14 35,62
CIENCIA 2000 6381 27,78 35,09 31,01 36,11 39,39 37,68
CIENCIA 2000 6389 17,14 38,71 23,76 25,71 42,86 32,14
CIENCIA 2000 6391 25,81 37,21 30,48 46,77 50,00 48,33
CIENCIA 2001 6406 60,71 89,47 72,34 66,07 88,10 75,51
CIENCIA 2001 6410 24,00 57,14 33,80 50,00 71,43 58,82
CIENCIA 2001 6414 16,28 28,00 20,59 16,28 27,45 20,44
CIENCIA 2001 6416 27,63 29,17 28,38 52,63 42,11 46,78
CIENCIA 2001 6423 48,84 33,33 39,62 48,84 33,33 39,62
CIENCIA 2002 6441 75,00 91,30 82,35 73,21 68,33 70,69
CIENCIA 2003 6457 62,79 65,06 63,91 62,79 61,36 62,07
CIENCIA 2003 6465 51,14 62,50 56,25 51,14 60,00 55,22
CIENCIA 2003 6472 81,13 75,44 78,18 81,13 69,36 74,78
CIENCIA 2004 6480 41,94 49,37 45,35 47,31 46,32 46,81
CIENCIA 2004 6488 56,00 82,35 66,67 56,00 82,35 66,67
CIENCIA 2004 6494 19,05 28,57 22,86 26,98 36,17 30,91
CIENCIA 2005 6507 56,36 81,58 66,67 58,18 74,42 65,31
CIENCIA 2005 6514 26,47 34,62 30,00 26,47 34,62 30,00
CIENCIA 2005 6515 60,94 52,70 56,52 60,94 53,43 56,94
CIENCIA 2005 6518 36,91 51,67 43,06 45,24 46,91 46,06
M
´
EDIA 43,12 53,50 46,98 48,57 53,12 50,13
Com a avalia¸ao dos dados de teste foram alcan¸cados os seguintes resultados, uma
cobertura de 43,12% para os sum´arios do GistSumm e com aplica¸ao do CorrefSum a
cobertura passou para 48,57%. A precis˜ao passou de 53,50% para 53,12%. A medida
F-measure passou de 46,98% (sum´arios originais) para 50,13% (sum´arios revisados).
Em rela¸ao a esses resultados podemos observar que as trocas realizadas com ob-
jetivo de recuperar a coes˜ao referencial nos sum´arios podem melhorar a informatividade.
Nos dois conjuntos de dados, treino e teste, houve um acr´escimo das medidas de Cober-
tura e F-measure. Temos o aumento de cobertura se m perda de precis˜ao. Entretanto,
este ganho est´a relacionado ao aumento do sum´ario.
A partir da avalia¸ao com a Rouge, observamos que um maior n´umero de subs-
86
titui¸oes nem sempre indica um maior ganho de informatividade. A Tab ela 6 traz os
resultados da Rouge para os sum´arios com pelo menos uma troca e para aqueles que
apresentaram pelo menos duas trocas. O conjunto de sum´arios com mais trocas (duas ou
mais) apresenta uma diferen¸ca em rela¸ao aos sum´arios originais similar `aquela apresen-
tada pelos sum´arios com uma ou mais trocas. A diferen¸ca em F-measure manteve-se em
torno de 3% em ambos os casos.
Tabela 6: Resultados Rouge: Compara¸ao com textos com 1 ou mais trocas e 2 ou mais
trocas
GISTSUMM-ORIGINAL GISTSUMM-CORRIGIDO
COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
1 OU MAIS TROCAS 45,40 55,05 49,23 51,23 54,95 52,60
2 OU MAIS TROCAS 44,59 52,83 48,16 50,94 52,30 51,41
Em uma an´alise texto a texto, podemos observar que o sum´ario do texto CIEN-
CIA 2001 6410, por exemplo, obteve um maior ganho de F-measure passando de 33,80%
para 58,82%, ap´os a revis˜ao do sum´ario, com apenas 1 substitui¸c ˜ao. Por outro lado, ob-
servamos que o texto CIENCIA 2005 6518 obteve um ganho menor, passando de 43,06%
para 46,06%, com 3 substitui¸oes.
6.1.3 Avalia¸ao Subjetiva dos Sum´arios do GistSumm Revisa-
dos
Esta se¸ao traz os resultados da avalia¸ao subjetiva entre os sum´arios originais do
GistSumm e os sum´arios revisados pelo CorrefSum. Foram escolhidos 10 textos, corres-
pondendo a 20% do corpus. Os textos escolhidos foram aqueles cujo sum´ario corrigido
apresentou uma F-measure (Rouge) com um maior aumento em rela¸ao ao sum´ario ori-
ginal.
Para a avalia¸ao subjetiva foram analisados os quesitos de legibilidade e informati-
vidade, tais como interpretados pelos juizes , a partir do question´ario fornecido (Anexo A).
Uma informa¸ao relevante sobre os question´arios ´e que o texto original e o corrigido ao
87
foram identificados, para que isso ao pudesse influenciar na opini˜ao pessoal do avaliador.
Na Tabela 7, temos os res ultados da avalia¸ao de legibilidade e na Tabela 8 os resultados
da informatividade.
Tabela 7: Avalia¸ao Subjetiva da Legibilidade
JUIZ 1 JUIZ 2 JUIZ 3 JUIZ 4 JUIZ 5
O C A O C A O C A O C A O C A
CIENCIA 2000 6389 X X X X X
CIENCIA 2000 6391 X X X X X
CIENCIA 2000 17109 X X X X X
CIENCIA 2000 17112 X X X X X
CIENCIA 2001 6410 X X X X X
CIENCIA 2001 6416 X X X X X
CIENCIA 2002 22005 X X X X X
CIENCIA 2004 6494 X X X X X
CIENCIA 2005 28747 X X X X X
CIENCIA 2005 28766 X X X X X
SOMA 1 9 0 1 8 1 1 8 1 2 0 8 7 0 3
Tabela 8: Avalia¸ao Subjetiva da Informatividade
JUIZ 1 JUIZ 2 JUIZ 3 JUIZ 4 JUIZ 5
O C A O C A O C A O C A O C A
CIENCIA 2000 6389 X X X X X
CIENCIA 2000 6391 X X X X X
CIENCIA 2000 17109 X X X X X
CIENCIA 2000 17112 X X X X X
CIENCIA 2001 6410 X X X X X
CIENCIA 2001 6416 X X X X X
CIENCIA 2002 22005 X X X X X
CIENCIA 2004 6494 X X X X X
CIENCIA 2005 28747 X X X X X
CIENCIA 2005 28766 X X X X X
SOMA 1 9 0 1 9 0 2 7 1 1 8 1 1 9 0
LEGENDA
O=ORIGINAL
C=CORRIGIDO
A=AMBOS
Com base nesses resultados, podemos observar que 3 avaliadores concordaram em
rela¸ao `a legibilidade, nos informando que os sum´arios corrigidos ao mais leg´ıveis. O juiz
4 ao identificou diferen¸ca na legibilidade e o juiz 5, discordando dos demais, acredita que
7 dos sum´arios originais ao mais leg´ıveis que os corrigidos
Na avalia¸ao da informatividade, observamos uma concordˆancia entre os 5 juizes,
na maioria dos casos, eles concordam que os sum´arios corrigidos ao mais informativos.
88
Acredita-se, com essa avalia¸ao, que o objetivo de manter a legibilidade dos sum´arios
e aumentar a informatividade foi atingido, e confirmam os resultados f ornecidos pela
Rouge, que mediu a informatividade de forma autom´atica. Na se¸ao 6.2.3 ao discutidos
os resultados da avalia¸ao subjetiva dos sum´arios gerados pelo SuPor-2.
6.2 Experimentos e Avalia¸ao - Supor-2
6.2.1 Experimento
Nesta se¸ao ser˜ao analisados e discutidos os experimentos usando o sistema Supor-
2. O corpus Summ-it foi utilizado de forma integral (50 textos) para realiza¸ao desse
experimento. A utiliza¸ao do corpus de forma integral ´e dado pelo fato de ao haver mais
necessidade de observar as heur´ısticas, pois elas a foram desenvolvidas e testadas usando
os sum´arios do GistSumm. A Tabela 9 mostra os resultados obtidos com os sum´arios do
SuPor-2.
89
Tabela 9: Resultados dos 50 textos do Summ-it
NOME DO TEXTO QTDE CADEIAS QTDE CADEIAS QTDE . TROCAS TX.COMPRESS
˜
AO TX.COMPRE SS
˜
AO
NO TEXTO NO SUM
´
ARIO TROCAS ANTES (%) DEPOIS (%)
CIENCIA 2000 6380 10 4 1 31 33
CIENCIA 2000 6381 11 9 3 25 38
CIENCIA 2000 6389 9 7 2 33 38
CIENCIA 2000 6391 6 5 1 40 40
CIENCIA 2000 17082 10 9 2 31 32
CIENCIA 2000 17088 11 10 3 31 33
CIENCIA 2000 17101 17 10 0 31 31
CIENCIA 2000 17108 9 6 0 36 36
CIENCIA 2000 17109 12 11 0 42 42
CIENCIA 2000 17112 9 7 3 37 39
CIENCIA 2000 17113 16 11 1 36 38
CIENCIA 2001 6406 6 3 0 25 25
CIENCIA 2001 6410 8 7 2 39 40
CIENCIA 2001 6414 8 5 1 37 38
CIENCIA 2001 6416 8 4 2 26 38
CIENCIA 2001 6423 3 2 1 30 29
CIENCIA 2001 19858 11 9 1 35 36
CIENCIA 2002 6441 5 5 0 44 44
CIENCIA 2002 22005 12 8 1 34 35
CIENCIA 2002 22010 10 5 0 30 30
CIENCIA 2002 22015 16 7 2 31 33
CIENCIA 2002 22023 12 7 3 37 38
CIENCIA 2002 22027 22 11 4 31 34
CIENCIA 2002 22029 19 14 2 32 35
CIENCIA 2003 6457 9 8 3 34 38
CIENCIA 2003 6465 11 8 1 33 34
CIENCIA 2003 6472 4 3 0 56 56
CIENCIA 2003 24212 19 10 1 33 39
CIENCIA 2003 24219 13 11 2 32 33
CIENCIA 2003 24226 15 9 1 33 34
CIENCIA 2004 6480 10 4 2 27 33
CIENCIA 2004 6488 5 4 0 27 27
CIENCIA 2004 6494 8 8 1 38 38
CIENCIA 2004 26415 6 5 1 39 40
CIENCIA 2004 26417 14 5 1 30 30
CIENCIA 2004 26423 24 16 3 31 32
CIENCIA 2004 26425 21 14 0 30 30
CIENCIA 2005 6507 6 6 1 27 29
CIENCIA 2005 6514 8 7 2 33 34
CIENCIA 2005 6515 11 7 1 29 29
CIENCIA 2005 6518 10 9 1 33 36
CIENCIA 2005 28743 9 4 0 35 35
CIENCIA 2005 28747 11 8 1 31 32
CIENCIA 2005 28752 14 9 0 37 37
CIENCIA 2005 28754 15 10 2 33 33
CIENCIA 2005 28755 14 11 2 30 31
CIENCIA 2005 28756 13 11 0 32 32
CIENCIA 2005 28764 12 9 1 30 30
CIENCIA 2005 28766 23 17 5 33 39
CIENCIA 2005 28774 21 13 0 32 32
SOMA 586 402 67 - -
M
´
EDIA 11,72 8,04 1,34 33,24 34,96
90
Com base nesses resultados, observamos que a quantidade de cadeias que apare-
ceram no sum´ario foram em m´edia 8,04 e a quantidade edia de trocas efetuadas foram
de 1,34 por texto. Em 13 textos nenhuma substitui¸ao foi efetuada. Nos demais textos
as trocas variam de 1 a 5 trocas por texto.
Podemos observar tamb´em que a taxa de compress˜ao dos sum´arios originais gerados
pelo Supor-2 foram de 33,24% em m´edia e ap´os a revis˜ao, os sum´arios ficaram com uma
taxa m´edia de 34,96%, correspondendo ao aumento de 1,72% em rela¸ao ao tamanho do
sum´ario original.
Acredita-se que a diferen¸ca de n´umero de substitui¸oes encontradas entre o Gist-
Summ (89) e o Supor-2 (67) deve-se ao fato dos sum´arios gerados pelo Supor-2 ao maiores.
Na pr´oxima se¸ao, ´e discutida a avalia¸ao com a ferramenta Rouge dos sum´arios
do Supor-2 corrigidos pelo CorrefSum.
6.2.2 Avalia¸ao Rouge dos Sum´arios do Supor-2 Revisados
Usamos novamente a ferramenta ROUGE que permite avaliar a informatividade
dos sum´arios (originais e revisados) em rela¸ao aos sum´arios de referˆencia gerados por
humanos. Os dados em rela¸ao aos sum´arios originais gerados pelo Supor-2 e os sum´arios
revisados pelo CorrefSum foram analisados e podem ser analisados na Tabela 10.
Tabela 10: Avalia¸ao Rouge com sum´arios originais e corrigidos gerados pelo Supor-2
SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO
COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
M
´
EDIA 63,60 59,34 60,94 64,70 57,15 60,26
Podemos observar que diferente dos resultados obtidos pelo GistSumm os resul-
tados do Supor-2 sofreram poucas altera¸oes. Dentre as medidas fornecidas, observamos
que a cobertura obteve um pequeno acr´escimo passando de 63,60% para 64,70%. Entre-
tanto, a taxa de precis˜ao obteve uma queda de 2,19% passando de 59,34% para 57,15%.
A medida F-measure permaneceu, praticamente, inalterada em torno de 60%.
91
Como esses resultados podem estar relacionados com a taxa de compress˜ao dos
sum´arios do SuPor-2 (33,24% em edia), foi realizado outro experimento observando a
taxa de compress˜ao axima de 30%. A Tabela 11 mostra os novos dados.
Tabela 11: SuPor-2 - Limite de taxa de compress˜ao axima de 30%
QTDE. TROCAS TAXA COMPRESS
˜
AO TAXA COMPRESS
˜
AO
ANTES (%) DEPOIS (%)
SUPOR-2* 67 33,24 34,96
SUPOR-2** 75 23,14 25,52
* Experimento com sum´arios gerados pelo SuPor-2
** Experimento com taxa de 30% de limite aximo de compress˜ao dos sum´arios
Observamos na Tabela 11 que o umero de substitui¸oes aumentou de 67 para 75.
A taxa de compress˜ao ficou em m´edia 25,52%, menor do que os 34,96% do experimento
anterior. Os valores da Rouge para os sum´arios gerados p elo Supor-2, com a limita¸ao da
taxa de compress˜ao, podem ser observados na Tabela 12.
Tabela 12: Avalia¸ao Rouge com sum´arios originais e corrigidos gerados pe lo Supor-2 com
limite de taxa de compress˜ao
SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO
COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
M
´
EDIA 48,37 63,07 54,33 53,15 64,08 57,36
Comparando os resultados das Tabelas 10 e 12, observamos que limitando o valor
aximo da taxa de compress˜ao em 30% obteve-se um resultado semelhante aos resultados
do GistSumm (se¸ao 6.1.2). A cobertura obteve um acr´escimo, passando de 48,37% para
53,15%. As medidas de precis˜ao e F-measure, tamb´em tiveram um acr´escimo passando
de 63,07% para 64,08% e 54,33% para 57,36%, respectivamente.
Uma avalia¸ao subjetiva com o objetivo de avaliar a informatividade e a legibili-
dade dos s um´arios corrigidos pelo CorrefSum e seus resultados ser˜ao discutidos na se¸ao
seguinte.
92
6.2.3 Avalia¸ao Subjetiva dos Sum´arios do Supor Revisados
Nesta se¸ao, ´e discutida a avalia¸ao subje tiva entre os sum´arios gerados pelo sis-
tema Supor-2 e os sum´arios revisados pelo CorrefSum. Do conjunto de 50 sum´arios foram
escolhidos 10 para realiza¸ao da avalia¸ao subjetiva. Para escolher os 10 sum´arios que
fizeram parte dessa avalia¸ao, foi usado o mesmo crit´erio da se¸ao 6.1.3, onde os sum´arios
que apresentaram uma maior diferen¸ca na F-measure gerada pela ROUGE foram escolhi-
dos. Essa avalia¸ao segue os moldes da avalia¸ao subjetiva do GistSumm com a utiliza¸ao
do mesmo question´ario (no Anexo B). A Tabela 13 apresenta os dados em rela¸ao `a
legibilidade e na Tabela 14, dados em rela¸ao a informatividade.
Tabela 13: Avalia¸ao Subjetiva da Legibilidade - SuPor-2
JUIZ 1 JUIZ 2 JUIZ 3 JUIZ 4 JUIZ 5
O C A O C A O C A O C A O C A
CIENCIA 2000 17088 X X X X X
CIENCIA 2000 17112 X X X X X
CIENCIA 2000 17113 X X X X X
CIENCIA 2001 6410 X X X X X
CIENCIA 2002 22005 X X X X X
CIENCIA 2003 24212 X X X X X
CIENCIA 2003 24219 X X X X X
CIENCIA 2004 6480 X X X X X
CIENCIA 2004 26415 X X X X X
CIENCIA 2004 26423 X X X X X
SOMA 2 5 3 3 4 3 3 5 2 7 2 1 2 1 7
Tabela 14: Avalia¸ao Subjetiva da Informatividade - SuPor-2
JUIZ 1 JUIZ 2 JUIZ 3 JUIZ 4 JUIZ 5
O C A O C A O C A O C A O C A
CIENCIA 2000 17088 X X X X X
CIENCIA 2000 17112 X X X X X
CIENCIA 2000 17113 X X X X X
CIENCIA 2001 6410 X X X X X
CIENCIA 2002 22005 X X X X X
CIENCIA 2003 24212 X X X X X
CIENCIA 2003 24219 X X X X X
CIENCIA 2004 6480 X X X X X
CIENCIA 2004 26415 X X X X X
CIENCIA 2004 26423 X X X X X
SOMA 1 8 1 2 7 1 2 7 1 0 2 8 0 9 1
LEGENDA
O=ORIGINAL
C=CORRIGIDO
A=AMBOS
93
Com rela¸ao aos dados apresentados pelas Tabelas 13 e 14, observamos que, con-
forme os ju´ızes, a legibilidade nos sum´arios corrigidos ao foi afetada. As maiorias dos
juizes concordaram que os sum´arios corrigidos est˜ao mais leg´ıveis que os sum´arios origi-
nais. Entretanto, o juiz 4 discorda e informa que a maioria dos sum´arios originais ao
mais leg´ıveis. Para o juiz 5, ao foi identificado diferen¸ca na legibilidade.
Em rela¸ao a informatividade, grande parte dos ju´ızes indicaram que os sum´arios
corrigidos, na maioria dos casos, ao mais informativos que os sum´arios originais. Esse re-
sultado ´e muito parecido com o que foi observado pela avalia¸ao do GistSumm (se¸ao 6.1.3)
e extremamente importante, pois, esse s resultados ao ao encontro das medidas fornecidas
pela Rouge (se¸ao 6.2.2) na Tabela 10. Ape sar dos valores da Rouge ao demonstrarem
aumento significativo na informatividade para os textos escolhidos, vimos que isso ao se
confirmou na avalia¸ao subjetiva.
Para uma melhor avalia¸ao do sistema se faz necess´aria uma an´alise mais espec´ıfica
em rela¸ao `a coes˜ao referencial e coerˆencia textual de todos os sum´arios corrigidos.
6.3 Experimentos com Sistema de Re solu¸ao de Cor-
referˆencia Autom´atico
Um sistema de resolu¸ao autom´atica de cadeias de correferˆencia foi implementado
por Souza (SOUZA, 2007) (descrito na se¸ao 4.5). O sistema fornece as cadeias de cor-
referˆencia de cada texto processado. Foi realizada uma integra¸ao entre os sistemas de
resolu¸ao de correferˆencia e o CorrefSum. Foram proces sados os 50 textos do Summ-it,
sumarizados com o GistSumm. Os resultados podem ser vistos na Tabela 15.
Tabela 15: Resultados dos experimentos com sistema de correferˆencia autom´atica
ANOTAC¸
˜
AO MANUAL ANOTAC¸
˜
AO AUTOM
´
ATICA
N
o
CADEIAS N
o
CADEIAS N
o
TROCAS N
o
CADEIAS N
o
CADEIAS N
o
TROCAS
NO TEXTO NO SUM
´
ARIO NO TEXTO NO SUM
´
ARIO
SOMA 586 330 89 393 194 36
M
´
EDIA 11,72 6,60 1,78 7,86 3,88 0,72
94
Com base nesses resultados, observamos que foram encontradas 330 cadeias de
correferˆencia em todo conjunto de textos, que representa 67,06% em rela¸ao `a anota¸ao
manual. Deste total de 330 de cadeias encontradas, 194 cadeias estavam contidas nos
sum´arios. Com a anota¸ao autom´atica, o sistema CorrefSum realizou 36 substitui¸oes,
correspondendo a 40,45% das substitui¸oes realizadas com a anota¸ao manual. Essas
substitui¸oes ocorreram num total de 28 sum´arios, foram realizadas de 1 a 2 substitui¸oes
em cada sum´ario. As taxas de compress˜ao antes e depois do processamento obtiveram
pequenas altera¸oes passando de 25,33% para 26,18% em m´edia.
Na Tabela 16 temos os dados da avalia¸ao de informatividade. Os sum´arios cor-
rigidos usando a anota¸ao autom´atica das cadeias de correferˆencia ao comparados com
a anota¸ao manual das cadeias e sum´arios originais. Para essa avalia¸ao foi usada a
ferramenta ROUGE.
Tabela 16: Resultados Rouge - compara¸ao entre anota¸ao manual e anota¸ao autom´atica
Precis˜ao Cobertura F-Measure
Sum´arios Originais 45,59 54,94 49,26
Sum´arios Corrigidos 50,85 54,74 52, 28
Cadeias Manuais
Sum´arios Corrigidos 54,60 47,03 49, 96
Cadeias Automat.
Com base nos resultados da Tabela 16, podemos observar que os sum´arios c orrigi-
dos com as cadeias geradas automaticamente apresentam algumas melhoras. A precis˜ao
obteve um acr´escimo de 45,59% para 54,60%. Entretanto, a cobertura apresenteou um
descr´escimo de 54,94% para 47,03%. Com rela¸ao a F-measure observamos uma me lhora
em rela¸ao aos sum´arios originais passando de 49,26% para 49,96%.
´
E importante ressaltar que a tarefa de resolu¸ao de correferˆencia ainda ´e desafio na
´area de PLN. A implementa¸ao utilizada foi resultado do primeiro trabalho considerando
todos os tipos de sintagmas nominais e a l´ıngua portuguesa. Esse trabalho reportou uma
F-measure de 59,60% quando avaliado no corpus Summ-it.
95
6.4 Avalia¸ao Qualitativa das Substitui¸oes
Nesta se¸ao ´e discutida a avalia¸ao qualitativa das substitui¸oes dos elementos
textuais das cadeias de correferˆencia, a partir de um an´alise feita pelo autor. Para uma
melhor an´alise, separamos os textos em grupos. O grupo A tem a an´alise dos sum´arios que
sofreram apenas 1 substitui¸ao. O grupo B ao sum´arios que sofreram 2 substitui¸oes. O
grupo C ao sum´arios que sofreram 3 e o grupo D ao sum´arios com 4 ou mais s ubstitui¸oes.
Foi atribu´ıda uma pontua¸ao para a imp ortˆancia da troca. Essa an´alise foi realizada de
forma subjetiva. A pontua¸ao foi considerada da seguinte forma:
1 ponto: Para a troca que ao expresse melhoria no resultado, isto ´e, sem a troca,
o texto era coerˆente. Por exemplo, a troca de “a pele humana” por “a pele humana
normal”.
2 pontos: Para a troca que, de alguma forma, colaborou para o entendimento do
sum´ario, trazendo informa¸ao adicional, aumentando a informatividade do sum´ario.
Por exemplo, a troca de “‘a Ciˆencia e Tecnologia” por “o MCT (Minist´erio da
Ciˆencia e Tecnologia)”.
3 pontos: Para a troca que contribui significantemente para o entendimento do
sum´ario, trazendo informatividade e que resolveu um problema de coes˜ao referen-
cial. Por exemplo, a troca de “Guerra” por “o agrˆonomo Miguel Guerra, da UFSC
(Universidade Federal de Santa Catarina)”.
A Tabela 17 mostra as trocas efetuadas nos sum´arios do grupo A, usando o sistema
CorrefSum e a an´alise subjetiva, conforme sistema de pontua¸ao descrito acima.
96
Tabela 17: Substitui¸oes do Grupo A
NOME TEXO PONTOS EXPRESS
˜
AO ORIGINAL EXPRESS
˜
AO SUBSTITUTA
CIENCIA 2000 6381 3 a ministra A ministra da Justi¸ca do pa´ıs, Elisabeth Guigou
CIENCIA 2000 6389 3 Guerra o agrˆonomo Miguel Guerra, da UFSC (Universidade Federal
de Santa Catarina)
CIENCIA 2000 6391 3 aquela carga compensados de madeira ex portados pela Selvaplac, subsidi´aria
brasileira de um grupo da Mal´asia
CIENCIA 2000 17082 1 O desmatamento da o desmatamento com queimadas
Amazˆonia
CIENCIA 2000 17101 1 as mulheres que ao outro grupo de gr´avidas com HIV
receberam AZT
CIENCIA 2000 17108 2 esse inseto Um ser que invade corpos e domina a mente alheia, for¸cando
suas v´ıtimas a fazer o que ele ordena
CIENCIA 2001 6406 3 o gene o gene da HBsAg
CIENCIA 2001 6410 3 ele Barry Ellman, do Centro para Estudos Urbanos e
Comunit´arios da Universidade de Toronto, Canad´a
CIENCIA 2002 22010 3 os cientistas Jennifer Leonard, da Universidade da Calif´ornia em Los
Angeles, e colegas de institui¸oes do Peru e do exico
CIENCIA 2003 6457 1 o comitˆe central do o comitˆe -cuja reuni˜ao foi liderada pelo presidente chinˆes,
Partido Comunista Chinˆes Hu Jintao
CIENCIA 2003 6472 1 ele Um estudo defendendo a id´eia
CIENCIA 2003 24219 2 a Ciˆencia e Tecnologia o MCT (Minist´erio da Ciˆencia e Tecnologia)
CIENCIA 2004 6494 1 o aquec imento global o aquecimento global causado por esse as
CIENCIA 2004 26415 3 o pesquisador Bioantrop´ologo da U niversidade MacMaster, no Canad´a
CIENCIA 2005 6507 1 a radia¸ao a radia¸ao osmica de fundo
CIENCIA 2005 6514 1 O leito do rio o fundo do Taquari
CIENCIA 2005 6515 3 a regi˜ao o Pantanal
CIENCIA 2005 28743 1 a chamada gripe espanhola Essa epidemia de gripe, ou influenza
CIENCIA 2005 28754 2 As protuberˆancias arestas do material usado para preencher o ao entre
encontradas as telhas ermicas da barriga do ˆonibus
CIENCIA 2005 28764 1 a borda da floresta a borda da floresta e das savanas
SOMA 39
M
´
EDIA 1,95
A Tab ela 17 mostra a an´alise de 20 sum´arios do corpus que tiveram apenas 1
substitui¸ao. Nesse grupo, temos 8 substitui¸oes que receberam 3 pontos indicando im-
portantes substitui¸oes, 3 trocas com 2 pontos e 9 trocas receberam 1 ponto. A Tabela 18
mostra essa an´alise no grupo de textos que tiveram 2 substitui¸oes.
97
Tabela 18: Substitui¸oes do Grupo B
NOME TEXO PONTOS EXPRESS
˜
AO ORIGINAL EXPRESS
˜
AO SUBSTITUTA
CIENCIA 2000 17088 3 o pa´ıs o Brasil
3 a equipe carioca Pesquisadores do Museu Nacional do Rio de Janeiro
CIENCIA 2001 6414 3 a regi˜ao a Ant´artida
3 a pen´ınsula a pen´ınsula Ant´artica
CIENCIA 2001 6416 1 o influenza o H5 N1, o v´ırus influenza que, em 1997, matou 6
das 18 pessoas infectadas, em Hong Kong
3 Os cientistas pesquisadores da Universidade de
Wisconsin-Madison (EUA)
CIENCIA 2001 19858 3 os cientistas Cientistas do Centro de Estudos Saclay, na Fran¸ca
3 Mirabel Felix Mirabel, pesquisador que liderou o grupo
CIENCIA 2002 6441 1 um modelo alternativo Um modelo testado em simula¸oes muito detalhadas
1 os gigantes gasosos planetas gigantes extra-solares que foram encontra
dos nos ´ultimos anos
3 brasileiros Os brasileiros -Gilson Rambelli, Paulo Bava de
Camargo e Fl´avio Rizzi, pesquisadores do Museu de
Arqueologia e Etnologia (MAE) da USP-
CIENCIA 2002 22005 1 artefatos de arias origens in´umeros fragmentos, principalmente cerˆamicos, que
ali depositados por a ao desde ˆanforas romanas at´e utens´ılios inteiros
sucessivas levas de ocupantes do eculo 16, passando pela cerˆamica ´arabe
do territ´orio portuguˆes
CIENCIA 2003 24212 1 Iowa Iowa, EUA
1 Os dois nascimentos Os filhotes
CIENCIA 2004 6480 1 O animal a terceira tentativa do ´org˜ao de criar um clone
a partir de outro
3 Rodrigues O ministro Roberto Rodrigues (Agricultura)
CIENCIA 2004 26417 2 uma amostra natural a amostra de efluentes ´acidos analisada
3 os cientistas os cientistas liderados por Jillian Banfield,
da Universidade da Calif´ornia em Berkeley
CIENCIA 2005 28774 2 uma pele biˆonica uma pele artificial para robˆos que imita uma parcela
significativa das qualidades e capacidades da pele
humana normal
1 a pele humana a pele humana normal
SOMA 42
M
´
EDIA 2,10
No grupo B, composto por 10 textos que obtiveram 2 trocas, somando um total
de 20 substitui¸oes, podemos observar que 10 trocas receberam 3 pontos indicando que
as substitui¸oes fez diferen¸ca na informatividade dos sum´arios e 2 trocas receberam 2
pontos. Dentre esse conjunto de 20 substitui¸oes, 8 delas ao contribu´ıram para aumentar
a informatividade do sum´ario. A Tabela 19 traz os dados referente aos textos do grupo
C.
98
Tabela 19: Substitui¸oes do Grupo C
NOME TEXO PONTOS EXPRESS
˜
AO ORIGINAL EXPRESS
˜
AO SUBSTITUTA
CIENCIA 2000 17112 1 o planeta O mundo
2 As metr´opoles zonas de intensa urbaniza¸ao recente, como o sul dos
EUA e o norte do exico
2 recursos h´ıdricos as reservas do l´ıquido dispon´ıveis em uma regi˜ao
CIENCIA 2000 17113 1 os camundongos transgˆenicos Os camundongos com essa altera¸ao gen´etica
2 seu corpo o corpo dos bichos
2 a massa muscular o volume total do corpo dos bichos
CIENCIA 2002 22027 2 um animal dom´estico gatos ou cachorros
3 esse estudo o trabalho de Allen e colegas
2 as pessoas as pessoas com animais dom´esticos
CIENCIA 2002 22029 3 O Maldi espectrˆometro de massa de ioniza¸ao por dessor¸ao
a laser com aux´ılio de matriz (Maldi, na sigla em inglˆes)
2 a Fapesp A Fapesp (Funda¸ao de Amparo `a Pesquisa do
Estado de ao Paulo)
3 Vasconcelos a f´ısica nuclear Suzana Salem Vasconcelos, do LIP
CIENCIA 2003 24226 3 a Sars e Sars (sigla em inglˆes para s´ındrome respirat´oria
aguda grave)
1 o v´ırus da gripe espanhola o da gripe de 1918, a chamada gripe espanhola
1 humanos seres humanos
CIENCIA 2004 26423 3 ele Mark Mattson, do Instituto Nacional do
Envelhecimentos dos EUA
1 EUA os Estados Unidos
2 a beta-amil´oide a prote´ına beta-amil´oide
CIENCIA 2004 26425 3 ele Domingos Matos, 36, edico da Universidade Federal
do Par´a
3 Esse etodo uma estrat´egia de interrup¸ao estruturada
3 o nosso trabalho um estudo feito por Domingos Matos, 36, edico da
Universidade Federal do Par´a
CIENCIA 2005 6518 3 Os cientistas o grupo do Butantan e do Goeldi
1 a aranha Seis das nove aranhas descobertas pelo grupo do
Butantan e do Goeldi
1 a cabca da formiga a cabca daquelas formigas gra´udas [as sa´uvas]
CIENCIA 2005 28755 1 pesquisadores da USP Stevani e seus colaboradores
1 fungo uma descrita, a Gerronema viridilucens
1 sensor de polui¸ao sensores vivos de polui¸ao
CIENCIA 2005 28756 3 o animal o mais antigo mam´ıfero sul-americano do Paleoceno,
o per´ıodo geol´ogico que marca o come¸co do reinado de
seu grupo no planeta, logo depois da extin¸ao dos
dinossauros, a 65 milh˜oes de anos
1 os pesquisadores pesquisadores argentinos
3 o Cret´aceo o per´ıodo anterior, o Cret´aceo (quando os dinos ainda
eram a forma dominante de vertebrado terrestre)
CIENCIA 2005 28766 3 duas mol´eculas glicoprote´ınas (grosso modo, prote´ınas unidas a
uma forma de ucar)
3 o pesquisador Jonas Perales, do Laborat´orio de Toxinologia
2 essas aplica¸oes a ao das substˆancias contra doen¸cas como o ancer
SOMA 68
M
´
EDIA 2,06
Com a Tabela 19 podemos observar que os textos do grupo C, textos com 3 subs-
titui¸oes cada, tiveram os seguintes resultados, 13 trocas tiveram maior impacto na infor-
99
matividade, colaborando com a preservao da coes˜ao referencial do sum´ario, 9 trocas im-
pactaram no n´ıvel da informatividade do sum´ario, recuperando no texto-fonte express˜oes
com mais informa¸ao. Dentre essas substitui¸oes, 11 delas ao apresentaram impacto na
informatividade. A Tabela 20 mostra os resultados o ´ultimo grupo de an´alise.
Tabela 20: Substitui¸oes do Grupo D
NOME TEXO PONTOS EXPRESS
˜
AO ORIGINAL EXPRE SS
˜
AO SUBSTITUTA
2 elulas-tronco da elulas ao-especializadas, c apazes de dar origem
medula ´ossea a qualquer tipo de tecido
CIENCIA 2000 17109 1 elulas hep´aticas outro tipo de elula -c´elulas hep´aticas-
3 as sangu´ıneas e elulas sangu´ıneas
3 os pesquisadores pesquisadores do Imperial College, em Londres
3 o astro o buraco negro GRO J 1655-40
CIENCIA 2002 22015 2 buracos negros buracos negros distribu´ıdos ao redor da Via actea
2 a estrela estrela rec´em-nascida
1 a for¸ca da gravidade a gravidade
2 bomba atˆomica armamento nuclear ao redor do globo
CIENCIA 2002 22023 3 o sistema uma rede de sat´elites do Departamento de
Defesa dos EUA
1 pequenos aster´oides os aster´oides com mais de um quilˆometro de diˆametro,
capazes de destruir civiliza¸oes inteiras
1 a atmosfera da Terra a atmosfera terrestre
1 As diferen¸cas diferen¸cas como essas
CIENCIA 2005 28747 1 o objeto central o objeto central de um quadro
1 os chineses Pessoas nascidas na China
3 a universidade a Universidade de Michigan em Ann Arbor, nos
Estados Unidos
SOMA 30
M
´
EDIA 1,87
O grupo D consiste em 4 textos que tiveram 4 substitui¸oes cada, somando 16
substitui¸oes analisadas. Nesta an´alise vemos 5 trocas que receberam 3 pontos, 4 que
receberam 2 pontos e 7 que receberam 1 ponto. Na Tabela 21, temos um resumo das
Tabelas 17, 18, 19 e 20. Logo abaixo os dados ao comentados:
Tabela 21: Tabela Resumida dos G rupos A, B, C e D
GRUPO M
´
EDIA 1 PONTO 2 PONTOS 3 PONTOS
GRUPO A 1,95 9 3 8
GRUPO B 2,10 8 2 10
GRUPO C 2,06 11 9 13
GRUPO D 1,87 7 4 5
TOTAL 2,01 35 (39,33%) 18 (20,22%) 36 (40,45%)
100
Estamos considerando que as substitui¸oes com 2 e 3 pontos significam, respectiva-
mente, bom e excelente. Com base nesses resultados observamos que 54 trocas (60,67%)
tiveram um desempenho de bom `a excelente, e que 35 (39,33%) ao tiveram impacto na
informatividade dos sum´arios. Em rela¸ao `a edia alcan¸cada por cada troca observamos
que em todos os grupos esse valor m´edio ficou em torno de 2. Com isso podemos con-
cluir que as trocas, de maneira geral, ajudaram a contribuir na recupera¸ao da co es˜ao do
sum´ario.
Realizando uma an´alise mais detalhada nesses resultados (Tabelas 17, 18, 19 e 20),
observamos casos em que a troca ao se fazia necess´aria, escolhemos alguns exemplos
onde isso foi percebido:
o desmatamento da Amazˆonia o desmatamento com queimadas
as mulheres que ao receberam AZT Outro grupo de gr´avidas com HIV
um modelo alternativo Um modelo testado em simula¸oes muito detalhadas
a pele humana a pele humana normal
o planeta O mundo
a atmosfera da Terra a atmosfera terrestre
os chineses Pessoas nascidas na China
EUA os Estados Unidos
De forma geral, essas express˜oes ao tem caracter´ıstica de anaforicidade: ao ex-
press˜oes completas cujo significado ´e auto-contido, isto ´e, as interpreta¸oes s ˜ao de certa
forma independentes de contexto. Por isso, acreditamos que o sistema pode, ainda, ser
melhorado com o desenvolvimento de um odulo de detec¸ao de termos anaf´oricos, onde
a substitui¸ao o ser´a efetuada se o sistema identificar a necessidade.
101
Outro caso interessante, refere-se `as substitui¸oes que foram realizadas com o ob-
jetivo de melhorar a coes˜ao referencial, mas o antecedente escolhido para ser o substituto
apresentou um problema de coes˜ao referencial em uma express˜ao interna do sintagma.
Vejamos abaixo alguns exemplos:
A ministra A ministra da Justi¸ca do pa´ıs, Elisabeth Guigou
esse inseto Um ser que invade corpos e domina a mente alheia, for¸cando suas
v´ıtimas a fazer o que ele ordena
esse estudo O trabalho de Allen e colegas
pesquisadores da USP Stevani e seus colaboradores
Por exemplo, a substitui¸ao da express˜ao “A ministra da Justi¸ca do pa´ıs, Elisabeth
Guigou” ocasionou um problema de coes˜ao referencial, onde ao se consegue identificar a
qual pa´ıs a express˜ao se refere. A express˜ao “Um ser que invade corpos e domina a mente
alheia, for¸cando suas v´ıtimas a fazer o que ele ordena”, acarreta um problema, pois ao se
consegue identificar que a express˜ao “ser” se refere a um “inseto”. Outro problema ´e nas
express˜oes “O trabalho de Allen e colegas” e “Stevani e seus colab oradores”, onde ao se
consegue identificar os referentes para os nomes “Allen” e “Stevani”. O tratamento de
express˜oes internas do sintagma ´e outro ponto onde esse trabalho pode ser aperfei¸coado.
6.5 Discuss˜oes
Esta se¸ao discute quest˜oes relacionadas `a implementa¸ao do sistema, e apresenta
uma an´alise dos resultados das trocas realizadas em express˜oes dos sum´arios.
Alguns problemas foram encontrados na anota¸ao dos textos pelo parser Palavras,
como por exemplo:
102
Subt´ıtulos: Por falta de pontua¸ao no texto fonte, o parser ao delimita e separa
os subt´ıtulos dos textos, ocasionando problemas na delimita¸ao das senten¸cas. Esse
foi um problema comum encontrado em diversos textos do corpus. Na busca de
uma solu¸ao para esse problema, foi implementada uma rotina que identifica os
subt´ıtulos e ignor´a-os na montagem das senten¸cas. Iss o foi importante, pois esse
problema ocasionava um erro no momento de comparar as senten¸cas do sum´ario
com o texto-fonte.
Aspas: O parser elimina as aspas do texto, problema esse que ocasionou um preju´ızo
quando o sum´ario revisado foi gerado, pois todos os sum´arios revisados (gerados
atraes das informa¸oes dos arquivos XML do parser) est˜ao sem aspas. Inclusive,
foi um quesito que chamou a aten¸ao dos juizes humanos, pois a falta de aspas no
sum´ario ocasionou uma dificuldade na leitura e compreens˜ao dos sum´arios.
Continuidade da frase: O parser, por vezes, considera os dois pontos “:” como
final de frase, incorretamente. Esse problema ocasionou, no in´ıcio deste trabalho,
problemas na gera¸ao do sum´ario corrigido, pois os sum´arios corrigidos ao eram
formados com as senten¸cas completas.
6.5.1 Anota¸ao de correferˆencia
Realizando uma an´alise nos sum´arios, observamos um caso interessante em rela¸ao
`a anota¸ao das cadeias de correferˆencia. Observamos o texto CIENCIA 2002 22023 com-
pleto na Figura 30 e o sum´ario gerado pelo GistSumm do texto na Figura 31.
Na Figura 32 temos os sum´ario corrigido pelo CorrefSum e observamos que o
sistema realizou quatro substitui¸oes(em negrito na Figura 32):
bomba atˆomica armamento nuclear ao redor do globo
o sistema uma rede de sat´elites do Departamento de Defesa dos EUA
103
A maioria dos cientistas concorda que os aster´oides com mais de um quilˆometro de diˆametro,
capazes de destruir civiliza¸oes inteiras, ao uma preocupa¸ao que o se justifica a cada punhado de
dezenas de milh˜oes de anos. Mas novos alculos mostram que olidos mais modestos, com 50 metros de
diˆametro e a capacidade de destruir uma cidade, despencam do eu uma vez por milˆenio. Na verdade, trata-
se de boa not´ıcia. Estimativas anteriores sugeriam que um evento desses oco rresse em m´edia a cada 200
ou 300 anos. Os novos alculos, aprimorados com o uso de informa¸ao antes mantida secreta pelo governo
americano, oferecem uma estimativa mais precisa sobre a periodicidade desses epis´odios. Durante os ´ultimos
oito anos, uma rede de sat´elites do Departamento de Defesa dos EUA tem monitorado a atmosfera
terrestre co m o objetivo de dete ctar explos˜oes obviamente na tentativa de monitorar o uso de armamento
nuclear ao redor do globo. Registros de bomba atˆomica nunca apareceram, mas, em compensa¸ao,
o sistema foi capaz de apontar diversos eventos de explos˜oes todas causadas pela entrada de pequenos
aster´oides na atmosfera da Terra e sua subsequente quebra pelo atrito com o ar. Para os militares
a coisa acabou ao sendo a muito ´util, mas os dados se tornaram um prato cheio para os ast rˆonomos.
“Em oito anos, detectamos mais de 300 eventos, gra¸cas ao nosso sistema de calibragem dos dados de
sat´elite”, conta Douglas Revelle, do Laborat´orio Nacion al de Los Alamos, um dos autores do estudo, que
est´a publicado na edi¸ao de hoje da revista britˆanica “Nature” (www.nature.com). Incidˆencias de rochas
espaciais de poucos metros de diˆametro na atmosfera acontecem com razo´avel frequˆencia anualmente,
segundo os pesquis adore s. “Esses corpos medidos em metros ao interessantes cientificamente, mas ao
oferecem absolutamente nenhum perigo aos humanos”, diz Robert Jedicke, da Universidade do Arizona,
escolhido pela “Nature” para comentar o estudo. A amea¸ca o existe quando os olidos tˆem 50 metros
ou mais. Foi um meteoro d esse tipo (ou um disco voador, segundo as de ufologia) que explodiu sobre
Tunguska, na Sib´eria, em 1908, destruindo centenas de quilˆometros quadrados de floresta. Se um desses
explodisse sobre uma regi˜ao habitada, poderia matar milh˜oes. Felizmente, com base na nova estimativa,
parece haver ainda nove eculos para catalogar os pedregulhos espaciais e se preparar para futuras colis˜oes.
Figura 30: Texto CIENCIA 2002 22023
Registros de bomba atˆomica nunca apareceram, mas, em compensa¸ao, o sistema foi capaz de apontar
diversos eventos de explos˜oes todas causadas pela entrada de pequenos aster´oides na atmosfera da
Terra e sua subseq¨uente quebra pelo atrito com o ar. “Em oito anos, detectamos mais de 300 eventos, gra¸cas
ao nosso sistema de calibragem dos dados de sat´elite”, conta Douglas Revelle, do Laborat´orio Nacional de
Los Alamos, um dos autores do estudo, que est´a publicado na edi¸ao de hoje da revista britˆanica “Nature”
(www.nature.com).
Figura 31: Sum´ario GistSumm do texto CIENCIA 2002 22023
pequenos aster´oides os aster´oides com mais de um quilˆometro de diˆametro, ca-
pazes de destruir civiliza¸oes inteiras
a atmosfera da Terra a atmosfera terrestre
Observamos que o sistema realizou as substitui¸oes de forma correta (levando em
considera¸ao o sistema de pontua¸ao implementado). Mas a troca da express˜ao “peque-
nos aster´oides” por “os aster´oides com mais de um quilˆometro de diˆametro, capazes de
destruir civiliza¸oes inteiras” acabou alterando totalmente o sentido do sum´ario. Isso foi
interessante, pois se percebeu que esses dois termos ao deveriam estar na mesma cadeia
de correferˆencia, pois ao podem ser substitu´ıdos por ao terem o mesmo referente.
104
Registros de armamento nuclear ao redor do globo nunca apareceram, mas em compensa¸ao, uma
rede de sat´elites do Departamento de Defesa dos EUA foi capaz de apontar diversos eventos de
explos˜oes -todas causad as pela entrada de os aster´oides com mais de um quilˆometro de diˆametro,
capazes de destruir civiliza¸oes inteiras na atmosfera terrestre e sua subsequente quebra pelo a trito
com o ar. Em oito anos, detectamos mais de 300 eventos, gra¸cas ao nosso sistema de calibragem dos dados
de sat´elite, conta Douglas Revelle, do Laborat´orio Nacional de Los Alamos, um dos autores do estudo, que
est´a publicado na edi¸ao de hoje da revista britˆanica Nature (www.nature.com)
Figura 32: Sum´ario gerado pelo GistSumm e corrigido pelo CorrefSum do texto CIEN-
CIA 2002 22023
6.5.2 An´alise de Substitui¸oes
Neste item, veremos algumas considera¸oes em rela¸ao a algumas substitui¸oes
realizadas pelo sistema.
Pronomes: pronomes obl´ıquos (o, a, lhe) e pronomes p essoais de 3
a
pessoa do plural
(n´os) ao podem ser simplesmente substitu´ıdos, pois os seus complementos nomi-
nais e verbais ao concordam com as substitui¸oes, tornando o texto lido, ap´os a
substitui¸ao, incoerente.
Substitui¸oes simples: observamos no texto CIENCIA 2000 17109 que o sistema
procurou substituir o termo “as sang¨u´ıneas”, em “das sangu´ıneas”, por “c´elulas
sang¨u´ıneas”, mas ocasionou um erro no sum´ario, resultando “dc´elulas sang¨u´ıneas”.
Foi implementada uma rotina que verifica se antes do elemento que ser´a substitu´ıdo
aparece a preposi¸ao “de”. Dessa forma, o sistema realiza a edi¸ao necess´aria no
momento da substitui¸ao. Nesse caso, o sistema trocou “das sang¨u´ıneas” por “de
c´elulas sang¨u´ıneas”
Substitui¸oes diretas simples: o sistema ao realiza substitui¸oes de sintagmas em
que a rela¸ao entre eles for direta (simples), por exemplo:
a press˜ao - press˜ao (n˜ao ´e substitu´ıdo)
Mas quando o sintagma trouxer alguma informa¸ao adicional o sistema considera
uma troca relevante e realiza as substitui¸oes, como por exemplo:
a Sars - Sars (sigla em inglˆes para s´ındrome respirat´oria aguda grave)
105
Cadeias com mais de um elemento com a mesma pontua¸ao: caso haja uma situa¸ao
onde o elemento a ser substitu´ıdo tenha a mesma pontua¸ao que o elemento a ser
trocado o sistema ao efe tua a troca, por exemplo, texto CIENCIA 2005 28754
cadeia “set 51”:
o trabalho - 1 ponto (regra do primeiro elemento cadeia)
o procedimento de reparo - 1 ponto (regra do maior elemento da cadeia)
a miss˜ao - 0 pontos
o procedimento - 0 pontos
Neste exemplo, o sum´ario em quest˜ao possui a express˜ao “o trabalho” onde o melhor
candidato para troca ´e o sintagma “o procedimento de reparo”. Como a pontua¸ao
´e a mesma o sistema ao realiza a substitui¸ao.
Durante esse trabalho se observou que nem sempre o primeiro elemento da cadeia ´e
o mais pontuado elemento para a substitui¸ao, vejamos alguns exemplos:
Caso 1: Texto CIENCIA 2003 24212 - cadeia “set 46”
os filhotes - 1 ponto (regra do primeiro elemento cadeia)
clones de outra esp´ecie, o banteng, um tipo de gado amea¸cado de extin¸ao - 1
ponto (regra aposto)
os dois batengs produzidos em Iowa - 1 ponto (regra nome-pr´oprio)
os dois filhotes - 0 pontos
eles - 0 pontos
opias gen´eticas idˆenticas de um banteng macho que morreu no Parque Selva-
gem Animal de San Diego em 1980 - 2 pontos (regra maior elemento da cadeia
e nome-pr´oprio)
Caso 2: Texto CIENCIA 2005 28766 - cadeia “set 57”
duas mol´eculas - 1 ponto (regra do primeiro elemento cadeia)
106
as substˆancias antiof´ıdicas - 0 pontos
glicoprote´ınas (grosso modo, prote´ınas unidas a uma forma de c´ucar) - 2
pontos (regra do maior elemento da cadeia e aposto)
a DM43 e a DM64 - 1 ponto (regra nome-pr´oprio)
as substˆancias - 0 pontos
elas - 0 pontos
Observamos, por exemplo, no caso 1, que o e lemento mais pontuado dessa cadeia
´e o ´ultimo elemento e, em rela¸ao ao caso 2, o elemento com maior pontua¸ao estava no
meio da cadeia. Apesar da maioria das substitui¸oes realizadas pelo sistema optarem pelo
primeiro elemento da cadeia, a casos em que outros elementos acabam sendo selecionados.
Este cap´ıtulo apresentou os resultados dos experimentos usando sum´arios gerados
por dois diferentes sistemas, o GistSumm e o SuPor-2. Foram discutidas duas abordagens
de avalia¸ao: a avalia¸ao autom´atica usando a ferramenta Rouge e a avalia¸ao subjetiva
onde os sum´arios revisados foram avaliados por 5 ju´ızes humanos. Os ´ıtens avaliados
subjetivamente foram legibilidade e informatividade. Por fim, foi realizada uma avalia¸ao
qualitativa das substitui¸oes feitas pelo sistema CorrefSum. As considera¸oes finais desta
disserta¸ao ao apresentadas no pr´oximo cap´ıtulo.
107
Cap´ıtulo 7
Considera¸oes Finais
Problemas na gera¸ao de sum´arios autom´aticos ao levantados em alguns traba-
lhos[ (COELHO, 2007), (CARBONEL, 2007) ], como por e xemplo, problema de coes˜ao refe -
rencial, que acaba dificultando a interpreta¸ao (coerˆencia) do sum´ario autom´atico. Esse
problema ´e agravado quando o sistema de sumariza¸ao utiliza o m´etodo extrativo para
compor os sum´arios, pois esse etodo acaba selecionando senten¸cas inteiras na composi¸ao
do sum´ario sem levar em conta os elos referenciais do texto-fonte.
Um dos problemas mais comuns ´e a ocorrˆencia de express˜oes referenciais pouco sig-
nificativas nos sum´arios. A carˆencia informacional, por vezes, pode causar incompreens˜ao
do sum´ario, acarretando problemas de interpreta¸ao.
´
E nesse contexto que esse trabalho se insere. O trabalho em como foco a recu-
pera¸ao da coes˜ao referencial nos sum´arios extrativos atrav´es da verifica¸ao e an´alise das
cadeias de correferˆencia do texto-fonte.
Este trabalho prop˜oe a os-edi¸ao de sum´arios autom´aticos, buscando reescrevˆe-lo
de forma mais coerente, sem problemas nos elos referenciais. Para isso, as express˜oes
nominais dos sum´arios ao analisadas com base na anota¸ao de correferˆencia, com o
objetivo de buscar dentro da cadeia, express˜oes representativas da entidade evocada.
Os experimentos realizados neste trabalho tiveram como base dois sumarizadores:
108
o GistSumm e o SuPor-2. Os resultados obtidos atrav´es dos sum´arios do GistSumm foram
considerados satisfat´orios, tanto na avalia¸ao autom´atica (onde se conseguiu aumentar a
F-measure de 46,98% para 50,13% - Tabela 5), quanto na avalia¸ao subjetiva, onde os
sum´arios corrigidos tiveram um grande impacto na avalia¸ao da informatividade.
Com os sum´arios do SuPor-2, num primeiro momento, a F-measure ficou em torno
dos 60% (Tabela 10), tanto nos sum´arios originais, quanto nos revisados. Quando o
experimento foi repetido observando a taxa de compress˜ao axima de 30%(Tabela 12)
observamos que os resultados foram pr´oximos aos encontrados no GistSumm e que a F-
measure obteve um acr´escimo passando de 54,33% para 57,36%. Na avalia¸ao subjetiva
foi demonstrado um acr´escimo na informatividade dos sum´arios corrigidos.
Foi ainda realizada uma avalia¸ao qualitativa das substitui¸oes feitas pelo sistema.
Esta avalia¸ao aponta tamem para um ganho na informatividade, mas ´e necess´aria reali-
zar uma avalia¸ao mais detalhada para avaliar quest˜oes especific amente ligadas a coerˆencia
textual, como, perda de sentido por falta de contexto suficiente ou de antecedente textual.
Um intercˆambio com a Universidade Federal de ao Carlos (UFSCAR) foi realizado
durante o desenvolvimento deste trabalho, onde surgiu a oportunidade de interagir com
a Prof
a
Dr
a
. Lucia Rino e sua equipe, pesquisadores na ´area de sumariza¸ao autom´atica.
A seguir temos as contribui¸oes, limita¸oes e trabalhos futuros deste trabalho.
7.1 Contribui¸oes
Destacam-se, nesta se¸ao, as principais contribui¸oes deste trabalho:
Este trabalho ´e a primeira abordagem sobre revis˜ao da coes˜ao referencial em
sum´arios para a l´ıngua portuguesa;
Um sistema para revis˜ao autom´atica e semi-autom´atica de express˜oes referenciais
em sum´arios foi desenvolvido;
109
Uma interface para manipula¸ao das cadeias de correferˆencia de forma manual foi
desenvolvida;
O sistema foi integrado com um sistema de resolu¸ao autom´atica de correferˆencia,
com o objetivo de futuramente, gerar sum´arios autom´aticos utilizando abordagem
superficial com manuten¸ao dos elos referenciais;
Foram avaliados dois sumarizadores autom´aticos, GistSumm e Supor-2, para gera¸ao
e revis˜ao dos sum´arios;
A pesquisa considerou dois m´etodos de avalia¸ao: avalia¸ao autom´atica e avalia¸ao
subjetiva;
Um artigo foi aceito para publica¸ao no PROPOR
1
- International Conference on
Computational Processing of Portuguese Language.
T´ıtulo: CorrefSum: Referencial Cohesion Recovery in Extractive Summaries
Autores: Patr´ıcia Nunes Gon¸calves, Lucia Rino e Renata Vieira
7.2 Limita¸oes
ao limita¸oes deste trabalho:
Uso de somente textos do enero jornal´ıstico de divulga¸ao cient´ıfica;
Dependˆencia da anota¸ao manual das cadeias de correferˆencia;
Avalia¸ao superficial de legibilidade e informatividade, sem uma an´alise qualitativa
espec´ıfica dos problemas de coes˜ao referencial.
1
http://www.propor2008.org/
110
7.3 Trabalhos Futuros
Como continuidade da pesquisa realizada neste projeto de mestrado, apontamos
alguns itens que poder˜ao ser utilizados para futura pesquisa deste trabalho:
Realizar experimentos e avaliar o sistema CorrefSum com sumarizadores que utili-
zam abordagem profunda, como por exemplo, o VeinSumm (CARBONEL, 2007).
Integrar o sistema desenvolvido com um sistema de classifica¸ao de express˜oes
anaf´oricas para verificar a necessidade de efetuar a substitui¸ao.
Implementar um odulo que resolva os problemas de coes˜ao referencial dos sintag-
mas internos.
Implementar um odulo que gere express˜oes referenciais com base na cadeia de
correferˆencia e que essa express˜ao seja utilizada para substiui¸ao no sum´ario au-
tom´atico.
Usar as informa¸oes das cadeias associativas, pois, acredita-se que de alguma forma,
podem enriquecer os sum´arios extrativos.
Construir e avaliar sumarizadores autom´aticos que levem em considera¸ao as cadeias
de correferˆencia na escolha das senten¸cas rele vantes.
111
Referˆencias
AMO, P. et al. Orthografic co-reference resolution between proper nouns throught the
calculation of the relation of replicancia. In: Workshop Coreference and Its Applications.
Maryland, USA: [s.n.], 1999.
AZZAM, S.; HUMPHREYS, K.; GAIZAUSKAS, R. Using coreference chains for text
summarization. In: Proceedings of The Relation of Discourse/Dialogue Structure and
Reference. [S.l.: s.n.], 1999.
BAXENDALE, P. Machine- made index for technical literature an experiment. IBM
Journal of Research and Development, v. 2, p. 354–365, 1958.
BICK, E. The Parsing System ”PALAVRAS- Automatic Grammatical Analysis of
Portuguese in a Constraint Grammar Framework. Tese (Doutorado) Department of
Linguistics, University of
˚
Arhus, DK., 2000.
CARBONEL, T. I. Estudo e valida¸ao de teorias do dom´ınio ling¨u´ıstico com vistas
`a melhoria do tratamento de cadeias de co-referˆencia em Sumariza¸ao Autom´atica.
Disserta¸ao (Mestrado) Universidade Federal de ao Carlos (UFSCAR). ao Carlos,
Agosto 2007.
CHAVES, A. A resolu¸ao de an´aforas pronominais da l´ıngua portuguesa com base no
algoritmo de Mitkov. Disserta¸ao (Mestrado) Universidade Federal de ao Carlos
(UFSCAR). ao Carlos, Julho 2007.
COELHO, J. C. B. Uso de Informa¸ao de Correferˆencia e Aafora para Verificao
da Coes˜ao e Coerˆencia Textual na Sumariza¸ao Autom´atica. Junho 2007. Trabalho de
Conclus˜ao de Curso de Letras. Unisinos - ao Leopoldo.
COELHO, J. C. B. et al. Resolving portuguese nominal anaphora. In: VIEIRA, R. et
al. (Ed.). 7th Workshop on Computational Processing of Written and Spoken Language
(PROPOR’2006). Itatiaia, RJ: Springer, 2006.
COELHO, T. T. Resolu¸ao de an´afora pronominal em portuguˆes utilizando o algoritmo de
Lappin e Leass. Disserta¸ao (Mestrado) Departamento de Computa¸ao, Universidade
Estadual de Campinas - Unicamp, 2005.
COLLOVINI, S. Aalise de Express˜oes Referenciais em Corpus Anotado da L´ıngua
Portuguesa. Disserta¸ao (Mestrado) Departamento de Computa¸ao, Universidade do
Vale do Rio dos Sinos - Unisinos, 2005.
112
COLLOVINI, S. et al. Summit: Um corpus anotado com informa¸oes discursivas
visando `a sumariza¸ao autom´atica. In: 5
o
Workshop em Tecnologia da Informa¸ao e da
Linguagem Humana (TIL’2007). Rio de Janeiro, RJ: Proceedings of the SBC, 2007.
COLLOVINI, S.; VIEIRA, R. An´aforas nominais definidas: balanceamento de corpus e
classifica¸ao. In: IV Workshop de Tecnologia da Informa¸ao e Linguagem Humana TIL.
Ribeir˜ao Preto, SP: Proceeding of the Brazilian Symposium on Artificial Intelligence,
2006.
COLLOVINI, S.; VIEIRA, R. An´alise de express˜oes referenciais em corpus anotado da
l´ıngua portuguesa. In: V Best MSc dissertation/PhD thesis contest (CTDIA’2006).
Ribeir˜ao Preto, SP: Proceedings of the SBIA-IBERAMIA, 2006.
CRISTEA, D.; IDE, N.; ROMARY, L. Veins theory: A model of global discourse
cohesion and coherence. In: COLING-ACL. [S.l.: s.n.], 1998. p. 281–285.
FILHO, P. P. B.; PARDO, T.; NUNES, M. d. G. V. Summarizing scientific texts:
Experiments with extractive summarizers. In: . Rio de Janeiro, Brasil: Proceedings of
the Seventh International Conference on Intelligent Systems Design and Applications
ISDA,, 2007.
GASPERIN, C.; GOULART, R.; VIEIRA, R. Uma ferramenta para resolu¸ao
autom´atica de co-referˆencia. In: Encontro Nacional de Inteligˆencia Artificial (ENIA
2003). Campinas, SP: [s.n.], 2003.
JONES, J. S. Automatic Summarizing: factors and directions. In I. Mani and M.
Maybury (eds.), Advances in automatic text summarization. [S.l.]: The MIT Press, 1999.
JORDAN, M. Short texts to explain problem-solution structures and vice versa.
Instructional Science, v. 9, p. 221–252, 1980.
JURAFSKY, D.; MARTIN, J. Speech and language processing. In: . [S.l.]: Alan
Apt, 2000. cap. Discourse, p. 670–718.
KASHANI, M. M.; POPOWICH, F. Pronoun generation for text summarization and
question answering. In: Proceedings of 5th Slovenian and 1st international Language
Technologies Conference 2006. [S.l.: s.n.], 2006.
KOCH, I. G. V. O texto e a constru¸ao dos sentidos. [S.l.]: ao Paulo: Contexto, 2000.
KOCH, I. G. V. Desvendando os Segredos do texto. [S.l.]: ao Paulo: Cortez, 2003.
KOCH, I. G. V.; SILVA, M. C. d. S. Ling¨u´ıstica Aplicada ao Portuguˆes: Sintaxe. [S.l.]:
ao Paulo: Cortez, 2002.
KOCH, I. G. V.; TRAVAGLIA, L. C. A coerˆencia textual. [S.l.]: ao Paulo: Contexto,
1990.
KOCH, I. G. V.; TRAVAGLIA, L. C. A coes˜ao textual. [S.l.]: ao Paulo: Contexto, 1996.
LAPPIN, S.; LEASS, H. An algorithm for pronominal anaphora resolution.
Computational Linguistics, v. 20(4), p. 535–561, 1994.
113
LEITE, D.; RINO, L. SuPor: extens˜oes e acoplamento a um ambiente para minerao
de dados. [S.l.], 2006.
LEITE, D.; RINO, L. Uma compara¸ao entre sistemas de sumariza¸ao autom´atica
extrativa. In: IV Workshop de Tecnologia da Informa¸ao e Linguagem Humana TIL.
Ribeir˜ao Preto, SP: Proceeding of the Brazilian Symposium on Artificial Intelligence,
2006.
LEITE, D. et al. Extractive automatic summarization: Does more linguistic knowledge
make a difference? In: C. Biemann, I. Matveeva, R. Mihalcea, and D. Radev (eds.).
Rochester, NY, USA: Proceedings of the HLT/NAACL Workshop on TextGraphs-2:
Graph-Based Algorithms for Natural Language Processing, 2007.
LIN, C.-Y. Rouge: A package for automatic evaluation of summaries. In: Workshop on
Automatic Summarization. Philadelphia,USA: Proceedings of ACL-02, 2000.
LIN, C.-Y. Looking for a few good metrics: Automatic summarization evaluation - how
many samples are enough? In: Proceedings of 4th Workshop NTCIR. [S.l.: s.n.], 2004.
LUHN, H. P. The automatic creation of literature abstracts. j-IBM-JRD, v. 2, p.
159–165, 1958. ISSN 0018-8646.
LUO, X. et al. A mention-synchronous coreference resolution algorithm based on the
bell tree. In: Proceedings of 42nd Annual Meeting of the Association for Computational
Linguistics. [S.l.: s.n.], 2004.
MANI, I. Automatic Summarization. [S.l.]: John Benjamins Publishing Co., 2001.
MANN, W. C.; THOMPSON, S. A. Rhetorical structure theory: Description and
construction of text structures. In: KEMPEN, G. (Ed.). Natural Language Generation:
New Results in Artificial Intelligence, Psychology, and Linguistics. Dordrecht: Nijhoff,
1987. p. 85–95.
oDOLO, M. SuPor: an Environment for Exploration of Extractive Methods for
Automatic Text Summarization for Portuguese (in P ortuguese). Disserta¸ao (Mestrado)
Universidade Federal de ao Carlos (UFSCAR). ao Carlos, Dezembro 2003.
MILLER, G. A. WordNet: a lexical database for English. [S.l.]: Communications of the
ACM. Volume 38, Issue 11, 1995.
MITKOV, R. Robust pronoun resolution with limited knowledge. In: Conference on
Computational Linguistics. [S.l.: s.n.], 1998.
MITKOV, R. Anaphora Resolution. [S.l.]: Longman, 2002.
M¨uLLER, C.; STRUBE, M. Mmax: A tool for the annotation of multi-modal corpora.
In: Proceedings of the 2nd IJCAI Workshop on Knowledge and Reasoning in Practical
Dialogue Systems. Seattle, Washington: [s.n.], 2001. p. 45–50.
MUC-6. A mention-synchronous coreference resolution algorithm based on the bell tree.
In: Sixth Message Understanding Conference(MUC-6). [S.l.: s.n.], 1995.
114
NENKOVA, A.; SIDDHARTHAN, A.; MCKEOWN, K. Automatically learning cognitive
status for multi-document summarization of newswire. In: Proceedings of Human
Language Technology Conference and Conference on Empirical Methods in Natural
Language Processing. [S.l.: s .n.], 2005.
NETO, M. C. M.; B, A. N.; GOMES, A. Satsumm - uma ferramenta para sumariza¸ao
autom´atica de textos jornal´ısticos. In: etima Escola Regional de Computa¸ao
Bahia-Sergipe. Vit´oria da Conquista: [s.n.], 2007.
NG, V. Machine Learning for Coreference Resolution: Recent Successes and Future
Directions. [S.l.], 2003.
NG, V. Machine learning for coreference resolution: From local classification to global
ranking. In: Proceedings of the 43rd Annual Meeting of the Association for Computational
Linguistics (ACL-05). Michigan, US: [s.n.], 2005.
NG, V. Supervised ranking for pronoun resolution: Some recent improvements. In:
Proceedings of the Twentieth National Conference on Artificial Intelligence (AAAI-05).
Pittsburgh, Pennsylvania: [s.n.], 2005.
NG, V. Shallow semantics for coreference resolution. In: International Joint Conferences
on Artificial Intelligence (IJCAI’2007). Hyderabad, India: [s.n.], 2007.
NICOLAE, C. Identification of Entity Mentions in Text and Their Coreference
Resolution. Disserta¸ao (Mestrado) University of Texasm at Dallas, December 2006.
PAICE, C. D. The automatic generation of literature abstracts: an approach based on the
identification of self- indicating phrases. [S.l.]: Butterworth Co., 1981.
PARDO, T. DMSumm: Um Gerador Autom´atico de Sum´arios. Disserta¸ao (Mestrado)
Departamento de Computa¸ao, Universidade Federal de ao Carlos. ao Carlos-SP,
Abril 2002.
PARDO, T. GistSumm - GIST SUMMarizer: Extens˜oes e Novas Funcionalidades. [S.l.],
2005.
PARDO, T. M´etodos para An´alise Discursiva Autom´atica. Tese (Doutorado)
Departamento de Computa¸ao, Universidade Federal de ao Carlos. ao Carlos-SP, 2005.
PARDO, T.; NUNES, M. Dizer an automatic discourse analyzer for brazilian portuguese.
In: V Best MSc dissertation/PhD thesis contest (CTDIA’2006). Ribeir˜ao P reto, SP:
Proceedings of the SBIA-IBERAMIA, 2006.
PARDO, T.; RINO, L. Dmsumm: Review and assessment. In: 3
o
International
Conference Advances in Natural Language Processing. Portugual: [s.n.], 2002.
PARDO, T.; RINO, L.; NUNES, M. Neuralsumm: Uma abordagem c onexionista para a
sumariza¸ao autom´atica de textos. In: Anais do IV Encontro Nacional de Inteligˆencia
Artificial. Campinas, ao Paulo: [s.n.], 2003.
PERINI, M. Gram´atica descritiva do portuguˆes. [S.l.]: ao Paulo: Editora
´
Atica, 2003.
115
POESIO, M.; KABADJOV, M. A. A general-purpose,off the shelf anaphoric resolver. In:
Proceedings of International Conference on Language Resources and Evaluation. Lisb oa,
Portugual: [s.n.], 2004.
PONZETTO, S.; STRUBE, M. Semantic role labeling for coreference resolution. In: 11th
Conference of the European Chapter of the Association for Computational Linguistics
(EACL’2006). Trento, Italy: [s.n.], 2006.
RADEV, D. Text summarization. Julho 2004.
Http://www.summarization.com/sigirtutorial2001.ppt.
Acessado em 30/05/2007. Tutorial ACM/SIGIR CLAIR: Computational Linguistics And
Information Retrieval group.
RADEV, D.; JING, H.; BUDZIKOWSKA, M. Centroid-based summarization of multiple
documents. In: Workshop on Automatic Summarization. Seatle,USA: Proceedings of
ANLP/NAACL, 2000.
RIBEIRO-JUNIOR, L. C. et al. Uso de informa¸oes semˆanticas na identifica¸ao de
an´aforas indiretas e associativas. In: 5
o
Workshop em Tecnologia da Informa¸ao e da
Linguagem Humana (TIL’2007). Rio de Janeiro, RJ: Proceedings of the SBC, 2007.
RINO, L.; CARBONEL, T. Rhesuma-2: Aalise dos sum´arios e estudos dos casos de
quebra de cadeias de co-referˆencia. [S.l.], 2006.
RINO, L.; PARDO, T. A Cole¸ao TeM´ario e a Avalia¸ao de Sumariza¸ao Autom´atica.
[S.l.], 2006.
SENO, E. RHeSumaRST: Um sumarizador autom´atico de estruturas RST. Disserta¸ao
(Mestrado) Departamento de Computa¸ao, Universidade Federal de ao Carlos. ao
Carlos-SP, 2005.
SOUZA, J. G. C. de. Resolu¸ao autom´atica de correferˆencia aplicada `a l´ıngua portuguesa.
Novembro 2007. Trabalho de conclus˜ao. Unisinos - ao Leopoldo.
STEINBERGER, J. et al. Two uses of anaphora resolution in summarization. In:
Information Processing and Management. [S.l.: s.n.], 2007.
TEIXEIRA, M. Coes˜ao Referencial. Junho 2007. Acessado em 10/06/2007
http://www.comunica.unisinos.br/professores/marlene/arquivos/referenciacao 2004 1.pdf.
VIEIRA, R. Definite description processing in unrestricted text. Tese (Doutorado)
University of Edinburgh, Edinburgh, 1998.
WITTEN, I. H.; FRANK, E. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementation. San Francisco: Morgan Kaufmann, 2000.
116
Anexo A - Question´arios Sum´arios
GistSumm
Sum´arios GistSumm Originais e Revisados
10 textos corpus Summit
CIENCIA 2000 6389
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Guerra citou a micropropaga¸ao de vegetais (produ¸ao de mudas em laborat´orio, feita para evitar
doen¸cas e selecionar vegetais saud´aveis) como exemplo de biotecnologia de baixo custo.
SUMARIO 2:
O agrˆonomo Miguel Guerra, da UFSC (Universidade Federal de Santa Catarina) citou a micropropaga¸ao
de vegetais (produ¸ao de mudas em laborat´orio, feita para evitar doen¸cas e selecionar vegetais saud´aveis)
como exemplo de biotecnologia de baixo custo.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
117
CIENCIA 2000 6391
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
ao temos certeza de que com pensados de madeira exportados pela Selvaplac, subsidi´aria brasileira de
um grupo da Mal´asia era ilegal, mas sabemos que 80% da atividade madeireira no Brasil ´e irregular e
que a Selvaplac tem uma tradi¸ao de envolvimento com madeira ilegalmente extra´ıda, disse a a Folha
Rebeca Lerer, ativista brasileira do Greenpeace.
SUMARIO 2:
“N˜ao temos certeza de que aquela carga era ilegal, mas sabemos que 80% da atividade madeireira
no Brasil ´e irregular e que a Selvaplac tem uma tradi¸ao de envolvimento com madeira ilegalmente
extra´ıda”, disse `a Folha Rebeca Lerer, ativista brasileira do Greenpeace.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2000 17109
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Pesquisas em camundongos haviam mostrado que c´elulas ao-especializadas, capazes de dar origem
a qualquer tipo de tecido poderiam originar outro tipo de elula -c´elulas hep´aticas-, al´em de elulas
118
sangu´ıneas. Para descobrir se o mesmo acontecia em seres humanos, pesquisadores do Imperial College,
em Londres analisaram c´elulas do f´ıgado de mulheres que haviam sofrido um transplante de medula
´ossea, cujo doador havia sido um homem.
SUMARIO 2:
Pesquisas em camundongos haviam mostrado que c´elulas-tronco da medula ´ossea poderiam originar
c´elulas hep´aticas, al´em das sangu´ıneas. Para descobrir se o mesmo ac ontecia em seres humanos, os
pesquisadores analisaram elulas do f´ıgado de mulheres que haviam sofrido um transplante de medula
´ossea, cujo doador havia sido um homem.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2000 17112
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Um estudo publicado na edi¸ao de hoje da revista “Science” afirma que 1,75 bilh˜ao de pe ss oas a
enfrentam severa escassez de ´agua no planeta. “A demanda aumenta de forma dr´astica no mundo todo”,
afirmou o especialista em recursos h´ıdricos Jos´e Galizia Tundisi, do Instituto Internacional de Ecologia,
em ao Carlos (SP). “As metr´opoles ao tˆem recursos h´ıdricos suficientes para suportar o crescimento
populacional”, disse Tundisi.
SUMARIO 2:
Um estudo publicado na edi¸ao de hoje da revista Science afirma que 1,75 bilh˜ao de pessoas a enfrentam
severa escassez de ´agua no mundo. A demanda aume nta de forma dr´astica no mundo todo, afirmou
o especialista em as res ervas do l´ıquido dispon´ıveis em uma regi˜ao Jos´e Galizia Tundisi, do Instituto
Internacional de Ecologia, em ao Carlos (SP). Zonas de intensa urbaniza¸ao recente, como o sul dos
EUA e o norte do exico ao em recursos h´ıdricos suficientes para suportar o crescimento populacional,
disse Tundisi
119
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2001 6410
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Segundo ele, pessoas ligadas por computadores tiveram mais contatos pessoais com seus amigos e
parentes do que pessoas ao-conectadas.
SUMARIO 2:
Segundo Barry Ellman, do Centro para Estudos Urbanos e Comunit´arios da Universidade de Toronto,
Canad´a, pessoas ligadas por computadores tiveram mais contatos pessoais com seus amigos e parentes
do que pessoas ao-conectadas.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2001 6416
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
120
SUMARIO 1:
Uma mudan¸ca de apenas uma base [letra] no gene PB2 [que resultou na modifica¸ao de um amino´acido
na prote´ına por ele codificada] parece ser a causa da virulˆencia de o H5 N1, o v´ırus influenza que, em
1997, matou 6 das 18 pessoas infectadas, em Hong Kong, explica. Pesquisadores da Universidade de
Wisconsin-Madison (EUA) ainda ao sabem exatamente qual o papel do PB2, mas ele parece codificar
uma enzima respons´avel pela indu¸ao de um umero maior de part´ıculas virais nas elulas infectadas.
SUMARIO 2:
“Uma mudan¸ca de apenas uma base [letra] no gene PB2 [que resultou na modifica¸ao de um amino´acido
na prote´ına por ele codificada] parece ser a causa da virulˆencia do influenza”, explica. Os cientistas
ainda ao sab em exatamente qual o papel do PB2, mas ele parece codificar uma enzima respons´avel
pela indu¸ao de um umero maior de part´ıculas virais nas elulas infectadas.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2002 22005
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Mas a equipe internacional de arque´ologos subaqu´aticos, incluindo brasileiros, que trabalhou na foz do
rio Arade, no sul de Portugal, a ode pelo menos sepultar um mito o de que ali haveria um navio
viking naufragado. Mesmo sem confirmar o relato hist´orico feito por um cronista ´arabe, no ano de
996, de que navios vikings teriam afundado a caminho de atacar a cidade de Silves, os arque´ologos
puderam encontrar um tesouro de outro tipo: a riqueza de artefatos de arias origens ali depositados
pelas sucessivas levas de ocupantes do territ´orio portuguˆes. A coordena¸ao foi do arque´ologo portuguˆes
Francisco Alves, um dos pioneiros na ´area em Portugal e respons´avel pelos trabalhos no gale˜ao Nossa
Senhora dos artires, cujos achados foram a atra¸ao central do pavilh˜ao de Portugal na exposi¸ao
internacional de Lisboa em 1998, a Expo-98.
121
SUMARIO 2:
Mas a equipe internacional de arque´ologos subaqu´aticos, incluindo Os brasileiros -Gilson Rambelli,
Paulo Bava de Camargo e Fl´avio Rizzi, pesquisadores do Museu de Arqueologia e Etnologia (MAE) da
USP-, que trabalhou na foz do rio Arade, no sul de Portugal, a ode pelo menos sepultar um mito -o
de que ali haveria um navio viking naufragado. Mesmo sem confirmar o relato hist´orico feito por um
cronista ´arabe, no ano de 996, de que navios vikings teriam afundado a caminho de atacar a cidade de
Silves, os arque´ologos puderam encontrar um tesouro de outro tipo :a riqueza de in´umeros fragmentos,
principalmente cerˆamicos, que ao desde ˆanforas romanas at´e utens´ılios inteiros do s´eculo 16, passando
pela cerˆamica ´arabe. A coordena¸ao foi do arque´ologo portuguˆes Francisco Alves, um dos pioneiros na
´area em Portugal e respons´avel por os trabalhos no gale˜ao Nossa Senhora dos artires, cujos achados
foram a atra¸ao central do pavilh˜ao de Portugal na exposi¸ao internacional de Lisboa em 1998, a Expo-98.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2004 6494
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Capitaneados por sir David King, o principal assessor cient´ıfico do governo britˆanico, os pesquisadores
ao pouparam esfor¸cos para demonstrar que o aquecimento global a est´a pondo em risco as vidas e a
economia humanas em diversas regi˜oes.
SUMARIO 2:
Capitaneados por sir David King, o principal assessor cient´ıfico do governo britˆanico, os pesquisadores
ao pouparam esfor¸cos para demonstrar que o aquecimento global causado por esse as a est´a pondo
em risco as vidas e a economia humanas em diversas regi˜oe s.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
122
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2005 28747
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
As diferen¸cas como essas ao ao min´usculas. Dep ois do primeiro segundo, os americanos olharam mais
para o objeto central de um quadro do que para o fundo durante 600 milissegundos, enquanto isso
o aconteceu por 40 milissegundos com Pessoas nascidas na China, disse `a Folha Richard Nisbett, do
Departamento de Psicologia de a Universidade de Michigan em Ann Arbor, nos Estados Unidos.
SUMARIO 2:
“As diferen¸cas ao ao min´usculas. Depois do primeiro segundo, os americanos olharam mais para o
objeto central do que para o fundo durante 600 milissegundos, enquanto isso o aconteceu por 40 milis-
segundos com os chineses”, disse `a Folha Richard Nisbett, do Departamento de Psicologia da universidade.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2005 28766
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
123
SUMARIO 1:
Pesquisadores da Fiocruz(Funda¸ao Oswaldo Cruz) identificaram glicoprote´ınas (grosso modo, prote´ınas
unidas a uma forma de c´ucar) no sangue dos gamas que em essa fun¸ao antiof´ıdica e esperam
utilizar- las ao apenas para auxiliar quem sofre acidentes com cobras, mas tamb´em para tratar doen¸cas
humanas, como ancer e osteoartrite. Conforme as pesquisas progrediram, a equipe descobriu que a
resistˆencia ao se estende o ao gama propriamente dito, mas tamb´em `as cu´ıcas e outros parentes do
animal, todos ca¸cadores de cobras, que teriam tido vantagens em desenvolver tais defesas bioqu´ımicas.
Seja como for, a DM43 e a DM64 parecem especificamente talhadas para neutralizar os principais efeitos
do veneno das serpentes da fam´ılia das viper´ıdeas, entre as quais se incluem as jararacas. Segundo Jonas
Perales, do Laborat´orio de Toxinologia, a equipe inclusive pediu patentes sobre algumas da ao das
substˆancias contra doen¸cas como o ancer, mas e nquanto o pedido ao for aprovado, Perales prefere ao
revelar exatamente do que se trata.
SUMARIO 2:
Pesquisadores da Fiocruz (Funda¸ao Oswaldo Cruz) identificaram duas mol´eculas no sangue dos gamb´as
que em essa fun¸ao antiof´ıdica e esperam utiliz´a-las ao apenas para auxiliar quem sofre acidentes com
cobras, mas tamb´em para tratar doen¸cas humanas, como ancer e osteoartrite. Conforme as pesquisas
progrediram, a equipe descobriu que a resistˆencia ao se estende o ao gama propriamente dito, mas
tamem `as cu´ıcas e outros parentes do animal, todos ca¸cadores de cobras, que teriam tido vantagens
em desenvolver tais defesas bioqu´ımicas. Seja como for, a DM43 e a DM64 parecem especificamente
talhadas para neutralizar os principais efeitos do veneno das serpentes da fam´ılia das viper´ıdeas, entre as
quais se incluem as jararacas. Segundo o pesquisador, a equipe inclusive pediu patentes sobre algumas
dessas aplica¸oes, mas, enquanto o p e dido ao for aprovado, Perales prefere ao revelar exatamente do
que se trata.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
124
Anexo B - Question´arios Sum´arios
SuPor-2
Sum´arios SuPor-2 Originais e Revisados
10 textos corpus Summit
CIENCIA 2000 17088
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Pesquisadores do Museu Nacional do Rio de Janeiro anunciaram ontem a descoberta de uma nova
esp´ecie de dinossauro no Brasil. Batizado de Santanaraptor placidus, o ossil ´e o ´unico a ser encontrado
no pa´ıs com restos de tecido mole, como fibras musculares, vasos s angu´ıneos e pele. Outra importante
descoberta ´e que, na cadeia evolutiva dos dinossauros, o Santanaraptor ocuparia uma posi¸ao no grupo
Tyrannoraptora, o mesmo do Tyrannossaurus rex, que habitou os EUA no final da era dos dinos. “O
Santanaraptor pode ser a esp´e cie que deu origem ao tiranossauro 68 milh˜oes de anos mais tarde”,
explicou o ge´ologo.
SUMARIO 2:
Pesquisadores do Museu Nacional do Rio de Janeiro anunciaram ontem a descoberta de O exemplar de
Santanaraptor encontrado pela equipe carioca no Brasil. Batizado de Santanaraptor placidus, o ossil ´e
o ´unico a ser encontrado no pa´ıs com restos de tecido m ole, como fibras musculares, vasos sangu´ıneos e
pele. Outra importante descoberta ´e que, na cadeia evolutiva dos dinossauros, o Santanaraptor ocuparia
uma posi¸c ˜ao no grupo Tyrannoraptora, o m esm o do Tyrannossaurus rex, que habitou os EUA no per´ıodo
125
Cret´aceo (o ´ultimo da era dos grandes r´epteis ).. O Santanaraptor p ode ser a esp´ecie que deu origem ao
tiranossauro 68 milh˜oes de anos mais tarde, explicou Alexander Kellner.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2000 17112
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Um estudo publicado na edi¸ao de hoje da revista “Science” afirma que 1,75 bilh˜ao de pe ss oas a
enfrentam severa e sc asse z de ´agua no planeta. Por severa escassez de ´agua pot´avel, entende-se, segundo a
ONU, o uso de mais de 40% das reservas do l´ıquido dispon´ıveis em uma regi˜ao para consumo industrial,
dom´estico e agr´ıcola. A proje¸ao dos cientistas para o ano 2025 ´e que 3,3 bilh˜oes de pessoas ao tenham
mais ´agua para irriga¸ao a atividade humana que mais consome o l´ıquido. “A demanda aumenta de
forma dr´astica no mundo todo”, afirmou o especialista em recursos h´ıdricos Jos´e Galizia Tundisi, do
Instituto Internacional de Ecologia, em ao Carlos (SP).
SUMARIO 2:
Um estudo publicado na edi¸ao de hoje da revista Science afirma que 1,75 bilh˜ao de pessoas a enfrentam
severa escassez de ´agua nO mundo. Por severa escasse z de ´agua pot´avel, entende- se, segundo a ONU
(Organiza¸ao das Na¸oes Unidas), o uso de mais de 40 das reservas do l´ıquido dispon´ıveis em uma
regi˜ao para consumo industrial, dom´estico e agr´ıcola. A proje¸ao de a equipe de or¨osmarty para o
ano 2025 ´e que 3,3 bilh˜oes de pessoas ao tenham mais ´agua para irriga¸ao -a atividade humana que
mais consome o l´ıquido. A demanda aumenta de forma dr´astica no mundo todo, afirmou o especia-
lista em recursos h´ıdricos Jos´e Galizia Tundisi, do Instituto Internacional de Ecologia, em ao Carlos (SP).
126
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2000 17113
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Um tratamento para a obesidade que faz vocˆe comer mais, perder peso e reduzir a taxa de gordura do
corpo ´e o que sugere um estudo britˆanico publicado hoje na revista cient´ıfica Nature. Por enquanto ´e
o sugest˜ao: o tratamento foi testado em camundongos. No centro do etodo est´a um gene humano
descoberto recentemente, o UCP-3, cujos mecanismos de ao ainda ao ao totalmente conhecidos.
O gene UCP-3 foi inserido em camundongos e manipulado para produzir, em excesso, a prote´ına
determinada por ele. A p orcentagem de tecido adiposo (gordura) sobre o volume total do corpo de Os
camundongos com essa altera¸ao gen´etica tamem diminuiu -em os machos, em 44; nas emeas, em
57. Esse ´e um alvo vi´avel para rem´edios contra a obesidade, disse um dos autores, John Clapham, da
empresa farmacˆeutica SmithKline Beecham, que fez o estudo em colabora¸ao com a Universidade de
Cambridge, Reino Unido.
SUMARIO 2:
Um tratamento para a obesidade que faz vocˆe comer mais, perder peso e reduzir a taxa de gordura
do corpo ´e o que sugere um estudo britˆanico publicado hoje na revista cient´ıfica “Nature”. Por
enquanto ´e o s ugest˜ao: o tratamento foi testado em camundongos. No centro do m´etodo est´a um
gene humano descoberto recentemente, o UCP-3, cujos mecanismos de ao ainda ao ao totalmente
conhecidos. O gene UCP-3 foi inserido em camundongos e manipulado para produzir, em excesso, a
prote´ına determinada por ele. A porcentagem de tecido adiposo (gordura) sobre o volume total do
corpo dos bichos tamb´em diminuiu nos machos, em 44 %; nas fˆemeas , em 57 %. “Esse ´e um alvo vi´avel
para rem´edios contra a obesidade”, disse um dos autores, John Clapham, da empresa farmacˆeutica
SmithKline Beecham, que fez o estudo em colabora¸ao com a Universidade de Cambridge, Reino Unido.
127
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2001 6410
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Ao contr´ario do que muita gente pensa, a internet ao est´a reduzindo os contatos entre as pessoas nem
substituindo-os p or rela¸oes impessoais conduzidas por computador. Um dos exemplos que ele apresenta
´e o de um estudo feito em um s ub´urbio de Toronto, segundo o qual as pessoas “plugadas” em uma rede
local conheciam trˆes vezes mais vizinhos do que os ao-conectados.
SUMARIO 2:
Ao contr´ario do que muita gente pensa, redes de computadores ao est´a reduzindo os contatos
entre as pessoas nem substituindo- os por rela¸oes impessoais conduzidas por computador. Um dos
exemplos que Barry Ellman apresenta ´e o de um estudo feito num sub´urbio de Toronto, segundo o
qual as pessoas plugadas em uma rede local conheciam trˆes vezes mais vizinhos do que os ao-conectados.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2002 22005
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
128
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Mas a equipe internacional de arque´ologos subaqu´aticos, incluindo brasileiros, que trabalhou na foz do
rio Arade, no sul de Portugal, a ode pelo menos se pultar um m ito -o de que ali haveria um navio viking
naufragado. Os brasileiros -Gilson Rambelli, Paulo Bava de Camargo e Fl´avio Rizzi, pesquisadores
do Museu de Arqueologia e Etnologia (MAE) da USP- acharam mesmo restos de um ou dois navios
antigos, possivelmente portugueses dos s´eculo 15 ou 16, da chamada tradi¸ao ibero-atlˆantica. Mesmo
sem confirmar o relato hist´orico feito p or um cronista ´arabe, no ano de 996, de que navios vikings teriam
afundado a caminho de atacar a cidade de Silves, os arque´ologos puderam encontrar um tesouro de outro
tipo: a riqueza de in´umeros fragmentos, principalmente cerˆamicos, que ao desde ˆanforas romanas at´e
utens´ılios inteiros do eculo 16, passando pela cerˆamica ´arabe. Rambelli, que coordenou a participa¸ao
brasileira, est´a lan¸cando nesta semana o livro Arqueologia At´e Debaixo D
´
Agua (Editora Maranta, ao
Paulo, 2002).
SUMARIO 2:
Mas a equipe internacional de arque´ologos subaqu´aticos, incluindo brasileiros, que trabalhou na foz do
rio Arade, no sul de Portugal, a ode p elo menos sepultar um m ito o de que ali haveria um navio viking
naufragado. Os brasileiros Gilson Rambelli, Paulo Bava de Camargo e Fl´avio Rizzi, pesquisadores
do Museu de Arqueologia e Etnologia (MAE) da USP acharam mesmo restos de um ou dois navios
antigos, possivelmente portugueses dos s´eculo 15 ou 16, da chamada tradi¸ao ibero-atlˆantica. Mesmo
sem confirmar o relato hist´orico feito p or um cronista ´arabe, no ano de 996, de que navios vikings teriam
afundado a caminho de atacar a cidade de Silves, os arque´ologos puderam encontrar um tesouro de
outro tipo: a riqueza de artefatos de arias origens ali depositados pelas sucessivas levas de ocupantes
do territ´orio portuguˆes. Rambelli, que coordenou a participa¸ao brasileira, est´a lan¸cando nesta semana
o livro “Arqueologia At´e Debaixo D’
´
Agua” (Editora Maranta, ao Paulo, 2002).
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2003 24212
129
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Biotecn´ologos e ambientalistas travaram uma rara alian¸ca na semana passada para comemorar um
epis´odio singular: duas vacas deram cria em Iowa, EUA. Os filhotes ao ao delas, mas clones de outra
esp´ecie, o banteng, um tip o de gado amea¸cado de extin¸ao. Os dois nascimentos, ocorridos em 1
o
e 3
de abril, marcam o in´ıcio de uma nova fase para um projeto que a atra´ıa interesse o Frozen Zoo (ou
Zool´ogico Congelado, na tradu¸ao para o portuguˆes). A id´eia, iniciada em 1976, era coletar e preservar
criogenicamente (em baixas temperaturas) amostras celulares de animais amea¸cados de extin¸ao, com a
esperan¸ca de estud´a-los e, quem sabe, ressuscit´a-los quando a tecnologia assim o permitisse. O material
vai desde os not´orios pandas e condores at´e os menos conhecidos bantengs parentes asi´aticos raros do
gado comum que est˜ao `a beira do esquecimento. A primeira tentativa de trazer um membro do Frozen
Zoo de volta do mundo dos animais perdidos foi com um gauro, outra esp´ecie rara de gado.
SUMARIO 2:
Biotecn´ologos e ambientalistas travaram uma parceria entre a companhia de biotecnologia Advanced
Cell Technology, de Massachusetts, o Centro Sioux, de Iowa, e o Centro para Reprodu¸ao de Esp´ecies
Amea¸cadas da Sociedade Zool´ogica de San Diego, na Calif´ornia na semana passada para comemorar um
epis´odio singular: duas vacas deram cria em Iowa, EUA. Os filhotes ao ao de elas, mas clones de outra
esp´ecie, o banteng, um tip o de gado amea¸cado de extin¸ao. Os dois nascimentos, ocorridos em 1
o
e 3
de abril, marcam o in´ıcio de uma nova fase para um projeto que a atra´ıa interesse -o Froze n Zoo (ou
Zool´ogico Congelado, na tradu¸ao para o portuguˆes) A id´eia, iniciada em 1976, era coletar e preservar
criogenicamente (em baixas temperaturas) amostras celulares de animais amea¸cados de extin¸ao, com
a esperan¸ca de estudar- los e, quem sabe, ressuscitar- los quando a tecnologia assim o permitisse. O
material vai desde os not´orios pandas e condores at´e os menos conhecidos bantengs -parentes asi´aticos
raros do gado comum que est˜ao `a beira do esquecimento. A primeira tentativa de trazer um membro do
Frozen Zoo de volta do mundo dos animais perdidos foi com um gauro, outra esp´ecie rara de gado.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
130
CIENCIA 2003 24219
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Os minist´erios da Agricultura e da Ciˆencia e Tecnologia defenderam ontem o uso da soja transgˆenica
na produ¸ao do biodiesel para abastecer parte da frota nacional de ve´ıculos. A id´eia foi lan¸cada pelo
ministro Roberto Amaral (Ciˆencia e Tecnologia) e detalhada ontem durante a abertura do 1
o
Congresso
Internacional de Biodiesel, realizado em Ribeir˜ao Preto e promovido pela USP (Universidade de ao
Paulo) da cidade. A inten¸ao do governo ´e usar parte da soja transgˆenica a plantada no pa´ıs, e que est´a
com seu consumo proibido, na produ¸ao do combust´ıvel. O projeto, dese nvolvido pela USP de Ribe ir˜ao,
consegue produzir o bio diesel a partir da mistura de ´oleo vegetal incluindo o de soja e etanol, ´alcool
derivado da cana-de-a¸c´ucar.
SUMARIO 2:
Os minist´erios da Agricultura e de o MCT (Minist´erio da Ciˆencia e Tecnologia) defenderam ontem o
uso da soja transgˆenica na produ¸ao do biodiesel para abastecer parte da frota nacional de ve´ıculos.
A id´eia foi lan¸cada pelo ministro Roberto Amaral (Ciˆencia e Tecnologia) e detalhada ontem durante
a abertura do 1
o
Congresso Internacional de Biodiesel, realizado em Ribeir˜ao Preto e promovido pela
USP (Universidade de ao Paulo) da cidade. A inten¸ao do governo ´e usar parte da soja transgˆenica
a plantada no Brasil, e que est´a com seu consumo proibido, na produ¸ao do combust´ıvel. O projeto,
desenvolvido pela USP de Ribeir˜ao, consegue produzir o biodiesel a partir da mistura de ´oleo vegetal
-incluindo o de soja- e etanol, ´alcool derivado da cana-de-a¸c´ucar.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2004 6480
131
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
O animal ´e um clone gerado a partir de um clone a vaca Vit´oria, que havia sido clonada em 2001.
Ela surgiu a partir de elulas isoladas de um p eda¸co de pele retirado da orelha da vaca Vit´oria, que
foi o primeiro clone bovino da Am´erica Latina, nascida em 2001. “O clone do clone coloca o Brasil na
vanguarda cient´ıfica desse assunto, como a est´a no seq¨uenciamento [soletra¸ao] de genoma”, afirmou
Rodrigues.
SUMARIO 2:
A terceira tentativa do ´org˜ao de criar um clone a partir de outro ´e um clone gerado a partir de um
clone -a vaca Vit´oria, que havia sido clonada em 2001. Ela surgiu a partir de elulas isoladas de um
peda¸co de p e le retirado da orelha da vaca Vit´oria, que foi o primeiro clone bovino da Am´erica Latina,
nascida em 2001. O clone do clone coloca o Brasil na vanguarda cient´ıfica desse assunto, como a est´a
no seq¨uenciamento [soletra¸ao] de genoma, afirmou o ministro Roberto Rodrigues (Agricultura).
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2004 26415
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Para um desavisado parece at´e obsess˜ao freudiana, mas Bioantrop´ologo da Universidade MacMaster,
no Canad´a est´a pedindo a todos os seus conhecidos a maior quantidade de fezes poss´ıvel -quanto mais
velhas, melhores. Estamos recolhendo amostras de copr´olitos [fezes fossilizadas] de duas cavernas em
Israel c om 40 mil anos, onde provavelmente Cro-Magnons [os primeiros humanos modernos] e neandertais
viveram lado a lado, contou o pesquisador durante a reuni˜ao da AAAS (Associa¸ao Americana para
132
o Avan¸co da Ciˆencia). Dadas as caracter´ısticas muito especiais de preservao que as fezes podem
alcan¸car, a grandes chances de elas terem preservado mais DNA do que o que se pode extrair de ossos,
prote´ınas e outras mol´eculas.
SUMARIO 2:
Para um desavisado parece at´e obsess˜ao freudiana, mas Hendrik Poynar est´a pedindo a todos os seus
conhecidos a maior quantidade de fezes poss´ıvel quanto mais velhas, melhores. “stamos recolhendo
amostras de copr´olitos [fezes fossilizadas] de duas cavernas em Israel c om 40 mil anos, onde provavel-
mente Cro-Magnons [os primeiros humanos modernos] e neandertais viveram lado a lado”, contou o
pesquisador durante a reuni˜ao da AAAS (Associa¸ao Americana para o Avan¸co da Ciˆencia). Dadas as
caracter´ısticas muito especiais de preservao que as fezes podem alcan¸car, a grandes chances de elas
terem preservado mais DNA do que o que se pode extrair de ossos, bem como prote´ınas e outras mol´eculas.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
CIENCIA 2004 26423
Avaliar em rela¸ao `a legibilidade e informatividade.
A legibilidade ´e uma qualidade que determina a facilidade de leitura.
A informatividade ´e o que determina o n´ıvel de informa¸ao de cada sum´ario.
SUMARIO 1:
Como se a lista de problemas de sa ´ude causados por os alimentos gordurosos a ao fosse imensa,
cientistas americanos acabam de adicionar a ela o dano ligado ao mal de Alzheimer, doen¸ca degenerativa
do c´erebro que mais afeta idosos pelo mundo. De acordo com novas an´alises em seres humanos, o
colesterol e a ceramida, ambas mol´eculas de gordura, impulsionam a morte de elulas nervosas que
caracteriza a doen¸ca. Colegas de Mark Mattson, do Instituto Nacional do Envelhecimentos dos EUA
tamem revelaram novas evidˆencias de que o consumo de vitaminas como suplemento alimentar e
provenientes de vegetais seria capaz de prevenir o advento da doen¸ca, e mesmo de que as estatinas, hoje
usadas para o combate ao colesterol na corrente sang¨u´ınea, tamb´em poderiam evitar o aparecimento do
mal de Alzheimer. Ele e seus colegas descobriram uma esp´ecie de combina¸ao letal entre o aparecimento
133
de a prote´ına beta-amil´oide e a presen¸ca de colesterol e de ceramida nos neurˆonios de pessoas mortas
com o mal. Experimentos coordenados por Carl Cotman, da Universidade da Calif´ornia em Irvine,
mostraram resultados animadores em aes na fase de envelhecimento (a partir dos 9 anos de vida), na
qual os animais podem desenvolver uma doen¸ca que lembra Alzheimer.
SUMARIO 2:
Como se a lista de problemas de s a´ude causados pelos alimentos gordurosos a ao fosse imensa, cientistas
americanos acabam de adicionar a ela o dano ligado ao m al de Alzheimer, doen¸ca degenerativa do
c´erebro que mais afeta idosos pelo mundo. De acordo com novas an´alises em seres humanos, o colesterol
e a ceramida, ambas mol´eculas de gordura, impulsionam a morte de elulas nervosas que caracteriza a
doen¸ca. Colegas de Mattson tamem revelaram novas evidˆencias de que o consumo de vitaminas como
suplemento alimentar e provenientes de vegetais seria capaz de prevenir o advento da doen¸ca, e mesmo
de que as estatinas, hoje usadas para o combate ao colesterol na corrente sang¨u´ınea, tamb´em poderiam
evitar o aparecimento do mal de Alzheimer. Mattson e colegas descobriram uma esp´ecie de combina¸ao
letal entre o aparecimento da beta-amil´oide e a presen¸ca de colesterol e de ceramida nos neurˆonios de
pessoas mortas com o mal. Experimentos coordenados por Carl Cotman, da Universidade da Calif´ornia
em Irvine, mostraram resultados animadores em aes na fase de envelhecimento (a partir dos 9 anos de
vida), na qual os animais podem desenvolver uma doen¸ca que lembra Alzheimer.
Vocˆe percebe alguma diferen¸ca de legibilidade entre os dois sum´arios?
( ) Sim. Qual dos dois ´e mais leg´ıvel: 1( ) ou 2 ( )
( ) ao.
Vocˆe percebe alguma diferen¸ca de informatividade?
( ) Sim. Qual dos dois ´e mais informativo: 1( ) ou 2 ( )
( ) ao.
134
135
Anexo C - Tabela Dados Rouge
SuPor-2
Tabela 22: Resultados do Rouge - Sum´arios SuPor-2
SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO
NOME TEXTO COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
CIENCIA 2000 6380 81,58 72,94 77,02 81,58 68,13 74,25
CIENCIA 2000 6381 59,72 66,15 62,77 56,94 42,27 48,52
CIENCIA 2000 6389 68,57 60,76 64,43 71,43 53,76 61,35
CIENCIA 2000 6391 67,74 59,16 63,16 67,74 57,53 62,22
CIENCIA 2000 17082 53,41 47,96 50,54 53,41 46,54 49,74
CIENCIA 2000 17088 76,34 67,62 71,72 80,65 66,37 72,82
CIENCIA 2000 17101 70,30 64,55 67,30 70,30 64,55 67,30
CIENCIA 2000 17108 63,04 52,25 57,14 63,04 52,25 57,14
CIENCIA 2000 17109 68,54 51,26 58,65 68,54 51,26 58,65
CIENCIA 2000 17112 31,00 24,41 27,31 37,00 26,81 31,09
CIENCIA 2000 17113 51,15 43,51 47,02 54,20 45,22 49,31
CIENCIA 2001 6406 51,79 60,42 55,77 51,79 60,42 55,77
CIENCIA 2001 6410 58,00 42,65 49,15 64,00 46,38 53,78
CIENCIA 2001 6414 68,61 57,84 62,77 68,61 57,28 62,43
CIENCIA 2001 6416 40,79 49,21 44,60 53,95 43,62 48,24
CIENCIA 2001 6423 76,74 71,74 74,16 60,47 57,78 59,09
CIENCIA 2001 19858 75,71 69,07 72,24 76,27 67,50 71,62
CIENCIA 2002 6441 80,36 53,57 64,29 78,57 51,77 62,41
CIENCIA 2002 22005 66,67 67,06 66,86 69,59 66,85 68,20
CIENCIA 2002 22010 64,74 69,10 66,85 64,21 68,93 66,49
CIENCIA 2002 22015 54,93 56,80 55,85 56,34 52,86 54,55
CIENCIA 2002 22023 61,79 47,50 53,71 65,04 48,49 55,56
CIENCIA 2002 22027 75,82 69,05 72,27 67,97 63,03 65,41
CIENCIA 2002 22029 75,12 74,77 74,94 78,40 71,06 74,55
CIENCIA 2003 6457 68,61 64,13 66,29 72,09 59,62 65,26
CIENCIA 2003 6465 86,36 76,77 81,28 88,64 74,29 80,83
CIENCIA 2003 6472 83,02 50,00 62,41 83,02 50,00 62,41
CIENCIA 2003 24212 65,24 57,84 61,32 79,88 59,55 68,23
CIENCIA 2003 24219 63,30 50,74 56,33 65,14 50,71 57,03
CIENCIA 2003 24226 55,84 53,92 54,86 55,33 52,66 53,96
CIENCIA 2004 6480 41,94 49,37 45,35 47,31 46,32 46,81
CIENCIA 2004 6488 56,00 82,35 66,67 56,00 82,35 66,67
CIENCIA 2004 6494 76,19 55,81 64,43 76,19 53,33 62,75
CIENCIA 2004 26415 73,79 63,33 68,16 75,73 63,42 69,03
CIENCIA 2004 26417 40,12 43,92 41,94 40,12 43,62 41,80
CIENCIA 2004 26423 56,78 63,81 60,09 59,32 62,78 61,00
CIENCIA 2004 26425 55,10 59,34 57,14 55,10 59,02 56,99
CIENCIA 2005 6507 56,36 81,58 66,67 58,18 74,42 65,31
CIENCIA 2005 6514 100,00 87,18 93,15 94,12 81,01 87,08
CIENCIA 2005 6515 60,94 52,70 56,52 60,94 53,43 56,94
CIENCIA 2005 6518 58,33 52,13 55,06 57,14 46,60 51,34
136
Tabela 23: Resultados do Rouge - Sum´arios SuPor-2 (continua¸ao)
SUPOR-2-ORIGINAL SUPOR-2-CORRIGIDO
NOME DO TEXTO COBERTURA PRECIS
˜
AO F-MEASURE COBERTURA PRECIS
˜
AO F-MEASURE
CIENCIA 2005 28743 56,58 49,14 52,60 56,58 49,14 52,60
CIENCIA 2005 28747 57,14 56,52 56,83 57,14 54,17 55,62
CIENCIA 2005 28752 60,12 51,31 55,37 59,51 50,52 54,65
CIENCIA 2005 28754 68,45 87,58 76,84 69,90 86,23 77,21
CIENCIA 2005 28755 55,62 49,25 52,24 54,49 46,41 50,13
CIENCIA 2005 28756 62,58 57,74 60,06 62,58 57,06 59,69
CIENCIA 2005 28764 63,18 67,2 65,13 61,19 65,78 63,40
CIENCIA 2005 28766 64,00 64,98 64,48 74,00 61,93 67,43
CIENCIA 2005 28774 60,87 52,72 56,50 60,87 52,72 56,50
M
´
EDIA 63,60 59,34 60,94 64,70 57,15 60,26
Livros Grátis
( http://www.livrosgratis.com.br )
Milhares de Livros para Download:
Baixar livros de Administração
Baixar livros de Agronomia
Baixar livros de Arquitetura
Baixar livros de Artes
Baixar livros de Astronomia
Baixar livros de Biologia Geral
Baixar livros de Ciência da Computação
Baixar livros de Ciência da Informação
Baixar livros de Ciência Política
Baixar livros de Ciências da Saúde
Baixar livros de Comunicação
Baixar livros do Conselho Nacional de Educação - CNE
Baixar livros de Defesa civil
Baixar livros de Direito
Baixar livros de Direitos humanos
Baixar livros de Economia
Baixar livros de Economia Doméstica
Baixar livros de Educação
Baixar livros de Educação - Trânsito
Baixar livros de Educação Física
Baixar livros de Engenharia Aeroespacial
Baixar livros de Farmácia
Baixar livros de Filosofia
Baixar livros de Física
Baixar livros de Geociências
Baixar livros de Geografia
Baixar livros de História
Baixar livros de Línguas
Baixar livros de Literatura
Baixar livros de Literatura de Cordel
Baixar livros de Literatura Infantil
Baixar livros de Matemática
Baixar livros de Medicina
Baixar livros de Medicina Veterinária
Baixar livros de Meio Ambiente
Baixar livros de Meteorologia
Baixar Monografias e TCC
Baixar livros Multidisciplinar
Baixar livros de Música
Baixar livros de Psicologia
Baixar livros de Química
Baixar livros de Saúde Coletiva
Baixar livros de Serviço Social
Baixar livros de Sociologia
Baixar livros de Teologia
Baixar livros de Trabalho
Baixar livros de Turismo