( PDF ) Algoritmos para avaliação de confiança em apontadores encontrados na web

Download PDF

ads:

Universidade Federal do Amazonas

Instituto de Ciências Exatas

Departamento de Ciência da Computação

Programa de Pós-Graduação em Informática

Algoritmos Para Avaliação de Confiança em Apontadores

Encontrados na Web

Jucimar Brito de Souza

Manaus – Amazonas

2009

ads:

Livros Grátis

http://www.livrosgratis.com.br

Milhares de livros grátis para download.

Jucimar Brito de Souza

Algoritmos Para Avaliação de Confiança em Apontadores

Encontrados na Web

Orientador: Prof. Dr. Edleno Silva de Moura

Dissertação apresentada ao Programa

de Pós-Graduação em Informática do

Departamento de Ciência da Computação da

Universidade Federal do Amazonas, como

requisito parcial para obtenção do Título de

Mestre em Informática. Área de

concentração: Recuperação da Informação.

ads:

Jucimar Brito de Souza

Algoritmos Para Avaliação de Confiança em Apontadores

Encontrados na Web

Banca Examinadora

Prof. Dr. Edleno Silva de Moura

Departamento de Ciência da Computação – UFAM/PPGI

Prof. Dr. Marcos André Gonçalves

Departamento de Ciência da Computação - UFMG

Prof. Dr. Altigran Soares da Silva

Departamento de Ciência da Computação – UFAM/PPGI

Prof. João Marcos Bastos Cavalcante, Ph.D.

Departamento de Ciência da Computação – UFAM/PPGI

Manaus - Amazonas

2009

Dissertação apresentada ao Programa de

Pós-Graduação em Informática do

Departamento de Ciência da Computação da

Universidade Federal do Amazonas, como

requisito parcial para obtenção do Título de

Mestre em Informática. Área de concentração:

Recuperação da Informação.

iii

Dedicatória

A minha esposa Luciana Souza,

aos meus filhos Ana Elisabete e Ian Thiago,

aos meus pais Jucimar e Edna Souza pelo

incentivo dado para realização deste trabalho.

Agradecimentos

Agradeço primeiramente ao meu Deus por sua infinita bondade e misericórdia em

conceder mais esta vitoria ao terminar o Mestrado.

A minha esposa pela força que me deu durante todo o curso, pela ajuda que me deu

em muitos momentos das atividades do mestrado, pelo apoio que me deu em todos os

momentos.

Aos meus filhos Ana Elisabete e Ian Thiago por entenderem que muitas vezes o papai

não podia fazer os passeios, jogar basquete, ir para piscina em função do meu compromisso

com os estudos.

Aos meus pais Jucimar e Edna Souza que sempre me incentivaram a estudar e que

sempre vibram com as conquistas dos seus filhos.

Ao meu orientador Edleno Silva de Moura, pela oportunidade e os ensinamentos

passados com as suas experiências na área de recuperação da informação que foram de

fundamental importância para o sucesso deste trabalho.

A minha amiga Kelen Acquati que me ajudou com a sua experiência nas disciplinas e

que esta ajuda foi de fundamental importância para obtenção dos bons resultados

conquistados.

Ao Andre Carvalho e Klessius Beltz pelo apoio que me deram para que eu continuasse

os trabalhos iniciados por eles e que me ajudaram a concretizar o desenvolvimento dos

conceitos dos métodos aqui apresentados.

A Universidade Federal do Amazonas em especial ao Departamento de Ciência da

Computação pela oportunidade que me foi dada.

Aos colegas e amigos que direta ou indiretamente me ajudaram para conclusão deste

curso.

AGRADEÇO

Como é feliz o homem que acha a sabedoria, o homem que obtém o

entendimento, pois a sabedoria é mais proveitosa que a prata e rende mais do

que o ouro.

Resumo

Máquinas de busca têm se tornado uma ferramenta imprescindível para os usuários da

Web. Elas utilizam algoritmos de análise de apontadores para explorar a estrutura dos

apontadores da Web para atribuir uma estimativa de popularidade a cada página. Essa

informação é usada na ordenação da lista de respostas dada por máquinas de busca a consultas

submetidas por seus usuários. Contudo, alguns tipos de apontadores prejudicam a qualidade

da estimativa de popularidade por apresentar informação ruidosa, podendo assim afetar

negativamente a qualidade de respostas providas por máquinas de busca a seus usuários.

Exemplos de tais apontadores incluem apontadores repetidos, apontadores resultantes da

duplicação de páginas, SPAM, dentre outros. Esse trabalho tem como objetivo detectar ruídos

na estrutura dos apontadores existentes em base de dados de máquinas de busca. Foi estudado

o impacto dos métodos aqui desenvolvidos para detecção de apontadores ruidosos,

considerando cenários nos quais a reputação das páginas é calculada tanto com o algoritmos

Pagerank quanto com o algoritmo Indegree. Os resultados dos experimentos apresentaram

melhoria de até 68,33% na métrica Mean Reciprocal Rank (MRR) para consultas

navegacionais e de até 35,36% para as consultas navegacionais aleatórias quando uma

máquina de busca utiliza o algoritmo Pagerank.

Palavras-chave: Recuperação da Informação, Máquina de Busca, Análise de Apontadores,

Ruído

vii

Abstract

Search engines have become an essential tool for web users today. They use

algorithms to analyze the linkage relationships of the pages in order to estimate popularity for

each page, taking each link as a vote of quality for pages. This information is used in the

search engine ranking algorithms. However, a large amount of links found on the Web can

not be considered as a good vote for quality, presenting information that can be considered as

noise for search engine ranking algorithms. This work aims to detect noises in the structure of

links that exist in search engine collections. We studied the impact of the methods developed

here for detection of noisy links, considering scenarios in which the reputation of pages is

calculated using Pagerank and Indegree algorithms. The results of the experiments showed

improvement up to 68.33% in metric Mean Reciprocal Rank (MRR) for navigational queries

and up to 35.36% for randomly selected navigational queries.

Keywords: Information retrieval, search engine, link analysis, noise

viii

Lista de Figuras

Figura 1 – Similaridade entre d

e q no modelo vetorial............................................... 10

Figura 2 – Calculo simplificado do Pagerank .............................................................. 13

Figura 3 – Exemplo de Troca de Sítios detectado pelo Trust-BMSR .......................... 18

Figura 4 - Exemplo de cadeia de apontadores entre sítios ........................................... 19

Figura 5 – Cálculo do suporte anormal com SLAbS .................................................... 20

Figura 6 - Exemplo de uma aliança de sítios ................................................................ 21

Lista de Tabelas

Tabela 1 : Valores de MRR para consultas navegacionais populares com Trust-BMSR