CAP
´
ITULO 2. REDES NEURAIS ARTIFICIAIS 11
propagado a par t ir da camada de sa´ıda at´e a camada de entrada, e os pesos das
conex˜oes das unidades das camadas internas v˜ao sendo modificados conforme o erro
´e retropropagado.
As redes que utilizam back propagation trabalham com uma varia¸c˜ao da regra
delta, apropriada para redes multi-camadas: a regra delta generalizada. A regra
delta padr˜ao, essencialmente, implementa um g r adiente descendente no quadrado da
soma do erro para f un¸c˜oes de ativa¸c˜ao lineares. Redes sem camadas intermedi´arias,
podem resolver problemas onde a superf´ıcie de erro tem a forma de um parabol´oide
com apenas um m´ınimo. Entretanto, a superf´ıcie do erro pode n˜ao ser t˜ao simples e
suas derivadas mais dif´ıceis de serem calculadas. Nestes casos devem ser utilizadas
redes com camadas intermedi´a rias. Ainda assim, as redes ficam sujeitas aos
problemas de procedimentos “hill-cli mbing”, ou seja, ao problema de m´ınimos locais.
Um fator importante nesse algoritmo ´e a taxa de aprendizado, que ´e uma
constante de proporcionalidade no intervalo [0,1] que ir´a dizer o quanto os pesos
dever˜ao se modificar. Quanto maior for essa taxa de aprendizado, maior ser´a a
mudan¸ca nos pesos, aumentando a velocidade do aprendizado, o que pode levar
`a uma oscila¸c˜ao do modelo na superf´ıcie de erro. O ideal seria utilizar a maior
taxa de aprendizado poss´ıvel que n˜ao levasse a uma oscila¸c˜ao, proporcionando um
aprendizado mais r´apido.
O treinamento das redes MLP com backpropagation pode demandar muitos
passos no conjunto de treinamento, resultando um tempo de treinamento
consideravelmente longo. Se for encont rado um m´ınimo local, o erro para o conjunto
de treinamento p´ara de diminuir e estaciona em um valor maior que o aceit´avel. Uma
maneira de aumentar a t axa de aprendizado sem levar `a oscila¸c˜ao ´e modificar a regra
delta generalizada para incluir o termo de momento, uma constante que determina o
efeito das mudan¸cas passadas dos pesos na dire¸c˜ao atual do movimento no espa¸co de
pesos. Desta forma, o termo de momento leva em considera¸c˜ao o efeito de mudan¸cas
anteriores de pesos na dire¸c˜ao do movimento atual no espa¸co de pesos, tornando-se
´util em espa¸cos de erro que contenham longas gargantas, com curvas acentuadas ou
vales com descidas suaves.
As redes Perceptron de M´ultiplas Camadas s˜ao excelentes pa ra classifica¸c˜ao de
padr˜oes e para realizar aproxima¸c˜ao de fun¸c˜oes, o que significa que, a partir de um
grupo de amostras de pontos pertencentes a uma fun¸c˜ao, a rede neural consegue