CoPEP

Apreçamento de opções sobre taxa de câmbio R$/US$ negociadas no Brasil: uma comparação entre os modelos Black e redes neurais artificiais

1. Introdução O desenvolvimento do modelo de Black-Scholes (BS) (BLACK e SCHOLES, 1973), na década de 1970, representou um grande avanço na teoria de finanças. A partir de um conjunto de hipóteses, Fischer Black e Myron Scholes obtiveram um método para apreçar opções europeias sobre ações que não pagam dividendos, sendo o prêmio de uma call e de uma put uma função do preço do ativo objeto, preço de exercício, tempo de maturidade, taxa de juro livre de risco e volatilidade do preço do ativo objeto. Tais hipóteses são baseadas nos seguintes pontos: * o preço da ação segue um movimento geométrico browniano, em que a distribuição de probabilidade dos preços é lognormal, com média e variância constantes; * a taxa de juro livre de risco de curto prazo é conhecida e constante para qualquer vencimento; * a volatilidade dos retornos do ativo objeto é constante até o vencimento; * há possibilidade de emprestar e tomar emprestado à mesma taxa de juro livre de risco; * inexiste o pagamento de dividendos durante a vida da opção; * o ativo objeto do contrato é perfeitamente divisível, sendo sua negociação contínua e não possui custos de transação ou impostos; * não se verificam oportunidades de arbitragem sem risco.

Vale observar que extensões do modelo BS foram desenvolvidas. Exemplos disso são Merton (1973), que ajustou tal modelo para a possibilidade de pagamento de dividendos nas ações, e Black (1976), que estendeu o método de forma a avaliar opções sobre contratos futuros. Por apresentar hipóteses bastante restritivas, o modelo de BS e suas extensões apresentam alguns vieses sistemáticos, bastante documentados na literatura, que levam a diferenças entre o prêmio calculado pelo modelo e aquele constatado no mercado (BENNEL e SUTCLIFFE, 2004; ANDREOU, CHARALAMBOUS e MARTZOUKOS, 2008).

Com o intuito de superar as limitações dos modelos acima citados, assim como adequar-se aos diversos tipos de contratos que surgiram, a literatura vem desenvolvendo metodologias alternativas para o apreçamento de opções. Nesse processo de evolução, modelos não paramétricos baseados em redes neurais artificiais (RNA) vêm ganhando espaço na literatura de finanças. Trata-se de uma técnica computacional inspirada no funcionamento do sistema nervoso biológico humano, motivada para a compreensão de padrões de diferentes naturezas, adequada para a modelagem de relações do tipo entrada-saída (input- output). As vantagens dos modelos de RNA resumem-se no fato de não dependerem das hipóteses restritivas a que os modelos paramétricos estão submetidos, além de terem a capacidade de modelar relações não lineares e de serem aplicáveis a qualquer tipo de opção, conferindo-lhes alta flexibilidade. Por outro lado, uma restrição do modelo de RNA baseia-se na necessidade de uma quantidade de dados históricos elevada, a fim de que o processo de aprendizado e generalização das relações do passado para o presente sejam eficazes (HAYKIN, 2001).

Malliaris e Salchenberger (1993) e Hutchinson, Lo e Poggio (1994) foram os pioneiros na aplicação de RNA no apreçamento de opções. Essa primeira pesquisa, que utilizou modelos de RNA e BS, obteve o prêmio das opções sobre índice de ações S&P 100 negociadas durante o primeiro semestre de 1991. Os resultados indicaram um melhor desempenho do método de redes neurais nas opções fora do dinheiro. Já o segundo estudo utilizou RNA e BS para apreçamento e aplicação da operação delta-hedge nas opções sobre futuros do índice S&P 500, no período de 1987 a 1991, indicando, em grande parte das análises, superioridade das redes neurais.

A partir dos dois trabalhos acima descritos, várias pesquisas foram conduzidas, sendo essas, em grande parte, direcionadas para as opções sobre ações ou índices de ações. Como exemplo, no mercado norte-americano, podem ser citados Qi e Maddala (1996), Geigle e Aronson (1999), Garcia e Gençay (2000), Ghaziri, Elfakhani e Assi (2000), Gençay e Qi (2001) e Andreou, Charalambous e Martzoukos (2008). Em geral, os autores aplicaram modelos de redes neurais para apreçamento de opções sobre o índice S&P 500, tendo resultados superiores em comparação com aqueles obtidos pela fórmula analítica de Black-Scholes.

Análises similares foram realizadas nos mercados do Reino Unido por De Freitas et al.(2000), Healy et al.(2002) e Bennel e Sutcliffe (2004), os quais apontaram melhor desempenho do método de inteligência artificial para apreçar as opções sobre o índice FTSE 100, em contraposição aos modelos tradicionais de avaliação. Vale ainda citar estudos feitos com opções sobre índices de ações negociadas nos mercados: da Alemanha - Anders, Korn e Schmitt (1998), Hanke (1999) e Ormoneit (1999); da Suécia - Amilon (2003); de Taiwan - Lin (2005); do Japão - Yao, Li e Tan (2000); da Austrália - Lajbcygier et al.(1996); do Brasil - Freitas e Souza (2002). A aplicação de modelos de inteligência artificial também foi realizada, em menor escala, em opções sobre taxa de juros (WHITE, 1998) e sobre taxa de câmbio (CARELLI, SILANI e STELLA, 2000).

Embora a superioridade dos modelos de redes neurais, em comparação aos métodos usuais de apreçamento de opções, seja quase um consenso entre os pesquisadores, Callen et al. (1996) afirmam que essas técnicas não apresentam, necessariamente, os melhores resultados em relação aos modelos lineares de séries temporais. Com isso, é necessária a condução de estudos para diferentes mercados e com a utilização de diferentes modelos de redes neurais na tentativa de analisar se existe superioridade em relação ao modelo de Black-Scholes.

Diante desse contexto, neste artigo teve-se o objetivo de aplicar um modelo de rede neural multicamadas, com base no algoritmo de retropropagação do erropara atualização dos parâmetros, para valoração das opções de compra sobre taxa de câmbio R$/US$, negociadas na Bolsa de Valores, Mercadorias & Futuros (BM&FBovespa), no período de 2004 a 2007. A fim de avaliar tal modelo, as opções também foram apreçadas pelo modelo de Black, metodologia mais utilizada pelos agentes no mercado brasileiro para opções sobre moeda estrangeira. Em seguida, os resultados foram comparados com os prêmios observados no mercado com base em métricas usuais de erro e testes estatísticos. Neste trabalho, insere-se uma contribuição importante na literatura, uma vez que as abordagens usuais não costumam avaliar os resultados dos modelos com testes estatísticos, mas apenas com as métricas tradicionais de erro de previsão. Além disso, o mercado de opções brasileiro ainda apresenta poucos estudos nessa área, assim como não se verificam aplicações para o tipo de opção avaliado no presente artigo, o que amplia a relevância do estudo que visa aprimorar o apreçamento de tais contratos no mercado em consideração.

2. Metodologia 2.1. Amostra A base de dados deste trabalho correspondeu aos preços de fechamento das opções europeias de compra sobre taxa de câmbio R$/US$, negociadas na BM&FBovespa, para diferentes prazos e preços de exercícios, no período de 02 de janeiro de 2004 a 31 de dezembro de 2007 - total de 1.001 dias de negócios e 4.642 observações1. Para cada opção, obteve-se o preço de exercício, o número de contratos negociados, o prazo para o vencimento em dias úteis, o valor de fechamento para cada opção e o preço do contrato futuro de mesmo prazo da opção2. A amostra utilizada foi composta pelos papéis que tiveram mais de 500 contratos negociados, ou seja, selecionaram-se as calls mais líquidas transacionadas no mercado. Nas subseções seguintes, apresentam-se os métodos de apreçamento utilizados na pesquisa.

2.2. Modelo de Black Como mencionado anteriormente, a partir de um conjunto de hipóteses, Black e Scholes (1973) propuseram um modelo para cálculo dos prêmios de calls (c) e puts (p) europeias sobre ações que não pagam dividendos, dadas pelas equações [1] e [2], respectivamente.

[/img/revistas/rausp/v47n1/v47n1a07ex2.jpg]

em que:

[/img/revistas/rausp/v47n1/v47n1a07ex3.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex4.jpg]

sendo: S o preço à vista (spot) do ativo subjacente à opção; X o preço de exercício; T o prazo de vencimento, em anos (base 252 dias úteis); σ a volatilidade do ativo objeto (ao ano); r a taxa de juro de curto prazo livre de risco (ao ano e capitalizada continuamente); N(.) a função de probabilidade Normal cumulativa.

A partir da descrição acima, Merton (1973) estendeu o modelo para inclusão de pagamento de dividendos nas ações e Black (1976) desenvolveu as fórmulas analíticas que permitem a avaliação de opções sobre contratos futuros - equações [5] e [6], em que o preço spot, S, é substituído pelo preço futuro, F.

[/img/revistas/rausp/v47n1/v47n1a07ex5.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex6.jpg]

em que:

[/img/revistas/rausp/v47n1/v47n1a07ex7.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex8.jpg]

Garman e Kohlhagen (1983) fizeram ainda algumas modificações de forma a contemplar o apreçamento de opções sobre taxa de câmbio. No entanto, o modelo de Black, acima descrito, assim como modelos próprios baseados nas fórmulas de Black-Scholes ajustados às condições de mercado e inclusive modelos de RNA, são utilizados no mercado financeiro brasileiro para obtenção dos prêmios das opções de dólar. Assim sendo, no presente estudo fez-se uso do modelo Black como benchmark, sendo, então, as variáveis consideradas: preço de exercício (X); tempo até o vencimento, ao ano, base 252 dias úteis (T); preço do contrato futuro de taxa de câmbio R$/US$ de mesmo vencimento da opção (F); taxa de juros prefixada (ao ano) e volatilidade da opção (F).

Cabe salientar como as últimas variáveis (taxa de juros e volatilidade) foram dimensionadas no presente trabalho.

É comum verificar que, em diversas séries financeiras, a hipótese de homocedasticidade (variâncias condicionais do termo errático,ui, constantes), adotada em vários modelos econométricos, é inapropriada. Constata-se, em geral, que períodos de grandes oscilações de preços são seguidos por intervalos de tempo de relativa estabilidade nas cotações, levando a uma variação da volatilidade ao longo do tempo. Nesse contexto, Engle (1982) desenvolveu o modelo ARCH (Autoregressive Conditional Heteroscedasticity), com o objetivo de estimar a volatilidade de séries com as características citadas acima, expressando a variância condicional em termos do quadrado dos retornos passados. Posteriormente, Bollerslev (1986) estendeu o modelo ARCH, com o desenvolvimento do modelo GARCH (Generalized ARCH), em que a variância condicional passa a depender do quadrado dos retornos passados e das variâncias condicionais passadas (ENDERS, 2004).

Além de esse modelo apresentar resultados mais robustos, em comparação aos tradicionais, a literatura mostra que os modelos de volatilidade determinística, mencionados acima, apresentam melhores resultados, quando comparados à metodologia da volatilidade histórica (MORAIS e PORTUGAL, 1999; JORION, 2003). Dessa forma, no presente trabalho, a estimação da volatilidade do dólar foi calculada com base em um processo GARCH (1,1), equação [9], em que a variância condicional do termo errático depende do termo de erro quadrático e da variância condicional, definidos no instante anterior, t - 1.

[/img/revistas/rausp/v47n1/v47n1a07ex9.jpg]

A razão da adoção do GARCH (1,1) baseia-se em sua parcimônia e em sua boa adequação aos dados. Além disso, conforme Silva, Sáfadi e Castro Júnior (2005), poucas restrições nos parâmetros são observadas nesse modelo - para a variância ser positiva e fracamente estacionária, é preciso que α1 + α2 < 1; α0 > 0; α1 > 0; α2 > 03.

Quanto ao cômputo da taxa de juros, adotou-se a metodologia de interpolação por splinescúbicos. Monteiro e Salles (2002) compararam diferentes processos de interpolação de taxas de juro no mercado brasileiro e, com base num critério de seleção que combina estratégias de reamostragem do tipo leave-k-out cross- validation, mostraram que, a partir dos contratos futuros de juros e swaps, o método de interpolação mais adequado à realidade brasileira foi baseado nos splines cúbicos. Trata-se de uma metodologia que busca estimar a curva de juro a partir de preços observados de ativos negociados em função de suas respectivas maturidades e de informações a priori sobre a natureza da curva de juros.

O principal objetivo do modelo por splines é a construção da curva de juros, via interpolação. Considerem-se os pontos y1 = g(x1),..., yn = g(xn), em que a = x1 < ... < xn = b. O problema de interpolação consiste em construir uma função contínua fque permita o cálculo de g(z), sendo z um ponto interior no intervalo definido por ae b4. Neste trabalho, g(xj) é a taxa de juro pré versusDI dos contratos de swap, registrados na BM&FBovespa, para a maturidade xj5. Sendo f um splinecúbico, para cada intervalo {xj, xj+1}, f deve ser igual a um polinômio cúbico Pj, da forma:

[/img/revistas/rausp/v47n1/v47n1a07ex10.jpg]

É necessário que f seja contínua e com derivadas, primeira e segunda, contínuas no intervalo [a, b]. Além disso, f deve ser igual ag nos pontos x1,..., xn (MONTEIRO e SALLES, 2002). Para satisfazer essas condições, impõem-se as seguintes condições:

[/img/revistas/rausp/v47n1/v47n1a07ex11.jpg]

Em que s1,..., snsão parâmetros a serem delimitados pelo modelo6. Uma vez fixados os valores desses parâmetros, Pjestará determinado e a construção de f será finalizada7. Com todas as entradas do modelo de Black obtidas, o próximo passo consiste em determinar o modelo de rede neural aplicado para precificar as opções de compra de dólar consideradas.

2.3. Redes neurais artificiais As redes neurais artificiais (RNA) são modelos computacionais não lineares que constituem sistemas de processamento distribuído paralelo que, por serem baseados no funcionamento do sistema nervoso biológico, possuem propensão natural de armazenar conhecimento experimental (HAYKIN, 2001). Assim como o cérebro humano é capaz de transmitir e/ou armazenar informações por meio de impulsos nervosos entre os neurônios, as RNAs possuem conexões interneurais, representadas por pesos sinápticos, com função de armazenar e processar o conhecimento.

Além de considerarem as não linearidades presentes entre as entradas e as saídas, as RNAs possuem características bastante atraentes. A primeira delas baseia-se no fato de não requererem a prioriinformações sobre o modelo, pois aprendem a partir de exemplos e, assim, capturam relações funcionais entre os dados, mesmo se tais relações sejam dificilmente descritíveis. Para que uma RNA possa aprender e garantir um bom desempenho no resultado, o conjunto de dados disponíveis deve ser suficientemente grande. Nesse sentido, esses modelos podem ser tratados como um método estatístico multivariado não paramétrico e não linear. Já a segunda característica tem relação com sua capacidade de generalização. Após a fase de aprendizagem, quando já possuem algum conhecimento sobre as características do conjunto de dados, as RNAs conseguem inferir sobre o comportamento da população mesmo se os dados amostrais contêm ruído nas informações (Zhang, Patuwo e Hu, 1998).

A unidade básica de processamento de uma RNA é denominada neurônio artificial.

Matematicamente, a saída do neurônio é dada por:

[/img/revistas/rausp/v47n1/v47n1a07ex12.jpg]

sendo x1, x2, ..., xn os sinais de entrada; w1, w2, ..., wn os pesos sinápticos associados a esse neurônio; g(.) a função de ativação8. Neste artigo, a função de ativação adotada é a logística dada por:

[/img/revistas/rausp/v47n1/v47n1a07ex13.jpg]

na qual y representao ponto de inflexão da função e g(z) (0,1).

A organização dos neurônios de uma RNA é feita em camadas, sendo a primeira denominada camada de entrada e a última, camada de saída. O número de camadas intermediárias e o número de neurônios em cada uma delas são escolhidos de acordo com a maior ou menor necessidade de processar as entradas da rede. Assim sendo, os números de camadas e de neurônios aumentam, caso o conjunto de dados exija um processamento mais refinado para capturar características não lineares.

Do ponto de vista estrutural, as RNAs podem ser classificadas como redes neurais estáticas (não recorrentes) ou dinâmicas (recorrentes) (HAYKIN, 2001).

A principal diferença entre as duas estruturas é a presença ou não de conexões que realimentem os neurônios presentes na estrutura da rede. Entre essas estruturas, destacam-se as redes neurais multicamadas (Multi Layer Perceptron- MLP), amplamente utilizadas na literatura e empregadas neste trabalho.

A estrutura (ou arquitetura) da rede MLP consiste de uma camada de entrada, uma ou mais intermediárias e outra de saída. A primeira camada, cujos neurônios são denominados unidades de entrada, difunde as entradas para as camadas seguintes sem modificação alguma. As camadas intermediárias transmitem informações por meio das conexões entre a entrada e a saída da rede. Os neurônios a ela pertencentes são denominados unidades intermediárias. Finalmente, a camada de saída transmite a resposta da rede neural à entrada mediante os neurônios denominados de unidades de saída. A figura_1 ilustra a arquitetura de uma rede neural MLP com uma camada intermediária com k neurônios e m neurônios na camada de saída (BALLINI, 2000).

[/img/revistas/rausp/v47n1/v47n1a07fig1.jpg]

Para o ajuste dos parâmetros (pesos)9 da rede neural MLP, o método mais difundido e utilizado na literatura é o de retropropagação do erro (backpropagation) (RUMELHART e MCCLELLAND, 1986). Esse método consiste em duas fases. Na primeira, conhecida como fase de propagação direta (forward), as entradas são apresentadas e propagadas pela rede, camada a camada, calculando a saída de cada neurônio. Durante essa fase, os pesos são fixos e a saída calculada é comparada com a saída desejada, resultando em um erro para cada unidade de saída. Na segunda fase, o erro calculado é propagado da camada de saída para a camada de entrada, fase de propagação reversa (backward), e os pesos são ajustados de acordo com a regra de correção do erro, originando o termo retropropagação do erro. A segunda fase pode ser formulada como um problema de otimização não linear irrestrita, sendo os pesos sinápticos as variáveis de decisão. O objetivo é minimizar o somatório dos erros quadráticos de todos os neurônios de saída. No algoritmo de retropropagação tradicional, para resolver o problema de otimização, adota-se o método do gradiente descendente, que considera apenas condições de primeira ordem a partir da função objetivo. Além disso, a inicialização dos pesos foi obtida de acordo com o algoritmo de geração de números aleatórios do softwareMatlab®. Apesar de existirem outras técnicas de inicialização dos pesos, conforme Chan, Lam e Wong (2000), os pesos aleatórios gerados inicialmente por essa técnica não impedem a convergência do algoritmo de treinamento.

Dessa forma, o objetivo do processo de treinamento é ajustar os parâmetros livres (pesos) da rede, minimizando uma função objetivo representada pelo erro quadrático médio, ou seja:

[/img/revistas/rausp/v47n1/v47n1a07ex14.jpg]

sendo E a função da medida do erro total da rede, N o número de padrões10 apresentados à rede, m o número de neurônios na camada de saída, dlia saída desejada e ylia saída gerada pela rede, para o l-ésimo padrão.

O método de retropropagação aplica uma correção ∆wijaos pesos sinápticos wij proporcional à direção oposta ao gradiente ∂E/∂∆wij, definida pela regra delta como segue:

[/img/revistas/rausp/v47n1/v47n1a07ex15.jpg]

em que, os índices iej referem-se ao neurônio i da camada posterior e ao neurônio j da camada anterior e η é uma constante de proporcionalidade, chamada taxa de aprendizagem, a qual assume valores no intervalo (0, 1). Essa taxa determina a velocidade do passo em direção ao mínimo da função de erro E. Um valor elevado de η produzirá uma rápida convergência, resultando em grandes alterações nos pesos. Entretanto, aumentará o risco de a rede tornar-se instável, podendo oscilar ao redor da solução. Por outro lado, se η assumir valores pequenos, as mudanças nos pesos serão menores, requerendo mais iterações até a convergência11.

2.3.1. Rede neural MLP para apreçamento de opções Construiu-se um modelo de apreçamento para as opções de compra de dólar no Brasil usando uma rede neural MLP com base nas principais variáveis que influenciam o preço desse ativo: preço futuro do dólar no mercado (F), preço de exercício da opção (X), tempo para o vencimento da opção (T), volatilidade do preço futuro do dólar (s) e taxa de juro livre de risco (r)12. Escolheram-se essas variáveis por serem as mesmas utilizadas pelo modelo de Black para o apreçamento de opções, sendo a volatilidade estimada por um processo GARCH (1,1) e a taxa de juro livre de risco obtida pelo método de interpolação via splines cúbicos13.

Na literatura sobre redes neurais, não existe uma técnica que especifique qual é a estrutura ideal, ou seja, qual o número de camadas intermediárias e o número de neurônios nessa camada que resulte nos melhores resultados. Portanto, o processo envolve escolhas empíricas que variam de acordo com a especificidade dos dados e o objetivo de estimação e previsão (KAASTRA e BOYD, 1996).

Neste trabalho, para a seleção da estrutura de rede neural mais adequada e para estimar os pesos sinápticos da rede neural MLP, o conjunto total de dados foi particionado em três subconjuntos denominados de: treinamento, validação e teste. O subconjunto de treinamento é usado durante a fase de estimação dos parâmetros da rede. O subconjunto de validação é empregado para avaliar a evolução do desempenho da rede durante a fase de ajuste dos parâmetros. Já o conjunto de teste é utilizado após a determinação da estrutura mais adequada, sendo esse o período propriamente dito de previsão (BALLINI, 2000). Os conjuntos treinamento, validação e teste possuem um total de 75%, 15% e 10% do total da amostra, respectivamente. O conjunto teste tem, essencialmente, a função de diagnosticar o modelo de rede estimado, uma vez que o nível de erro nessa amostra implica se o modelo está bem especificado ou não.

Assim, a partir dos conjuntos de treinamento e de validação, o número de camadas intermediárias foi determinado pelo menor erro quadrático médio. Para a determinação do número de neurônios intermediários, foram utilizados os critérios de informação e qualidade de ajuste propostos por Akaike (1974), Shibata (1976), Schwarz (1978) e Hannan e Quinn (1979), baseados no erro quadrático médio, definidos como (LAURENT e PETERS, 2001):

[/img/revistas/rausp/v47n1/v47n1a07ex16.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex17.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex18.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex19.jpg]

em que EQMrepresenta o erro quadrático médio, EQM= , sendo c o preço de fechamento, observado no mercado, da opção de compra de dólar, c^o preço teórico obtido pelos modelos, N o número de observações e K o número de neurônios na camada intermediária. Esses critérios apresentam um compromisso entre a minimização do erro quadrático médio e a complexidade da rede (número de neurônios da camada intermediária)14, por isso foram selecionados neste trabalho, além de serem amplamente difundidos na literatura, porém, outras técnicas podem ser verificadas em Medeiros, Teråsvirta e Rech (2006).

2.4. Métricas de erro Os preços teóricos das opções, obtidos por meio de cada modelo, foram comparados com os preços observados no mercado. Para avaliação dos modelos, utilizaram-se o erro percentual médio (EPM), o erro percentual máximo (EPmax), a raiz do erro quadrático médio (REQM) e o coeficiente de desigualdade de Theil (TIC)15:

[/img/revistas/rausp/v47n1/v47n1a07ex20.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex21.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex22.jpg]

[/img/revistas/rausp/v47n1/v47n1a07ex23.jpg]

em que c representa o preço de fechamento, observado no mercado, da opção de compra de dólar, c^o preço teórico obtido pelos modelos e N o número total de observações. Cabe observar que EPM e EPmax são descritos em termos percentuais e REQM em termos absolutos.

Os resultados dos modelos ainda foram avaliados de acordo com o grau de moneyness (M) das opções, sendo esse definido pela relação entre o valor presente do preço de exercício da opção e o preço a vista do ativo objeto:

[/img/revistas/rausp/v47n1/v47n1a07ex24.jpg]

sendo S a cotação da PTAX. Nesse caso, as opções da amostra teste foram divididas conforme o grau de moneyness: out-of-the-money (M ≤ 1 - α%), at-the- money (1 - α% < M < 1 + α%)e in-the-money(M > 1 + α%), considerando α = 5%.

Além disso, calculou-se o coeficiente de determinação, R2, da regressão linear dos preços das opções observadas no mercado sobre os preços teóricos:

[/img/revistas/rausp/v47n1/v47n1a07ex25.jpg]

na qual ϕ1e ϕ2são os parâmetros linear e angular da regressão, respectivamente, e ζt um ruído branco.

Os resultados empíricos na literatura baseiam-se extensivamente em medidas padrões de acurácia, como as métricas de erro apresentadas (EPM, EPmax, REQM, TIC), e não levam em conta a superioridade de um modelo em relação a outro em termos de significância estatística. Assim, foram aplicados testes paramétricos (AGS e MGN) e não paramétricos (SIGN) para verificar se existe diferença estatisticamente significativa entre os resultados dos modelos avaliados. Esses testes são apresentados a seguir.

2.4.1. Teste AGS O teste paramétrico aqui descrito baseia-se no trabalho de Ashley, Granger e Schmalensee (1980), denominado teste AGS. Esse teste permite a avaliação da existência de significância estatística entre a diferença do erro quadrático médio (EQM) entre modelos de previsão. Seja ∆eiB,RNA a diferença entre os erros de previsão obtidos pelos modelos de Black e de redes neurais, eiBe eiRNA, respectivamente. Assim:

[/img/revistas/rausp/v47n1/v47n1a07ex26.jpg]

sendo i =1, ...,N. Define-se, ainda, SiB,RNAa soma dos erros de previsão e µSa média amostral de SiB,RNA. O teste pode ser descrito segundo a equação:

[/img/revistas/rausp/v47n1/v47n1a07ex27.jpg]

na qual υié um processo de ruído branco, que se resume em uma sequência de erros aleatórios com média e variância constantes.

O teste AGS mostra que β1 representa a diferença entre os erros quadráticos médios de previsão obtidos pelos modelos e β2é proporcional à diferença entre as variâncias dos erros de previsão dos modelos. O teste de significância tem como hipótese nula H0: β1 = β2 = 0, enquanto a hipótese alternativa consiste em H1: β1 > 0 e/ou β2 > 0. A estatística para este teste, obtida por meio da estimação da equação [27], tem distribuição F com 2 e (N - 2) graus de liberdade, assumindo normalidade para os erros16. A rejeição da hipótese nula indica que o modelo rede neural supera o método de Black.

2.4.2. Teste MGN Nesta subseção, é descrito outro teste paramétrico para igualdade entre acurácia de previsão. Trata-se do teste de Morgan-Granger-Newbold (teste MGN), baseado inicialmente no trabalho de Granger e Newbold (1977). A utilização desses testes é recomendada para avaliar modelos de predição e quando se relaxa a assunção de não existência de correlação entre os erros dos modelos. O teste estatístico para esse teste pode ser calculado como:

[/img/revistas/rausp/v47n1/v47n1a07ex28.jpg]

em que ρ^s∆é o coeficiente de correlação estimado entre SiB,RNAe ∆eiB,RNA, e N representa o número de observações. A estatística para o teste MGN tem distribuição tcom (N - 1) graus de liberdade. Para esse teste, se as previsões são igualmente acuradas, então a correlação entre SiB,RNA e ∆eiB,RNA será zero (hipótese nula).

2.4.3. Teste SIGN O Significance Test(teste SIGN), derivado do trabalho de Lehmann (1988), é uma avaliação não paramétrica para modelos de predição que não requer suposições como normalidade e não correlação serial dos erros. A estatística para esse teste pode ser calculada como:

[/img/revistas/rausp/v47n1/v47n1a07ex29.jpg]

o termo ψt denotando o número de vezes em que, neste caso, os erros do modelo de Black superaram aqueles derivados do modelo de rede neural. A hipótese nula é H0: ψ(N) = (N/2), contra a hipótese alternativa de que H1: ψ(N) > (N/2).

Assume-se que Né o número de observações previstas por ambos os modelos e, se os erros de previsão do modelo de Black são da mesma proporção que os do modelo de rede neural em exatamente (N/2) observações, de acordo com o teste SIGN, a acurácia dos modelos pode ser considerada equivalente, sem diferença estatisticamente significativa. Entretanto, se a proporção de erros do modelo de Black supera os do modelo de rede neural numa proporção maior que (N/2), o teste indica que o modelo de Black é menos acurado que o modelo de rede neural.

A estatística para o teste SIGN tem distribuição Normal com média zero e variância unitária. Assim, se a estatística SIGN é significativamente elevada, a hipótese nula de equivalência de predição pode ser rejeitada em favor da hipótese alternativa.

3. Análise e Discussão dos Resultados Para confrontar o desempenho do modelo baseado em redes neurais com a fórmula analítica de Black, foram comparados os preços teóricos das opções obtidos por meio de cada modelo com os preços observados no mercado. Nessa comparação, os dados utilizados pertenceram ao grupo de teste da estruturação da rede neural, uma vez que o conjunto treinamento e validação foram utilizados para determinar a estrutura de rede mais adequada, estimar os pesos sinápticos e aprender o processo gerador dos preços de compra das opções de dólar. Dessa forma, o conjunto teste, ou conjunto de previsão, permitiu avaliar a capacidade de aprendizado e generalização da rede para precificar as opções com dados de entrada nunca antes apresentados à rede. O conjunto teste foi composto por negociações que se iniciam em 04 de outubro de 2007 e vão até 31 de dezembro de 2007, totalizando 466 observações.

Na tabela_1, apresentam-se os resultados de escolha do número de neurônios intermediários. De acordo com essa tabela, nota-se que os critérios de informação mostraram que a rede composta por seis neurônios na camada intermediária apresentou os melhores resultados, exceto para o critério de Shibata, que indicou cinco neurônios. Verificou-se que, com o aumento do número de neurônios, a complexidade da rede aumentava, mas seu desempenho declinava.

Portanto, construiu-se um modelo de rede neural multicamadas, constituído por cinco neurônios compondo a camada de entrada, seis neurônios na camada intermediária e uma camada de saída com um neurônio, representando o preço da opção. Na figura_2, apresenta-se o modelo de rede neural aplicado para o apreçamento das opções avaliadas.

[/img/revistas/rausp/v47n1/v47n1a07fig2.jpg]

O número de épocas (iterações) foi 30017, com base na aprendizagem padrão a padrão, com um nível de erro de 10-4, uma vez que são níveis de erro aceitáveis para um modelo de estimação e previsão de séries temporais financeiras. Por fim, a taxa de aprendizagem foi fixada em 0,6.

Na tabela_2 são apresentados os resultados dos valores das métricas de erro, definidas na seção 2.4, para os modelos teóricos avaliados, assim como o coeficiente de determinação da regressão dos preços do mercado sobre os preços teóricos.

Por meio da avaliação dos erros (tabela_2), é possível verificar que o modelo de redes neurais apresentou preços teóricos mais próximos aos preços de mercado, explicando o baixo EPM, EPmax e REQM, em comparação ao modelo de Black. O coeficiente de desigualdade de Theil (TIC) mostrou um ajuste superior do modelo de rede neural aos dados das opções, pois apresentou um valor bem mais próximo de zero em comparação ao modelo de Black. Adicionalmente, o coeficiente de determinação da equação [25], regressão dos preços de mercado sobre os preços teóricos, confirmou as análises expostas acima, dado o maior R2 quando utilizados os prêmios gerados pelo modelo de RNA. Nessa última análise, cabe notar que os preços do mercado não foram explicados fundamentalmente pelos preços teóricos, o que leva a concluir que outros fatores estariam determinando os prêmios dessas opções.

De forma complementar, na tabela_3 apresentam-se os valores das métricas de erro para toda a amostra (4.642 observações), divididas nos conjuntos de treinamento, validação e teste18. Os resultados mostram que o baixo desempenho do modelo de Black foi observado em toda a amostra dos dados. Os erros desse modelo apresentaram-se relativamente iguais nos três conjuntos de dados, uma vez que não faz diferença a distinção entre eles para a aplicação da fórmula analítica. Entretanto, como era de esperar, nos conjuntos treinamento e validação, para a rede neural, os erros foram menores, se comparados aos próprios resultados do conjunto teste da rede neural e aos resultados do modelo de Black, visto que foram os dados apresentados à rede e que a estruturaram de forma a convergir para o nível de erro estipulado, de acordo com o processo de aprendizagem supervisionado.

Vale observar que as médias dos erros para os dois modelos foram elevadas e significativamente diferentes de zero para o período teste (04 de outubro de 2007 a 31 de dezembro de 2007). Além disso, algumas previsões apresentaram erros relativos superiores a 100%, de acordo com o EPmax, indicando uma inadequação dos modelos para o apreçamento, como também o possível caso de erros grosseiros de informação. Esses dados podem ser vistos como outliers, mas, mesmo assim, continuaram na amostra, uma vez que se intencionou uma modelagem de caráter geral. Também, no período avaliado, a dinâmica de comportamento do ativo objeto, preço do dólar, não apresentou um movimento adverso capaz de explicar tais resultados, como uma reversão nas expectativas dos agentes, ou até mesmo a verificação de um fator exógeno que se reverteu numa inflexão da tendência do movimento da taxa cambial entre o dólar e o real.

Foram avaliados, ainda, os resultados dos modelos de acordo com o grau de moneyness (M) das opções. Verificou-se que 43% das opções da amostra teste estavam dentro do dinheiro, enquanto 31% e 26% estão no dinheiro e fora do dinheiro, respectivamente. Na tabela_4, apresentam-se os resultados das métricas de erro para o conjunto da amostra teste de acordo com o grau de moneyness das opções. Ambos os modelos, de Black e de rede neural, foram mais acurados no apreçamento das opções in-the-money. Os maiores níveis de erros foram verificados nas opções out-of-the-money, principalmente para o modelo de Black. Na amostra que compõe as opções at-the-money, os resultados dos modelos foram mais semelhantes, como se pode perceber pelas métricas do EPM e do EPmax.

Nota-se, de forma geral, nos diferentes graus de moneyness, que os resultados do modelo de RNA foram superiores em com- paração ao modelo de Black.

Para as opções out-of-the-money, os resultados do modelo de rede neural destacaram-se por sua superioridade em relação ao modelo de Black. No gráfico_1 (partes a e b), página 106, como forma de ilustrar o fato acima citado, foi analisada a evolução dos prêmios de mercado e dos prêmios teóricos de uma série fora do dinheiro com alta liquidez - strikede R$ 2.000 e vencimento em janeiro de 2008.

É possível observar o bom desempenho obtido pelo modelo de redes neurais para a avaliação das opções estudadas. Constata-se que, para as opções com vencimentos mais curtos, os modelos teóricos apresentaram resultados similares, porém o modelo de Black resultou em erros de apreçamento maiores de acordo com a elevação da maturidade da opção.

Apesar dos resultados favoráveis ao modelo de inteligência artificial, é necessário verificar se a diferença entre os erros obtidos pelos modelos é estatisticamente significativa. A tabela_5 elucida essa análise por meio dos resultados dos testes AGS, MGN e SIGN.

O resultado do teste AGS, que examina os erros de previsão em termos do erro quadrático médio dos modelos avaliados (sendo o modelo de Black tomado como benchmark), indicou que o modelo de rede neural apresentou superioridade significativa na precificação das opções de compra de dólar no Brasil. O nível de significância apresentado (0,0001) indicou a rejeição da hipótese nula, ou seja, os erros do modelo de rede neural foram inferiores em comparação aos do modelo de Black, em termos estatísticos. Contudo, o resultado do teste MGN não apresentou evidência significativa da melhor adequação do modelo de rede neural. Neste caso, a significância do teste MGN permitiu aceitar a hipótese nula e inferir que os modelos foram igualmente acurados. Por fim, o teste não paramétrico (SIGN) mostrou a superioridade do modelo de rede neural para a precificação das opções, rejeitando a equivalência de predição dos modelos.

Esses testes foram também conduzidos nos diferentes graus de moneyness das opções, conforme consta na tabela_6. Os resultados obtidos confirmaram as observações anteriores, exceto para as opções fora do dinheiro. O teste AGS indicou a melhor adequação do modelo de redes neurais para a precificação das opções em questão para todos os graus de moneyness, apresentando níveis de significância baixos, que indicam a rejeição da hipótese nula. O mesmo resultado verificou-se com o teste SIGN. Já o teste MGN indicou que os resultados do método de inteligência artificial foram estatisticamente mais acurados que os do modelo de Black apenas para as opções out-of-the-money.

Os resultados apresentados evidenciam que o modelo de rede neural proposto ajusta-se melhor ao mercado de opções de compra de dólar no Brasil, em comparação ao método de Black, modelo bastante utilizado pelos agentes de mercado. O modelo de Black apresentou piores resultados nas opções com baixo grau de moneyness, e o modelo de rede neural resultou em preços teóricos muito próximos aos preços reais para os mesmos papéis, evidenciando sua superioridade.

4. Conclusões O apreçamento de ativos financeiros apresenta inúmeras dificuldades para os agentes econômicos em geral, uma vez que tais preços são influenciados por choques econômicos, políticos e internacionais, que fazem com que os modelos tradicionais não sejam suficientes para explicar os valores desses ativos transacionados nos mercados, como também os próprios modelos são baseados em hipóteses que não se verificam na realidade. Dessa forma, a chamada engenharia financeira vem apresentando diversas alternativas para avaliação desses instrumentos, como o método de redes neurais. As redes neurais artificiais possuem a habilidade de modelar padrões não lineares e aprender com base em dados históricos. Sua aplicação para apreçamento de opções tem sido apresentada pela literatura e os resultados encorajam a utilização desse modelo, em comparação aos modelos mais tradicionais como o de Black-Scholes e seus derivados.

Nesse sentido, o objetivo neste trabalho foi analisar o apreçamento de calls sobre taxa de câmbio R$/US$, negociadas na BM&FBovespa, mediante o uso de técnica de redes neurais, comparando os resultados com os do modelo de Black.

Foram avaliadas as opções para o período de 2004 a 2007, num total de 4.642 observações. Estruturou-se um modelo de rede neural multicamadas com algoritmo backpropagation para atualização dos pesos sinápticos. As mesmas opções foram precificadas pelo modelo de Black, considerado como benckmark. Os modelos consideraram as variáveis fundamentais que afetam o preço de uma opção: preço do ativo objeto, preço de exercício, taxa de juro livre de risco, prazo de vencimento da opção e volatilidade. A taxa de juro livre de risco foi obtida pelo método de interpolação de splines cúbicos e a volatilidade estimada por um processo GARCH (1,1). Os resultados dos modelos, isto é, preços teóricos, foram comparados com os preços reais observados no mercado por meio do erro percentual médio, erro percentual máximo e raiz do erro quadrático médio e do coeficiente de desigualdade de Theil, assim como com testes estatísticos paramétricos (AGS e MGN) e não paramétricos (SIGN).

Os resultados mostraram que os preços das opções de compra de dólar comercializadas no mercado brasileiro são obtidos mais acuradamente por meio do modelo proposto de rede neural. Os valores relativamente baixos das métricas de erro permitiram inferir a superioridade do modelo em comparação aos resultados da fórmula analítica de Black. Entretan- to, a regressão dos preços de mercado sobre os preços teóricos mostrou que os preços de mercado não são fundamentalmente explicados pelos preços teóricos, o que implica erros de avaliação do mercado ou do próprio modelo e, dessa forma, pode permitir arbitragem pelos agentes. Os testes estatísticos AGS e SIGN indicaram a superioridade do modelo de rede neural em termos estatísticos, com nível de significância de 5%, em relação à fórmula analítica de Black. O teste MGN, por sua vez, inferiu igualdade para o resultado dos métodos, exceção feita às opções out-of-the-money.

Deve-se observar que os resultados se limitam a uma amostra de um período específico, o que resulta em algumas limitações e, além disso, não foram considerados no modelo Black ajustes de assimetria e curtose por meio de um smilede volatilidade implícita nos preços negociados no mercado. Trabalhos futuros podem avançar na estimação da volatilidade desses contratos, por meio de abordagens de modelos de inteligência artificial, tais como redes neurais.

Assim, esses resultados poderiam ser comparados com estimativas da volatilidade obtidas por meio de modelos de tipo EGARCH ou de volatilidade estocástica, por exemplo, e também com modelos derivados das fórmulas de BS ajustadas às condições de mercado.

Text view

BrBRHUAp0080-21072012000100008

View options