Apreçamento de opções sobre taxa de câmbio R$/US$ negociadas no Brasil: uma
comparação entre os modelos Black e redes neurais artificiais
1. Introdução
O desenvolvimento do modelo de Black-Scholes (BS) (BLACK e SCHOLES, 1973), na
década de 1970, representou um grande avanço na teoria de finanças. A partir de
um conjunto de hipóteses, Fischer Black e Myron Scholes obtiveram um método
para apreçar opções europeias sobre ações que não pagam dividendos, sendo o
prêmio de uma call e de uma put uma função do preço do ativo objeto, preço de
exercício, tempo de maturidade, taxa de juro livre de risco e volatilidade do
preço do ativo objeto. Tais hipóteses são baseadas nos seguintes pontos:
* o preço da ação segue um movimento geométrico browniano, em que a
distribuição de probabilidade dos preços é lognormal, com média e
variância constantes;
* a taxa de juro livre de risco de curto prazo é conhecida e constante para
qualquer vencimento;
* a volatilidade dos retornos do ativo objeto é constante até o vencimento;
* há possibilidade de emprestar e tomar emprestado à mesma taxa de juro
livre de risco;
* inexiste o pagamento de dividendos durante a vida da opção;
* o ativo objeto do contrato é perfeitamente divisível, sendo sua
negociação contínua e não possui custos de transação ou impostos;
* não se verificam oportunidades de arbitragem sem risco.
Vale observar que extensões do modelo BS foram desenvolvidas. Exemplos disso
são Merton (1973), que ajustou tal modelo para a possibilidade de pagamento de
dividendos nas ações, e Black (1976), que estendeu o método de forma a avaliar
opções sobre contratos futuros. Por apresentar hipóteses bastante restritivas,
o modelo de BS e suas extensões apresentam alguns vieses sistemáticos, bastante
documentados na literatura, que levam a diferenças entre o prêmio calculado
pelo modelo e aquele constatado no mercado (BENNEL e SUTCLIFFE, 2004; ANDREOU,
CHARALAMBOUS e MARTZOUKOS, 2008).
Com o intuito de superar as limitações dos modelos acima citados, assim como
adequar-se aos diversos tipos de contratos que surgiram, a literatura vem
desenvolvendo metodologias alternativas para o apreçamento de opções. Nesse
processo de evolução, modelos não paramétricos baseados em redes neurais
artificiais (RNA) vêm ganhando espaço na literatura de finanças. Trata-se de
uma técnica computacional inspirada no funcionamento do sistema nervoso
biológico humano, motivada para a compreensão de padrões de diferentes
naturezas, adequada para a modelagem de relações do tipo entrada-saída (input-
output). As vantagens dos modelos de RNA resumem-se no fato de não dependerem
das hipóteses restritivas a que os modelos paramétricos estão submetidos, além
de terem a capacidade de modelar relações não lineares e de serem aplicáveis a
qualquer tipo de opção, conferindo-lhes alta flexibilidade. Por outro lado, uma
restrição do modelo de RNA baseia-se na necessidade de uma quantidade de dados
históricos elevada, a fim de que o processo de aprendizado e generalização das
relações do passado para o presente sejam eficazes (HAYKIN, 2001).
Malliaris e Salchenberger (1993) e Hutchinson, Lo e Poggio (1994) foram os
pioneiros na aplicação de RNA no apreçamento de opções. Essa primeira pesquisa,
que utilizou modelos de RNA e BS, obteve o prêmio das opções sobre índice de
ações S&P 100 negociadas durante o primeiro semestre de 1991. Os resultados
indicaram um melhor desempenho do método de redes neurais nas opções fora do
dinheiro. Já o segundo estudo utilizou RNA e BS para apreçamento e aplicação da
operação delta-hedge nas opções sobre futuros do índice S&P 500, no período
de 1987 a 1991, indicando, em grande parte das análises, superioridade das
redes neurais.
A partir dos dois trabalhos acima descritos, várias pesquisas foram conduzidas,
sendo essas, em grande parte, direcionadas para as opções sobre ações ou
índices de ações. Como exemplo, no mercado norte-americano, podem ser citados
Qi e Maddala (1996), Geigle e Aronson (1999), Garcia e Gençay (2000), Ghaziri,
Elfakhani e Assi (2000), Gençay e Qi (2001) e Andreou, Charalambous e
Martzoukos (2008). Em geral, os autores aplicaram modelos de redes neurais para
apreçamento de opções sobre o índice S&P 500, tendo resultados superiores
em comparação com aqueles obtidos pela fórmula analítica de Black-Scholes.
Análises similares foram realizadas nos mercados do Reino Unido por De Freitas
et al.(2000), Healy et al.(2002) e Bennel e Sutcliffe (2004), os quais
apontaram melhor desempenho do método de inteligência artificial para apreçar
as opções sobre o índice FTSE 100, em contraposição aos modelos tradicionais de
avaliação. Vale ainda citar estudos feitos com opções sobre índices de ações
negociadas nos mercados: da Alemanha - Anders, Korn e Schmitt (1998), Hanke
(1999) e Ormoneit (1999); da Suécia - Amilon (2003); de Taiwan - Lin (2005); do
Japão - Yao, Li e Tan (2000); da Austrália - Lajbcygier et al.(1996); do Brasil
- Freitas e Souza (2002). A aplicação de modelos de inteligência artificial
também foi realizada, em menor escala, em opções sobre taxa de juros (WHITE,
1998) e sobre taxa de câmbio (CARELLI, SILANI e STELLA, 2000).
Embora a superioridade dos modelos de redes neurais, em comparação aos métodos
usuais de apreçamento de opções, seja quase um consenso entre os pesquisadores,
Callen et al. (1996) afirmam que essas técnicas não apresentam,
necessariamente, os melhores resultados em relação aos modelos lineares de
séries temporais. Com isso, é necessária a condução de estudos para diferentes
mercados e com a utilização de diferentes modelos de redes neurais na tentativa
de analisar se existe superioridade em relação ao modelo de Black-Scholes.
Diante desse contexto, neste artigo teve-se o objetivo de aplicar um modelo de
rede neural multicamadas, com base no algoritmo de retropropagação do erropara
atualização dos parâmetros, para valoração das opções de compra sobre taxa de
câmbio R$/US$, negociadas na Bolsa de Valores, Mercadorias & Futuros
(BM&FBovespa), no período de 2004 a 2007. A fim de avaliar tal modelo, as
opções também foram apreçadas pelo modelo de Black, metodologia mais utilizada
pelos agentes no mercado brasileiro para opções sobre moeda estrangeira. Em
seguida, os resultados foram comparados com os prêmios observados no mercado
com base em métricas usuais de erro e testes estatísticos. Neste trabalho,
insere-se uma contribuição importante na literatura, uma vez que as abordagens
usuais não costumam avaliar os resultados dos modelos com testes estatísticos,
mas apenas com as métricas tradicionais de erro de previsão. Além disso, o
mercado de opções brasileiro ainda apresenta poucos estudos nessa área, assim
como não se verificam aplicações para o tipo de opção avaliado no presente
artigo, o que amplia a relevância do estudo que visa aprimorar o apreçamento de
tais contratos no mercado em consideração.
2. Metodologia
2.1. Amostra
A base de dados deste trabalho correspondeu aos preços de fechamento das opções
europeias de compra sobre taxa de câmbio R$/US$, negociadas na BM&FBovespa,
para diferentes prazos e preços de exercícios, no período de 02 de janeiro de
2004 a 31 de dezembro de 2007 - total de 1.001 dias de negócios e 4.642
observações1. Para cada opção, obteve-se o preço de exercício, o número de
contratos negociados, o prazo para o vencimento em dias úteis, o valor de
fechamento para cada opção e o preço do contrato futuro de mesmo prazo da
opção2. A amostra utilizada foi composta pelos papéis que tiveram mais de 500
contratos negociados, ou seja, selecionaram-se as calls mais líquidas
transacionadas no mercado. Nas subseções seguintes, apresentam-se os métodos de
apreçamento utilizados na pesquisa.
2.2. Modelo de Black
Como mencionado anteriormente, a partir de um conjunto de hipóteses, Black e
Scholes (1973) propuseram um modelo para cálculo dos prêmios de calls (c) e
puts (p) europeias sobre ações que não pagam dividendos, dadas pelas equações
[1] e [2], respectivamente.

[/img/revistas/rausp/v47n1/v47n1a07ex2.jpg]
em que:
[/img/revistas/rausp/v47n1/v47n1a07ex3.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex4.jpg]
sendo: S o preço à vista (spot) do ativo subjacente à opção; X o preço de
exercício; T o prazo de vencimento, em anos (base 252 dias úteis); σ a
volatilidade do ativo objeto (ao ano); r a taxa de juro de curto prazo livre de
risco (ao ano e capitalizada continuamente); N(.) a função de probabilidade
Normal cumulativa.
A partir da descrição acima, Merton (1973) estendeu o modelo para inclusão de
pagamento de dividendos nas ações e Black (1976) desenvolveu as fórmulas
analíticas que permitem a avaliação de opções sobre contratos futuros -
equações [5] e [6], em que o preço spot, S, é substituído pelo preço futuro, F.
[/img/revistas/rausp/v47n1/v47n1a07ex5.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex6.jpg]
em que:
[/img/revistas/rausp/v47n1/v47n1a07ex7.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex8.jpg]
Garman e Kohlhagen (1983) fizeram ainda algumas modificações de forma a
contemplar o apreçamento de opções sobre taxa de câmbio. No entanto, o modelo
de Black, acima descrito, assim como modelos próprios baseados nas fórmulas de
Black-Scholes ajustados às condições de mercado e inclusive modelos de RNA, são
utilizados no mercado financeiro brasileiro para obtenção dos prêmios das
opções de dólar. Assim sendo, no presente estudo fez-se uso do modelo Black
como benchmark, sendo, então, as variáveis consideradas: preço de exercício
(X); tempo até o vencimento, ao ano, base 252 dias úteis (T); preço do contrato
futuro de taxa de câmbio R$/US$ de mesmo vencimento da opção (F); taxa de juros
prefixada (ao ano) e volatilidade da opção (F).
Cabe salientar como as últimas variáveis (taxa de juros e volatilidade) foram
dimensionadas no presente trabalho.
É comum verificar que, em diversas séries financeiras, a hipótese de
homocedasticidade (variâncias condicionais do termo errático,ui, constantes),
adotada em vários modelos econométricos, é inapropriada. Constata-se, em geral,
que períodos de grandes oscilações de preços são seguidos por intervalos de
tempo de relativa estabilidade nas cotações, levando a uma variação da
volatilidade ao longo do tempo. Nesse contexto, Engle (1982) desenvolveu o
modelo ARCH (Autoregressive Conditional Heteroscedasticity), com o objetivo de
estimar a volatilidade de séries com as características citadas acima,
expressando a variância condicional em termos do quadrado dos retornos
passados. Posteriormente, Bollerslev (1986) estendeu o modelo ARCH, com o
desenvolvimento do modelo GARCH (Generalized ARCH), em que a variância
condicional passa a depender do quadrado dos retornos passados e das variâncias
condicionais passadas (ENDERS, 2004).
Além de esse modelo apresentar resultados mais robustos, em comparação aos
tradicionais, a literatura mostra que os modelos de volatilidade
determinística, mencionados acima, apresentam melhores resultados, quando
comparados à metodologia da volatilidade histórica (MORAIS e PORTUGAL, 1999;
JORION, 2003). Dessa forma, no presente trabalho, a estimação da volatilidade
do dólar foi calculada com base em um processo GARCH (1,1), equação [9], em que
a variância condicional do termo errático depende do termo de erro quadrático e
da variância condicional, definidos no instante anterior, t - 1.
[/img/revistas/rausp/v47n1/v47n1a07ex9.jpg]
A razão da adoção do GARCH (1,1) baseia-se em sua parcimônia e em sua boa
adequação aos dados. Além disso, conforme Silva, Sáfadi e Castro Júnior (2005),
poucas restrições nos parâmetros são observadas nesse modelo - para a variância
ser positiva e fracamente estacionária, é preciso que α1 + α2 < 1; α0 > 0; α1 >
0; α2 > 03.
Quanto ao cômputo da taxa de juros, adotou-se a metodologia de interpolação por
splinescúbicos. Monteiro e Salles (2002) compararam diferentes processos de
interpolação de taxas de juro no mercado brasileiro e, com base num critério de
seleção que combina estratégias de reamostragem do tipo leave-k-out cross-
validation, mostraram que, a partir dos contratos futuros de juros e swaps, o
método de interpolação mais adequado à realidade brasileira foi baseado nos
splines cúbicos. Trata-se de uma metodologia que busca estimar a curva de juro
a partir de preços observados de ativos negociados em função de suas
respectivas maturidades e de informações a priori sobre a natureza da curva de
juros.
O principal objetivo do modelo por splines é a construção da curva de juros,
via interpolação. Considerem-se os pontos
y1 = g(x1),..., yn = g(xn), em que a = x1 < ... < xn = b. O problema de
interpolação consiste em construir uma função contínua fque permita o cálculo
de g(z), sendo z um ponto interior no intervalo definido por ae b4. Neste
trabalho, g(xj) é a taxa de juro pré versusDI dos contratos de swap,
registrados na BM&FBovespa, para a maturidade xj5. Sendo f um splinecúbico,
para cada intervalo {xj, xj+1}, f deve ser igual a um polinômio cúbico Pj, da
forma:
[/img/revistas/rausp/v47n1/v47n1a07ex10.jpg]
É necessário que f seja contínua e com derivadas, primeira e segunda, contínuas
no intervalo [a, b]. Além disso, f deve ser igual ag nos pontos x1,..., xn
(MONTEIRO e SALLES, 2002). Para satisfazer essas condições, impõem-se as
seguintes condições:
[/img/revistas/rausp/v47n1/v47n1a07ex11.jpg]
Em que s1,..., snsão parâmetros a serem delimitados pelo modelo6. Uma vez
fixados os valores desses parâmetros, Pjestará determinado e a construção de f
será finalizada7. Com todas as entradas do modelo de Black obtidas, o próximo
passo consiste em determinar o modelo de rede neural aplicado para precificar
as opções de compra de dólar consideradas.
2.3. Redes neurais artificiais
As redes neurais artificiais (RNA) são modelos computacionais não lineares que
constituem sistemas de processamento distribuído paralelo que, por serem
baseados no funcionamento do sistema nervoso biológico, possuem propensão
natural de armazenar conhecimento experimental (HAYKIN, 2001). Assim como o
cérebro humano é capaz de transmitir e/ou armazenar informações por meio de
impulsos nervosos entre os neurônios, as RNAs possuem conexões interneurais,
representadas por pesos sinápticos, com função de armazenar e processar o
conhecimento.
Além de considerarem as não linearidades presentes entre as entradas e as
saídas, as RNAs possuem características bastante atraentes. A primeira delas
baseia-se no fato de não requererem a prioriinformações sobre o modelo, pois
aprendem a partir de exemplos e, assim, capturam relações funcionais entre os
dados, mesmo se tais relações sejam dificilmente descritíveis. Para que uma RNA
possa aprender e garantir um bom desempenho no resultado, o conjunto de dados
disponíveis deve ser suficientemente grande. Nesse sentido, esses modelos podem
ser tratados como um método estatístico multivariado não paramétrico e não
linear. Já a segunda característica tem relação com sua capacidade de
generalização. Após a fase de aprendizagem, quando já possuem algum
conhecimento sobre as características do conjunto de dados, as RNAs conseguem
inferir sobre o comportamento da população mesmo se os dados amostrais contêm
ruído nas informações (Zhang, Patuwo e Hu, 1998).
A unidade básica de processamento de uma RNA é denominada neurônio artificial.
Matematicamente, a saída do neurônio é dada por:
[/img/revistas/rausp/v47n1/v47n1a07ex12.jpg]
sendo x1, x2, ..., xn os sinais de entrada; w1, w2, ..., wn os pesos sinápticos
associados a esse neurônio; g(.) a função de ativação8. Neste artigo, a função
de ativação adotada é a logística dada por:
[/img/revistas/rausp/v47n1/v47n1a07ex13.jpg]
na qual y representao ponto de inflexão da função e g(z) (0,1).
A organização dos neurônios de uma RNA é feita em camadas, sendo a primeira
denominada camada de entrada e a última, camada de saída. O número de camadas
intermediárias e o número de neurônios em cada uma delas são escolhidos de
acordo com a maior ou menor necessidade de processar as entradas da rede. Assim
sendo, os números de camadas e de neurônios aumentam, caso o conjunto de dados
exija um processamento mais refinado para capturar características não
lineares.
Do ponto de vista estrutural, as RNAs podem ser classificadas como redes
neurais estáticas (não recorrentes) ou dinâmicas (recorrentes) (HAYKIN, 2001).
A principal diferença entre as duas estruturas é a presença ou não de conexões
que realimentem os neurônios presentes na estrutura da rede. Entre essas
estruturas, destacam-se as redes neurais multicamadas (Multi Layer Perceptron-
MLP), amplamente utilizadas na literatura e empregadas neste trabalho.
A estrutura (ou arquitetura) da rede MLP consiste de uma camada de entrada, uma
ou mais intermediárias e outra de saída. A primeira camada, cujos neurônios são
denominados unidades de entrada, difunde as entradas para as camadas seguintes
sem modificação alguma. As camadas intermediárias transmitem informações por
meio das conexões entre a entrada e a saída da rede. Os neurônios a ela
pertencentes são denominados unidades intermediárias. Finalmente, a camada de
saída transmite a resposta da rede neural à entrada mediante os neurônios
denominados de unidades de saída. A figura_1 ilustra a arquitetura de uma rede
neural MLP com uma camada intermediária com k neurônios e m neurônios na camada
de saída (BALLINI, 2000).
[/img/revistas/rausp/v47n1/v47n1a07fig1.jpg]
Para o ajuste dos parâmetros (pesos)9 da rede neural MLP, o método mais
difundido e utilizado na literatura é o de retropropagação do erro
(backpropagation) (RUMELHART e MCCLELLAND, 1986). Esse método consiste em duas
fases. Na primeira, conhecida como fase de propagação direta (forward), as
entradas são apresentadas e propagadas pela rede, camada a camada, calculando a
saída de cada neurônio. Durante essa fase, os pesos são fixos e a saída
calculada é comparada com a saída desejada, resultando em um erro para cada
unidade de saída. Na segunda fase, o erro calculado é propagado da camada de
saída para a camada de entrada, fase de propagação reversa (backward), e os
pesos são ajustados de acordo com a regra de correção do erro, originando o
termo retropropagação do erro. A segunda fase pode ser formulada como um
problema de otimização não linear irrestrita, sendo os pesos sinápticos as
variáveis de decisão. O objetivo é minimizar o somatório dos erros quadráticos
de todos os neurônios de saída. No algoritmo de retropropagação tradicional,
para resolver o problema de otimização, adota-se o método do gradiente
descendente, que considera apenas condições de primeira ordem a partir da
função objetivo. Além disso, a inicialização dos pesos foi obtida de acordo com
o algoritmo de geração de números aleatórios do softwareMatlab®. Apesar de
existirem outras técnicas de inicialização dos pesos, conforme Chan, Lam e Wong
(2000), os pesos aleatórios gerados inicialmente por essa técnica não impedem a
convergência do algoritmo de treinamento.
Dessa forma, o objetivo do processo de treinamento é ajustar os parâmetros
livres (pesos) da rede, minimizando uma função objetivo representada pelo erro
quadrático médio, ou seja:
[/img/revistas/rausp/v47n1/v47n1a07ex14.jpg]
sendo E a função da medida do erro total da rede, N o número de padrões10
apresentados à rede, m o número de neurônios na camada de saída, dlia saída
desejada e ylia saída gerada pela rede, para o l-ésimo padrão.
O método de retropropagação aplica uma correção ∆wijaos pesos sinápticos wij
proporcional à direção oposta ao gradiente ∂E/∂∆wij, definida pela regra delta
como segue:
[/img/revistas/rausp/v47n1/v47n1a07ex15.jpg]
em que, os índices iej referem-se ao neurônio i da camada posterior e ao
neurônio j da camada anterior e η é uma constante de proporcionalidade, chamada
taxa de aprendizagem, a qual assume valores no intervalo (0, 1). Essa taxa
determina a velocidade do passo em direção ao mínimo da função de erro E. Um
valor elevado de η produzirá uma rápida convergência, resultando em grandes
alterações nos pesos. Entretanto, aumentará o risco de a rede tornar-se
instável, podendo oscilar ao redor da solução. Por outro lado, se η assumir
valores pequenos, as mudanças nos pesos serão menores, requerendo mais
iterações até a convergência11.
2.3.1. Rede neural MLP para apreçamento de opções
Construiu-se um modelo de apreçamento para as opções de compra de dólar no
Brasil usando uma rede neural MLP com base nas principais variáveis que
influenciam o preço desse ativo: preço futuro do dólar no mercado (F), preço de
exercício da opção (X), tempo para o vencimento da opção (T), volatilidade do
preço futuro do dólar (s) e taxa de juro livre de risco (r)12. Escolheram-se
essas variáveis por serem as mesmas utilizadas pelo modelo de Black para o
apreçamento de opções, sendo a volatilidade estimada por um processo GARCH
(1,1) e a taxa de juro livre de risco obtida pelo método de interpolação via
splines cúbicos13.
Na literatura sobre redes neurais, não existe uma técnica que especifique qual
é a estrutura ideal, ou seja, qual o número de camadas intermediárias e o
número de neurônios nessa camada que resulte nos melhores resultados. Portanto,
o processo envolve escolhas empíricas que variam de acordo com a especificidade
dos dados e o objetivo de estimação e previsão (KAASTRA e BOYD, 1996).
Neste trabalho, para a seleção da estrutura de rede neural mais adequada e para
estimar os pesos sinápticos da rede neural MLP, o conjunto total de dados foi
particionado em três subconjuntos denominados de: treinamento, validação e
teste. O subconjunto de treinamento é usado durante a fase de estimação dos
parâmetros da rede. O subconjunto de validação é empregado para avaliar a
evolução do desempenho da rede durante a fase de ajuste dos parâmetros. Já o
conjunto de teste é utilizado após a determinação da estrutura mais adequada,
sendo esse o período propriamente dito de previsão (BALLINI, 2000). Os
conjuntos treinamento, validação e teste possuem um total de 75%, 15% e 10% do
total da amostra, respectivamente. O conjunto teste tem, essencialmente, a
função de diagnosticar o modelo de rede estimado, uma vez que o nível de erro
nessa amostra implica se o modelo está bem especificado ou não.
Assim, a partir dos conjuntos de treinamento e de validação, o número de
camadas intermediárias foi determinado pelo menor erro quadrático médio. Para a
determinação do número de neurônios intermediários, foram utilizados os
critérios de informação e qualidade de ajuste propostos por Akaike (1974),
Shibata (1976), Schwarz (1978) e Hannan e Quinn (1979), baseados no erro
quadrático médio, definidos como (LAURENT e PETERS, 2001):
[/img/revistas/rausp/v47n1/v47n1a07ex16.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex17.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex18.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex19.jpg]
em que EQMrepresenta o erro quadrático médio, EQM= , sendo c o preço de
fechamento, observado no mercado, da opção de compra de dólar, c^o preço
teórico obtido pelos modelos, N o número de observações e K o número de
neurônios na camada intermediária. Esses critérios apresentam um compromisso
entre a minimização do erro quadrático médio e a complexidade da rede (número
de neurônios da camada intermediária)14, por isso foram selecionados neste
trabalho, além de serem amplamente difundidos na literatura, porém, outras
técnicas podem ser verificadas em Medeiros, Teråsvirta e Rech (2006).
2.4. Métricas de erro
Os preços teóricos das opções, obtidos por meio de cada modelo, foram
comparados com os preços observados no mercado. Para avaliação dos modelos,
utilizaram-se o erro percentual médio (EPM), o erro percentual máximo (EPmax),
a raiz do erro quadrático médio (REQM) e o coeficiente de desigualdade de Theil
(TIC)15:
[/img/revistas/rausp/v47n1/v47n1a07ex20.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex21.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex22.jpg]
[/img/revistas/rausp/v47n1/v47n1a07ex23.jpg]
em que c representa o preço de fechamento, observado no mercado, da opção de
compra de dólar, c^o preço teórico obtido pelos modelos e N o número total de
observações. Cabe observar que EPM e EPmax são descritos em termos percentuais
e REQM em termos absolutos.
Os resultados dos modelos ainda foram avaliados de acordo com o grau de
moneyness (M) das opções, sendo esse definido pela relação entre o valor
presente do preço de exercício da opção e o preço a vista do ativo objeto:
[/img/revistas/rausp/v47n1/v47n1a07ex24.jpg]
sendo S a cotação da PTAX. Nesse caso, as opções da amostra teste foram
divididas conforme o grau de moneyness: out-of-the-money (M ≤ 1 - α%), at-the-
money (1 - α% < M < 1 + α%)e in-the-money(M > 1 + α%), considerando α = 5%.
Além disso, calculou-se o coeficiente de determinação, R2, da regressão linear
dos preços das opções observadas no mercado sobre os preços teóricos:
[/img/revistas/rausp/v47n1/v47n1a07ex25.jpg]
na qual ϕ1e ϕ2são os parâmetros linear e angular da regressão, respectivamente,
e ζt um ruído branco.
Os resultados empíricos na literatura baseiam-se extensivamente em medidas
padrões de acurácia, como as métricas de erro apresentadas (EPM, EPmax, REQM,
TIC), e não levam em conta a superioridade de um modelo em relação a outro em
termos de significância estatística. Assim, foram aplicados testes paramétricos
(AGS e MGN) e não paramétricos (SIGN) para verificar se existe diferença
estatisticamente significativa entre os resultados dos modelos avaliados. Esses
testes são apresentados a seguir.
2.4.1. Teste AGS
O teste paramétrico aqui descrito baseia-se no trabalho de Ashley, Granger e
Schmalensee (1980), denominado teste AGS. Esse teste permite a avaliação da
existência de significância estatística entre a diferença do erro quadrático
médio (EQM) entre modelos de previsão. Seja ∆eiB,RNA a diferença entre os erros
de previsão obtidos pelos modelos de Black e de redes neurais, eiBe eiRNA,
respectivamente. Assim:
[/img/revistas/rausp/v47n1/v47n1a07ex26.jpg]
sendo i =1, ...,N. Define-se, ainda, SiB,RNAa soma dos erros de previsão e µSa
média amostral de SiB,RNA. O teste pode ser descrito segundo a equação:
[/img/revistas/rausp/v47n1/v47n1a07ex27.jpg]
na qual υié um processo de ruído branco, que se resume em uma sequência de
erros aleatórios com média e variância constantes.
O teste AGS mostra que β1 representa a diferença entre os erros quadráticos
médios de previsão obtidos pelos modelos e β2é proporcional à diferença entre
as variâncias dos erros de previsão dos modelos. O teste de significância tem
como hipótese nula H0: β1 = β2 = 0, enquanto a hipótese alternativa consiste em
H1: β1 > 0 e/ou β2 > 0. A estatística para este teste, obtida por meio da
estimação da equação [27], tem distribuição F com 2 e (N - 2) graus de
liberdade, assumindo normalidade para os erros16. A rejeição da hipótese nula
indica que o modelo rede neural supera o método de Black.
2.4.2. Teste MGN
Nesta subseção, é descrito outro teste paramétrico para igualdade entre
acurácia de previsão. Trata-se do teste de Morgan-Granger-Newbold (teste MGN),
baseado inicialmente no trabalho de Granger e Newbold (1977). A utilização
desses testes é recomendada para avaliar modelos de predição e quando se relaxa
a assunção de não existência de correlação entre os erros dos modelos. O teste
estatístico para esse teste pode ser calculado como:
[/img/revistas/rausp/v47n1/v47n1a07ex28.jpg]
em que ρ^s∆é o coeficiente de correlação estimado entre SiB,RNAe ∆eiB,RNA, e N
representa o número de observações. A estatística para o teste MGN tem
distribuição tcom (N - 1) graus de liberdade. Para esse teste, se as previsões
são igualmente acuradas, então a correlação entre SiB,RNA e ∆eiB,RNA será zero
(hipótese nula).
2.4.3. Teste SIGN
O Significance Test(teste SIGN), derivado do trabalho de Lehmann (1988), é uma
avaliação não paramétrica para modelos de predição que não requer suposições
como normalidade e não correlação serial dos erros. A estatística para esse
teste pode ser calculada como:
[/img/revistas/rausp/v47n1/v47n1a07ex29.jpg]
o termo ψt denotando o número de vezes em que, neste caso, os erros do modelo
de Black superaram aqueles derivados do modelo de rede neural. A hipótese nula
é H0: ψ(N) = (N/2), contra a hipótese alternativa de que H1: ψ(N) > (N/2).
Assume-se que Né o número de observações previstas por ambos os modelos e, se
os erros de previsão do modelo de Black são da mesma proporção que os do modelo
de rede neural em exatamente (N/2) observações, de acordo com o teste SIGN, a
acurácia dos modelos pode ser considerada equivalente, sem diferença
estatisticamente significativa. Entretanto, se a proporção de erros do modelo
de Black supera os do modelo de rede neural numa proporção maior que (N/2), o
teste indica que o modelo de Black é menos acurado que o modelo de rede neural.
A estatística para o teste SIGN tem distribuição Normal com média zero e
variância unitária. Assim, se a estatística SIGN é significativamente elevada,
a hipótese nula de equivalência de predição pode ser rejeitada em favor da
hipótese alternativa.
3. Análise e Discussão dos Resultados
Para confrontar o desempenho do modelo baseado em redes neurais com a fórmula
analítica de Black, foram comparados os preços teóricos das opções obtidos por
meio de cada modelo com os preços observados no mercado. Nessa comparação, os
dados utilizados pertenceram ao grupo de teste da estruturação da rede neural,
uma vez que o conjunto treinamento e validação foram utilizados para determinar
a estrutura de rede mais adequada, estimar os pesos sinápticos e aprender o
processo gerador dos preços de compra das opções de dólar. Dessa forma, o
conjunto teste, ou conjunto de previsão, permitiu avaliar a capacidade de
aprendizado e generalização da rede para precificar as opções com dados de
entrada nunca antes apresentados à rede. O conjunto teste foi composto por
negociações que se iniciam em 04 de outubro de 2007 e vão até 31 de dezembro de
2007, totalizando 466 observações.
Na tabela_1, apresentam-se os resultados de escolha do número de neurônios
intermediários. De acordo com essa tabela, nota-se que os critérios de
informação mostraram que a rede composta por seis neurônios na camada
intermediária apresentou os melhores resultados, exceto para o critério de
Shibata, que indicou cinco neurônios. Verificou-se que, com o aumento do número
de neurônios, a complexidade da rede aumentava, mas seu desempenho declinava.
Portanto, construiu-se um modelo de rede neural multicamadas, constituído por
cinco neurônios compondo a camada de entrada, seis neurônios na camada
intermediária e uma camada de saída com um neurônio, representando o preço da
opção. Na figura_2, apresenta-se o modelo de rede neural aplicado para o
apreçamento das opções avaliadas.
[/img/revistas/rausp/v47n1/v47n1a07fig2.jpg]
O número de épocas (iterações) foi 30017, com base na aprendizagem padrão a
padrão, com um nível de erro de 10-4, uma vez que são níveis de erro aceitáveis
para um modelo de estimação e previsão de séries temporais financeiras. Por
fim, a taxa de aprendizagem foi fixada em 0,6.
Na tabela_2 são apresentados os resultados dos valores das métricas de erro,
definidas na seção 2.4, para os modelos teóricos avaliados, assim como o
coeficiente de determinação da regressão dos preços do mercado sobre os preços
teóricos.
Por meio da avaliação dos erros (tabela_2), é possível verificar que o modelo
de redes neurais apresentou preços teóricos mais próximos aos preços de
mercado, explicando o baixo EPM, EPmax e REQM, em comparação ao modelo de
Black. O coeficiente de desigualdade de Theil (TIC) mostrou um ajuste superior
do modelo de rede neural aos dados das opções, pois apresentou um valor bem
mais próximo de zero em comparação ao modelo de Black. Adicionalmente, o
coeficiente de determinação da equação [25], regressão dos preços de mercado
sobre os preços teóricos, confirmou as análises expostas acima, dado o maior R2
quando utilizados os prêmios gerados pelo modelo de RNA. Nessa última análise,
cabe notar que os preços do mercado não foram explicados fundamentalmente pelos
preços teóricos, o que leva a concluir que outros fatores estariam determinando
os prêmios dessas opções.
De forma complementar, na tabela_3 apresentam-se os valores das métricas de
erro para toda a amostra (4.642 observações), divididas nos conjuntos de
treinamento, validação e teste18. Os resultados mostram que o baixo desempenho
do modelo de Black foi observado em toda a amostra dos dados. Os erros desse
modelo apresentaram-se relativamente iguais nos três conjuntos de dados, uma
vez que não faz diferença a distinção entre eles para a aplicação da fórmula
analítica. Entretanto, como era de esperar, nos conjuntos treinamento e
validação, para a rede neural, os erros foram menores, se comparados aos
próprios resultados do conjunto teste da rede neural e aos resultados do modelo
de Black, visto que foram os dados apresentados à rede e que a estruturaram de
forma a convergir para o nível de erro estipulado, de acordo com o processo de
aprendizagem supervisionado.
Vale observar que as médias dos erros para os dois modelos foram elevadas e
significativamente diferentes de zero para o período teste (04 de outubro de
2007 a 31 de dezembro de 2007). Além disso, algumas previsões apresentaram
erros relativos superiores a 100%, de acordo com o EPmax, indicando uma
inadequação dos modelos para o apreçamento, como também o possível caso de
erros grosseiros de informação. Esses dados podem ser vistos como outliers,
mas, mesmo assim, continuaram na amostra, uma vez que se intencionou uma
modelagem de caráter geral. Também, no período avaliado, a dinâmica de
comportamento do ativo objeto, preço do dólar, não apresentou um movimento
adverso capaz de explicar tais resultados, como uma reversão nas expectativas
dos agentes, ou até mesmo a verificação de um fator exógeno que se reverteu
numa inflexão da tendência do movimento da taxa cambial entre o dólar e o real.
Foram avaliados, ainda, os resultados dos modelos de acordo com o grau de
moneyness (M) das opções. Verificou-se que 43% das opções da amostra teste
estavam dentro do dinheiro, enquanto 31% e 26% estão no dinheiro e fora do
dinheiro, respectivamente. Na tabela_4, apresentam-se os resultados das
métricas de erro para o conjunto da amostra teste de acordo com o grau de
moneyness das opções. Ambos os modelos, de Black e de rede neural, foram mais
acurados no apreçamento das opções in-the-money. Os maiores níveis de erros
foram verificados nas opções out-of-the-money, principalmente para o modelo de
Black. Na amostra que compõe as opções at-the-money, os resultados dos modelos
foram mais semelhantes, como se pode perceber pelas métricas do EPM e do EPmax.
Nota-se, de forma geral, nos diferentes graus de moneyness, que os resultados
do modelo de RNA foram superiores em com-
paração ao modelo de Black.
Para as opções out-of-the-money, os resultados do modelo de rede neural
destacaram-se por sua superioridade em relação ao modelo de Black. No gráfico_1
(partes a e b), página 106, como forma de ilustrar o fato acima citado, foi
analisada a evolução dos prêmios de mercado e dos prêmios teóricos de uma série
fora do dinheiro com alta liquidez - strikede R$ 2.000 e vencimento em janeiro
de 2008.
É possível observar o bom desempenho obtido pelo modelo de redes neurais para a
avaliação das opções estudadas. Constata-se que, para as opções com vencimentos
mais curtos, os modelos teóricos apresentaram resultados similares, porém o
modelo de Black resultou em erros de apreçamento maiores de acordo com a
elevação da maturidade da opção.
Apesar dos resultados favoráveis ao modelo de inteligência artificial, é
necessário verificar se a diferença entre os erros obtidos pelos modelos é
estatisticamente significativa. A tabela_5 elucida essa análise por meio dos
resultados dos testes AGS, MGN e SIGN.
O resultado do teste AGS, que examina os erros de previsão em termos do erro
quadrático médio dos modelos avaliados (sendo o modelo de Black tomado como
benchmark), indicou que o modelo de rede neural apresentou superioridade
significativa na precificação das opções de compra de dólar no Brasil. O nível
de significância apresentado (0,0001) indicou a rejeição da hipótese nula, ou
seja, os erros do modelo de rede neural foram inferiores em comparação aos do
modelo de Black, em termos estatísticos. Contudo, o resultado do teste MGN não
apresentou evidência significativa da melhor adequação do modelo de rede
neural. Neste caso, a significância do teste MGN permitiu aceitar a hipótese
nula e inferir que os modelos foram igualmente acurados. Por fim, o teste não
paramétrico (SIGN) mostrou a superioridade do modelo de rede neural para a
precificação das opções, rejeitando a equivalência de predição dos modelos.
Esses testes foram também conduzidos nos diferentes graus de moneyness das
opções, conforme consta na tabela_6. Os resultados obtidos confirmaram as
observações anteriores, exceto para as opções fora do dinheiro. O teste AGS
indicou a melhor adequação do modelo de redes neurais para a precificação das
opções em questão para todos os graus de moneyness, apresentando níveis de
significância baixos, que indicam a rejeição da hipótese nula. O mesmo
resultado verificou-se com o teste SIGN. Já o teste MGN indicou que os
resultados do método de inteligência artificial foram estatisticamente mais
acurados que os do modelo de Black apenas para as opções out-of-the-money.
Os resultados apresentados evidenciam que o modelo de rede neural proposto
ajusta-se melhor ao mercado de opções de compra de dólar no Brasil, em
comparação ao método de Black, modelo bastante utilizado pelos agentes de
mercado. O modelo de Black apresentou piores resultados nas opções com baixo
grau de moneyness, e o modelo de rede neural resultou em preços teóricos muito
próximos aos preços reais para os mesmos papéis, evidenciando sua
superioridade.
4. Conclusões
O apreçamento de ativos financeiros apresenta inúmeras dificuldades para os
agentes econômicos em geral, uma vez que tais preços são influenciados por
choques econômicos, políticos e internacionais, que fazem com que os modelos
tradicionais não sejam suficientes para explicar os valores desses ativos
transacionados nos mercados, como também os próprios modelos são baseados em
hipóteses que não se verificam na realidade. Dessa forma, a chamada engenharia
financeira vem apresentando diversas alternativas para avaliação desses
instrumentos, como o método de redes neurais. As redes neurais artificiais
possuem a habilidade de modelar padrões não lineares e aprender com base em
dados históricos. Sua aplicação para apreçamento de opções tem sido apresentada
pela literatura e os resultados encorajam a utilização desse modelo, em
comparação aos modelos mais tradicionais como o de Black-Scholes e seus
derivados.
Nesse sentido, o objetivo neste trabalho foi analisar o apreçamento de calls
sobre taxa de câmbio R$/US$, negociadas na BM&FBovespa, mediante o uso de
técnica de redes neurais, comparando os resultados com os do modelo de Black.
Foram avaliadas as opções para o período de 2004 a 2007, num total de 4.642
observações. Estruturou-se um modelo de rede neural multicamadas com algoritmo
backpropagation para atualização dos pesos sinápticos. As mesmas opções foram
precificadas pelo modelo de Black, considerado como benckmark. Os modelos
consideraram as variáveis fundamentais que afetam o preço de uma opção: preço
do ativo objeto, preço de exercício, taxa de juro livre de risco, prazo de
vencimento da opção e volatilidade. A taxa de juro livre de risco foi obtida
pelo método de interpolação de splines cúbicos e a volatilidade estimada por um
processo GARCH (1,1). Os resultados dos modelos, isto é, preços teóricos, foram
comparados com os preços reais observados no mercado por meio do erro
percentual médio, erro percentual máximo e raiz do erro quadrático médio e do
coeficiente de desigualdade de Theil, assim como com testes estatísticos
paramétricos (AGS e MGN) e não paramétricos (SIGN).
Os resultados mostraram que os preços das opções de compra de dólar
comercializadas no mercado brasileiro são obtidos mais acuradamente por meio do
modelo proposto de rede neural. Os valores relativamente baixos das métricas de
erro permitiram inferir a superioridade do modelo em comparação aos resultados
da fórmula analítica de Black. Entretan-
to, a regressão dos preços de mercado sobre os preços teóricos mostrou que os
preços de mercado não são fundamentalmente explicados pelos preços teóricos, o
que implica erros de avaliação do mercado ou do próprio modelo e, dessa forma,
pode permitir arbitragem pelos agentes. Os testes estatísticos AGS e SIGN
indicaram a superioridade do modelo de rede neural em termos estatísticos, com
nível de significância de 5%, em relação à fórmula analítica de Black. O teste
MGN, por sua vez, inferiu igualdade para o resultado dos métodos, exceção feita
às opções out-of-the-money.
Deve-se observar que os resultados se limitam a uma amostra de um período
específico, o que resulta em algumas limitações e, além disso, não foram
considerados no modelo Black ajustes de assimetria e curtose por meio de um
smilede volatilidade implícita nos preços negociados no mercado. Trabalhos
futuros podem avançar na estimação da volatilidade desses contratos, por meio
de abordagens de modelos de inteligência artificial, tais como redes neurais.
Assim, esses resultados poderiam ser comparados com estimativas da volatilidade
obtidas por meio de modelos de tipo EGARCH ou de volatilidade estocástica, por
exemplo, e também com modelos derivados das fórmulas de BS ajustadas às
condições de mercado.