Финансы и инвестиции неразрывно связаны с математикой и статистикой. Практически все доказательства эффективности или неэффективности инвестиционных стратегий основаны на анализе статистических данных. Беда в том, что статистика – это всего лишь инструмент. И используя его без соответствующих знаний, легко попасть в ловушку и прийти к неверным решениям.

Связь, но не зависимость

Чаще всего статистика используется, чтобы показать связи. Какие инструменты растут одновременно, какие двигаются разнонаправленно… Легко построить графики и увидеть эту связь.
http://www.myrichway.ru/wp-content/uploads/myrichway_stat-graph.png
Допустим, что на графике изображена динамика каких-то показателей. Так и хочется сделать вывод, что эти показатели тесно взаимосвязаны. Увы, такой вывод далеко не всегда верен.

Можно проверить нашу гипотезу с помощью статистических методов, посчитав показатели корреляции и детерминации. Но все, что они покажут, это подтвердят очевидное – графики похожи. Смысл числовых статистических показателей – увидеть статистическую связь, когда на графике она не очевидна. Или же посчитать взаимосвязи между сразу несколькими показателями, ведь 20-30 графиков вас скорее запутают, чем помогут решить задачу.

Наличие статистической связи еще не означает зависимости явлений. Это прекрасно “доказал” Бобби Хендерсон (основатель пародийной религии “Пастафарианство”) в письме к Канзасскому департаменту образования. В этом письме Хендерсон развивает аргумент, что «глобальное потепление, землетрясения, ураганы и другие природные катастрофы — прямое следствие сокращения количества пиратов с 1800 года». График, приложенный к письму, показывает, что с сокращением количества пиратов глобальная температура повышается. Взаимосвязь пиратов с потеплением подтверждается тем, что, как только увеличилось количество сомалийских пиратов, была провалена конференция по потеплению.

Похожесть графиков из примера может быть объяснена аж четырьмя способами:

Явление 1 является причиной явления 2. Например, верхний график – это рост курса доллара, а нижний – цены на импортные товары. Связь точно есть, но на цены импорта влияют и другие причины, помимо валютного курса, поэтому графики немного отличаются.
Явление 2 является причиной явления 1. Ситуация идентична первой. Самая главная сложность – это все-таки выяснить, что является причиной, а что следствием. Видя два графика и статистически доказав, что между ними есть связь, выбор о том, что же из двух – причина, придется сделать самостоятельно. Например, противоположно направленная связь цены золота и фондовых индексов. То ли цена золота растет, когда рынки падают и инвесторы перекладывают деньги в защитные активы, то ли золото растет по другим причинам, и инвесторы дружно бросаются покупать растущий актив, забирая деньги с фондового рынка, тем самым вызывая падение индексов… И не очень понятно, то ли нужно следить за ценой золота, чтобы прогнозировать поведение цен акций, то ли следить за индексом, чтобы прогнозировать цены на золото…
Оба явления являются следствиями одной причины, которую мы не анализируем. Причем, эта причина может быть не прямой, а опосредованной. Например, спрос на бытовую технику и отток мигрантов в конце 2014 года статистически связаны. Но причинно-следственной зависимости нет. Нельзя сказать, что увеличение оттока мигрантов вызвало повышенный спрос на технику и наоборот. Это два следствия падения курса рубля: мигранты стали получать меньше в пересчете на свою валюту и начали искать альтернативы, а спрос на бытовую технику обеспечили сразу два последствия валютного кризиса: во-первых, ожидания потребителей относительно дальнейшего роста цен привели к ускорению покупок (лучше взять сейчас, чем в два раза дороже через месяц), во-вторых, долларовая цена бытовой техники в российских магазинах резко упала, что спровоцировало рост спроса со стороны иностранцев.
Два статистически связанных явления вызываются двумя разными причинами. То есть выявленная связь – просто совпадение. Пример: количество пиратов и глобальное потепление, падение цены на нефть и рост цен на бензин. Ошибкой будет заявить о связи, на основании статистического анализа. А причина такой ошибки очень проста – всего существует лишь три направления движения: рост, падение и “боковик”. Случайные колебания в результате статистического анализа сглаживаются. Вот и остается куча падающих показателей, куча растущих, куча остающихся на одном уровне. Заявлять о связи на основании того, что два индикатора одновременно растут – очень непрофессионально.
Анализ в стиле британских ученых

Британские ученые знамениты на весь мир своими исследованиями зависимости всего и вся. Их “выводы” парадоксальны, нелогичны и смешны. “У 70% миллионеров карие глаза, поэтому вам, с вашими голубыми/зелеными, путь на финансовый олимп закрыт”. Статистика в их работах используется как доказательство, чего делать ни в коем случае нельзя. Сначала нужно доказать логику связи, а только потом искать подтверждение этой логики в статистике.

Совсем недавний пример из финансов. Прошлой осенью некоторые “аналитики и финансисты” обнаружили “связь” между курсом доллара и ценой на нефть. Быстренько сделав простые расчеты, они вывели “правило 3600″: чтобы спрогнозировать курс доллара нужно 3600 поделить на цену барреля нефти. В октябре и ноябре эта формула давала очень близкий к реальности прогноз. Но, даже примитивная картина кризиса говорит, что на курс только прямо влияет не меньше 4 факторов, а опосредовано – десятки. Естественно, в этом году данная формула не работает.

Периодически можно встретить “исследования” наподобие “лучший день недели для входа на рынок”, “в мае на фондовом рынке традиционно наблюдается спад” и так далее. Эти статьи – не более чем развлечение, но ведь находятся люди, которые реально не покупают по понедельникам, т.к. в 63% понедельников наблюдается спад по итогам дня.

Оптимизация торговых стратегий

Методы математической статистики позволяют подобрать формулы, максимально соответствующие прошлым данным. Создаем формулу для сигнала на покупку, допустим по скользящей средней. Тестируем на прошлых данных. Работает в 20% случаев. Смотрим на результаты, ага, 90% убыточных сделок пришлись на дни с низким оборотом. Добавляем в формулу ограничение: если оборот на рынке меньше порога, не входим в рынок, даже если скользящие средние показывают, что пора. Теперь наша стратегия эффективна в 37% случаев. Мало. Ищем еще показатели, которые позволяют улучшить результаты. И находим их. Методы математической статистики гарантируют их нахождение.

Показатели “эффективности” формулы при тестировании на прошлых данных могут улучшаться даже при вводе переменных, вообще никак не связанных с фондовым рынком. Так рождаются “астрологические стратегии торговли”. Общее правило таково, чем больше переменных вы введете в формулу, тем точнее будет подогнана ваша формула к прошлым результатам. Вот только точность прогнозов не растет.

Мне однажды приходилось делать расчет по анализу факторов, влияющих на арендную ставку жилой недвижимости в Москве. Нами была накоплена большая статистика с кучей показателей. Близость к метро, метраж общий и жилой, наличие балкона, лифта, район, этаж – всего 36 факторов. Исследование мы проводили следующим образом: выводили формулу зависимости по выборке, затем брали квартиру не из нашей выборки и пытались посчитать ее арендную плату по нашей формуле. Начали с формулы, включающей в себя только метраж квартиры, затем начали добавлять остальные факторы. Зависимость получилась очень интересная: каждый раз добавляя очередной показатель в формулу, точность соответствия расчетной арендной платы и реальной арендной платы по выборе неизменно возрастала, но с убывающим темпом. Последние факторы добавляли к точности не больше 0,1 п.п. А вот проверка формулы на других квартирах с ростом количества факторов дала сначала прирост точности, а затем падение практически до нуля. Лучший результат, которого удалось достичь был с ошибкой в прогнозе на уровне 28%. И он был достигнут с использованием всего 7 показателей из 36.

Давно известно, что добавление показателей в аналитику повышает лишь уверенность аналитика в своем прогнозе, но никак не точность этого прогноза. А к чему приводит рост уверенности в своей правоте при одновременном снижении точности прогноза?

Не переоптимизируйте свои решения. Главное – это логика причинно-следственных связей. Статистикой ее можно подтвердить, но никак не заменить.

Nick Cherry

http://www.myrichway.ru/statistics/