Модель превосходит аналитиков Уолл-стрит в прогнозировании финансовых показателей бизнеса

24 марта, 2020 In Uncategorized

Знание истинных продаж компании может помочь определить ее стоимость. Например, инвесторы часто нанимают финансовых аналитиков для прогнозирования предстоящих доходов компании, используя различные общедоступные данные, вычислительные инструменты и собственную интуицию. Теперь исследователи MIT разработали автоматизированную модель, которая значительно превосходит людей в прогнозировании продаж бизнеса с использованием очень ограниченных, «шумных» данных.

В области финансов растет интерес к использованию неточных, но часто генерируемых данных о потребителях, называемых «альтернативными данными», для прогнозирования доходов компании в торговых и инвестиционных целях. Альтернативные данные могут включать покупки по кредитной карте, данные о местонахождении со смартфонов или даже спутниковые снимки, показывающие, сколько автомобилей припарковано на участке у продавца. Сочетание альтернативных данных с более традиционными, но нечастыми финансовыми данными, такими как квартальная прибыль, пресс-релизы и цены на акции, может составить более четкую картину финансового состояния компании даже на ежедневной или еженедельной основе.

Но до сих пор было очень трудно получить точные, частые оценки с использованием альтернативных данных. В статье, опубликованной на этой неделе в Proceedings of ACM Sigmetrics Conference, исследователи описывают модель для прогнозирования финансовых показателей, которая использует только анонимные еженедельные транзакции по кредитным картам и трехмесячные отчеты о доходах .

Задача прогнозирования квартальной прибыли более 30 компаний, модель превзошла совокупные оценки экспертов аналитиков Уолл-стрит на 57 процентов прогнозов. Примечательно, что аналитики имели доступ к любым доступным частным или общедоступным данным и другим моделям машинного обучения, в то время как модель исследователей использовала очень маленький набор данных из двух типов данных.

«Альтернативные данные — это странные прокси-сигналы, помогающие отслеживать основные финансовые показатели компании», — говорит первый автор Майкл Фледер, постдок из Лаборатории систем информации и принятия решений (LIDS). «Мы спросили:« Можете ли вы объединить эти шумные сигналы с квартальными показателями, чтобы оценить истинные финансовые показатели компании на высоких частотах? » Оказывается, ответ — да.

Модель может дать преимущество инвесторам, трейдерам или компаниям, которые хотят часто сравнивать свои продажи с конкурентами. Помимо финансов, модель могла бы помочь социальным и политологам, например, изучать агрегированные анонимные данные о поведении общественности. 

«Это будет полезно для всех, кто хочет выяснить, что делают люди», — говорит Фледер.

Вместе с Флэдером на бумаге работает профессор EECS Деваврат Шах, директор Центра статистики и науки о данных Массачусетского технологического института, сотрудник Лаборатории систем информации и принятия решений, главный исследователь Института основ науки о Массачусетском технологическом институте и адъюнкт. профессор Татского института фундаментальных исследований.  

Решение проблемы «малых данных»

Хорошо это или плохо, но много потребительских данных выставлено на продажу. Например, розничные продавцы могут покупать транзакции по кредитным картам или данные о местоположении, чтобы узнать, сколько людей делают покупки у конкурента. Рекламодатели могут использовать данные, чтобы увидеть, как их реклама влияет на продажи. Но получение этих ответов все еще в первую очередь зависит от людей. Ни одна модель машинного обучения не смогла адекватно обработать цифры.

Как ни странно, проблема на самом деле в нехватке данных. Каждый финансовый вклад, такой как ежеквартальный отчет или еженедельный итог по кредитной карте, состоит только из одного числа. Ежеквартальные отчеты за два года составляют всего восемь точек данных. Например, данные кредитной карты за каждую неделю в течение одного и того же периода представляют собой всего лишь около 100 «шумных» точек данных, то есть они содержат потенциально непонятную информацию.

«У нас проблема с «небольшими данными», — говорит Фледер. «Вы получаете только небольшой кусочек того, что люди тратят, и вы должны экстраполировать и сделать вывод, что на самом деле происходит из этой части данных».

Для своей работы исследователи получали транзакции по кредитным картам потребителей — как правило, еженедельно и раз в две недели — и ежеквартальные отчеты для 34 ритейлеров с 2015 по 2018 год из хедж-фонда. По всем компаниям они собрали в общей сложности 306 квартальных данных.

Расчет ежедневных продаж довольно прост по своей концепции. Модель предполагает, что ежедневные продажи компании остаются схожими, лишь незначительно снижаясь или увеличиваясь с одного дня на другой. Математически это означает, что значения продаж для последовательных дней умножаются на некоторое постоянное значение плюс некоторое статистическое значение шума — что отражает некоторые присущие случайности продажи компании. Например, завтрашние продажи равны сегодняшним продажам, умноженным, скажем, на 0,998 или 1,01 плюс расчетное число для шума.

Если заданы точные параметры модели для ежедневной постоянной и уровня шума, стандартный алгоритм вывода может рассчитать это уравнение, чтобы вывести точный прогноз ежедневных продаж. Но хитрость заключается в расчете этих параметров.

Распутывание чисел

Вот где ежеквартальные отчеты и вероятностные методы пригодятся. В простом мире ежеквартальный отчет можно разделить, скажем, на 90 дней для расчета ежедневных продаж (подразумевая, что продажи примерно постоянны изо дня в день). На самом деле, продажи меняются изо дня в день. Кроме того, наличие альтернативных данных, помогающих понять, как продажи меняются в течение квартала, усложняет ситуацию: помимо того, что данные о покупных кредитных картах шумные, они всегда составляют некоторую неопределенную долю от общего объема продаж. Все это делает очень трудным узнать, как именно сумма кредитной карты влияет на общую оценку продаж.

«Для этого нужно немного распутать цифры», — говорит Фледер. «Если мы наблюдаем 1 процент еженедельных продаж компании посредством транзакций по кредитным картам, как мы узнаем, что это 1 процент? И если данные кредитной карты зашумлены, как вы узнаете, насколько они зашумлены? У нас нет доступа к основной правде для ежедневных или еженедельных итогов продаж. Но квартальные агрегаты помогают нам рассуждать об этих итогах ».

Для этого исследователи используют вариант стандартного алгоритма вывода, называемого фильтрацией Калмана или распространением веры, который используется в различных технологиях, от космических челноков до смартфонов GPS. Фильтрация Калмана использует измерения данных, наблюдаемые с течением времени, содержащие неточности шума, для генерации распределения вероятностей для неизвестных переменных в течение определенного периода времени. В работе исследователей это означает оценку возможных продаж за один день.

Чтобы обучить модель, метод сначала разбивает квартальные продажи на определенное количество измеренных дней, скажем, 90 — позволяя продажам меняться изо дня в день. Затем он сопоставляет наблюдаемые шумные данные кредитной карты с неизвестными ежедневными продажами. Используя квартальные цифры и некоторую экстраполяцию, он оценивает долю от общего объема продаж, которую, вероятно, представляют данные кредитной карты. Затем он рассчитывает долю наблюдаемых продаж за каждый день, уровень шума и оценку ошибки, насколько хорошо он сделал свои прогнозы.

Алгоритм вывода включает все эти значения в формулу для прогнозирования ежедневных итогов продаж. Затем он может суммировать эти итоги, чтобы получить еженедельные, ежемесячные или квартальные цифры. Во всех 34 компаниях модель побила консенсус-ориентир — который объединяет оценки аналитиков с Уолл-стрит — на 57,2 процента из 306 квартальных прогнозов.

Затем исследователи разрабатывают модель для анализа комбинации транзакций по кредитным картам и других альтернативных данных, таких как информация о местоположении. 

«Это не все, что мы можем сделать. Это просто естественная отправная точка», — говорит Фледер.

Leave a comment

Your email address will not be published. Required fields are marked *