Использование больших данных

Введение

 

Многие из вас скорее всего не понимают, что такое Big Data, даже если когда-то слышали это понятие. Сегодня мы будем говорить об обработке большого количества структурированных и не структурированных данных, а в частности о, так называемых, Big Data.

 

 

Big Data – это большое количество данных собранных о людях.

 

 

Например, многие имеют карты лояльности в разных магазинах. При их получении вы заполняете анкету, а в данной анкете вы скорее всего заполняете форму, в которой указываете свои Фамилию имя и отчество, контактные данные, будь то адрес электронной почты, телефон или почтовый адрес, так же может встретиться вопрос: «откуда вы узнали о нашем магазине?» Многие даже не догадываются как все это связано с рекламой. Ну с последним вопросом не понять эту связь, конечно, не так трудно. По этому вопросу хозяева магазина узнают где их реклама лучше работает. И ответ «От друзей» там присутствует тоже не просто так. Чем больше таких ответов, тем лучше работает персонал магазина. Ведь вы бы не стали советовать другу магазин, в котором вам что-то не понравилось.

 

 

Зато, я думаю многие из вас знают понятие Cookie. Так вот Карта лояльности – это ваш Cookie в Offline режиме. По этой карте вы получаете релевантную рекламу не только на сайтах в интернете, но и в обычном мире.

 

 

Многие, наверно замечали, что когда вы ищите в интернете, к примеру, велосипед, то потом вы будете на разных сайтах встречать рекламу велосипедов. А когда вы ищите решение задачки по физике с номером 504, то потом ваш поисковик, при введении первого слова из задачки с номером 505, предложит вам дополнить запрос полным условием данной задачи.

 

Мы провели небольшой опрос среди школьников города Саратова и студентов высших учебных заведений России. В нем приняло участие 76 человек, из которых 13 студентов из разных ВУЗов, таких как ИТМО, МФТИ, ВШЭ, СГУ, 45 школьников из ФТЛа и 18 школьников других школ нашего города. Мы использовали современные технологии, которые помогли нам собрать все эти данные и структурировать. Как вы уже могли понять, результаты нашего опроса можно тоже назвать “большими данными”.


Опрос состоял из 10 вопросов и проходил по следующей схеме:

 

  1.Где вы учитесь? 2.Из какого вы класса? 3.Если ли у вас пластиковые карты? 4.Как часто вы пользуетесь данными картами? 5.Знаете ли вы что такое Cookie в браузере? 6.Слышали ли вы понятие Big Data? 7.Знаете ли вы, что такое Big Data? 8.Что такое Big Data? 9.Как вы думаете, что такое Big Data? 10.Знаете ли вы что такое "Релевантная реклама"?

Опрос мы проводили на базе Форм Google, поэтому наши данные были структурированы, и их легко можно было обрабатывать. Даже более того, Google составил анализ наших данных самостоятельно и выдал нам некоторые результаты в диаграммах.

 

 

Из опроса мы получили следующую информацию:

Люди, имеющие пластиковые карты, чаще всего их используют раз в неделю или раз в месяц.

Около 65% опрошенных знают что такое Cookie в браузере и примерно такое же количество опрошенных людей ни разу не слышали понятия Big Data. (О связи данных вопросов мы уже говорили чуть ранее).

Из людей, которые хоть раз слышали словосочетание Big Data или Большие данные, примерно 70% считают, что они знают значение этих понятий. Но, как показал наш опрос, количество правильных ответов на вопрос “Как вы думаете, что такое Big Data?” было намного больше среди людей, ответивших, что они не знают этого понятия. Естественно, мы не учитывали ответы, скопированные из “Википедии” или других онлайн-библиотек.

Не смотря на то, что релевантная реклама сейчас очень распространена, только треть людей, участвовавших в опросе, знают что это такое.

 

 

Вернемся к термину Big Data. Очень часто, когда говорят о Больших данных - используют 3V

 

Volume Действительно большие (хотя размер зависит от доступных ресурсов для их обработки)

Variety Слабо структурированные и разнородные

Velocity Обрабатывать надо очень быстро (причем и результаты часто нужны оперативно, если речь идет об online-сервисах)

 

 

Есть так же основные отрасли использования больших данных: медицина, государство, финансы, IT (в частности маркетинг). Но это не все отрасли, это только основные. Существуют и другие сферы использования.


 

Использование больших данных

 

Думаю, теории пока достаточно и стоит уже переходить к практике. А начнем мы с одной довольно забавной и крайне популярной истории.

 

 

В Америке есть очень большая сеть магазинов – Target, которая неплохо прославилась в 2012 году из-за этой истории.

 

 

Однажды в магазин Target зашел мужчина и потребовал вызвать менеджера. В своих руках он сжимал огромную кипу купонов магазина, полученных его дочерью.

 

 

«Моя дочь получила это по почте! – прокричал он. – Она еще в школу ходит, а вы посылаете ей купоны на детскую одежду и памперсы? Да как вы смеете! Вы хотите таким способом побудить школьниц рожать?»

 

 

Менеджер посмотрел на пачку купонов на материнскую одежду, детскую мебель – действительно, они были адресованы дочери рассерженного мужчины. Менеджер принес свои извинения.

 

 

Через несколько дней он позвонил мужчине, чтобы еще раз извиниться. По телефону голос отца звучал растерянно. «Знаете, я серьезно поговорил с дочерью, и выяснилось, что в моем доме происходило то, о чем я совершенно не догадывался. Она рожает в августе. Примите мои извинения».

 

 

Как Target узнал, что дочь беременна до того, как об этом стало известно ее отцу? Ответ прост – благодаря системе прогнозирования беременности (pregnancy prediction system), разработанной аналитиком компании Эндрю Полом.

 

 

Все довольно просто. Прогнозная аналитика сегодня стала точечной, в какой-то степени изощренной. Она работает не только с покупательскими привычками, но и поведением в целом. В расчет принимается каждый совершаемый вами шаг: расплачиваетесь ли вы кредиткой, открываете e-mail с предложением скидки или звоните на линию обслуживания. Все это регистрируется в системе сбора и анализа данных; каждый покупатель имеет уникальный идентификатор в такой системе. Возьмем простой пример. В апреле вы покупаете купальник. Существует большая вероятность того, что в июне вам понадобится солнцезащитный крем, а зимой вам захочется скинуть пару килограммов к весне и лету. Поэтому в июне вы получаете купон со скидкой на солнцезащитный крем, а в декабре – на книгу о диетах. Прогнозная аналитика сформирует вашу потребность в товаре и услуге еще до того, как вы осознаете необходимость в них.

 


Перейдем ко второй истории. Сейчас мы рассмотрим некоторые умные браслеты компании Jawbone. Эти браслеты оснащены очень чувствительными датчиками и отслеживают ваш сон. Они пробуждают вас в неглубокой фазе сна, чтобы вы, посыпаясь утром, были бодры и полны сил, а не ходили целый день обиженными на весь мир.

 

 

Браслеты продавались, время шло. Уже продано несколько сотен тысяч браслетов. Браслеты и сам по себе не самые дешевые, но бизнес заключается далеко не в самих браслетах.

 

 

На одной конференции представитель этой компании сказал:


«Jawbone’s significant share of a growing market gives it quite a lot of data to mine. According to Rogati, the company collects the equivalent of 60 years of sleep data every night. Sleep, of course, is only a part of what the band monitors. For Rogati, Jawbone’s data trove was too good an opportunity to pass up. She joined the company this past summer from LinkedIn, another data-driven powerhouse.»

 

 

Если постараться перевести этот текст на русский язык, то мы узнаем, что браслеты Jawbone становятся очень популярны и каждую ночь они получают данные, эквивалентные 60 годам сна. А техническое отслеживание сна - это самая малая доля их прибыли. Недавно они скооперировались с некоторыми компаниями и начали настоящий бизнес - они стали продавать данные, собранные с браслетов.

 

 

А теперь подумайте что можно придумать, если знать когда, сколько, насколько глубоко спят люди? С точностью до дня, с точностью до города.

 

 

Хочу добавить, что в компании Jawbone смогли очень точно определить эпицентр очень крупного землетрясения в калифорнии, благодаря данным, собранным с их браслетов.

Но очень важно добавить, что данные с браслетов поступают анонимно. Конечно отправляются координаты человека, пользующегося браслетом, чтобы понять в каком районе собираются данные, но к этим данным не прикрепляется имя пользователя, его возраст и подобные вещи.

 

 

Маркетинг

 

Первую прибыль из больших данных, конечно же, стали извлекать маркетологи. Возьмем широко известную историю о цвете кнопки.

 

 

Есть 3 варианта выбора кнопки:

Дремучий (“Я так сказал!”)

Продвинутый (“Мы провели A/B тест”)

Технологичный и современный (“Мы знаем, что тебе понравится”)

 

Рассмотрим историю. Небольшая компания заказала себе сайт и дизайнеры спрашивают: какого цвета делать кнопку? И в большинстве случаев заказчик самостоятельно решает какую кнопку делать. Это первый вариант. Неправильный.

 

 

Второй вариант, это когда протестировали две различные кнопки и на сайт была добавлена кнопка, которую больше всего раз нажали. Но и этот вариант несовершенен, ведь все-таки есть люди, которые нажимали другую кнопку? Из этого следует, что часть клиентов все же уйдет. А если вариантов кнопок не 2, а допустим - 10. То сколько тогда придется провести тестов? А сколько кнопок придется нарисовать дизайнерам? А сколько на это будет затрачено времени?

 

 

Третий вариант. Самый правильный, дешевый и современный. На сайт пишется скрипт, который вставляет кнопку на сайт в зависимости от предпочтений пользователя. В таком случае из команды пропадает дизайнер, так как кнопку может генерировать этот же скрипт. А на кнопку, которая пользователю нравится, он нажмет с максимальной вероятностью. Как показывает практика переход на такой вариант увеличивает число продаж на сайтах интернет-магазинов от 40 до 200 процентов.

 

Связь поисковых запросов

 

Мы получили данные одной поисковой компании, которые показывают связь между типом людей и их поисковыми запросами.

 

 

*все по слайдам*

 

 

Не поверите, но то, сколько вы смотрите телевизор - тоже влияет на ваши посковые запросы. Сравним по несколько запросов пользователей, которые много смотрят телевизор и тех, кто телевизор почти не смотрит.

 

 

*все по слайдам*

 

 

В начале урока мы немного говорили о релевантной рекламе. А теперь, когда мы научились различать типы людей по их поисковым запросам, мы можем легко предложить людям тот товар, который им скорее всего нужен. Это и есть релевантная реклама.

 

 

Так же вспомним и про таргетинг. Для тех, кто не знает, таргетинг - это такой рекламный механизм, который позволяет выделить из всей имеющейся аудитории только ту часть, которая удовлетворяет заданным критериям и показать рекламу именно ей. А такая аудитория называется - целевой.

 

 

Но не стоит забывать о параноиках. Некоторые люди жалуются, что почтовые сервисы читают их почту и предлагают релевантную рекламу исходя из их электронных писем. Расслабьтесь, вашу почту читают не люди, а роботы, и они не ищут там смысла, они ищут там только “ключевые фразы”. И даже если отключить подбор релевантной рекламы из почты, роботы не перестанут читать ваши письма. Ведь точно по такому же принципу работает Анти-спам. А без него ваш ящик бы просто взорвался от спама. Особенно, если он на mail.ru. Особенно, если ящику очень много лет. Так как базы данных спамеров просто переполнены адресами данной компании. И вы уже не захотите отключать роботов, читающих ваши письма.