Loe raamatut: «Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации»

Font:

Введение

Выйти на самоокупаемость в XXI веке – непростая задача для любой компании, если она не использует большие данные, цифровизацию и машинное обучение в своей повседневной деятельности. Не говоря уже о том, что без этих инструментов невозможно увеличить прибыль и оптимизировать бизнес-процессы. Основная причина – перенасыщенный предложением рынок, на котором борьба идет за доли процента прибыли. А при таком масштабе привычные методы ведения бизнеса становятся бесполезными, и приходится прибегать к помощи вычислительной техники.

Изучив это руководство, вы поймете:

• Для чего бизнесу нужны «большие данные». Почему невозможно начать собирать их без цифровизации компании. Зачем создавать информационные панели для собственников и топ-менеджеров.

• Как устроено машинное обучение, каким образом оно связано с большими данными, какие задачи решает, за счет чего увеличивает прибыль и снижает издержки.

Несмотря на то, что тема, затронутая в этой книге, так или иначе касается программирования, вы не встретите здесь примеров программного кода. Я лишь схематично расскажу, что и за чем следует, чтобы у вас появилось хотя бы общее представление о предмете. Основное же внимание при изложении материала будет уделено тому, чтобы познакомить с особенностями сбора больших данных, автоматизации процессов, визуализации результатов и контроля жизненных показателей бизнеса сквозь призму больших данных руководителей и топ-менеджеров и мотивировать их на внедрение новых инструментов в своих компаниях. Фактически эта книга – научпоп о цифровизации, машинном обучении и уже упомянутых больших данных.

Также в данном руководстве вы найдете информацию, касающуюся управления компанией. Но речь не идет о традиционном управлении коллективом или командой. Здесь описывается способ построения такой системы взаимодействия с сотрудниками, чтобы свести контакты между людьми к минимуму. Этот тип организации рабочего процесса, без сомнения, придется по душе интровертам, которые мечтают о том, чтобы их компания работала сама по себе: без звонков, писем, долгих уговоров и лишних усилий. Благодаря предлагаемому способу вся информация и рабочие задачи оказываются в единой системе, облегчая управление всеми происходящими процессами и контроль за ними. Да, и без такой системы крайне сложно начать собирать большие данные и проводить машинное обучение. Поэтому шаги по ее внедрению будут подробно описаны в первой части книги, которую вы держите в руках.

В дополнение к этому руководству был создан сайт RealBigData.ru. Он является демонстрационным, представляя «информационную панель компании», речь о которой пойдет дальше. В отдельных главах в качестве поясняющих материалов к тексту будут встречаться изображения с этого сайта, но на нем также размещены уникальные рекомендации, которых нет в книге: например, информация о том, на какие показатели компаний чаще всего обращают внимание профессиональные инвесторы. Поэтому обязательно посетите сайт и опробуйте предлагаемую систему – не упускайте возможность получить по-настоящему ценные знания!

Для кого и о чем эта книга

Цель данного руководства – заинтересовать предпринимателей в цифровизации бизнеса и использовании больших данных для увеличения прибыли и снижения издержек.

Эта книга в первую очередь рассчитана на мудрых руководителей зрелого возраста. Поскольку в основном у руля большого числа отечественных компаний находятся именно такие собственники и топ-менеджеры. Часто они не позволяют использовать новые подходы к управлению организацией и производственным циклом, небезосновательно утверждая, что бумажный документооборот надежнее электронного. С одной стороны, это действительно так. И в идеале было бы неплохо хранить бумажные копии всех документов фирмы где-нибудь в бункере на северном полюсе на случай ядерной войны. Но с другой стороны, цифровизация позволяет заметно увеличить чистую прибыль и повысить общий уровень управляемости компании. Поэтому руководителям с многолетним стажем все же стоит сделать над собой усилие ради достижения, по сути, главной цели любого бизнеса – получения прибыли, и начать полноценно, со знанием дела пользоваться компьютером, интернетом и всеми технологиями, которые позволяют сделать рабочий процесс более легким и эффективным.

Несмотря на очевидные плюсы, многие опытные управленцы боятся шагнуть в неизвестность. Поэтому основной задачей этого руководства как раз и является подробное аргументированное объяснение важности квалифицированного использования электронных вычислительных машин с целью получения большей выгоды. В том числе в данной книге будут рассмотрены следующие вопросы:

• Большие данные. Необходимость сбора информации, способы ее хранения и обработки.

• Визуализация данных. Построение графиков и вычисление основных бизнес-показателей в режиме реального времени.

• Машинное обучение. Способы создания моделей машинного обучения на больших данных и их использование для прогнозирования результатов бизнес-процессов.

• Цифровизация производства. Сбор больших данных как при производстве товара (или услуги), так и при контроле качества готового изделия.

• Организация работы сотрудников. От необходимости их перевода на «удаленку» до создания портала (веб-сайта) предприятия для служебного использования.

Все эти темы будут обильно сдобрены примерами успешного использования больших данных как применительно к ежедневной аналитике, так и для прогнозирования редких процессов. При этом в данном руководстве я намеренно старался избегать сложных технических терминов, изложив материал языком, доступным обычному пользователю персонального компьютера. А яркие наглядные примеры позволят вам осознать важность сбора, обработки и анализа всех возможных больших данных, даже если у вас за плечами нет специальных знаний и навыков.

Профессионал же в области машинного обучения, больших данных и их анализа после прочтения следующего абзаца, скорее всего, захочет предать автора анафеме за упрощение терминологии и отступление от строгих математических канонов. Но неопытных новичков это, напротив, должно успокоить: в данной книге точность терминологии принесена в жертву доступности текста. Поверьте, так легче начинать «с нуля» читать о том, о чем никогда раньше не слышал, а возможно, даже и не хотел слышать.

Вследствие упрощения языка этого руководства от читателя потребуется запомнить синонимы некоторых определений. Например, в тексте будут встречаться разные наименования для «алгоритмов машинного обучения»: от сокращенного «алгоритм» до более длинного «искусственный интеллект» или «машинный интеллект». При этом «компьютер» может называться «сервером» или просто «машиной» (не путать с автомобилем). Также на протяжении всей книги красной нитью проводится мысль о том, что надо бережно подходить к большим данным, сохраняя все, что только возможно, для того чтобы в будущем на их основе проводить «тренировку», «обучение» компьютера. Так вот, это в буквальном смысле «тренировка», во время которой машина выясняет, в какой степени взаимосвязаны тысячи разных параметров. После окончания такого обучения компьютер сохраняет сделанные выводы для дальнейшего их использования. Эта сохраненная логика называется «моделью машинного обучения» (иногда в тексте – «алгоритмом»). У такой модели можно попросить «предсказать» результат процесса, о котором она узнала в рамках обучения.

Если вам ясно не все, о чем говорится в предыдущем абзаце, не переживайте. Руководство, собственно, и предназначено для того, чтобы после его изучения вам стала понятнее данная область человеческой деятельности. Для этого все механизмы и процессы не только подробно описаны в книге теоретически, но и проиллюстрированы многочисленными примерами их практического использования в бизнесе.

Источники данных

Автор данной книги является предпринимателем в области информационных технологий с многолетним опытом создания и продвижения собственных проектов (более 10 штук). Поэтому иногда в тексте вы будете встречать цифры и факты без пояснительной сноски на исследовательские статьи-источники. Эта информация была получена из личного опыта автора этой книги, что нисколько не умаляет ее значимость и даже напротив: ее стоит воспринимать как актуальное и реальное положение дел в IT-бизнесе на территории России в 2023 году.

Порядок и план изложения материала

В разных главах этой книги десятки раз будет возникать одна и та же цепочка из трех элементов: «цифровизация» – «большие данные» – «машинное обучение». Но структуру изложения правильнее назвать «спиралевидной». Потому что на каждом последующем витке обсуждения будут рассматриваться новые вопросы, тонкости и особенности всех трех составляющих. Таким образом, читатель сможет последовательно, по нарастающей вникнуть в различные аспекты и без лишнего напряжения овладеть этими темами на хорошем уровне. Главную же мысль данного руководства, которая и описывает вышеуказанную спираль, можно сформулировать так: «Машинное обучение позволяет заработать больше. Но чтобы обучить машину, нужны большие данные. А чтобы собрать большие данные, нужна единая информационная система компании и цифровизация всего трудового процесса».

В первой части книги мы поговорим о цифровизации некоторых процессов компании, а точнее разных ее отделений. Затем разберем способ объединения разрозненных систем. Все эти шаги позволят собирать и накапливать большие данные, о которых речь пойдет в середине руководства.

Если же читатель уже провел цифровизацию всех отделений своей компании, создал единую информационную систему и начал накапливать большие данные, ему стоит сразу обратить внимание на последнюю треть этой книги. Начиная с глав «Примеры успеха» и «Примеры неудач» и далее описаны разнообразные способы использования больших данных и машинного обучения. Приведенные истории взяты из совершенно разных отраслей предпринимательской деятельности: от свинофермы до аэропорта. В них обязательно найдутся идеи и для вашего бизнеса.

Почему машинное обучение стало полезным

С момента появления людей на планете и до двадцатого века нашей эры человечество накопило примерно два терабайта информации в виде печатных книг, рукописных свитков, скрижалей, изображений на стенах пещер и т. п. Но в настоящее время (2023 год) мы создаем подобный объем информации за долю секунды (более 300 экзобайт в день). При этом с каждым днем скорость накопления данных резко увеличивается. Почти 90 % всей существующей информации появилось за последние 2 года. А общее количество данных, накопленных человечеством, достигает уже 120 зетабайт¹.

Весь этот объем надо не только хранить, но и обрабатывать. А алгоритмы классической математики плохо работают в подобных масштабах. Предвосхищая текущее положение дел, еще в период между 1943 и 1965 годом у человечества начали появляться новые методы обработки данных, основанные на машинном обучении. Тогда же были сформулированы основные положения, описывающие, что собой представляют нейронные сети, глубокое обучение и искусственный интеллект в целом. Но путь от теории к практике оказался долгим и тернистым, потому что вычислительная электроника на момент появления первых идей находилась в зачаточном состоянии и была неспособна потягаться даже с современным калькулятором. В результате в области прикладных исследований возникла небольшая пауза.

Через пару десятков лет, в период между 1970 и 1989 годами произошел качественный скачок в развитии баз данных и электроники. Что позволило систематизировать и обрабатывать информацию в той форме, объемах и с такой скоростью, которые требовались для начала использования машинного обучения в промышленных масштабах.

Современный вычислительный сервер (производства 2023 года) из верхнего ценового сегмента, который стоит как автомобиль, легко займет первую строчку в рейтинге 500 самых мощных суперкомпьютеров мира 2000 года. При этом его энергопотребление в три раза ниже, чем у обычного чайника или пылесоса. Благодаря этому любая компания, даже не имеющая большого штата системных администраторов, электриков и программистов, может создавать свои модели машинного обучения, обрабатывая огромные массивы данных. Более того, энтузиасты уже умудряются использовать вычислительные мощности кофеварок, микроволновок и роботов-полотеров для непрерывного анализа информации.

Можно смело сказать, что машинное обучение плотно вошло в нашу жизнь и никуда теперь не исчезнет. С каждым годом все больше компаний будут пользоваться его плодами, обгоняя конкурентов. Поэтому читателю лучше отвергнуть все мысли о том, что это лишь временное явление и не стоит торопиться приступать к изучению новой науки. Прочитав эту книгу, каждый может выйти на достойный уровень понимания всех причин, последствий и способов применения машинного обучения и больших данных в бизнесе.

Битва за хлебные крошки

С начала века бизнес претерпел существенные изменения, вызванные третьей промышленной революцией (информатизацией), развитием каналов продаж и рекламы. При этом доходы его непрерывно падают из-за растущей конкуренции на рынке. Если раньше наценка 50 % считалась вполне привычным делом, то сейчас 3–5 % – это уже большая удача. И если получается сохранить часть пирога выручки после оплаты себестоимости, бизнес выходит на самоокупаемость. А в некоторых случаях даже становится успешным. И, как это ни парадоксально, чем крупнее компания и сложнее ее бизнес-процессы, тем точнее выражение «битва за хлебные крошки» описывает процесс увеличения выручки. Справедливости ради отметим, что у состоявшегося бизнеса доли процента от прибыли могут составлять десятки или даже сотни миллионов рублей. Поэтому, если не бороться буквально за каждую копейку себестоимости, считая ее мелочью, недостойной внимания, потери прибыли могут быть колоссальными.

Итак, сегодня битва идет за проценты прибыли, которые могут решить судьбу всей компании. Эта борьба ведется с помощью автоматизации всех рабочих процессов и за счет снижения издержек в каждом отделении. Ввиду этого набор сотрудников уже давно проводится с пристрастием. Сегодня никто не нанимает «девочку для продаж по телефону» – разумнее отдать ее зарплату программисту, который автоматизирует весь процесс и принесет компании во много раз больше пользы. Поэтому можно без преувеличения сказать, что основными солдатами в бою за повышение прибыли являются специалисты, которые, жонглируя большими данными, позволяют эффективно повышать рентабельность бизнеса за счет обработки огромных массивов информации, их анализа и внедрения следующих из этого процедур, способствующих улучшению работы компании.

Спрос на таких специалистов появляется не только из-за потребностей бизнеса, но и вследствие роста информационной грамотности населения. Для примера сравним розничную торговлю, осуществляемую через интернет-магазины в начале века и сейчас. Если раньше достаточно было продавать товары на одном собственном сайте компании, то теперь необходимо размещать их еще и на «чужих» площадках («Яндекс.Маркет», Ozon, Wildberries и т. п.), использовать агрегаторы и даже социальные сети, которые тоже стали точками продаж. Некоторые сервисы предлагают бизнесменам услуги по созданию таких автоматических выгрузок, однако они не могут удовлетворить индивидуальные запросы клиентов с помощью имеющихся функций. Ведь между компаниями царит жесткая конкуренция в погоне за увеличением процента прибыли. То есть за максимальное привлечение клиентов. Поэтому бизнесу приходится брать дело в свои руки, нанимать штатных программистов и специалистов по большим данным. Их работа с торговыми площадками и соцсетями в «ручном режиме» позволяет достичь более тонкой настройки, а также снизить издержки на доработку стандартного программного обеспечения, что в конечном итоге приводит к увеличению прибыли.

Зарплаты у программистов довольно высокие. Поэтому небольшим компаниям, которые только выходят на современный переполненный конкурентами рынок, может показаться, что достичь самоокупаемости в такой среде практически невозможно. Однако в действительности, хотя у крупных корпораций и есть сотни программистов, которые могут переиграть любого конкурента, процесс их «раскачки» занимает довольно продолжительное время. Небольшие «маневренные» фирмы способны быстрее подстроиться под течения рынка, держа нос по ветру. Они вполне вольготно могут существовать и развиваться в своей нише, куда большие игроки еще не добрались из-за неповоротливости их бюрократической машины. Но когда небольшая компания хорошо себя чувствует, она волей-неволей начинает расти ради получения еще большей прибыли. И со временем переходит в другую конкурентную лигу. Круг замыкается: хочешь жить спокойно – будь маленьким и слабым, хочешь жить сытно и по-царски – качай мышцу. Поэтому идеальной стратегией для фирм любого размера будет постепенный набор программистов с самого начала своего существования. Иначе можно просто потерять бизнес, если спохватиться слишком поздно.

Если вы разделяете такой подход к делу, который требует бо́льших затрат на своих программистов, но в ответ дает вам полную свободу и гибкость по извлечению прибыли из бизнес-процессов, эта книга для вас. Однако даже если вы его не разделяете и склонны нанимать на работу сторонних специалистов, эта книга и для вас тоже, потому что позволит при найме делать осознанный выбор. Повторюсь: здесь вы найдете описание всего процесса сбора, аналитики и обработки больших данных.

Зачем нужно собирать информацию

В прошлом разделе было сказано, что существование бизнеса в условиях современного перенасыщенного рынка практически невозможно без штатных программистов. Фирмы со старым подходом к делу, с бумажным документооборотом, будут медленно вымирать, проигрывая в конкурентной борьбе тем, кто стремится к минимизации потерь прибыли.

Теперь углубимся в причины этих потерь. Для чего сначала поверхностно коснемся темы больших данных и машинного обучения, чтобы вникнуть в суть, изучить терминологию и наметить конечные цели, которые подробнее обсудим в заключительной части книги. Но прежде сделаем небольшое отступление и уточним, что «программисты», речь о которых шла раньше, бывают разные. Они трудятся в различных областях и направлениях, решая соответствующие профессиональные задачи. Если работа программиста каким-то образом связана с данными (информацией), его называют «специалистом по данным». К этой категории относятся:

• Инженеры по данным, которые создают огромные хранилища, вмещающие сотни терабайт информации. Они же пишут программы по сбору и конвертации этих данных в более удобные форматы, чтобы другие сотрудники могли ими пользоваться.

• Аналитики данных, которые занимаются построением и анализом графиков и диаграмм по уже собранным данным, чтобы лучше понимать бизнес-процессы и увеличивать прибыль компании.

• Специалисты по машинному обучению, которые могут создавать и обучать на собранных данных системы для предсказания каких-либо значимых для бизнеса параметров и их величин.

Иногда в тексте вместо общего названия «программисты» вам встретится более конкретное «специалист по данным». А какое именно направление имеется в виду, вы поймете из контекста.

Большие данные

Английское словосочетание Big Data дословно переводится как «большие данные». По сути – это подробная информация о предмете. К примеру, большие данные для торгового центра включают в себя сведения о чеках покупателей, о количестве посетителей и даже о температуре внутри здания в течение всего дня. При этом данные не ограничиваются стенами торгового центра, в них могут быть добавлены заметки о количестве людей, пользующихся ближайшей станцией метро. Или даже информация о частоте стрижки городскими службами расположенных в радиусе ста метров от торгового центра кустов. Эти с виду бесполезные данные, скрупулезно собираемые в течение продолжительного периода времени, и называются «большими данными».

При этом они представляют собой не только числа. Это могут быть:

• Текстовые отзывы клиентов и их обращения в службу поддержки.

• Комментарии в социальных сетях.

• Записи телефонных разговоров с клиентом.

• Фотографии – от аватаров клиентов до снимков товаров.

• Видео с камер наблюдения.

Вся эта информация может легко занимать десятки терабайт. И чем старше фирма, тем больше у нее накоплено данных для проведения ценных исследований: в современном мире намного дороже удалять старую информацию, чем хранить ее вечно. Это как раз тот случай, когда «своя ноша не тянет».

Из-за непрерывно поступающих данных компании стараются минимизировать объемы хранящейся информации для снижения расходов на электронные носители. Для этого, например, аудио- и видеозаписи с помощью специальных алгоритмов переводятся в более компактный вид. Из аудиофайлов выделяют речь. Из видеозаписей, например с камер наблюдения, можно получить данные о количестве находящихся в магазине посетителей. Поэтому если преобразовывают формат, то нет нужды хранить само исходное видео или аудио. Более того, даже обычная текстовая информация, которая и так занимает немного места, отлично сжимается благодаря современным алгоритмам. Это сильно уменьшает занятый объем хранилища компании. Однако, несмотря на затраты, сейчас даже у небольших предприятий, далеких от информационных технологий, можно найти в кладовке работающий сервер, забитый несколькими терабайтами данных.

Непосвященному человеку куча устаревшей информации на серверах компании может показаться мусором. Но на самом деле это нефть 21 века. Огромные массивы накопленных данных используются для предсказания будущего, в котором бизнес сможет развиваться лучше и заработать больше. Делаются такие прогнозы не напрямую человеком, а посредством компьютера, в который вложены специальные математические алгоритмы. Даже если на график, на котором отображено ежедневное изменение тысячи параметров за последний год, посмотрит хорошо подготовленный специалист, он увидит лишь забор из линий. А компьютер, машина, не напрягаясь сможет сделать верный вывод о влиянии этих параметров на чистую прибыль компании. Но если бы данные вообще не были собраны, то и никакого вывода сделать было бы нельзя. Именно для этого всевозможная информация и хранится в компании, потому что без нее невозможно натренировать машинный интеллект, сделать с его помощью прогноз на будущее и получить выгоду для бизнеса.

Далеко не все данные, которые попадают на серверы компании, представлены в удобном для использования виде. Поэтому «склады» этих данных разделяют на несколько типов, между которыми непрерывно перекачивается информация, изменяя свою форму (или, говоря профессиональным языком, формат). Первый склад называется «озеро данных» (с английского ”Data Lake”). В него попадает вообще все, во всех возможных форматах. Там могут находиться файлы текстовых документов PDF или DOC вперемешку с JPEG-изображениями и MP4-видеофайлами. Как можно догадаться, если бессистемно поставлять подобные потоки информации в хранилище и не определить заранее, как и куда сохранять, то озеро данных очень быстро превратится в болото. Чтобы этого не произошло, нужен специальный программист, он же «инженер по данным». А если быть совсем точным, «директор по данным» (с английского ”Chief Data Officer”). Он следит как за порядком на этом «водохранилище», так и за правами доступа к нему. Весь процесс называется «управление данными» (с английского ”Data Governance”).

Итак, озеро данных – это первый «склад», куда попадает информация. После чего начинается процесс ее трансформации в более удобные формы для последующего размещения в следующем складе под названием «хранилище данных» (с английского ”Data Warehouse”). Сам процесс преобразования информации и ее перемещения между «складами» называется ETL (англ. термин ”Extract, Transform, Load” – дословно «извлечение, преобразование, загрузка»). И в конце, когда данные оказываются в хранилище в удобной для чтения форме, с ними уже могут начинать работать другие специалисты. На основе этих данных строят графики, их анализируют, на них тренируют модели машинного обучения, а также используют их для построения статистики и бизнес-отчетов.

Обычно ETL-процессы автоматизируются специальными программами, которые пишут инженеры по данным. К примеру, каждый квартал компания скачивает публичный бухгалтерский отчет конкурентов в PDF-формате. Делается это для того, чтобы держать руку на пульсе, следить за рынком. Очевидно, что в такой ситуации невозможно попросить конкурента выкладывать информацию в более удобном формате. Поэтому инженер по данным пишет программу, которая сначала скачивает PDF-файл в «озеро данных», потом достает пару-тройку нужных значений из него и сохраняет в «хранилище». После чего обновляет графики, которые строятся по этим данным. И в конце удаляет исходный PDF-файл из озера. Подобная программа срабатывает по расписанию, автоматически, непрерывно доставляя свежую информацию руководству и аналитикам. А в хранилище не остается больших ненужных файлов, все преобразуется в максимально компактный и удобный вид.

1.F. Duarte (2023) Amount of Data Created Daily (https://explodingtopics.com/blog/data-generated-per-day).