"Петролът" на интернет

Големите информационни масиви (Big Data) са сред двигателите на световната икономика

В съвсем близко бъдеще анализът на данните в големите информационни масиви (Big Data) вероятно ще бъде нещото, което ще разделя успешните компании от тези, които са обречени на неуспех. Световната икономика и все повече компании ще разчитат на него, за да генерират растеж, единодушни са почти всички консултантски компании. Финансовият гигант Goldman Sachs например ги определя като една от технологиите, които ще трансформират сегашните пазари и ще създадат нова бизнес ниша. Очакванията и надеждите към т.нар. Big Data са толкова големи, че някои специалисти ги приемат за надценени.

Същевременно това понятие остава неразбрано за по-широката аудитория. Така цялата дискусия относно истинските възможности и потенциал на информационните масиви в момента се провежда единствено сред тясно ориентирани професионалисти. Същевременно големите IT корпорации и държавни институции по света влагат милиарди долари в обработката им. Едните с цел подобряване на бизнес възможностите си, другите – в името на националната сигурност.

Море от данни

Най-краткото определение за Big Data е, че това е събирането на огромни количества информация, които са толкова обемни и сложни, че е невъзможна тяхната ръчна или автоматизирана обработка с досегашните софтуерни и хардуерни инструменти. Предизвикателствата, пред които са изправени IT специалистите, включват събиране, съхраняване, търсене, споделяне, прехвърляне, анализиране и визуализиране на данните. Понятието Big Data започва да се формира в началото на XXI век, когато информацията, която се качва в интернет, се увеличава с 1696% в периода 2005 до 2012 г. и достига 1.2 зетабайта (1 зетабайт = ~1 млрд. терабайта). Установена е тенденцията трафикът да се удвоява веднъж на всеки 40 месеца. Но големите информационни масиви не се изчерпват само с извличане на потока в глобалната мрежа – те могат да обхващат и несвързани с интернет бази данни, които се поддържат от големи корпорации или държавни институции.

Big Data може да се отнася и за малки предприятия, когато се сблъскват с по-голям поток информация, отколкото могат да обработят с традиционните инструменти, и ги принуждава да инвестират в нови кадри, софтуер и техника. Затова обемът от данни, които се считат за "масиви", варира от няколко десетки терабайта до няколко петабайта (1 петабайт = ~1000 терабайта). Няма точна дефиниция какво точно трябва да е съдържанието на Big Data. То може да бъдат потребителски данни, снимки, видеопоток и др. Примери за информационни масиви могат да бъдат клиентската база на веригата американски магазини Walmart и на онлайн ритейлърът Amazon, както и всички статии, снимки, графики и т.н. на свободната интернет енциклопедия Wikipedia. Други примери са непрекъснатият поток от разнообразна информация, която подават социалните мрежи като Facebook и Twitter.

Знанието е сила

Големите IT компании инвестират милиарди в хора и инфраструктура, за да могат да поддържат големи бази данни и да ги анализират успешно. Усилията на корпорации като Google, Amazon, Facebook са възнаградени с много по-добро профилиране на своите потребители. Така те могат да предоставят по-качествени услуги, които да улеснят клиентите им. Защото колкото повече информация постъпва при технологичните гиганти, толкова повече например Google успява да адаптира резултатите от търсачката си, както и да синхронизира по-добре насочените реклами.

Това подтиква все повече компании да използват масивите от информация. Те влагат не само колосални суми за големи дейта центрове, но и заделят стабилни ресурси в намирането на програмисти, които да я анализират. Затова се увеличава търсенето на софтуерни разработчици, тясно специализирани в управлението и обработването на данни. През 2010 г. този пазар се оценява на близо 100 млрд. долара и е един от най-бързо растящите софтуерни сегменти.

Възможността за усвояване, съхраняване и анализиране на голям поток от данни може да даде ценно знание и предимства не само на гиганти с мултимилиарден годишен бюджет като Google и Amazon. Надеждата на индустрията е чрез напредването на технологиите и инструментите за обработване големите информационни масиви да станат достъпни за малки и средни предприятия, които да ги използват за подобряване на своите бизнес практики. От друга страна, напредването на технологиите предоставя на фирмите истински океан от информация, която те невинаги могат да обработят. Така например 46% от изпълнителните директори на ритейл вериги в САЩ споделят, че изпитват проблеми с анализирането на данните, които събират, пише списание Forbes.

Важен момент е, че голяма част от данните са актуални. Според изследване на IBM 90% от информацията, налична днес, е създадена през последните две години. Тя варира от метеорологични данни, през постове в социалната мрежа до финансови транзакции, тоест за почти каквото ви хрумне. Създаването на публични облачни услуги улеснява събирането на информация от нетехнологични компании, които си спестяват разходи по изграждане на големи сървъри.

Цялото познание, което фирмите събират или могат да получат, ще им позволи по-лесно да си намират потенциални клиенти или да взимат важни бизнес решения. Докато досега това ставаше чрез предположения, скъпи проучвания, стриктно определена корпоративна политика или интуицията на шефовете, сега те могат да го правят чрез разглеждане и анализиране на конкретни данни.

Тъмната страна

Основните опасения относно справянето с Big Data се състои в най-голямото му предимство – огромния обхват на информационните масиви. Лесното, достъпно и бързо събиране, обработване и анализиране на големи количества данни създава предпоставки за злоупотреба с резултатите. От една страна, може да доведе до злоупотреба с лични данни от търговци или дори от държавните институции.

Така например Агенцията по национална сигурност на САЩ (NSA) строи в момента голям дейта център в щата Юта, който ще е снабден с техника за съхраняване и анализиране на стотици зетабайти информация. Основната цел на инсталацията е обработването на данни от интернет и други форми на комуникация (телефонни разговори например). Което, като се комбинира със скандала с подслушванията в САЩ, разкрити от бившия сътрудник на ЦРУ Едуард Сноудън, показва една доста тъмна картина относно неприкосновеността на личните данни в страната.

Иронично, но именно обработката на информационните масиви предизвика опасенията на американските военни, че враговете на САЩ могат да се възползват от Big Data, за да навредят на страната, нейните институции или на бизнеса. Така Агенцията за авангардни разработки на Пентагона (DARPA) получава задачата да проучи дали свободният достъп до големи бази данни може да навреди на националната сигурност.

По този начин се повдига въпроса кой и как може да оперира с информационните масиви, както и дали и как да бъде регулиран този процес.

Очаква се до няколко години инструментите за обработването на Big Data да станат още по-прецизни и лесни за ползване, докато самата информация – още по-необятна. Затова много компании и дори цели бизнес сегменти се надяват да успеят да генерират ръст чрез нея. Много експерти обаче са скептични дали тя ще промени икономическата обстановка или бизнес моделите. В някои случаи интернет компании като Amazon и eBay ще се борят помежду си за клиенти, като използват техните данни. Тоест трудно те ще се надяват да привлекат голямо количество нови потребители. От друга страна, Big Data може да канибализира някои традиционни сектори, като рекламния например.

"Един пада, друг идва – пределно ясно е, че дигиталната форма постепенно ще замести физическата в много бизнес аспекти", коментира Джоел Уолдфогел, икономист от Университета в Минесота, цитиран от New York Times. С други думи, трудно може информационните масиви самостоятелно да повдигнат икономиката.

Доста експерти също така смятат сравнението на Big Data с петрола за изсилено и че то няма да доведе до чак толкова революционни изменения. Но е факт, че в дигиталното пространство се натрупва все повече информация, която чака да бъде използвана. Знанието е ценен ресурс, но всичко зависи от това как ще бъде приложено.

Close
Бюлетин
Бюлетин

Вечерни новини

Най-важното от деня. Всяка делнична вечер в 18 ч.


9 коментара
  • 1
    offshore avatar :-|
    Offshore Banking

    В статията нищо не се споменава за руските ВIG Data. Има мново добри такива, а и са напълно безплатни. Например: 7ba.ru / rol.ru / и мн. др.

    Публикувано през m.capital.bg

  • 2
    e_mil avatar :-|
    tamada

    Цитат: "Понятието Big Data започва да се формира в началото на XXI век, когато..."

    Начи-и... ако бях гл. редактор на "Капитал" щях да забраня достъпа до Уикипедия. Заради нея всички журналисти стават мързеливи и забравят да проверят източниците на факти.

    Понятието "big data" за пръв път се споменава през 1997 в доклада "Application-Controlled Demand Paging for Out-of-Core Visualization", прочетен на 8-та Конференция по визуализация, организирана от IEEE. Има го свободно достъпен в Интернет.
    През пролетта на 1998 понятието е повторено. На годишната конференция на асоциацията USENIX е показана презентация озаглавена "Big Data and the Next Wave of InfraStress".

    Обаче всичко това започва да се формира като идея повече от 20 години по-рано, когато през 1975 японското министерство на пощите и телекомуникациите започва да засича информационния поток в Япония - Information Flow Census (иначе самата идея да се направи това е предложена още през 1969). Тогава установяват, че предлагането на информация започва да изпреварва търсенето.
    В отчета на преброяването се казва горе-долу следното: "... търсенето на информация предложена от масмедиите, които са еднопосочна комуникация е в застой, докато търсенето на информация предлагана по лични телекомуникационни канали, характеризирано като двупосочна комуникация драстично се увеличава... Нашето общество се движи към нов стадий, в който по-голям приоритет ще има сегментираната детайлизирана информация, която ще посреща индивидуалните нужди, вместо конвенционалната масова информация."

    Представяте ли си? Това е писано 15 години преди някой въобще да предложи създаването на World Wide Web. А Вие ми говорите за началото на XXI век.

    Малко по-късно през 1980 на Четвъртия симпозиум на IEEE за информационните носители Ървин Тьомсланд казва следното: "Тези от нас, свързани със запаметяващите устройства отдавна са разбрали, че Първият закон на Паркинсън може да се перифразира да се опише нашата индустрия: "Обемът на данните се разширява до запълване на наличното пространство".

    Накратко: тенденцията за формиране на "big data" са били разбирани отдавна, а не в началото на XXI век. Ако искате да пишете добри анализи по-добре забравете за справките в Уикипедия!

  • 3
    alex.p.ivanov avatar :-|
    alex.p.ivanov

    До коментар [#2] от "tamada":

    Детайли, детайли, които не са ключови за съдържанието на статията, която е с фокус върху бъдещето.

  • 4
    ra4ko avatar :-|
    ra4ko

    Гореща тема е, но това не означава непременно, че Big Data е фантастика. За повечето сложни технологии и алгоритми зад Google и SAS има и алтернативи с отворен код, като Hadoop например. Доколкото знам Facebook и Yahoo! ползват именно тази платформа. Твърде е сложна за разбиране и за извличане на някакви реални ползи, ако не си софтуерен инженер, но винаги може да се обърнете към някоя от безплатните програми като Cloudera примерно, които превеждат всичко на човешки език. Няколко часа след работно време задълбаване в нещата имат потенциала за направят чудеса.

    Днешните времена малко погрешно се приемат за ерата на информацията. По-скоро сме в ерата на данните, а ерата на информацията тепърва предстои.

  • 5
    e_mil avatar :-P
    tamada

    [quote#3:"alex2"]"Детайли, детайли, които не са ключови за съдържанието на статията, която е с фокус върху бъдещето."[/quote]

    Като изключим увода, цялата първа половина на статията се опитва да разкаже историята на "big data" до днешни дни.
    Въпросът е: ако един автор не може да намери леснодостъпни факти дори за близката история, то как да му вярваме за бъдещето, което може да се анализира само по откъслечни данни, спорни прогнози, слухове и ирационални вярвания?

  • 6
    sulio_parvi avatar :-P
    sulio_parvi

    До коментар [#5] от "tamada":

    Оо, то е патент на Капиталовите писачи да пишат за неща,от които си мислят, че разбират, но всъщност не разбират ни най малко. и съм забелязал, ч най често в коментарите ги опровергават хора, които са най дълбоко в материала. Затова и ги чета, не за неумелото им преписване от нета, а като дразнител за коментари от умни и запознати с материята хора.

  • 7
    the_incumbent avatar :-P
    The Incumbent

    Капитал, данните не се анализират от програмисти, а от математици и статистици!

  • 8
    forest avatar :-|
    Forest

    Повечето компании и организации не могат да се справят със small data, какво остава с big data. И основната пречка за това не е технологическа, а това, че нямат умения да анализират данни и/или предпочитат да взимат решения въз основа на опит и интуацията дори и когато данните показват друго. Ще има доста опозиция. Служителите и особено мениджърите ще се почувстват заплашени, когато данните покажат, че техни решения са били грешни и в бъдеще могат да бъдат изместени от подобни технологии. В крайна сметка този тип технологии ще доближат мениджмънта и работата като цяло до науката където учените правят изводи въз основа на факти и данни, а не на ограничения им личен опит и шесто чувство.

  • 9
    bretschneider avatar :-|
    bretschneider

    Проблема на т.нар. Биг Дейта е че далеч не е съвсем толкова Биг.


Нов коментар

За да публикувате коментари,
трябва да сте регистриран потребител.


Вход