Алл Спроут Социал

Поново осмишљавање приступа Спроут Социал великим подацима

Спроут Социал је, у својој сржи, компанија вођена подацима. Спроут свакодневно обрађује милијарде порука са више друштвених мрежа. Због тога се Спроут инжењери суочавају са јединственим изазовом — како да сачувају и ажурирају више верзија исте поруке (тј. ретвитова, коментара, итд.) које долазе на нашу платформу у веома великом обиму.

Пошто складиштимо више верзија порука, инжењери Спроута имају задатак да „рекреирају свет“ неколико пута дневно – суштински процес који захтева понављање читавог скупа података да би се сваки део друштвене поруке консолидовао у један „извор истине“.

На пример, праћење лајкова, коментара и ретвитова једне објаве на Твитеру. Историјски гледано, ослањали смо се на самоуправљане Хадооп кластере за одржавање и рад са тако великим количинама података. Сваки Хадооп кластер би био одговоран за различите делове Спроут платформе — пракса на коју се ослања читав Спроут инжењерски тим за управљање пројектима великих података, у великом обиму.

значење 656

Кључеви Спроутовог приступа великим подацима

Наш Хадооп екосистем је зависио од Апацхе Хбасе, скалабилне и дистрибуиране НоСКЛ базе података. Оно што чини Хбасе кључним за наш приступ обради великих података је његова способност да не само брзо скенира читаве скупове података, већ и да ради брзе, насумичне претраге појединачних записа.

Хбасе нам такође омогућава да групно учитавамо податке и ажурирамо насумичне податке како бисмо лакше могли да се носимо са порукама које стижу ван реда или са делимичним ажурирањима, као и другим изазовима који долазе са подацима друштвених медија. Међутим, сами управљани Хадооп кластери оптерећују наше инфраструктурне инжењере високим оперативним трошковима, укључујући ручно управљање опоравком од катастрофе, проширење кластера и управљање чворовима.

Да би помогли у смањењу количине времена које долази од управљања овим системима са стотинама терабајта података, тимови за инфраструктуру и развој компаније Спроут окупили су се како би пронашли боље решење од покретања Хадооп кластера којима се самостално управља. Наши циљеви су били да:

1020 анђеоски број

Дозволите Спроут инжењерима да боље граде, управљају и руководе великим скуповима података
Смањите време које инжењери улажу у ручно поседовање и одржавање система
Смањите непотребне трошкове прекомерног обезбеђивања због ширења кластера
Обезбедите боље методе опоравка од катастрофе и поузданост

Док смо процењивали алтернативе нашем тренутном систему великих података, настојали смо да пронађемо решење које се лако интегрише са нашом тренутном обрадом и обрасцима, и које би ослободило оперативни напор који долази са ручним управљањем кластером.

Процена нових алтернатива узорка података

Једно од решења које су наши тимови разматрали била су складишта података. Складишта података делују као централизовано складиште за анализу и агрегацију података, али више личе на традиционалне релационе базе података у поређењу са Хбасе-ом. Њихови подаци су структурирани, филтрирани и имају строг модел података (тј. имају један ред за један објекат).

За наш случај употребе складиштења и обраде друштвених порука које имају много верзија поруке које живе једна поред друге, складишта података су имала неефикасан модел за наше потребе. Нисмо били у могућности да ефикасно прилагодимо постојећи модел складиштима података, а перформансе су биле много спорије него што смо очекивали. Реформатирање наших података ради прилагођавања моделу складишта података захтевало би велике трошкове за прераду у временској линији коју смо имали.

Још једно решење које смо размотрили биле су куће са језерима података. Складишта података проширују концепте складишта података како би омогућили мање структуриране податке, јефтиније складиштење и додатни слој сигурности око осјетљивих података. Иако су складишта података нудила више од онога што би складишта података могла, нису била тако ефикасна као наше тренутно Хбасе решење. Кроз тестирање нашег записа обједињавања и наших образаца обраде уметања и брисања, нисмо били у могућности да генеришемо прихватљива кашњења писања за наше групне послове.

77 духовно значење

Смањење трошкова и одржавања уз АВС ЕМР

С обзиром на оно што смо научили о решењима за складиштење података и лакехоусе, почели смо да истражујемо алтернативне алате који покрећу управљани Хбасе. Иако смо одлучили да је наша тренутна употреба Хбасе-а ефикасна за оно што радимо у Спроуту, питали смо се: „Како можемо боље да покренемо Хбасе да смањимо наше оперативно оптерећење, а да и даље задржимо наше главне обрасце коришћења?“

Тада смо почели да процењујемо Амазонову услугу Еластиц Мап Редуце (ЕМР) којом управља Хбасе. Процена ЕМР-а захтевала је процену његовог учинка на исти начин на који смо тестирали складишта података и језера, као што је тестирање уноса података да бисмо видели да ли може да испуни наше захтеве за перформансе. Такође смо морали да тестирамо складиштење података, високу доступност и опоравак од катастрофе како бисмо осигурали да ЕМР одговара нашим потребама са инфраструктурне/административне перспективе.

Карактеристике ЕМР-а су побољшале наше тренутно решење за самостално управљање и омогућиле нам да поново користимо наше тренутне обрасце за читање, писање и извршавање послова на исти начин на који смо радили са Хбасе-ом. Једна од највећих предности ЕМР-а је употреба ЕМР система датотека (ЕМРФС), који чува податке у С3, а не на самим чворовима.

Изазов који смо открили био је да је ЕМР имао ограничене опције високе доступности, што нас је ограничило на покретање више главних чворова у једној зони доступности или једног главног чвора у више зона доступности. Овај ризик је ублажен коришћењем ЕМРФС-а јер је обезбедио додатну толеранцију грешака за опоравак од катастрофе и раздвајање складиштења података од рачунарских функција. Коришћењем ЕМР-а као нашег решења за Хбасе, у могућности смо да побољшамо нашу скалабилност и опоравак од кварова и минимизирамо ручну интервенцију потребну за одржавање кластера. На крају смо одлучили да ЕМР најбоље одговара нашим потребама.

Процес миграције је претходно лако тестиран и извршен да би се милијарде записа мигрирали у нове ЕМР кластере без застоја корисника. Нови кластери су показали побољшане перформансе и смањили трошкове за скоро 40%. Да бисте прочитали више о томе како је прелазак на ЕМР помогао у смањењу трошкова инфраструктуре и побољшању наших перформанси, погледајте Студија случаја компаније Спроут Социал са АВС-ом.

Оно што смо научили

Величина и обим овог пројекта дали су нам, инжењерском тиму за поузданост базе података инфраструктуре, могућност да радимо унакрсну функцију са више инжењерских тимова. Иако је био изазован, показао се као невероватан пример пројеката великих размера са којима можемо да се позабавимо у Спроуту као кооперативној инжењерској организацији. Кроз овај пројекат, наш тим за инфраструктуру је стекао дубље разумевање о томе како се Спроут-ови подаци користе, чувају и обрађују, а ми смо опремљенији да помогнемо у решавању будућих проблема. Створили смо заједничку базу знања у више тимова која нам може помоћи да изградимо следећу генерацију корисничких функција.

анђео број 13

Ако сте заинтересовани за оно што градимо, придружите се нашем тиму и пријавите се за једну од наших отворених инжењерских улога данас.

Подели Са Пријатељима:

Сазнајте Свој Број Анђела

Кључеви Спроутовог приступа великим подацима

Процена нових алтернатива узорка података

Смањење трошкова и одржавања уз АВС ЕМР

Оно што смо научили