اطلاعات بزرگ دقیقا چیست ؟
تعریف کلان داده، داده هایی است که دارای تنوع بیشتری هستند، با حجم فزاینده و با سرعت بیشتر می رسند. به این سه در مقابل نیز می گویند.
به زبان ساده، کلان داده مجموعه داده های بزرگتر و پیچیده تر است، به ویژه از منابع داده جدید. این مجموعه داده ها آنقدر حجیم هستند که نرم افزارهای سنتی پردازش داده نمی توانند آنها را مدیریت کنند. اما این حجم عظیم از داده ها را می توان برای رفع مشکلات تجاری که قبلاً نمی توانستید با آنها مقابله کنید، استفاده کرد.
سه شاخصه داده های بزرگ
جلد: مقدار داده مهم است. با داده های بزرگ، باید حجم بالایی از داده های کم چگالی و بدون ساختار را پردازش کنید. این میتواند دادههایی با ارزش ناشناخته باشد، مانند فید دادههای توییتر، جریانهای کلیک در یک صفحه وب یا یک برنامه تلفن همراه، یا تجهیزات دارای حسگر. برای برخی از سازمان ها، این ممکن است ده ها ترابایت داده باشد. برای دیگران، ممکن است صدها پتابایت باشد.
سرعت: سرعت سرعت سریعی است که داده ها با آن دریافت می شوند و (شاید) عمل می کنند. به طور معمول، بالاترین سرعت جریان مستقیم داده ها در حافظه در مقایسه با نوشتن روی دیسک. برخی از محصولات هوشمند مجهز به اینترنت در زمان واقعی یا تقریباً زمان واقعی کار می کنند و به ارزیابی و اقدام در زمان واقعی نیاز دارند.
تنوع: تنوع به انواع مختلفی از داده های موجود اشاره دارد. انواع داده های سنتی ساختار یافته بودند و به خوبی در یک پایگاه داده رابطه ای قرار می گرفتند. با ظهور کلان داده ها، داده ها به انواع داده های بدون ساختار جدید می آیند. انواع داده های غیرساختار یافته و نیمه ساختاریافته، مانند متن، صدا و ویدئو، به پیش پردازش اضافی برای استخراج معنی و پشتیبانی از ابرداده نیاز دارند.
ارزش و حقیقت داده های بزرگ
دو V دیگر در چند سال گذشته ظهور کرده اند: ارزش و حقیقت . داده ها دارای ارزش ذاتی هستند. اما تا زمانی که آن ارزش کشف نشود، فایده ای ندارد. به همان اندازه مهم: دادههای شما تا چه حد واقعی هستند و چقدر میتوانید به آنها تکیه کنید؟
امروزه کلان داده به سرمایه تبدیل شده است. به برخی از بزرگترین شرکت های فناوری جهان فکر کنید. بخش بزرگی از ارزشی که ارائه میدهند از دادههایشان ناشی میشود که دائماً در حال تجزیه و تحلیل برای تولید کارایی بیشتر و توسعه محصولات جدید هستند.
پیشرفت های تکنولوژیکی اخیر به طور تصاعدی هزینه ذخیره سازی داده ها و محاسبات را کاهش داده است و ذخیره سازی داده های بیشتر را آسان تر و کم هزینه تر از همیشه کرده است. با افزایش حجم داده های بزرگ که اکنون ارزان تر و در دسترس تر است، می توانید تصمیمات تجاری دقیق و دقیق تری بگیرید.
یافتن ارزش در کلان داده تنها به تجزیه و تحلیل آن نیست (که یک مزیت کاملاً دیگر است). این یک فرآیند کشف کامل است که به تحلیلگران، کاربران تجاری و مدیرانی با بصیرت نیاز دارد که سؤالات درستی بپرسند، الگوها را تشخیص دهند، فرضیات آگاهانه ایجاد کنند و رفتار را پیشبینی کنند.
تاریخچه داده های بزرگ
اگرچه مفهوم کلان داده به خودی خود نسبتاً جدید است، خاستگاه مجموعههای داده بزرگ به دهههای 1960 و 70 بازمیگردد، زمانی که دنیای دادهها تازه با اولین مراکز داده و توسعه پایگاه داده رابطهای شروع شده بود.
در حدود سال 2005، مردم متوجه شدند که کاربران چقدر داده از طریق فیس بوک، یوتیوب و سایر خدمات آنلاین تولید می کنند. Hadoop (یک چارچوب متن باز که به طور خاص برای ذخیره و تجزیه و تحلیل مجموعه های داده های بزرگ ایجاد شده است) در همان سال توسعه یافت. NoSQL نیز در این زمان شروع به محبوبیت کرد.
توسعه چارچوبهای منبع باز مانند Hadoop (و اخیراً Spark) برای رشد دادههای بزرگ ضروری بود زیرا کار با دادههای بزرگ را آسانتر و ذخیرهسازی ارزانتر میکنند. در سالهای پس از آن، حجم دادههای بزرگ به شدت افزایش یافته است. کاربران هنوز هم حجم عظیمی از داده ها را تولید می کنند – اما این فقط انسان ها نیستند که این کار را انجام می دهند.
با ظهور اینترنت اشیا (IoT)، اشیاء و دستگاه های بیشتری به اینترنت متصل می شوند و داده هایی را در مورد الگوهای استفاده مشتری و عملکرد محصول جمع آوری می کنند. ظهور یادگیری ماشینی داده های بیشتری تولید کرده است.
در حالی که کلان داده ها بسیار پیشرفت کرده اند، مفید بودن آن تازه شروع شده است. رایانش ابری امکانات کلان داده را حتی بیشتر گسترش داده است. ابر مقیاسپذیری واقعاً انعطافپذیری را ارائه میدهد، جایی که توسعهدهندگان میتوانند به سادگی خوشههای ad hoc را برای آزمایش زیرمجموعهای از دادهها بچرخانند. و پایگاههای اطلاعاتی گراف نیز با توانایی آنها در نمایش مقادیر انبوه داده به گونهای که تجزیه و تحلیل را سریع و جامع میکند، اهمیت فزایندهای پیدا میکنند.
مزایای کلان داده:
داده های بزرگ به شما این امکان را می دهد که پاسخ های کامل تری به دست آورید زیرا اطلاعات بیشتری دارید.
پاسخ های کامل تر به معنای اعتماد بیشتر به داده ها است – که به معنای رویکرد کاملاً متفاوت برای مقابله با مشکلات است.
موارد استفاده از داده های بزرگ
کلان داده می تواند به شما کمک کند تا به طیف وسیعی از فعالیت های تجاری، از تجربه مشتری گرفته تا تجزیه و تحلیل، رسیدگی کنید. در اینجا فقط چند مورد است.
توسعه محصول: شرکت هایی مانند Netflix و Procter & Gamble از داده های بزرگ برای پیش بینی تقاضای مشتری استفاده می کنند. آنها با طبقهبندی ویژگیهای کلیدی محصولات یا خدمات گذشته و فعلی و مدلسازی رابطه بین آن ویژگیها و موفقیت تجاری پیشنهادها، مدلهای پیشبینیکننده را برای محصولات و خدمات جدید میسازند. علاوه بر این، P&G از دادهها و تحلیلهای گروههای متمرکز، رسانههای اجتماعی، بازارهای آزمایشی و عرضه اولیه فروشگاهها برای برنامهریزی، تولید و عرضه محصولات جدید استفاده میکند.
تعمیرات قابل پیش بینی: عواملی که میتوانند خرابیهای مکانیکی را پیشبینی کنند ممکن است عمیقاً در دادههای ساختیافته، مانند سال، ساخت و مدل تجهیزات، و همچنین در دادههای بدون ساختار که میلیونها ورودی گزارش، دادههای حسگر، پیامهای خطا و دمای موتور را پوشش میدهد، مدفون شوند. با تجزیه و تحلیل این نشانه ها از مسائل بالقوه قبل از بروز مشکلات، سازمان ها می توانند تعمیر و نگهداری را به طور موثرتری به کار گیرند و زمان به کارگیری قطعات و تجهیزات را به حداکثر برسانند.
تجربه ی مشتری: مسابقه برای مشتریان ادامه دارد. دید واضح تر از تجربه مشتری اکنون بیش از هر زمان دیگری امکان پذیر است. کلان داده به شما امکان می دهد داده ها را از رسانه های اجتماعی، بازدیدهای وب، گزارش تماس ها و سایر منابع جمع آوری کنید تا تجربه تعامل را بهبود بخشید و ارزش ارائه شده را به حداکثر برسانید. ارائه پیشنهادهای شخصیشده را شروع کنید، ریزش مشتری را کاهش دهید، و مسائل را فعالانه مدیریت کنید.
تقلب و رعایت: وقتی صحبت از امنیت به میان میآید، فقط چند هکر سرکش نیستند، بلکه شما در مقابل کل تیمهای متخصص هستید. مناظر امنیتی و الزامات انطباق به طور مداوم در حال تغییر هستند. کلان داده به شما کمک می کند الگوهایی را در داده ها شناسایی کنید که نشان دهنده تقلب هستند و حجم زیادی از اطلاعات را جمع آوری کنید تا گزارش نظارتی بسیار سریعتر شود.
فراگیری ماشین: یادگیری ماشین در حال حاضر موضوع داغی است. و داده ها – به ویژه کلان داده ها – یکی از دلایل آن است. اکنون میتوانیم به جای برنامهنویسی به ماشینها آموزش دهیم. در دسترس بودن داده های بزرگ برای آموزش مدل های یادگیری ماشینی این امکان را فراهم می کند.
بهره وری عملیاتی: کارایی عملیاتی ممکن است همیشه خبرساز نباشد، اما حوزه ای است که داده های بزرگ بیشترین تأثیر را در آن دارند. با دادههای بزرگ، میتوانید تولید، بازخورد و بازده مشتری و سایر عوامل را برای کاهش خاموشی و پیشبینی تقاضاهای آینده تجزیه و تحلیل و ارزیابی کنید. کلان داده ها همچنین می توانند برای بهبود تصمیم گیری مطابق با تقاضای فعلی بازار استفاده شوند.
نوآوری را هدایت کنید: کلان داده ها می توانند با مطالعه وابستگی های متقابل بین انسان ها، موسسات، نهادها و فرآیند و سپس تعیین راه های جدید برای استفاده از این بینش ها به شما کمک کنند تا نوآوری کنید. از بینش داده برای بهبود تصمیم گیری در مورد ملاحظات مالی و برنامه ریزی استفاده کنید. روندها و آنچه مشتریان می خواهند محصولات و خدمات جدید ارائه دهند را بررسی کنید. اجرای قیمت گذاری پویا امکانات بی پایانی وجود دارد.
چالش های کلان داده
در حالی که کلان داده نویدهای زیادی را می دهد، اما بدون چالش نیست.
اول، داده های بزرگ… بزرگ است. اگرچه فناوری های جدیدی برای ذخیره سازی داده ها ایجاد شده است، حجم داده ها تقریباً هر دو سال یکبار دو برابر می شود. سازمانها هنوز هم برای همگام شدن با دادههای خود و یافتن راههایی برای ذخیره مؤثر آنها تلاش میکنند.
اما فقط ذخیره داده ها کافی نیست. داده ها باید مورد استفاده قرار گیرند تا ارزشمند باشند و این بستگی به بررسی دارد. دادههای پاک یا دادههایی که به مشتری مرتبط هستند و به گونهای سازماندهی شدهاند که تجزیه و تحلیل معنادار را ممکن میسازد، به کار زیادی نیاز دارد. دانشمندان داده 50 تا 80 درصد از زمان خود را صرف نظارت و آماده سازی داده ها می کنند قبل از اینکه واقعاً مورد استفاده قرار گیرند.
در نهایت، فناوری داده های بزرگ با سرعتی سریع در حال تغییر است. چند سال پیش، Apache Hadoop فناوری محبوبی بود که برای مدیریت داده های بزرگ استفاده می شد. سپس آپاچی اسپارک در سال 2014 معرفی شد. امروزه ترکیبی از این دو فریمورک بهترین رویکرد به نظر می رسد. همگام شدن با فناوری کلان داده یک چالش مداوم است.
کلان داده چگونه کار می کند
کلان داده بینش جدیدی به شما می دهد که فرصت ها و مدل های کسب و کار جدیدی را باز می کند. شروع شامل سه اقدام کلیدی است:
-
یکپارچه
سازی داده های بزرگ داده ها را از بسیاری از منابع و برنامه های کاربردی متفاوت گرد هم می آورد. مکانیسمهای سنتی یکپارچهسازی دادهها، مانند استخراج، تبدیل، و بارگذاری (ETL) معمولاً در حد کار نیستند. برای تجزیه و تحلیل مجموعه داده های بزرگ در مقیاس ترابایت یا حتی پتابایت، به استراتژی ها و فناوری های جدیدی نیاز است.
در طول یکپارچه سازی، باید داده ها را وارد کنید، آنها را پردازش کنید و مطمئن شوید که به شکلی قالب بندی شده و در دسترس هستند که تحلیلگران کسب و کار شما بتوانند با آن شروع به کار کنند.
-
مدیریت
داده های بزرگ نیاز به ذخیره سازی دارد. راه حل ذخیره سازی شما می تواند در فضای ابری، در محل یا هر دو باشد. شما می توانید داده های خود را به هر شکلی که می خواهید ذخیره کنید و الزامات پردازش مورد نظر خود و موتورهای پردازش لازم را به مجموعه داده ها بر اساس تقاضا بیاورید. بسیاری از مردم راه حل ذخیره سازی خود را با توجه به جایی که داده های آنها در حال حاضر در آن قرار دارد انتخاب می کنند. ابر به تدریج محبوبیت پیدا می کند زیرا از نیازهای محاسباتی فعلی شما پشتیبانی می کند و شما را قادر می سازد تا منابع را در صورت نیاز بچرخانید.
- تجزیه
و تحلیل
سرمایه گذاری شما در کلان داده زمانی که داده های خود را تجزیه و تحلیل و عمل می کنید نتیجه می دهد. با تجزیه و تحلیل بصری مجموعه داده های متنوع خود وضوح جدیدی دریافت کنید. برای دستیابی به اکتشافات جدید، داده ها را بیشتر کاوش کنید. یافته های خود را با دیگران به اشتراک بگذارید. مدل های داده را با یادگیری ماشین و هوش مصنوعی بسازید. داده های خود را وارد کار کنید.
بهترین شیوه های داده های بزرگ
برای کمک به شما در سفر دادههای بزرگ، ما چند بهترین روش کلیدی را برای شما در نظر گرفتهایم. در اینجا دستورالعمل های ما برای ایجاد یک بنیاد کلان داده موفق است.
کلان داده ها را با اهداف تجاری خاص تراز کنید:
مجموعه داده های گسترده تر به شما امکان می دهد اکتشافات جدیدی داشته باشید. برای این منظور، مهم است که سرمایهگذاریهای جدید را در مهارتها، سازمان یا زیرساختها با زمینهای قوی مبتنی بر کسبوکار برای تضمین سرمایهگذاریها و تأمین مالی پروژههای جاری، پایه گذاری کنیم. برای تعیین اینکه آیا در مسیر درستی هستید یا نه، بپرسید که داده های بزرگ چگونه اولویت های کسب و کار و فناوری اطلاعات شما را پشتیبانی و فعال می کنند. مثالها شامل درک نحوه فیلتر کردن گزارشهای وب برای درک رفتار تجارت الکترونیک، استخراج احساسات از رسانههای اجتماعی و تعاملات پشتیبانی مشتری، و درک روشهای همبستگی آماری و ارتباط آنها با مشتری، محصول، تولید و دادههای مهندسی است.
کمبود مهارت را با استانداردها و حاکمیت کاهش دهید:
یکی از بزرگترین موانع برای سود بردن از سرمایه گذاری شما در کلان داده، کمبود مهارت است. شما می توانید این خطر را با اطمینان از اینکه فناوری ها، ملاحظات و تصمیمات کلان داده به برنامه مدیریت فناوری اطلاعات شما اضافه شده اند، کاهش دهید. استاندارد کردن رویکرد خود به شما امکان می دهد هزینه ها و منابع را مدیریت کنید. سازمانهایی که راهحلها و استراتژیهای کلان داده را اجرا میکنند باید نیازهای مهارتی خود را زود و اغلب ارزیابی کنند و باید به طور فعال هرگونه شکاف مهارتی بالقوه را شناسایی کنند. اینها را میتوان با آموزش/آموزش متقابل منابع موجود، استخدام منابع جدید و استفاده از شرکتهای مشاوره برطرف کرد.
انتقال دانش را با مرکز تعالی بهینه کنید:
از رویکرد مرکز تعالی برای به اشتراک گذاشتن دانش، کنترل نظارت و مدیریت ارتباطات پروژه استفاده کنید. چه کلان داده یک سرمایه گذاری جدید باشد و چه در حال گسترش، هزینه های نرم و سخت را می توان در سراسر شرکت به اشتراک گذاشت. استفاده از این رویکرد می تواند به افزایش قابلیت های کلان داده و بلوغ کلی معماری اطلاعات به روشی ساختارمندتر و سیستماتیک کمک کند.
بازده برتر همراستایی بدون ساختار با داده های ساخت یافته است:
مطمئناً تجزیه و تحلیل کلان داده ها به تنهایی ارزشمند است. اما میتوانید با اتصال و ادغام دادههای بزرگ با چگالی کم با دادههای ساختاریافتهای که امروزه از آن استفاده میکنید، بینشهای تجاری بزرگتری به ارمغان بیاورید.
چه در حال جمعآوری دادههای بزرگ از مشتری، محصول، تجهیزات یا محیطزیست باشید، هدف این است که نقاط داده مرتبطتری را به خلاصههای اصلی اصلی و تحلیلی خود اضافه کنید، که منجر به نتیجهگیری بهتر میشود. برای مثال، تفاوتی در تمایز همه احساسات مشتری از بهترین مشتریان شما وجود دارد. به همین دلیل است که بسیاری از کلان داده ها را به عنوان یک توسعه کامل از قابلیت های هوش تجاری موجود، پلت فرم انبار داده و معماری اطلاعات خود می بینند.
به خاطر داشته باشید که فرآیندها و مدل های تحلیلی کلان داده می توانند هم مبتنی بر انسان و هم مبتنی بر ماشین باشند. قابلیت های تجزیه و تحلیل داده های بزرگ شامل آمار، تجزیه و تحلیل فضایی، معناشناسی، کشف تعاملی و تجسم است. با استفاده از مدلهای تحلیلی، میتوانید انواع مختلف و منابع دادهها را برای ایجاد ارتباط و اکتشافات معنادار به هم مرتبط کنید.
آزمایشگاه اکتشاف خود را برای عملکرد برنامه ریزی کنید:
کشف معنا در داده های شما همیشه ساده نیست. گاهی اوقات ما حتی نمی دانیم به دنبال چه هستیم. این انتظار می رود. مدیریت و فناوری اطلاعات باید از این «فقدان جهت» یا «عدم الزام روشن» حمایت کنند.
در عین حال، برای تحلیلگران و دانشمندان داده مهم است که از نزدیک با کسب و کار همکاری کنند تا شکاف ها و الزامات دانش کسب و کار را درک کنند. برای تطبیق اکتشاف تعاملی داده ها و آزمایش الگوریتم های آماری، به حوزه های کاری با عملکرد بالا نیاز دارید. مطمئن باشید که محیط های جعبه شنی پشتیبانی مورد نیاز خود را دارند و به درستی اداره می شوند.
با مدل عملیات ابری هماهنگ شوید:
فرآیندهای کلان داده و کاربران نیاز به دسترسی به مجموعه وسیعی از منابع برای آزمایش های تکراری و اجرای کارهای تولیدی دارند. راه حل کلان داده شامل تمام حوزه های داده از جمله تراکنش ها، داده های اصلی، داده های مرجع و داده های خلاصه شده است. جعبه های شنی تحلیلی باید در صورت تقاضا ایجاد شوند. مدیریت منابع برای اطمینان از کنترل کل جریان داده از جمله پردازش پیش و پس از پردازش، یکپارچه سازی، خلاصه سازی در پایگاه داده و مدل سازی تحلیلی بسیار مهم است. یک استراتژی تامین و امنیت ابر خصوصی و عمومی به خوبی برنامه ریزی شده نقش اساسی در پشتیبانی از این الزامات در حال تغییر ایفا می کند.