برنامه نویسی موبایلبرنامه نویسی وبمطالب ویژه

پایگاه‌داده‌های گرافی یا رابطه‌ای؟ از کدام استفاده شود؟ چه موقع؟

 

دادگان‌های (پایگاه‌‌داده‌های) رابطه‌ای سنتی که از دهه ۸۰ به‌مثابه نیروگاه برنامه­‌های کاربردی نرم­‌افزاری بوده­‌اند، وقتی‌که داده­‌ها پیش‌بینی‌پذیرند و به‌راحتی با جداول و ستون­‌ها و ردیف­‌ها منطبق می‌شوند و اتصالات در پرسمان‌ها (queries) زیاد نیست، کارکرد مناسبی دارند.

اما قابلیت نرم‌افزارهای رابطه­‌ای برای کار با ‌حوزه­‌های پرمحتوا با داده‌های مرتبط باهم، کافی نیست.

در سامانه‌های مدیریتی دادگان رابطه‌ای (RDBMS)، داده­‌ها فقط به‌صورت مجموعه‌ای از جدول‌ها و ستون‌ها مدل می‌شوند و وقتی دادگان‌ها ارتباط داخلی بیشتری پیدا می‌کنند، اتصال­‌ها (joins) و خوداتصال‌های (self-joints) بیشتری به وجود می‌آیند. جستجو در این دادگان‌ها ازلحاظ فنی پیچیده و اجرای آن پرهزینه است. به‌علاوه بلادرنگ کردن دادگان‌های رابطه‌ای آسان نیست، زیرا به دلیل افزایش حجم کلی این دادگان‌ها اجرا متوقف می‌شود و کاربران انتهایی منتظر می‌مانند.

این مشکلات موجب ظهور نوع دیگری دادگان برای بهینه­‌سازی داده­‌های مرتبط باهم شد: «دادگان (پایگاه داده‌های) گرافی». توجه به دادگان گرافی ازآن‌جهت افزایش یافت که شرکت­‌ها با این دادگان می‌توانستند با حجم انبوه داده­‌های مرتبط باهم، که امروزه موردنیاز شرکت‌ها است، کار کنند.

عبورکردن، نه متصل‌کردن

دادگان‌های گرافی نه‌تنها با نقاط مجزای اطلاعاتی، بلکه با شبکه‌های درحال‌تکاملِ ارتباطات به‌خوبی منطبق می‌شوند. این دادگان‌ها خصوصاً وقتی کارکرد مناسبی دارند که روابط درونی بین داده‌­‌ها اهمیت دارد و برای پرسمان‌ها به جستجو و استخراج این داده‌ها نیاز است؛ زیرا دادگان‌های گرافی، اطلاعات روابط را به‌عنوان موجودیتِ (entity) کلاس‌اول ذخیره می­‌کنند.

به‌علاوه به دلیل انعطاف‌پذیری مدل دادگان گرافی می‌توان بدون تغییر شبکه فعلی یا انتقال داده‌ها، گره‌ها (نودها) و روابط جدیدی را افزود. ازآن‌جهت که روابط داده­‌ها در مرکز است، عملکرد دادگان گرافی در پرسمان، حتی پرسمان‌های پیچیده و عمیق بازدهی بیشتری دارد.

از بزرگ‌ترین تفاوت‌های دادگان‌های گرافی و داده­‌های رابطه‌ای، نحوه مستقیم اتصال گره‌ها است که به موجب آن، برای ارتباط داده‌ها کافی است اتصالات را دنبال کرد. تعیین اتصالات در زمان درج، مانع بروز مشکلات مربوط به رجوع [۱] به نمایه اتصالی [۲] می‌شود، بنابراین به‌جای محاسبه گراف داده‌ها در زمان پرسمان، از گراف داده‌ها عبور می‌شود.

این ویژگی که فقط مختص دادگان‌های گرافی محلی [۳] است، «مجاورت مستقل از فهرست [۴]» نامیده می‌شود. با این ویژگی در پرسمان‌ها در هر ثانیه از میلیون‌ها گره عبور می‌شود و زمان‌های پاسخگویی چندین برابر سریع‌تر از دادگان‌های رابطه‌ای در پرسمان‌ها مرتبط باهم است (به‌طور مثال، دوستِ یک دوست FOAF- کوتاه‌ترین مسیر).

مدل‌کردن، ذخیره‌کردن، و جستجو کردن داده‌های پیچیده مشتری

آیا منطقی است که مدیران ارشد فناوری از هردوی دادگان‌های رابطه­‌ای و گرافی استفاده کنند؟ یا آیا باید یکی از آن‌ها را استاندارد کل شرکت کنند؟ امروز ازلحاظ عَملی استفاده از هر دو منطقی است. هر مدل مزایا و معایب خود را دارد، چراکه کاربران فناوری اطلاعات شرکت‌ها معمولاً مشکلات متعددی دارند که نیاز به حل آن­هاست، پس هیچ دادگان یا مدل دادگانی وجود ندارد که برای هر شرایطی مناسب باشد.

تشخیص دادگان مناسب کار، مهارت مهمی شده است. رایج‌ترین کاربردهای فعلی دادگان‌های گرافی عبارت‌اند از کشف تقلب [۵]، موتورهای پیشنهاد بلادرنگ [۶]، مدیریت داده‌های مرجع [۷]، عملیات IT و شبکه، و مدیریت دسترسی و هویت [۸]. بااین‌حال برای کسب بیشترین بازدهی داده‌های مرتبط باهم، استفاده از دادگان گرافی در تمام سازمان‌ها منطقی است.

نحوه انتخاب

رویکرد دقیقی برای انتخاب مناسب‌ترین دادگان وجود ندارد. چطور می‌توان فهمید چه موقع و در چه صورت دادگان گرافی بر دادگان رابطه‌ای ارجح است؟ با رسم دامنه (domain) بر تخته‌سفید شروع کنید. اگر موجودیت‌های دامنه با موجودیت‌های دیگر «روابط» دارند، و پرسمان‌ها بسته به جستجوی آن روابط است، در این صورت قطعاً دادگان گرافی مناسب است.

«آزمون تخته‌سفید»، به دلیل انطباق‌پذیری‌اش، در بین توسعه‌دهندگان محبوب است. تطبیق‌پذیری این آزمون خصوصاً وقتی مفید است که اطلاعات جدیدی در دامنه شناخته می‌شود یا تغییرات نیازمندی‌ها موجب تغییر مدل می‌شود.

البته دادگان‌های گرافی برای شیوه‌های فعلی استقرار (داده‌ها) نیز گزینه مناسبی هستند، زیرا با دادگان‌های گرافی قطعاً می‌توان مشکلات عملکردی و مقیاس‌گذاری ناشی از اتصالات را حل کرد یا کاهش داد.  علاوه بر اینکه با دادگان‌های گرافی می‌توان داده‌های تراکنشی [۹] را با حفظ ACID [10] پشتیبانی کرد، می‌توان با دادگان‌های گرافی، سامانه‌های انبار داده‌ها [۱۱] و کاربارهای تحلیلی آفلاین را نیز به محیط‌های بلادرنگ منتقل کرد.

مشکلات بالقوه

بزرگ‌ترین معایب دادگان گرافی چیست؟ رشد تعداد دادگان‌های گرافی خبر خوبی برای توسعه‌دهندگان است؛ اما این فناوری نسبت به نرم‌افزارهای رابطه­‌ای که به‌اندازه یک نسل عمر دارند، تقریباً نوین است. همچنین ایجاد بازار ثابت برای دادگان گرافی صرف‌نظر از مدل داده‌ها زمان‌بر است.

اگر کارکرد دادگان گرافی طبق انتظار نباشد یا بدتر از انتظار باشد، قطعاً تراکنش‌ها، بازیابی و پایایی تحت‌الشعاع قرار می‌گیرند. ازآن‌جهت که دادگان‌ها گرافی فعلی هنوز جوان هستند، شاید بهتر باشد قبل از به‌کارگیری، انطباق ویژگی‌های اصلی آن با ویژگی‌های وعده‌‌شده بررسی شود.

شایان‌ذکر است که برخی از دادگان‌های گرافی، فقط مدلشان گرافی است اما پیاده‌سازی آن‌ها با دادگان‌های سنتی رابطه‌ای یا دیگر انواع دادگان‌های NoSQL پشتیبانی­ می‌شود؛ درنتیجه به دلیل برگردان پرسمان‌ها به اتصالات، عملکرد زمان اجرا (runtime) تحت‌الشعاع قرار می‌گیرد. برای انتخاب هر دادگان، نتایج ممکن را در نظر بگیرید.

نتیجه‌گیری

ضرورت کسب مهارت‌های لازم برای انتخاب روش توسعه

دانستن مهارت‌های توسعه­ اهمیت دارد زیرا تیم­ باید بین دادگان گرافی و دادگان رابطه‌ای انتخاب کند. امسال شاهد تقاضای بیشتری برای دادگان گرافی و بهبود بازار آن خواهیم بود. با گذر زمان بعید نیست که دادگان گرافی از دادگان‌های رابطه‌ای امروز رواج بیشتری بیابند.

با رواج یافتن این دادگان‌ها، زبان‌های پرسمان داده‌های گرافی مانند سایفر [۱۲]، که اخیراً openCypher آن را در دسترس عموم قرار داده، افزایش‌ یافته‌اند. اکثر گراف‌کارها، انتظار استاندارد شدن زبان سایفر را دارند. با این زبان جستجو در دادگان‌های گرافی صرف‌نظر از محصول، امکان‌پذیر است، ازاین‌رو موجب رشد سریع و رونق کل بازار مرتبط می‌شود.

پیشنهاد می‌شود با گراف‌های آزمایشی (trial) شروع کنید، زیرا علیرغم کاهش هزینه تشخیص دادگان گرافی مناسب برای سازمان، می‌توان به نرخ بازگشت سرمایه (ROI) بالایی دست یافت.

[۱] lookup

[۲] Join index

[۳] native graph database

[۴] index-free adjacency

[۵] fraud detection

[۶] real-time recommendation engines

[۷] master data management

[۸] identity and access management

[۹] transactional data

[۱۰] تجزیه‌ناپذیری، هم‌خوانی، انزوا و پایایی (Atomicity, Consistency, Isolation, Durability)

[۱۱] Warehouse systems

[۱۲] Cypher

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا