Presentation is loading. Please wait.

Presentation is loading. Please wait.

مدل داده مناسب براي داده‌هاي عظيم

Similar presentations


Presentation on theme: "مدل داده مناسب براي داده‌هاي عظيم"— Presentation transcript:

1 مدل داده مناسب براي داده‌هاي عظيم
علي‌اصغر صفائي و سيّد علي ظهيري­ مطلق گروه انفورماتيک پزشکي، دانشگاه تربيت مدرس

2 فهرست مطالب مقدمه مدل هاي داده مورد استفاده در حوزه داده هاي عظيم
مدل هاي داده مورد استفاده در حوزه داده هاي عظيم مدل گراف تودرتو: مدل داده پيشنهادي براي داده هاي عظيم ارزيابي مدل پيشنهادي نتيجه گيري و کارهاي آتي

3 مقدمه- انگيزه حجم داده‌هاي تجاري تقريباً در سراسر شرکت‌هاي جهان، هر 1.2 سال دو برابر مي‌شود[1] . حجم کلِّ داده‌هاي توليد شده در جهان که در سال 2011 حدود 1.8زِتّابايت (تقريباً 10 e21 بايت) بوده با نرخ تقريباً هر 5 سال 9 برابر افزايش مي‌يابد[2] . James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers, Big data: The Next Frontier for Innovation, Competition, and Productivity, McKinsey Global Institute, 2012. Gantz J, Reinsel D (2011) Extracting value from chaos. IDC iView, pp 1–12.

4 مقدمه- کاربردها علوم: هواشناسي، ژنتيک، زيست پزشکي، نجوم، شبيه سازي هاي پيشرفته فيزيک، ... کسب و کار: کابردهاي مالي نظير بانکداري، اَبَرفروشگاه ها، بورس، ... کابردهاي اينترنتي: موتورهاي جستجو، شبکه هاي اجتماعي، ... ارتباطات: اپراتورهاي مخابراتي، رهگيري، ... سلامت: پايش سلامت، ... ...

5 مقدمه- داده هاي عظيم «استخراج مقرون به صرفه­ي ارزش، از داده‌هايي با حجم بالا و بسيار متنوع که با سرعت بالا دريافت، کشف و يا تحليل شده‌اند» داده هاي عظيم (3Vs): Volume: حجم بالا (در حد روزانه چندين پِتابايت) Variety: تنوع بالا (از منابع مختلف و از انواع مختلف ساختيافته، نيمه ساختيافته، غيرساختيافته) Velocity: سرعت بالا در ورود و خروج داده ها (پردازش بي درنگ جريان هاي داده)

6 مقدمه- چالش هاي مديريت داده هاي عظيم
Capture دريافت Storage ذخيره Transmission انتقال Management مديريت Analyze تحليل Visualization بصري سازي سخت افزاري نرم افزاري

7 جزئيات فيزيکي ذخيره سازي
مدل داده بازنمايش داده ها مجموعه عمليات قيد و شرط ها مقدمه- مدل داده بازنمايش (representation): اداره ناهمگوني‌ها و معنادار و قابل استفاده نمودن داده‌ها براي کاربران يا برنامه‌هاي کاربردي ERD مدل مفهومي مدل منطقي مدل فيزيکي a b c d Relational رابطه اي پايگاه داده جزئيات فيزيکي ذخيره سازي رسانه ذخيره سازي

8 مقدمه- مدل داده مدل مفهومي مدل منطقي مدل فيزيکي پايگاه داده
ضعيف براي کاربردهاي جديد، داده هاي جديد، ارتباط ها، عدم مقياس پذيري ساده و همه کس فهم، ابزارهاي فراوان، ... مدل مفهومي مدل منطقي مدل فيزيکي a b c d Relational رابطه اي پايگاه داده

9 مقدمه- مدل داده مدل مفهومي مدل منطقي مدل فيزيکي پايگاه داده
O.O. شيءگرا مدل مفهومي مدل منطقي مدل فيزيکي a b c d O.R. شيء- رابطه اي Relational رابطه اي پايگاه داده XML NoSQL

10 مدل هاي داده مورد استفاده براي داده هاي عظيم
؟ رابطه اي و شيء-رابطه اي ساختیافته ضعف در پشتيباني از ارتباط ها عدم مقياس پذيري XML انعطاف پذير اما امنيت پايين ساختار درختواره NoSQL (Column, Document, Key-value, Graph) پشتيباني از ارتباط ها نسبتاً مقياس پذير در اغلب کاربردهای فعلي داده هاي عظيم نظير شبکه هاي اجتماعي

11 مدل داده پيشنهادي براي داده هاي عظيم
يکپارچه بودن (integrated) کامل بودن completeness)) مقياس‌پذيري (scalability) انعطاف‌پذيري (flexibility) سازگاري (compatibility) کارآمدي (efficiency) ويژگي مدل داده مناسب براي داده هاي عظيم:

12 مدل داده پيشنهادي براي داده هاي عظيم
عناصر سازنده‌اي (Primitives) که در طراحي مدل پيشنهادي قابل استفاده هستند ويژگي مدل داده مناسب براي داده هاي عظيم ويژگي مدل داده مناسب نحوه تأمين نمودن در مدل پيشنهادي يکپارچه بودن (integrated) طراحي يکپارچه و ارائه همه اين ويژگي‌ها در قالب يک مدل داده کامل بودن completeness)) پشتيباني از مدل شئ-رابطه‌اي (که از نظر محاسباتي کامل است)، به‌علاوه ارائه مجموعه عملگرهايي براي مدل‌داده که از نظر محاسباتي کامل شود (نظير به نظير عملگرهايي که در مدل شئ-رابطه‌اي نياز داريم) مقياس‌پذيري (scalability) - مبتني بر NoSQL (به‌عنوان مدل پايه و مبنا) که مقياس‌پذير هستند - استفاده از ارجاع (Ref) براي ارتباط داده‌ها انعطاف‌پذيري (flexibility) - رعايت سطح انتزاع مناسب براي مدل داده - مبتني بر مدل داده NoSQL سازگاري (compatibility) مبتني بر مدل‌داده NoSQL :Not only SQL) شئ-رابطه‌اي به ‌همراه مدل‌هاي NoSQL) کارآمدي (efficiency) - استفاده از Ref براي ارتباط بين داده‌ها که دسترسي مستقيم را فراهم مي‌کند - تخصيص فضا براي هر داده موکول به زمان اجرا گردد Dynamic Allocation) وLate Binding ) يکپارچه بودن (integrated) کامل بودن completeness)) مقياس‌پذيري (scalability) انعطاف‌پذيري (flexibility) سازگاري (compatibility) کارآمدي (efficiency) R., O.R., XML NoSQL Graph

13 گراف تودرتو: مدل داده پيشنهادي براي داده هاي عظيم
Node ويژگي مدل داده مناسب نحوه تأمين نمودن در مدل پيشنهادي يکپارچه بودن (integrated) طراحي يکپارچه و ارائه همه اين ويژگي‌ها در قالب يک مدل داده کامل بودن completeness)) پشتيباني از مدل شئ-رابطه‌اي (که از نظر محاسباتي کامل است)، به‌علاوه ارائه مجموعه عملگرهايي براي مدل‌داده که از نظر محاسباتي کامل شود (نظير به نظير عملگرهايي که در مدل شئ-رابطه‌اي نياز داريم) مقياس‌پذيري (scalability) - مبتني بر NoSQL (به‌عنوان مدل پايه و مبنا) که مقياس‌پذير هستند - استفاده از ارجاع (Ref) براي ارتباط داده‌ها انعطاف‌پذيري (flexibility) - رعايت سطح انتزاع مناسب براي مدل داده - مبتني بر مدل داده NoSQL سازگاري (compatibility) مبتني بر مدل‌داده NoSQL :Not only SQL) شئ-رابطه‌اي به ‌همراه مدل‌هاي NoSQL) کارآمدي (efficiency) - استفاده از Ref براي ارتباط بين داده‌ها که دسترسي مستقيم را فراهم مي‌کند - تخصيص فضا براي هر داده موکول به زمان اجرا گردد Dynamic Allocation) وLate Binding )

14 گراف تودرتو: مدل داده پيشنهادي براي داده هاي عظيم
مبتني بر مدل گراف هر نمونه در قالب يک گره که با ساير نمونه ها در ارتباط است (انواع گوناگون ارتباط) هر گره خود مي تواند شامل داده، يا زيرگره باشد (تعريف بازگشتي) هرگره شامل: داده ذخيره شده براي آن موجوديت (صفت هاي خاصه) در قالب هاي ساختيافته (Row)، نيمه ساختيافته (المان XML) يا غيرساختيافته (يک document مثلاً از نوع متني) زيرگره هايي ديگر (با استفاده از نوع داده ارجاع (ref)) Node

15 گراف تودرتو: مدل داده پيشنهادي براي داده هاي عظيم
Node ساختيافته (Row, Table) غيرساختيافته (Doc (txt, etc)) نيمه ساختيافته (XML Element)

16 گراف تودرتو: مدل داده پيشنهادي براي داده هاي عظيم
مزاياي مدل پيشنهادي: + مقياس پذير - اندازه (Volume) - جغرافيايي + انعطاف پذيري در پشتيباني انواع داده (Variety) - ساختيافته، نيمه ساختيافته، غيرساختيافته + سازگاري - با مدل هاي داده سنتي (رابطه اي، شيء-رابطه اي) + کارايي - پيمايش سريع و راحت ارتباط ها (بين گره ها و زيرگره ها) (Velocity) + نسبتاً ساده - نظري: مبتني بر نظريه گراف - عملي: مشابه پياده سازي هاي ايده مشابه مثلاً در فايل سيستم ها (directory, sub-directory, …) Node

17 ارزيابي مدل داده پيشنهادي براي داده هاي عظيم
ارزيابي عملي مدل پيشنهادي: با استفاده از مَحَک YCSB (Yahoo Cloud Serving Benchmark) مدل هاي داده مورد مقايسه: گراف تودرتو Nested Graph سندمبنا (سيستم MongoDB)، سندمبناي گرافي (OrientDB) و گراف (Neo4j) سکّو: سرور‌ SuperMicro و بهره‌گيري از 8 هسته مجازي و 40 گيگابايت رم به همراه 2 ترابايت هاردديسک ميانگين چندين بار اجراي درج داده‌ها، پرس‌وجو‌، به‌روزرساني‌، خواندن، نوشتن (عميليات پايه CRUD) و مخلوطي از اين عمليات مجموعه داده هاي 10e3، 10e5 و 10e7 المان داده YCSB اندازه گيري پارامترهاي: زمان پاسخگويي (response time) گذردهي (throughput) صَدَکِ 95اُم (كه مثلاً اگر برابر 1 باشد بدان معناست كه مدل‌داده مي‌تواند عمليات مربوطه را در كمتر از 1 ميلي‌ثانیه بر‌ روي حداقل 95 درصد داده‌هاي نمونه انجام دهد) صَدَکِ 99اُم Node Brian F. Cooper, Adam Silberstein, Erwin Tam, Raghu Ramakrishnan, Russell Sears: Benchmarking Cloud Serving Systems with YCSB,Yahoo! Research,Santa Clara, CA, USA Cooper, Brian F., et al. "Benchmarking cloud serving systems with YCSB."Proceedings of the 1st ACM symposium on Cloud computing. ACM, 2010.

18 ارزيابي مدل داده پيشنهادي براي داده هاي عظيم

19 نتيجه گيري و کارهاي آتي مدل داده پيشنهادي: مدل گراف تودرتو
داده هاي عظيم، مسئله مهم امروز مديريت داده در اغلب کاربردهاي جديد مدل داده، پايه و اساس، بنيان و شالوده ساير فعاليت ها در حوزه مديريت داده فقدان يک مدل داده مناسب داده هاي عظيم يکپارچه کامل مقياس پذير انعطاف پذير سازگار با مدل هاي پيشين کارامد مدل داده پيشنهادي: مدل گراف تودرتو مبتني بر مدل گراف (مباني نظري و ابزارهاي عملي موجود) تامين ويژگي هاي مدل داده مناسب داده هاي عظيم (يکپارچه، کامل، مقياس پذير، انعطاف پذير، سازگار با مدل هاي پيشين، کارامد) تکميل جزئيات مدل داده گراف تودرتو قيدوشرط ها (مثلاً عدم تشکيل حلقه بسته از ارجا ع ها) مجموعه عملگرهاي مدل داده گراف تودرتو Node

20 مراجع James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers, Big data: The Next Frontier forInnovation, Competition, and Productivity, McKinsey Global Institute, 2012. Gantz J, Reinsel D (2011) Extracting value from chaos. IDC iView, pp 1–12. Philip Chen, C. L., and Chun-Yang Zhang. "Data-intensive applications, challenges, techniques and technologies: A survey on Big Data." Information Sciences 275 (2014): Chen, Min, Shiwen Mao, and Yunhao Liu. "Big Data: A Survey." Mobile Networks and Applications 19.2 (2014): P. Atzeni, V.D. Antonellis, Relational Database Theory, Benjamin-Cummings Publishing, San Francisco, CA, 1993. Goldman, Roy, Jason McHugh, and Jennifer Widom. "From semistructured data to XML: Migrating the Lore data model and query language." (1999). C. Strauch, U.L.S. Sites, W. Kriha, NoSQL Databases, Lecture Notes, Stuttgart Media University, 2011. R. Cattell, Scalable sql and nosql data stores, ACM SIGMOD Records 39 (2011) 12–27. Cattell, Rick. "Scalable SQL and NoSQL data stores." ACM SIGMOD Record 39.4 (2011): Han, Jing, et al. "Survey on NoSQL database." Pervasive computing and applications (ICPCA), th international conference on. IEEE, 2011. Kunii, Hideko S. "Graph Data Model." Graph Data Model. Springer Japan, Robinson, Ian, Jim Webber, and Emil Eifrem. Graph databases. " O'Reilly Media, Inc.", 2013. Vicknair, Chad, et al. "A comparison of a graph database and a relational database: a data provenance perspective." Proceedings of the 48th annual Southeast regional conference. ACM, 2010. Hecht, Robin, and S. Jablonski. "NoSQL Evaluation." International Conference on Cloud and Service Computing Brian F. Cooper, Adam Silberstein, Erwin Tam, Raghu Ramakrishnan, Russell Sears: Benchmarking Cloud Serving Systems with YCSB,Yahoo! Research,Santa Clara, CA, USA Cooper, Brian F., et al. "Benchmarking cloud serving systems with YCSB."Proceedings of the 1st ACM symposium on Cloud computing. ACM, 2010.

21 با تشکر از بذل توجه شما

22 پرسش و پاسخ


Download ppt "مدل داده مناسب براي داده‌هاي عظيم"

Similar presentations


Ads by Google