آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95

آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95
داده های عظیم Big Data آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95 آزمایشگاه سیستم های هوشمند 95

آزمایشگاه سیستم های هوشمند 95
مقدمه یکی از عواملی که باعث بزرگ شدن سیستم می شود، حجم داده های آن می باشد. چه حجمی از داده ها باعث بزرگ شدن می شود؟ میزان حجمی که با سیستم های فعلی قابل ذخیره، بازیابی، پرس و جو و نمایش نباشد. در ادامه با مشخصات داده های عظیم آشنا خواهیم شد. آزمایشگاه سیستم های هوشمند 95

دنیای داده ها آزمایشگاه سیستم های هوشمند 95

مشخصات دادههای عظیم آزمایشگاه سیستم های هوشمند 95

V چهارم - Veracity

:Veracity صحت یا قابلیت اعتماد
وجود منابع مختلف عدم امکان اعتماد به تمام اطلاعات آزمایشگاه سیستم های هوشمند 95

دیگر مشخصات Validity : اعتبار: داده های صحیح اما ناکارآمد برای برخی کاربردها Volatility نوسان: سرعت تغییر ارزش داده ها در طول زمان Visualization نمایش: نمایش اطلاعات از کارهای مشکل در حوزه داده های عظیم Value ارزش: ارزش داده ها در قبال نگهداری آنها آزمایشگاه سیستم های هوشمند 95

مشکلات موجود در داده های عظیم
امنیت و حفظ حریم شخصی مسائل قانونی، اطلاعات شخصی و عدم کنترل دقیق بر روی داده ها بی نام سازی داده ها دسترسی به داده ها و اشتراک اطلاعات زمان حیاتی در دسترسی به داده ها ذخیره سازی داده ها عدم ظرفیت لازم جهت ذخیره سازی انتقال داده ها هزینه و زمان زیاد انتقال داده ها برای ذخیره در جای دیگر(ابر) انتقال داده ها از محل ذخیره شده به محل پردازش آزمایشگاه سیستم های هوشمند 95

مشکلات موجود در داده های عظیم
پردازش داده ها حجم عظیم داده ها و نیاز به یک پردازش بهینه؟ آنالیز داده ها تشخیص داده های مهم تعیین بخش های داده ای مناسب پردازش داده های غیرهمگن (Data Staging) آزمایشگاه سیستم های هوشمند 95

ذخیره سازی داده های بزرگ
Flat Datacenter Storage Google File System (GFS) Hadoop Distributed File System (HDFS) Dynamo Amazoon Cassandra Azure Microsoft TAO Facebook BigTable Spanner آزمایشگاه سیستم های هوشمند 95

Flat Datacenter Storage
آزمایشگاه سیستم های هوشمند 95

TLT Example Row Version Number Replica 1 Replica 2 Replica 3 1 234 A F
235 C L 3 567 E D G 4 13 T H 5 67 6 123 7 86 V 8 23

Failure Recovery آزمایشگاه سیستم های هوشمند 95

Google File System (GFS)
فایل سیستم گوگل در سال 2003 تولید شد یک فایل سیستم توزیع شده می باشد. گوگل در تمامی سرویس های خود از این سیستم فایل استفاده می کند. همچنين داده مورد نياز براي موتور جستجوي گوگل و ساير برنامه‌هاي شرکت را فراهم مي‌کند این سیستم برای یک شبکه توزیع شده از سرور ها طراحی شده است برای نصب بر روی یک سرویس مناسب نیست! سرعت دسترسی بسیار مهم تر از بقیه جنبه های داده است. از استاندارد ACID پیروی نمیکند. یک مدل ساده تر برای خود در نظر گرفته است. در صورت عدم دسترسی به داده های جدید، نسخه های قدیمی تر آن را ارائه میدهد. ACID (Atomicity, Consistency, Isolation, Durability) آزمایشگاه سیستم های هوشمند 95

معماری GFS آزمایشگاه سیستم های هوشمند 95

نحوه نوشتن داده Client asks master for all chunkservers (including all secondaries) Master grants a new lease on chunk, increases the chunk version number, tells all replicas to do the same. Replies to client. Client no longer has to talk to master Client pushes data to all servers, not necessarily to primary first Once data is acked, client sends write request to primary. Primary decides serialization order for all incoming modifications and applies them to the chunk After finishing the modification, primary forwards write request and serialization order to secondaries, so they can apply modifications in same order. (If primary fails, this step is never reached.) All secondaries reply back to the primary once they finish the modifications Primary replies back to the client, either with success or error If write succeeds at primary but fails at any of the Secondaries, then we have inconsistent state → error returned to client Client can retry steps (3) through (7) آزمایشگاه سیستم های هوشمند 95

Hadoop Distributed File System (HDFS)
زبان برنامه‌نويسي جاوا و به صورت یک پروژه منبع باز توسط بنياد آپاچي طراح دوگ‌‌کاتينگ Doug Cutting در سال 2004 این سیستم‌فایل از GFS الهام گرفته‌است. دسترسی به داده ها فقط از طریق API به طور پيش‌فرض هر بلاک داده، سه بار کپي مي‌شود آدرسی از کپی برگردانده مي‌شود که کمترين فاصله را تا محل درخواست داده داشته ‌باشد سلامت هر يک از DataNodeها توسط پروتکل heartbeat کپی فایل بسیار کند انجام می شود يک کپي همزمان شده از متاديتاي NameNode را در حافظه نگه‌داري مي‌کند آزمایشگاه سیستم های هوشمند 95

There are two (and a half) types of machines in a HDFS cluster NameNode :– is the heart of an HDFS filesystem, it maintains and manages the file system metadata. E.g; what blocks make up a file, and on which datanodes those blocks are stored. DataNode :- where HDFS stores the actual data, there are usually quite a few of these. آزمایشگاه سیستم های هوشمند 95

نحوه خواندن داده آزمایشگاه سیستم های هوشمند 95

نحوه نوشتن داده آزمایشگاه سیستم های هوشمند 95

Dynamo سیستمی که توسط شرکت آمازون جهت بهره برداری در ابر تولید شده است سال 2012 اجازه استفاده مستقیم از آن به مشتریان عمومی نیز داده شد این سیستم برای تعداد داده های زیاد با حجم کم بهینه شده است سازگاری داده ها از سرعت دسترسی به آنها مهم تر می باشد. کاملا معکوس معماری GFS است امنیت در این سیستم مطرح نیست. هر دیتا توسط یک کلید مشخص می شود. مشابه سيستم‌های Peer to Peer تا master-slave Cassandra یک سیستم فایل با الهام از Dynamo است. آزمایشگاه سیستم های هوشمند 95

معماری پلتفرم آمازون آزمایشگاه سیستم های هوشمند 95

نحوه ذخیره سازی داده ها آزمایشگاه سیستم های هوشمند 95

Cassandra آزمایشگاه سیستم های هوشمند 95

سيستم فایلی ‌توزيع شده Azure
پلتفرم مایکروسافت بر اساس تکنیک های استفاده شده گوگل و آمازون چهار نوع داده ای اصلی: Blob ، Table ،Queue و File فرآیند نوشتن سختگیرانه تر بوده و زمانی فرمان نوشتن موفقیت آمیز است که در همه سرور ها ثبت شده باشد. این سیستم با سه هدف: ماندگاری ،دسترسی و مقیاس پذیری بالا طراحی شده است. دسترسی به فایل ها به کمک آدرس دهی اسمی NameSpace Binary Large OBject (BLOB) آزمایشگاه سیستم های هوشمند 95

Inter-stamp (Geo) replication
نحوه ذخیره سازی داده ها Access blob storage via the URL: Storage Location Service Data access LB Storage Stamp LB Partition Layer Front-Ends DFS Layer Intra-stamp replication Storage Stamp Front-Ends a stamp is representing scale units (networking, storage, compute) and managed by Virtual Machine Manager. Partition Layer Inter-stamp (Geo) replication DFS Layer Intra-stamp replication آزمایشگاه سیستم های هوشمند 95

TAO : Facebook’s Distributed Data Store for the Social Graph
امکان دسترسی به گره ها و اتصال های بین گرافی که مدام در حال تغییر هستند ذخیره به صورت توزیع شده استفاده بهینه از cache بر روی بستر MySql هر گره یک کلید یکتا دارد هر رابطه میان دو گره نیز به صورت جداگانه ذخیره می شود. هر گره همیشه روی یک سرور منطقی ذخیره می شود آزمایشگاه سیستم های هوشمند 95

مثالی از نحوه تبدیل یک ارتباط به صورت گراف

نحوه ذخیره سازی داده ها MySQL databases → durability Leader cache → coordinates writes to each object Follower caches → serve reads but not writes آزمایشگاه سیستم های هوشمند 95

BigTable توسط کمپانی گوگل تهیه شده است یک پایگاه داده نیست بلکه یک آرایه توزیع شده، ماندگار، مرتب شده و قابل اشتراک پذیری (associative) است. قابلیت استفاده تا حد داده های پتابایت را دارد. قابل توزیع در سرویس های بسیار زیاد می باشد. بر بستر سیستم فایل GFS ساخته شده است. آزمایشگاه سیستم های هوشمند 95

جداول رابطه ای به صورت زیر هستند

ساختار داده ها در BigTable

نحوه جست و جو داده ها Chubby, a lock service for loosely coupled distributed systems Bigtable uses Chubby to ensure at most one active master exists to store bootstrap location of Bigtable data to discover tablet servers to store Bigtable schema information (column family info for each table) to store access control lis Tablet : a row range is the unit of distribution and load balancing reads of short row ranges are efficient, as stay within a single tablet usually آزمایشگاه سیستم های هوشمند 95

Spanner دیتابیس توزیع شده گوگل به صورت جغرافیایی آزمایشگاه سیستم های هوشمند 95

آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95

Similar presentations

Presentation on theme: "آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95

Similar presentations

Presentation on theme: "آزمايشگاه سيستمهای هوشمند علی کمالی زمستان 95"— Presentation transcript:

Similar presentations

About project

Feedback