Presentation is loading. Please wait.

Presentation is loading. Please wait.

Khai phá dữ liệu. Data Mining là gì? Khai phá dữ liệu (phát hiện tri thức trong dữ liệu) Trích rút các mẫu hay tri thức thú vị (không tầm th ư ờng, ẩn,

Similar presentations


Presentation on theme: "Khai phá dữ liệu. Data Mining là gì? Khai phá dữ liệu (phát hiện tri thức trong dữ liệu) Trích rút các mẫu hay tri thức thú vị (không tầm th ư ờng, ẩn,"— Presentation transcript:

1 Khai phá dữ liệu

2 Data Mining là gì? Khai phá dữ liệu (phát hiện tri thức trong dữ liệu) Trích rút các mẫu hay tri thức thú vị (không tầm th ư ờng, ẩn, không biết tr ư ớc và có thể hữu dụng) từ một l ư ợng dữ liệu lớn Các tên khác Khám phá tri thức (Knowledge Discovery in Databases – KDD), trích rút tri thức, phân tích dữ liệu/mẫu, knowledge extraction, data/pattern analysis, khảo cổ học dữ liệu, nạo vét dữ liệu, thu hoạch thông tin, kinh doanh thông minh, v.v… Có phải mọi thứ đ ều là “khai phá dữ liệu”? Xử lý truy vấn suy diễn Hệ chuyên gia hay ch ươ ng trình máy học/thống kê nhỏ Data Mining2

3 Khai phá dữ liệu là gì? Ví dụ từ NBA Thông tin theo từng trận của các đ ội Ai thi đ ấu Ai ném Kết quả Huấn luyện viên muôn biết Chiến thuật tốt nhất khi thi đ ấu với một đ ội nào đ ó Cầu thủ thi đ ấu tốt hay tồi h ơ n khi ch ơ i với nhau Advanced Scout (nghiên cứu của IBM) là công cụ khai phái dữ liệu đ ể trả lời các câu hỏi này Data Mining3 http://www.nba.com/news_feat/beyond/0126.html Starks+Houston+ Ward playing

4 Khai phá dữ liệu Data Mining4 Khai phá dữ liệu Khai phá tri thức Phát hiện tri thức trong CSDL Khảo cổ dữ liệu Nạo vét dữ liệu Khai phá CSDL Trích rút tri thức Xử lý mẫu dữ liệu Thu hoạch thông tin Siftware Quá trình khám phá các mẫu, xu thế, tương quan có ý nghĩa bằng cách lướt qua khối lượng dữ liệu lớn được lưu trữ, sử dụng các công nghệ nhận dạng mẫu và các kỹ thuật thống kê toán học

5 Tích hợp đ a công nghệ Data Mining5 Máy học Quản trị CSDL Trí tuệ nhân tạo Thống kê Khai phá dữ liệu Hiển thị hình ảnh Thuật toán

6 Khai phá dữ liệu: Lược đồ phân loại Chức năng tổng quát Khai phá dữ liệu mô tả Khai phá dữ liệu dự báo Các quan điểm khác nhau đưa tới phân loại khác nhau Loại dữ liệu được khai phá Loại tri thức được khám phá Loại kỹ thuật được sử dụng Loại ứng dụng được dùng Data Mining6

7 Khám phá tri thức trong CSDL: Quá trình Data Mining7 Nguồn: U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press Dữ liệu đích Lựa chọn Tri thức Dữ liệu được tiền xử lý Các mẫu Khai phá dữ liệu Diễn giải/ đánh giá Tiền xử lý

8 Quan đ iểm đ a chiều về khai phá dữ liệu Dữ liệu được khai phá Quan hệ, kho dữ liệu, giao dịch, luồng, hướng đối tượng, chủ động, không gian, chuỗi thời gian, văn bản, đa phương tiện, không đồng nhất, di sản, WWW Tri thức được khai phá Đặc trưng hóa, phân biệt, kết hợp, phân lớp, phân cụm, xu hướng/phân tán, phân tích ngoại lai, v.v… Đa hàm tích hợp và khai phá nhiều cấp Kỹ thuật sử dụng Hướng CSDL, kho dữ liệu (OLAP), máy học, thống kê, trực quan, v.v… Ứng dụng áp dụng Bán lẻ, viễn thông, ngân hàng, phân tích gian lận, khai phá dữ liệu sinh học, phân tích thị trường chứng khoán, khai phá Web, v.v... Data Mining8

9 Công thức cho quá trình KDD hiệu quả Data Mining9 Nền tảng của tri thức Mục đích của họcCơ sở tri thứcCSDL Kế hoạch học Phát hiện Tri thức Xác định xem tri thức có phù hợp? Evolve Knowledge/ Data Tạo và Kiểm tra Các giả thuyết Hiển thị hình ảnh và Giao diện người – máy Thuật toán khám phá “Để khám phá bất cứ thứ gì bạn cần Tìm kiếm thứ gì đó.” Serendipity

10 Data Mining là gì?—Các ứng dụng tiềm n ă ng Phân tích dữ liệu và hỗ trợ quyết định Quản trị và phân tích thị trường Thị trường mục tiêu, CRM, phân tích giỏ thị trường, bán chéo, phân khúc thị trường Quản trị và phân tích rủi ro Dự đoán, duy trì khách hàng, cải thiện bảo hiểm, điều khiển chất lượng, phân tích cạnh tranh Phát hiện gian lận và các mẫu bất thường (ngoại lai) Các ứng dụng khác Text mining (nhóm tin, email, văn bản) và Web mining Khai phá luồng dữ liệu Phân tích DNA và dữ liệu sinh học Data Mining10

11 Phân tích thị trường và quản trị Dữ liệu đến từ đâu? Giao dịch thẻ tín dụng, thẻ thành viên, phiếu giảm giá, phiếu phản ánh của khách hàng, nghiên cứu phong cách sống Thị trường mục tiêu Tìm các cụm về các “mô hình” khách hàng có chung các đặc điểm: mối quan tâm, mức thu nhập, thói quen tiêu dùng, v.v… Xác định mẫu mua sắm của khách hàng theo thời gian Phân tích thị trường chéo Kết hợp/tương quan bán các sản phẩm và dự đoán dựa trên sự kết hợp này Hồ sơ khách hàng Kiểu khách hàng nào mua sản phẩm này (phân cụm hay phân lớp) Phân tích nhu cầu khách hàng Nhận diện sản phẩm tốt nhất cho các khách hàng khác nhau Dự báo yếu tố nào sẽ hấp dẫn khách hàng mới Cung cấp các tổng hợp thông tin Các báo cáo tổng hợp đa chiều Tổng hợp thông tin thống kê (tập trung dữ liệu và biến thiên) Data Mining11

12 Phân tích tập đ oàn và Quản trị rủi ro Lập kế hoạch tài chính đ ánh giá tài sản Phân tích và dự báo dòng tiền Phân tích yêu cầu ngẫu nhiên đ ể đ ánh giá tài sản Phân tích chuỗi thời gian hay lát cắt (tỉ lệ tài chính, phân tích xu thế, v.v…) Lập kế hoạch tài nguyên Tổng hợp và so sánh các nguồn tài nguyên và tiêu thụ Cạnh tranh Giám sát đ ối thủ cạnh tranh và đ ịnh h ư ớng thị tr ư ờng Nhóm khách hàng thành các lớp thủ tục đ ịnh giá dựa trên lớp Chiến l ư ợc thiết lập giá trong thị tr ư ờng cạnh tranh cao Data Mining12

13 Dò gian lận & Khai phá các mẫu bất thường Tiếp cận: Phân cụm và xây dựng mô hình cho gian lận, phân tích ngoại lai Ứng dụng: Ch ă m sóc sức khỏe, bán lẻ, dịch vụ thẻ tín dụng, viễn thông Bảo hiểm ô tô: vòng va đ ụng Tẩy rửa tiền: các giao dịch tiền tệ khả nghi Bảo hiểm y tế Bệnh nhân chuyên nghiệp, vòng các bác sĩ, vòng các tham khảo Các xét nghiệm không cần thiết hoặc t ươ ng quan Viễn thông: các cuộc gọi gian lận Mô hình cuộc gọi: n ơ i gọi đ ến, khoảng thời gian, thời gian trong ngày hay trong tuần. Phân tích mẫu lệch ra khỏi kỳ vọng Công nghiệp bán lẻ Các nhà phân tích chỉ ra rằng 38% tổn thất bán lẻ do nhân viên không trung thực Chống khủng bố Data Mining13

14 Các ứng dụng khác Thể thao IBM Advanced Scout đã phân tích các thống kê các trận đấu của NBA (chặn cú ném, hỗ trợ và lỗi) để đem đến các lợi thế cho hai đội bóng là New York Knicks và Miami Heat Thiên văn học JPL (NASA Jet Propulsion Laboratory – Phòng Thí nghiệm sức đẩy phản lực) và đài quan sát Palomar đã khám phá ra 22 chuẩn tinh (quasar) với sự hỗ trợ của khai phá dữ liệu Hỗ trợ duyệt WEB IBM Surf-Aid ứng dụng các thuật toán khai phá dữ liệu trên các nhật ký truy cập Web (Web log) của các trang tiếp thị để phát hiện ra ưa thích của khách hàng, hành xử của trang, phân tích sự hiệu của của các chương trình tiếp thị trên Web, cải thiện tổ chức của trang Web, v.v... Data Mining14

15 Ví dụ: Sử dụng trong bán lẻ Mục tiêu: Cải thiện hiệu quả kinh doanh Cải thiện tiếp thị (quảng cáo tới người mua có thể nhất) Giảm kho hàng (lưu trữ chỉ số lượng cần thiết) Nguồn thông tin: Lịch sử kinh doanh Ví dụ: Bản ghi bán hàng của siêu thị Kích thước khoảng 50k bản ghi (nghiên cứu) tới hàng terabyte (dữ liệu nhiều năm trong chuỗi bán lẻ) Dữ liệu được lưu sẵn trong kho Câu hỏi mẫu – Các sản phẩm nào hay được mua cùng nhau? Câu trả lời có trong dữ liệu, chỉ là chúng ta có thể nhìn thấy chúng không Data Mining15

16 Khai phá dữ liệu trong An toàn bay (Eric Bloedorn) Nhiều nhóm bản ghi liên quan đ ến an toàn bay bao gồm National Transportation Safety Board (NTSB – Hội đ ồng An toàn giao thông quốc gia) và Federal Aviation Administration (FAA – C ơ quan Điều hành hàng không liên bang) Tích hợp dữ liệu từ nhiều nguồn cũng nh ư khai phá các mẫu bao gồm các tr ư ờng có cấu trúc và v ă n bản phi cấu trúc là một nhiệm vụ khó kh ă n Mục tiêu của các phân tích ban đ ầu là xác đ ịnh cách thức khai phá dữ liệu có thể sử dụng đ ể cải thiện an toàn bay bằng cách phát hiện các mẫu liên quan đ ến các vấn đ ề an toàn 16

17 Báo cáo tai nạn máy bay Dữ liệu này là nỗ lực của văn phòng FAA Office trong Dự án về Hệ thống quản lý Tai nạn liên quan đến phi hành đoàn và các yếu tố con người Trong tiếp cận trước, hai mô hình dữ liệu về sai sót của con người được phát triển dựa trên các nghiên cứu về yếu tố con người Cơ sở dữ liệu bay của phi công (Pilot Deviation database – PDS) của FAA Cơ sở dữ liệu về tai nạn và va chạm của NTSB Các mô hình sai sót được kiểm tra với các giá trị cụ thể trong các trường thông tin cụ thể Kết quả Phân lớp được một vài tai nạn gây ra bởi sai sót của con người. Data Mining17

18 Vấn đ ề Mô hình hiện thời không thể phân lớp đư ợc số l ư ợng lớn các bản ghi Tỉ lệ cao các tr ư ờng hợp đư ợc gán nhãn ‘unclassified’ (không phân lớp đư ợc) ~58,000 trong CSDL NTSB (90% số tr ư ờng hợp đư ợc nhận dạng có liên quan đ ến con ng ư ời) ~5,400 trong CSDL PDS (93% số tr ư ờng hợp) Khoảng 80,000 tr ư ờng hợp trong NTSB vẫn đư ợc dán nhãn ‘unknown’ (không biết) Phân lớp thành các lớp sai sót con ng ư ời có ý nghĩa là thấp do các tr ư ờng và giá trị cần thiết cho mô hình không đư ợc sử dụng Mô hình cần đư ợc đ iều chỉnh đ ể mô tả tốt h ơ n dữ liệu Data Mining18

19 Tiếp cận khai phá dữ liệu Sử dụng thông tin từ trường văn bản để hỗ trợ cho các trường có cấu trúc bằng cách trích rút các đặc trưng từ văn bản trong các báo cáo tai nạn Xây dựng bộ phân lớp sai sót con người trực tiếp từ dữ liệu Các chuyên gia cung cấp các nhãn lớp cho các sự kiện quan tâm như ‘slips’ (trượt), ‘mistakes’ (lỗi) hay ‘other’ (khác) Sử dụng các công cụ khai phá dữ liệu để xây dựng các luật có thể hiểu được mô tả các lớp này Data Mining19

20 Ví dụ về luật Các luật quyết đ ịnh sử dụng đ ặc tr ư ng và v ă n bản hiện thời If (person_code_1b= 5150,4105,5100,4100) and ((crew-subject-of-intentional-verb = true) or (modifier_code_1b = 3114)) Then mistake “Nếu phi công và phi công phụ có liên quan và hoặc mã sửa 1b mô tả phi hành đ oàn có xu h ư ớng thực hiện một hành đ ộng nào đ ó thì đ ó là lỗi” Data Mining20

21 Ví dụ: Tương quan giữa nhu cầu liên lạc và sự kiện Mục tiêu: Tránh quá tải các thiết bị liên lạc Nguồn thông tin: Dữ liệu lịch sử các sự kiện và báo cáo l ư u l ư ợng liên lạc Câu hỏi mẫu – nhu cầu liên lạc đ ỉnh ở Bosnia là bao nhiêu? CS590D21

22 Ý t ư ởng khai phá dữ liệu: Logistics Độ trễ chuyển phát Tranh luận về điều khai phá dữ liệu có thể làm được; khớp tốt nhất liên quan đến “phân tích chất lượng”: cung cấp rất nhiều dữ liệu về chuyển phát, tìm nguyên nhân chung trong các “vấn đề” chuyển phát Dự đoán nhu cầu về hàng Mùa Tìm các chu kỳ liên quan đến tìm kiếm sự tương tự trong chuỗi thời gian Tìm các chu kỳ tương tự giữa các sản phẩm, kể cả nếu không lặp lại Sự kiện liên quan Dãy kết hợp giữa sự diện và đơn hàng (có thể là yếu) Data Mining22

23 Một cái nhìn về Khai phá dữ liệu Data Mining FBIS: Foreign Broadcast Information Service, OIT: Office of Information Technology, OIA: Office of International Affairs 23 Quá trình KDD... Địa lý Hình ảnh Cấu trúc Văn bản Nhà phân tích FBIS databases OIT databases OIA databases Liên kết nguồn dữ liệu Middleware Nguồn dữ liệu Internet. Người môi giới Khai phá dữ liệu Thu nhận môi trường Môi trường nguồn Ai kết hợp với nhóm X và tính chất của sự kết hợp? Khám phá Tri thức Liệu có mối quan hệ thú vụ nào mà tôi nên biết nữa không? coworkers Suspect Profiles Standing Information Requests Crime DBs Accessed Active Agents Retrieved Information Overlay the traffic density DC Traffic Alert FEMA data coordinator Crisis Watch Command History Who is associated with Sam Jones, and what is the nature of their association? Tell me when something related to my situation changes Hiển thị hình ảnh Văn bản

24 Khai phá dữ liệu có thể làm gì? Phân cụm Phân lớp Phân loại, hồi quy Tổng hợp Tổng hợp thống kê, tổng hợp luật Phân tích liên kết/Mô hình phụ thuộc Luật kết hợp Phân tích chuỗi Phân tích chuỗi thời gian, kết hợp choỗi Dò tìm phân tán Data Mining24

25 Các chức n ă ng của khai phá dữ liệu Mô tả khái niệm: Đặc trưng và sự phân biệt Tổng quát, tổng hợp và đặc trưng đối lập dữ liệu, v.d. các vùng khô và ẩm Kết hợp (tương quan và nguyên nhân – kết quả) Bia à Lạc [0.5%, 75%] Phân lớp và dự báo Xây dựng mô hình (chức năng) mô tả và phân biệt các lớp hay khái niệm cho các dự đoán tương lai V.d. phân lớp các đất nước dựa trên khí hậu hay phân lớp ô tô dựa trên tiêu thụ nhiên liệu Biểu diễn: cây quyết định, luật phân lớp, mạng neural Đoán các giá trị số không biết hay bị mất Data Mining25

26 Chức n ă ng của khai phá dữ liệu (2) Phân tích phân cụm Các nhãn lớp ch ư a biết: nhóm dữ liệu đ ể tạo các lớp mới, v.d., phân cụm nhà đ ể tìm mẫu phân bố Cực đ ại t ươ ng tự trong cùng lớp, cực tiểu sự t ươ ng tự giữa hai lớp Phân tích ngoại lai Ngoại lai: là đ ối t ư ợng dữ liệu không tuân theo hành xử chung của dữ liệu Nhiễu hay loại trừ? Không! Hữu dụng trong phân tích gian lận, phân tích sự kiện hiếm Phân tích xu thế và tiến hóa Xu thế và phân tán: phân tích hồi quy Khai phá chuỗi mẫu, phân tích chu kỳ Phân tích dựa trên t ươ ng tự Các phân tích dựa trên mẫu hay phân tích thống kê khác Data Mining26

27 Các dạng đ ầu ra của khai phá dữ liệu Phân tích dữ liệu phụ thuộc – nhận diện sự phụ thuộc thú vị hay mối quan hệ tiềm tàng giữa các mục dữ liệu Phân lớp – nhóm các bản ghi thành các cụm hay lớp con ý nghĩa Dò tìm phân tán – phát hiện sự khác nhau đ áng chú ý giữa các quan sát và một vài tham chiếu – tiềm tàng việc sửa chữa dữ liệu Các mẫu bất th ư ờng, ngoại lai Các lớp với giá trị trung bình khác đ áng kể so với các lớp cha hay con Sự thay đ ổi trong giá trị từ khoảng thời gian này đ ến khoảng thời gian khác Sự khác nhau giữa giá trị thu đư ợc và mong đ ợi Mô tả khái niệm – phát triển mô tả trừu t ư ợng các thành viên của cộng đ ồng Mô tả đ ặc tr ư ng – các mẫu trong dữ liệu mô tả tốt nhất hoặc tổng hợp một lớp Mô tả phân biệt – mô tả các mẫu khác nhau thế nào Data Mining27

28 Phân cụm Tìm các nhóm mục dữ liệu t ươ ng tự nhau Kỹ thuật thống kê đ òi hỏi đ ịnh nghĩa “khoảng cách” (v.d. hồ s ơ du lịch) trong khi kỹ thuật khái niệm sử dụng khái niệm nền tảng và mô tả logic Sử dụng: Phân tích đ ặc tr ư ng Kỹ thuật: Mạng tự tổ chức (SOM – Self- Organizing Maps) Mật đ ộ xác suất Phân cụm khái niệm “Nhóm người dùng với hồ sơ du lịch tương tự nhau” George, Patricia Jeff, Evelyn, Chris Rob Data Mining28

29 Phân lớp Tìm cách để phân chia mục dữ liệu vào các nhóm được định nghĩa trước Chúng ta biết X và Y thuộc cùng nhóm, tìm những mục khác trong cùng nhóm Đòi hỏi “dữ liệu luyện”: Các mục dữ liệu đã biết nhóm Sử dụng Hồ sơ Công nghệ: Tạo cây quyết định (kết quả con người có thể hiểu được) Mạng Neural “Định hướng văn bản tới những nhóm có vẻ quan tâm nhất” Tiếng Anh hay không? Nội địa hay nước ngoài? Data Mining29

30 Luật kết hợp Nhận diện sự phụ thuộc dữ liệu: X làm Y có khả năng Xác định độ quan trọng của mỗi sự phụ thuộc Phương pháp Bayes Sử dụng: Thị trường đích Công nghệ: AIS, SETM, Hugin, TETRAD II “Tìm các nhóm mục hay được mua cùng nhau” Người mua cá thường mua rượu Người mua gà tây thường mua sốt nam việt quất Data Mining30

31 Kết hợp chuỗi Tìm các chuỗi sự kiện thường hay xảy ra Đòi hỏi danh sách sự kiện luyện và sự kiện thú vị Cần tăng cường xử lý sự kiện nhiễu Sử dụng: Phân tích sai lầm hay dự báo Công nghệ: Quy hoạch động (đóng gói thời gian động) Các thuật toán tùy biến “Tìm chuỗi chung cảnh báo/lỗi trong khoảng thời gian 10 phút” Warn 2 trêm Switch C xảy ra sau Fault 21 trên Switch B Fault 17 trên bất cứ switch nào xảy ra sau Warn 2 trên bất cứ swicht nào Data Mining31

32 Dò tìm phân tán Tìm các giá trị không mong đợi, ngoại lai Sử dụng Phân tích sai lầm Khám phá sự bất thường để phân tích Công nghệ: Phương pháp phân cụm/phân lớp Kỹ thuật thống kê Hình ảnh “Tìm sự bất th ư ờng trong giá chứng khoán của IBM” 32

33 Sự cần thiết của khai phá dữ liệu Lượng dữ liệu hiện tại và lịch sử được lưu trữ lớn Chỉ một phần nhỏ (~5-10%) dữ liệu lưu trữ được phân tích Dữ liệu có thể không bao giờ được phân tích được thu thập với nỗi lo lắng rằng điều gì đó quan trọng có thể bị bỏ sót Khi CSDL lớn lên, ra quyết định từ dữ liệu là không thể; đòi hỏi tri thức trích rút từ dữ liệu được lưu trữ Nguồn dữ liệu Dịch vụ liên quan đến sức khỏe, v.d., lợi nhuận, phân tích y tế Thương mại, v.d., tiếp thị và bán hàng Tài chính Khoa học, v.d., NASA, Genome Phân tích mong muốn Hỗ trợ lập kế hoạch (Cung cấp lịch sử và và xu thế) Quản lý năng suất (quét dữ liệu đặt chỗ chuyến bay để tối đa hiệu suất phục vụ) Hiệu năng hệ thống (phát hiện hành xử bất thường trong hệ thống) Phân tích CSDL cẩn thận (làm sạch nguồn dữ liệu) Data Mining33

34 Sự cần thiết là mẹ đ ẻ của phát minh Vấn đ ề bùng nổ dữ liệu Các công cụ thu thập dữ liệu tự đ ộng và công nghệ CSDL thông minh dẫn tới khối l ư ợng dữ liệu tích lũy khổng lồ đư ợc phân tích trong CSDL, kho dữ liệu và các kho thông tin khác Chúng ta ngập chìm trong dữ liệu nh ư ng đ ói tri thức! Giải pháp: Kho dữ liệu và khai phá dữ liệu Kho dữ liệu và OLAP Khai phá tri thức thú vị (luật, sự đ ều đ ặn, mẫu, ràng buộc) từ dữ liệu trong CSDL lớn Data Mining34

35 Sự phức tạp của khai phá dữ liệu Khối lượng dữ liệu Các thuật toán thông minh đưa tới hiệu năng chấp nhận được Độ đo độ thú vị Làm thế nào đảm bảo các thuật toán chọn ra được các kết quả “thú vị”? “Quá trình khám phá tri thức” đòi hỏi kỹ năng Làm thế nào lựa chọn công cụ, chuẩn bị dữ liệu? Chất lượng dữ liệu Làm thế nào chúng ta diễn dịch kết quả trong điều kiện chất lượng dữ liệu thấp? Tính không đồng nhất của nguồn dữ liệu Làm thế nào chúng ta hợp nhất dữ liệu từ nhiều nguồn? Data Mining35

36 Các vấn đ ề chính trong khai phá dữ liệu Công nghệ khai phá Khai phá các loại tri thức khác nhau từ các dạng dữ liệu đ a dạng, v.d., sinh học, luồng, Web Hiệu n ă ng: n ă ng suất, hiệu quả và khả n ă ng mở rộng Ư ớc l ư ợng các mẫu: Vấn đ ề đ ộ thú vị Tích hợp với tri thức nền Xử lý nhiễu và dữ liệu không hoàn chỉnh Các ph ươ ng pháp khai phá song song, phân tán và t ă ng tr ư ởng Tích hợp tri thức đư ợc khám phá và tri thức đ ã có: hợp nhất tri thức T ươ ng tác ng ư ời dùng Ngôn ngữ truy vấn khai phá dữ liệu và khai phá dùng riêng Biểu diễn, hình ảnh kết quả khai phá dữ liệu Khai phá t ươ ng tác tri thức ở nhiều cấp trừu t ư ợng Ứng dụng và tác đ ộng xã hội Khai phá dữ liệu vô hình và đ ịnh h ư Bảo vệ, an toàn, toàn vẹn và tính riêng t ư của dữ liệu Data Mining36

37 Khai phá dữ liệu Quy trình Các công nghệ liên quan

38 Có phải mọi mẫu đư ợc khám phá đ ều thú vị? Khai phá dữ liệu có thể tạo ra hàng ngàn mẫu: không phải tất cả chúng đ ều thú vị Tiếp cận đ ề nghị: con ng ư ời là trung tâm, dựa trên truy vấn, khai phá tập trung Độ đ o đ ộ thú vị Một mẫu là thú vị nếu nó dễ hiểu, đ úng trên dữ liệu mới hay dữ liệu kiểm tra với một mức đ ộ tất yếu, tiềm n ă ng hữu dụng, mới lạ, hay xác nhận một giả thuyết nào đ ó mà ng ư ời dùng muốn kiểm chứng Độ thú vị chủ quan và khách quan Khách quan: dựa trên thống kê và cấu trúc của các mẫu, v.d., đ ộ hỗ trợ, đ ộ tin cậy, v.v… Chủ quan: dựa trên niềm tin của ng ư ời dùng về dữ liệu, v.d., đ ộ không mong đ ợi, đ ộ mới, đ ộ hành đ ộng, v.v… Data Mining38

39 Chúng ta có thể tìm thấy tất cả các mẫu thú vị? Tìm tất cả mẫu thú vị: tính đ ầy đ ủ Hệ khai phá dữ liệu có thể tìm thấy mọi mẫu thú vị? Heuristic và vét cạn Kết hợp, phân lớp và phân cụm Chỉ tìm các mẫu thú vị: bài toán tối ư u Hệ khai phá dữ liệu có thể tìm thấy chỉ các mẫu thú vị? Tiếp cận Đầu tiên tìm các mẫu và sau đ ó loại bỏ các mẫu không thú vị. Chỉ tạo ra các mẫu thú vị – tối ư u truy vấn khai phá Data Mining39

40 Khám phá tri thức trong CSDL: Quá trình Data Mining40 Nguồn: U. Fayyad, et al. (1995), “From Knowledge Discovery to Data Mining: An Overview,” Advances in Knowledge Discovery and Data Mining, U. Fayyad et al. (Eds.), AAAI/MIT Press Dữ liệu đích Lựa chọn Tri thức Dữ liệu được tiền xử lý Các mẫu Khai phá dữ liệu Diễn giải/ đánh giá Tiền xử lý

41 Các bước của quá trình KDD Xác định vùng ứng dụng Các tri thức phù hợp có trước và mục tiêu của ứng dụng Tạo tập dữ liệu mục tiêu: lựa chọn dữ liệu Làm sạch dữ liệu và tiền xử lý: (có thể chiếm tới 60% công sức!) Thu gọn và chuyển hóa dữ liệu Tìm các đặc trưng hữu dụng, giảm chiều và biến, biểu diễn bất biến Lựa chọn chức năng khai phá dữ liệu tổng hợp, phân lớp, hồi quy, kết hợp, phân cụm, … Lựa chọn (các) thuật toán khai phá Khai phá dữ liệu: tìm tất cả các mẫu thú vị Ước lượng các mẫu và biểu diễn tri thức Hình ảnh, biến đổi, loại bỏ các mẫu thừa v.v... Sử dụng tri thức khám phá được Data Mining41

42 Khai phá dữ liệu và kinh doanh thông minh 42 Tăng tiềm năng hỗ trợ quyết định kinh doanh Người dùng cuối Người phân tích kinh doanh Người phân tích dữ liệu DBA Ra quyết định Biểu diễn dữ liệu Kỹ thuật hình ảnh Khai phá dữ liệu Khám phá thông tin Thăm dò dữ liệu OLAP, MDA (Model-driven Architecture) Phân tích thống kê, truy vấn và báo cáo Kho dữ liệu/Chợ dữ liệu Nguồn dữ liệu Giấy, tờ rơi, người cung cấp thông tin, hệ CSDL, OLTP

43 Kiến trúc: Hệ khai phá dữ liệu tiêu biểu 43 Kho dữ liệu Làm sạch và tích hợp dữ liệu Lọc CSDL Máy chủ CSDL hay kho dữ liệu Máy khai phá dữ liệu Đánh giá mẫu Giao diện người dùng Cơ sở tri thức

44 Tích hợp khai phá dữ liệu và kho dữ liệu Ghép cặp hệ khai phá dữ liệu, DBMS, hệ kho dữ liệu Không ghép cặp, ghép cặp yếu, ghép cặp nửa chặt, ghép cặp chặt Khai phái dữ liệu phân tích trực tuyến Tích hợp khai phá với công nghệ OLAP Khai phá tri thức tương tác đã mức Cần thiết khai phá tri thức và mẫu ở nhiều mức trừu tượng Tích hợp nhiều chức năng khai phá phân lớp đặc trưng, phân cụm và kết hợp CS590D44

45 Kiến trúc OLAM (Online Analytic Mining – Khai phá phân tích trực tuyến) CS590D45 Data Warehouse Meta Data MDDB OLAM Engine OLAP Engine User GUI API Data Cube API Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&IntegrationFiltering Databases Truy vấn khai pháKết quả khai phá

46 Kỹ thuật liên quan: Hiển thị hình ảnh Hình ảnh sử dụng khả năng tri giác của con người để nhận diện các mẫu trong tập dữ liệu lớn Lợi ích tương đối với khai phá dữ liệu Thu nhận các mẫu không được xem xét Nhận biết các quan hệ phi tuyến Bất lợi tương đối với khai phá dữ liệu Tập dữ liệu kích thước giới hạn bởi ràng buộc độ phân giải Khó nhận diện các mẫu nhỏ Khó định lượng các kết quả 46

47 Khai phá dữ liệu và hiển thị hình ảnh Tiếp cận Hiển thị hình ảnh đ ể thể hiện các kết quả của khai phá dữ liệu Giúp nhà phân tích hiểu tốt h ơ n kết quả của công cụ khai phá dữ liệu Hiển thị hình ảnh hỗ trợ quá trình khai phá dữ liệu Điều khiển t ươ ng tác quá trình khám phá dữ liệu Điều chỉnh t ươ ng tác tiếp cận của nhà phân tích Vấn đ ề khai phá dữ liệu t ươ ng tác Mối quan hệ giữa nhà phân tích, công cụ khai phá dữ liệu và công cụ hiển thị hình ảnh Data Mining 47 Công cụ khai phá dữ liệu Kết quả hiển thị Nhà phân tích


Download ppt "Khai phá dữ liệu. Data Mining là gì? Khai phá dữ liệu (phát hiện tri thức trong dữ liệu) Trích rút các mẫu hay tri thức thú vị (không tầm th ư ờng, ẩn,"

Similar presentations


Ads by Google