PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria.

Slides:



Advertisements
Similar presentations
Protokol Rangkaian Bab 6
Advertisements

Transmisi Analog -Tranmisi Jalur Asas dan Jalur lebar
Access Point  .
CDPD Celular Digital Packet Data Mhd Farid Naqeeb B. Mhd Amin Nordin A96908 Azfa Abdul Rahman A96865.
PEMBANGUNAN ENJIN GELINTAR tp PENGENALAN DIRI Saidah Saad Bilik No. 54, Paras 4, Blok D, Bgn FTSM. Jabatan Sains Maklumat, FTSM, UKM
Tan Sim Tee A97299 Quah Cheak Seong A97271 Chung Wui Fah A97154 Lee Chun Aik A97212 Ng Wai Mann A97262 Scalable Web Search by Adaptive Online Agents: An.
BAB 3-2 Sifat Robot. Objektif Boleh mengetahui ciri/spesifikasi robot Boleh menerangkan ciri/spesifikasi yang menerangkan kelakuan dan sifat robot Boleh.
TERRESTRIAL MICROWAVE INTAN FARAHANA BTE KAMSIN A A NURUL ASYIKIN BTE OTHMAN A A
Ketidaktentuan –Tidak lengkap –tidak konsisten, –tidakpasti… atau ketiga- tiganya sekali.
The Anatomy of a Large-Scale Hypertextual Web Search Engine Nama Ahli Kumpulan : Chew Wan Yun A97128 Seng Shwu Shyan A97275 Teaw Poh Suan A97307 Lim Cindy.
PENGENALAN KEPADA SISTEM MULTIMEDIA (WXET 3142) BAB 4 : IMEJ DAN GRAFIK (sambungan)
Model Capaian Maklumat
Measuring indeks Quality using Random Walks on the Web Disediakan oleh: Ang Pek Ling A97105 Beh Jin Hong A97110 Chung Yee Mun A97155 Emilee Tan Su-Chin.
BAB 5-4 Training Aplikasi Machine Vision. Objektif Boleh mengetahui kepentingan training pada vision system Boleh menghuraikan aplikasi vision system.
Bab 5-3 Image Processing and Analysis. Objektif Boleh mengetahui langkah-langkah yg terlibat di dalam Fungsi II Boleh menghuraikan keperluan dan fungsi.
RANGKA RUJUKAN ROBOT (ROBOT REFERENCE FRAMES)
Sebuah alat komunikasi perhubungan melalui “rangkaian pengguna” Digunakan secara meluas di awal era keluaran telefon bimbit iaitu dari tahun 1980 ke 1990.
FSKTM Kenapa Cache? Penganalisaan bbrp aturcara menunjukkan bahawa memori komputer cenderung merujuk kepada suatu kawasan tertentu. Fenomena ini dinamakan.
Mercator : A scalable, extensible web crawler TP2433 : Search Engine.
Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable.
SATELIT LEO (LOW EARTH ORBITING) SHANGARI VELUSAMY A NURUL FATIHAH BT MOHAMED KAMARUDIN A
Mhmh1 Laluan dalam WAN TK3133 Teknologi Rangkaian Komputer.
INTERNET SEBAGAI MEDIA MAKLUMAT BARU DI ERA MAKLUMAT.
PENGENALAN KEPADA SISTEM MULTIMEDIA (WXET 3142) BAB 3 : TEKS.
1 Bab 8 Halatuju dan Kekangan dalam Antaramuka : Multisensori.
AMPS /D-AMPS ADVANCED MOBILE PHONE SYSTEM/DIGITAL ADVANCED MOBILE PHONE SYSTEM.
Bab 6-2 MASA DEPAN TEKNOLOGI ROBOT. Objektif Boleh mengenalpasti masa depan robot Boleh menghuraikan aspek-aspek aplikasi robot pasa masa depan.
Pengindeksan Dan Fail Songsang (inverted File). Indeks Songsang Sistem capaian maklumat membangunkan indeks songsang untuk mencari katakunci dalam koleksi.
UNIT PEMPROSESAN PUSAT (CPU)
SISTEM PENCARIAN DAN CAPAIAN DOKUMEN
MULTICHANNEL MULTIPOINT DISTRIBUTED SERVICE (MMDS)
Free Space Optics(FSO) Free Space Photonics(FSP) atau Wireless optic Merujuk kepada pemindahan gelombang infrared melalui atmosfera untuk mendapatkan komunikasi.
Impact Of Society Topic: Virus
Strategi Algoritma Universitas Ahmad Dahlan
BAB 4 PERSAMPELAN.
Kandungan 1 RAID - (Redundant Array of Independent (or Inexpensive) Disks 2 Komputer Pelayan (Server) 3 Perisian Komputer Politeknik Seberang Perai.
BAB 2 PLANNING Objektif: Pengenalan kepada perancangan projek
NEUROCITE 2.0: Simulator Peramalan Rangkaian Neural Buatan
Sofirudman Mazuin Asmarul shazila Ainul bariah
ASAS PENGATURCARAAN F1001 En. Azrol Hisham Bin Mohd Adham
BAB 3 ANALISIS SISTEM Objektif:
Regresi Sederhana dan Analisis Korelasi
MODULE 3 : HARDWARE : MONITOR PREVENTIVE MAINTENANCE WORK
PENGUMPULAN PROJEK DALAM SATU SISTEM APLIKATI
MODUL 3 FILING SYSTEM.
koc3203 ASAS PERIKLANAN Perancangan Media
PERISIAN HAMPARAN ELEKTRONIK
Disediakan Oleh Rozita Yaakob A Khairunnisa Yahya
Masalah Tugasan.
CABARAN MEDIA YANG BERUBAH
MODULE 3 : HARDWARE : MONITOR CORRECTIVE MAINTENANCE WORK
Pernyataan if.. Pernyataan switch..
BAB 8 TATASUSUNAN.
Pengenalan.
Penyelesaian Rangkaian Multimedia
BAB 2(a):PENGENALAN KEPADA JELMAAN LAPLACE
2.0 PENGALAMATAN RANGKAIAN
SSQL1113 Statistik Untuk Sains Sosial
BAB 7 STRING.
Mesyuarat Pengurusan Profesional IPGM KPM Bil 1/2015
BAB 2 PLANNING Objektif: Pengenalan kepada perancangan projek
Oleh: Zaihan Abdul Ghani A Sharifah Suhaila Mohd Ramli A103305
POLITEKNIK PORT DICKSON E4161 SISTEM KOMPUTER & APLIKASI
Kebolehgunaan Semula Perisian
Muhamad Shukri Saud PRODUCTION ORGANIZATION
ICT HANDYBOOK SPM LA2 COMPUTER SYSTEMS 2.3 Software.
3.4.3 KONFIGURASI DAN UJIAN RANGKAIAN
WEB 2.0 and E-LEARNING & MOBILE LEARNING
Penilaian Capaian & Maklumbalas Berkaitan
Keperluan rangkaian bagi aplikasi multimedia
Presentation transcript:

PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria A96862 Norfaezah bt Ahmad Supian A96989 Norfaezah bt Ahmad Supian A96989 Wong Siew Peng A97330 Wong Siew Peng A97330 Yasser Ali b. Zolkarnaini A97092 Yasser Ali b. Zolkarnaini A97092

The Anatomy Of A Large-scale Hypertextual Web Search Engine PENGENALAN CIRI-CIRI SISTEM CIRI-CIRI SISTEMCIRI-CIRI SISTEMCIRI-CIRI SISTEM TUGAS YANG BERKAITAN TUGAS YANG BERKAITANTUGAS YANG BERKAITANTUGAS YANG BERKAITAN SISTEM ANATOMI SISTEM ANATOMISISTEM ANATOMISISTEM ANATOMI KEPUTUSAN & PENCAPAIAN KEPUTUSAN & PENCAPAIANKEPUTUSAN & PENCAPAIANKEPUTUSAN & PENCAPAIAN KESIMPULAN KESIMPULANKESIMPULAN

PENGENALAN Bilangan maklumat dalam web bertambah dengan pesatnya seiring dengan bilangan pengguna baru yang kurang berpengalaman dalam kemahiran pencarian dalam web Bilangan maklumat dalam web bertambah dengan pesatnya seiring dengan bilangan pengguna baru yang kurang berpengalaman dalam kemahiran pencarian dalam web Teknik enjin gelintar berkembang pesat sebagaimana pertambahan web Teknik enjin gelintar berkembang pesat sebagaimana pertambahan web satu daripada web enjin gelintar World Wide Web Worm (WWWW) mempunyai indeks 110,000 laman web dan capaian dokumen dalam web satu daripada web enjin gelintar World Wide Web Worm (WWWW) mempunyai indeks 110,000 laman web dan capaian dokumen dalam web Nov 1997 – top search engine mengindeks million dokumen web Nov 1997 – top search engine mengindeks million dokumen web Thn 2000, indeks keseluruhan dari laman web mengandungi lebih drpd 1 billion dokumen Thn 2000, indeks keseluruhan dari laman web mengandungi lebih drpd 1 billion dokumen Altavista mendakwa mengendalikan secara kasar sebanyak 20 million kueri sehari Altavista mendakwa mengendalikan secara kasar sebanyak 20 million kueri sehari Matlamat sistem adalah utk selesaikan masalah sama ada dari segi kualiti dan perkembangan Matlamat sistem adalah utk selesaikan masalah sama ada dari segi kualiti dan perkembangan

GOOGLE : PERKEMBANGAN DENGAN WEB Gogol atau Gogol atau Penerokaan teknologi yg pantas memerlukan pengumpulan dokumen web dan memastikan ia sentiasa dikemaskini Penerokaan teknologi yg pantas memerlukan pengumpulan dokumen web dan memastikan ia sentiasa dikemaskini Ruang storan perlu diguna dengan cekap utk simpan indeks, pilihan dan dokumen Ruang storan perlu diguna dengan cekap utk simpan indeks, pilihan dan dokumen Sistem yang diindeks perlu memproses lebih drpd 100 GB data secara berkesan Sistem yang diindeks perlu memproses lebih drpd 100 GB data secara berkesan Dalam merekabentuk Google, kita perlu mengambil kira perkembangan web dan perubahan teknologi Dalam merekabentuk Google, kita perlu mengambil kira perkembangan web dan perubahan teknologi Google direka untuk mengembangkan dengan baik set data yang amat besar Google direka untuk mengembangkan dengan baik set data yang amat besar Ini menjadikan penggunaan storan utk menyimpan indeks lebih efisien Ini menjadikan penggunaan storan utk menyimpan indeks lebih efisien

STATISTIK – Google Press Center(Jun 2004) LANGUAGES USED TO ACCESS GOOGLEBROWERS USED TO ACCESS GOOGLE MOST SEARCH FOR AUTOBIOGRAPHY OS USED TO ACCESS GOOGLE

POPULAR BLONDES IMAGES (JUN 2004) 1. BRITNEY SPEARS 2. PARIS HILTON 3. PAMELA ANDERON 4. JESSICA SIMPSON 5. ANNA KOURNIKOVA POPULAR NEWS QUERIES (JUN 2004) 1. EURO HARRY PORTER 3. PAUL JOHNSON 4. JOHN KERRY 5. WIMBLEDON

CIRI-CIRI SISTEM 2 cara mendapatkan keputusan pencarian tepat iaitu 2 cara mendapatkan keputusan pencarian tepat iaitu = page rank = anchor text Page rank = mengguna struktur link utk kira secara anggaran Page rank = mengguna struktur link utk kira secara anggaran kualiti sesebuah laman = beri keutamaan keputusan berdasarkan kata kunci = beri keutamaan keputusan berdasarkan kata kunci = menggunakan formula pengulangan algoritma mudah = menggunakan formula pengulangan algoritma mudah = maka, 26juta laman web dapat di ‘rank’ dlm masa = maka, 26juta laman web dapat di ‘rank’ dlm masa beberapa jam menggunakan workstation bersaiz medium beberapa jam menggunakan workstation bersaiz medium

menggunakan struktur link ~utk mengira secara anggaran kualiti sesebuah laman web menggunakan struktur link ~utk mengira secara anggaran kualiti sesebuah laman web = beri keutamaan keputusan berdasarkan kata kunci = menggunakan formula pengulangan algoritma mudah = maka, 26juta laman web dapat di ‘rank’ dlm masa beberapa jam menggunakan workstation bersaiz medium di bawah adalah penghuraian mengenai pengiraan page rank; di bawah adalah penghuraian mengenai pengiraan page rank; PR(A) = (1-d) + d(PR(T1) + … + PR(Tn)/C(Tn)) PR(A) = (1-d) + d(PR(T1) + … + PR(Tn)/C(Tn)) A=anggapan bahawa ada halaman T1,T2….Tn T=bilangan halaman dalam sesebuah laman web d=faktor dalam set nilai 0 hingga 1 (biasanya 0.85) d=faktor dalam set nilai 0 hingga 1 (biasanya 0.85) C(A)= bilangan link yg keluar dari laman web A PAGE RANK

Model kelakuan/sifat pengguna ~ Para pengguna lazimnya pengguna biasa yang melawat sebuah laman web sering klik pada link, tidak untuk klik back. Ini akan mendatang kebosanan dan akan melawat laman web yang lain. Kekerapan pengguna yang melawat sesuatu laman web mempengaruhi page rank. Page rank akan meningkat jikalau terdapat banyak laman web yang menunjuk padanya. Contohnya; laman web yang terkenal seperti Laman web tersebut mempunyai priority yang tinggi kerana banyak laman web lain menunjuk padanya. Laman yang ditunjuk oleh banyak laman semestinya berpatutan untuk diberi perhatian.

Kekerapan term~ adalah jumlah kekerapan perkataan yang wujud dalam sesuatu dokumen yang terdapat pada sesebuan laman web. Apabila term itu wujud acap kali pada dokumen tersebut, priority page rank akan meningkat. Keputusan yang jitu akan dapat dicapai. Font yang besar atau capital letter/bolt/italic~ Adalah salah satu faktor mendapatkan priority page rank yang tinggi.

ANCHOR TEXT Kebanyakan enjin gelintar menggabungkan text daripada link yang terdapat dalam page dimana page yang menggabungkan text tersebut mempunyai kebarangkalian link yang tinggi untuk menghasilkan kejituan keputusan. Bagi penambahan untuk keputusan yang jitu, penggabungan pagi dilakukan di mana page tersebut adalah point link. untuk halaman web yang wujud tetapi tidak diindeks oleh enjin gelintar teks(kerana mengandungi banyak imej atau software berbanding teks) laman yg belum di ‘crawl’ akan mendatangkan masalah kerana tidak laman yg belum di ‘crawl’ akan mendatangkan masalah kerana tidak disemak kesahihan sebelum memulangkan keputusan kepada pengguna. Ada juga enjin gelintar yang memulangkan laman web yang tidak wujud tetapi ada hyperlink yang menunjuk padanya. Ini jarang berlaku.

CAPAIAN MAKLUMAT Kebanyakan carian dalam sistem capaian maklumat adalah kecil dan dikawal oleh koleksi homegenus spt koleksi saintifik Kebanyakan carian dalam sistem capaian maklumat adalah kecil dan dikawal oleh koleksi homegenus spt koleksi saintifik Peringkat pertama capaian maklumat, Text Retrieval Conference [TREC 96] menggunakan ruang kecil yg dikawal oleh koleksi Peringkat pertama capaian maklumat, Text Retrieval Conference [TREC 96] menggunakan ruang kecil yg dikawal oleh koleksi TREC selalu tidak menunjukkan pencarian yg baik di dalam web TREC selalu tidak menunjukkan pencarian yg baik di dalam web Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri.

Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri.

SISTEM ANATOMI R1 : Gambaran Senibina Google Peringkat Tinggi

URLserver akan menghantar senarai URLs untuk diambil oleh crawler URLserver akan menghantar senarai URLs untuk diambil oleh crawler Laman web yang diambil kemudiannya dihantar ke storeserver Laman web yang diambil kemudiannya dihantar ke storeserver Storeserver akan memadatkan dan simpan laman web ke dalam repository Storeserver akan memadatkan dan simpan laman web ke dalam repository Setiap laman web mempunyai ID no. yang dinamakan docID yang mana ia diberikan URL baru untuk menghuraikan satu laman web Setiap laman web mempunyai ID no. yang dinamakan docID yang mana ia diberikan URL baru untuk menghuraikan satu laman web

Proses mengindeks menjalankan beberapa fungsi iaitu membaca repository, menghuraikan dan nyahpadatan dokumen Proses mengindeks menjalankan beberapa fungsi iaitu membaca repository, menghuraikan dan nyahpadatan dokumen Setiap dokumen diubah kepada satu set perkataan yang dipanggil hits Setiap dokumen diubah kepada satu set perkataan yang dipanggil hits Hits akan merekod perkataan, menentukan kedudukan dalam dokumen, anggaran saiz font dan penggunaannya Hits akan merekod perkataan, menentukan kedudukan dalam dokumen, anggaran saiz font dan penggunaannya Pengindeks akan mengagihkan hits ke dalam satu set “barrels” Pengindeks akan mengagihkan hits ke dalam satu set “barrels” Ia juga menghuraikan semua link yang terdapat dalam laman web dan simpan maklumat penting dalam anchor file Ia juga menghuraikan semua link yang terdapat dalam laman web dan simpan maklumat penting dalam anchor file

Pengisih (sorter) mengambil “barrels” dan mengisih semula untuk menghasilkan indeks songsang Pengisih (sorter) mengambil “barrels” dan mengisih semula untuk menghasilkan indeks songsang Ia juga menghasilkan satu senarai wordIDs dan mengimbanginya untuk dimasukkan ke dalam indeks songsang Ia juga menghasilkan satu senarai wordIDs dan mengimbanginya untuk dimasukkan ke dalam indeks songsang

Forward Index Indeks yang dihantar semula sebenarnya sudah diisih Indeks yang dihantar semula sebenarnya sudah diisih Ia disimpan dalam sejumlah “barrels” Ia disimpan dalam sejumlah “barrels” Setiap “barrel” memegang pelbagai wordID’s Setiap “barrel” memegang pelbagai wordID’s Ia memerlukan hanya 24 bits untuk meletakkan wordIDs dalam unsorted barrels Ia memerlukan hanya 24 bits untuk meletakkan wordIDs dalam unsorted barrels

Document Index Indeks dokumen menyimpan maklumat tentang setiap dokumen Indeks dokumen menyimpan maklumat tentang setiap dokumen Maklumat yang disimpan dalam setiap entri termasuk status semasa dokumen, penunjuk kepada repository dan pelbagai statistik Maklumat yang disimpan dalam setiap entri termasuk status semasa dokumen, penunjuk kepada repository dan pelbagai statistik Jika dokumen sudah diteroka, ia juga mengandungi penunjuk kepada pelbagai fail yang dinamakan docinfo Jika dokumen sudah diteroka, ia juga mengandungi penunjuk kepada pelbagai fail yang dinamakan docinfo Ia juga mengandungi fail yang mana ia digunakan untuk menukar URLs kepada docIDs Ia juga mengandungi fail yang mana ia digunakan untuk menukar URLs kepada docIDs

KEPUTUSAN DAN PENCAPAIAN Tahap ukuran yg terpenting bagi sesebuah enjin gelintar adalah kualiti sesuatu keputusan pencarian Tahap ukuran yg terpenting bagi sesebuah enjin gelintar adalah kualiti sesuatu keputusan pencarian Google akan mempersembahkan suatu keputusan yang lebih baik berbanding enjin gelintar yang lain Google akan mempersembahkan suatu keputusan yang lebih baik berbanding enjin gelintar yang lain Cth: penggunaan Page Rank, anchor text Cth: penggunaan Page Rank, anchor text dan proximity dan proximity

KEPERLUAN STORAN Google juga direkabentuk bg meluaskan kos scr efektif Google juga direkabentuk bg meluaskan kos scr efektif Antaranya menggunakan storan secara efisien (rujuk T1) Antaranya menggunakan storan secara efisien (rujuk T1) Merujuk kpd pemampatan sbyk 53GB jum saiz repository adalah 1/3 drpd jum data tersimpan Merujuk kpd pemampatan sbyk 53GB jum saiz repository adalah 1/3 drpd jum data tersimpan Dgn pengekodan yg lebih baik, suatu enjin gelintar berkualiti boleh memuatkan sbyk 7GB drive bg PC yg baru Dgn pengekodan yg lebih baik, suatu enjin gelintar berkualiti boleh memuatkan sbyk 7GB drive bg PC yg baru T1:Statistics T1:Statistics

PENILAIAN SISTEM Bagi Google, operasi terbesar adalah, indexing dan sorting Bagi Google, operasi terbesar adalah crawling, indexing dan sorting Ini perlu bagi memastikan jangkamasa yg diambil semasa crawling krn disk yg penuh, nama server bertindan, dll. Scr kasar, didapati masa 9 hari diambil utk download sbyk 26 million halaman (termasuk error)

PENILAIAN PENCARIAN Langkah meningkatkan penilaian terhadap carian tidak hanya tertumpu pada penyelidikan Langkah meningkatkan penilaian terhadap carian tidak hanya tertumpu pada penyelidikan Versi semasa Google menyatakan bahawa kebanyakan kueri antara saat Versi semasa Google menyatakan bahawa kebanyakan kueri antara saat Google tidak ada sbrg optimization spt queri caching dan subindeks pada common terms Google tidak ada sbrg optimization spt queri caching dan subindeks pada common terms Target mereka ialah mampu utk menampung sejumlah ratusan kueri sesaat Target mereka ialah mampu utk menampung sejumlah ratusan kueri sesaat T2 : Search Timers

KESIMPULAN KESIMPULAN Ciri sebuah enjin gelintar yang baik adalah dapat mencari apa sahaja yang terdapat dalam internet dengan pantas dan jitu

TAMAT TAMAT ACKNOWLEGDEMENT ACKNOWLEGDEMENT SEKIAN TERIMA KASIH KEPADA : PN SAIDAH SAAD RAKAN-RAKAN SEPERJUANGAN SEKALIAN