Presentation is loading. Please wait.

Presentation is loading. Please wait.

PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria.

Similar presentations


Presentation on theme: "PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria."— Presentation transcript:

1

2 PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria A96862 Norfaezah bt Ahmad Supian A96989 Norfaezah bt Ahmad Supian A96989 Wong Siew Peng A97330 Wong Siew Peng A97330 Yasser Ali b. Zolkarnaini A97092 Yasser Ali b. Zolkarnaini A97092

3 The Anatomy Of A Large-scale Hypertextual Web Search Engine PENGENALAN CIRI-CIRI SISTEM CIRI-CIRI SISTEMCIRI-CIRI SISTEMCIRI-CIRI SISTEM TUGAS YANG BERKAITAN TUGAS YANG BERKAITANTUGAS YANG BERKAITANTUGAS YANG BERKAITAN SISTEM ANATOMI SISTEM ANATOMISISTEM ANATOMISISTEM ANATOMI KEPUTUSAN & PENCAPAIAN KEPUTUSAN & PENCAPAIANKEPUTUSAN & PENCAPAIANKEPUTUSAN & PENCAPAIAN KESIMPULAN KESIMPULANKESIMPULAN

4 PENGENALAN Bilangan maklumat dalam web bertambah dengan pesatnya seiring dengan bilangan pengguna baru yang kurang berpengalaman dalam kemahiran pencarian dalam web Bilangan maklumat dalam web bertambah dengan pesatnya seiring dengan bilangan pengguna baru yang kurang berpengalaman dalam kemahiran pencarian dalam web Teknik enjin gelintar berkembang pesat sebagaimana pertambahan web Teknik enjin gelintar berkembang pesat sebagaimana pertambahan web 1994 - satu daripada web enjin gelintar World Wide Web Worm (WWWW) mempunyai indeks 110,000 laman web dan capaian dokumen dalam web 1994 - satu daripada web enjin gelintar World Wide Web Worm (WWWW) mempunyai indeks 110,000 laman web dan capaian dokumen dalam web Nov 1997 – top search engine mengindeks 2-100 million dokumen web Nov 1997 – top search engine mengindeks 2-100 million dokumen web Thn 2000, indeks keseluruhan dari laman web mengandungi lebih drpd 1 billion dokumen Thn 2000, indeks keseluruhan dari laman web mengandungi lebih drpd 1 billion dokumen Altavista mendakwa mengendalikan secara kasar sebanyak 20 million kueri sehari Altavista mendakwa mengendalikan secara kasar sebanyak 20 million kueri sehari Matlamat sistem adalah utk selesaikan masalah sama ada dari segi kualiti dan perkembangan Matlamat sistem adalah utk selesaikan masalah sama ada dari segi kualiti dan perkembangan

5 GOOGLE : PERKEMBANGAN DENGAN WEB Gogol atau 10 100 Gogol atau 10 100 Penerokaan teknologi yg pantas memerlukan pengumpulan dokumen web dan memastikan ia sentiasa dikemaskini Penerokaan teknologi yg pantas memerlukan pengumpulan dokumen web dan memastikan ia sentiasa dikemaskini Ruang storan perlu diguna dengan cekap utk simpan indeks, pilihan dan dokumen Ruang storan perlu diguna dengan cekap utk simpan indeks, pilihan dan dokumen Sistem yang diindeks perlu memproses lebih drpd 100 GB data secara berkesan Sistem yang diindeks perlu memproses lebih drpd 100 GB data secara berkesan Dalam merekabentuk Google, kita perlu mengambil kira perkembangan web dan perubahan teknologi Dalam merekabentuk Google, kita perlu mengambil kira perkembangan web dan perubahan teknologi Google direka untuk mengembangkan dengan baik set data yang amat besar Google direka untuk mengembangkan dengan baik set data yang amat besar Ini menjadikan penggunaan storan utk menyimpan indeks lebih efisien Ini menjadikan penggunaan storan utk menyimpan indeks lebih efisien

6 STATISTIK – Google Press Center(Jun 2004) LANGUAGES USED TO ACCESS GOOGLEBROWERS USED TO ACCESS GOOGLE MOST SEARCH FOR AUTOBIOGRAPHY OS USED TO ACCESS GOOGLE

7 POPULAR BLONDES IMAGES (JUN 2004) 1. BRITNEY SPEARS 2. PARIS HILTON 3. PAMELA ANDERON 4. JESSICA SIMPSON 5. ANNA KOURNIKOVA POPULAR NEWS QUERIES (JUN 2004) 1. EURO 2004 2. HARRY PORTER 3. PAUL JOHNSON 4. JOHN KERRY 5. WIMBLEDON

8 CIRI-CIRI SISTEM 2 cara mendapatkan keputusan pencarian tepat iaitu 2 cara mendapatkan keputusan pencarian tepat iaitu = page rank = anchor text Page rank = mengguna struktur link utk kira secara anggaran Page rank = mengguna struktur link utk kira secara anggaran kualiti sesebuah laman = beri keutamaan keputusan berdasarkan kata kunci = beri keutamaan keputusan berdasarkan kata kunci = menggunakan formula pengulangan algoritma mudah = menggunakan formula pengulangan algoritma mudah = maka, 26juta laman web dapat di ‘rank’ dlm masa = maka, 26juta laman web dapat di ‘rank’ dlm masa beberapa jam menggunakan workstation bersaiz medium beberapa jam menggunakan workstation bersaiz medium

9 menggunakan struktur link ~utk mengira secara anggaran kualiti sesebuah laman web menggunakan struktur link ~utk mengira secara anggaran kualiti sesebuah laman web = beri keutamaan keputusan berdasarkan kata kunci = menggunakan formula pengulangan algoritma mudah = maka, 26juta laman web dapat di ‘rank’ dlm masa beberapa jam menggunakan workstation bersaiz medium di bawah adalah penghuraian mengenai pengiraan page rank; di bawah adalah penghuraian mengenai pengiraan page rank; PR(A) = (1-d) + d(PR(T1) + … + PR(Tn)/C(Tn)) PR(A) = (1-d) + d(PR(T1) + … + PR(Tn)/C(Tn)) A=anggapan bahawa ada halaman T1,T2….Tn T=bilangan halaman dalam sesebuah laman web d=faktor dalam set nilai 0 hingga 1 (biasanya 0.85) d=faktor dalam set nilai 0 hingga 1 (biasanya 0.85) C(A)= bilangan link yg keluar dari laman web A PAGE RANK

10 Model kelakuan/sifat pengguna ~ Para pengguna lazimnya pengguna biasa yang melawat sebuah laman web sering klik pada link, tidak untuk klik back. Ini akan mendatang kebosanan dan akan melawat laman web yang lain. Kekerapan pengguna yang melawat sesuatu laman web mempengaruhi page rank. Page rank akan meningkat jikalau terdapat banyak laman web yang menunjuk padanya. Contohnya; laman web yang terkenal seperti www.yahoo.com Laman web tersebut mempunyai priority yang tinggi kerana banyak laman web lain menunjuk padanya. www.yahoo.com Laman yang ditunjuk oleh banyak laman semestinya berpatutan untuk diberi perhatian.

11 Kekerapan term~ adalah jumlah kekerapan perkataan yang wujud dalam sesuatu dokumen yang terdapat pada sesebuan laman web. Apabila term itu wujud acap kali pada dokumen tersebut, priority page rank akan meningkat. Keputusan yang jitu akan dapat dicapai. Font yang besar atau capital letter/bolt/italic~ Adalah salah satu faktor mendapatkan priority page rank yang tinggi.

12 ANCHOR TEXT Kebanyakan enjin gelintar menggabungkan text daripada link yang terdapat dalam page dimana page yang menggabungkan text tersebut mempunyai kebarangkalian link yang tinggi untuk menghasilkan kejituan keputusan. Bagi penambahan untuk keputusan yang jitu, penggabungan pagi dilakukan di mana page tersebut adalah point link. untuk halaman web yang wujud tetapi tidak diindeks oleh enjin gelintar teks(kerana mengandungi banyak imej atau software berbanding teks) laman yg belum di ‘crawl’ akan mendatangkan masalah kerana tidak laman yg belum di ‘crawl’ akan mendatangkan masalah kerana tidak disemak kesahihan sebelum memulangkan keputusan kepada pengguna. Ada juga enjin gelintar yang memulangkan laman web yang tidak wujud tetapi ada hyperlink yang menunjuk padanya. Ini jarang berlaku.

13 CAPAIAN MAKLUMAT Kebanyakan carian dalam sistem capaian maklumat adalah kecil dan dikawal oleh koleksi homegenus spt koleksi saintifik Kebanyakan carian dalam sistem capaian maklumat adalah kecil dan dikawal oleh koleksi homegenus spt koleksi saintifik Peringkat pertama capaian maklumat, Text Retrieval Conference [TREC 96] menggunakan ruang kecil yg dikawal oleh koleksi Peringkat pertama capaian maklumat, Text Retrieval Conference [TREC 96] menggunakan ruang kecil yg dikawal oleh koleksi TREC selalu tidak menunjukkan pencarian yg baik di dalam web TREC selalu tidak menunjukkan pencarian yg baik di dalam web Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri.

14 Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Sebagai contohnya ruang basi model vektor biasa cuba untuk mengulangi dokumen yang mana lebih hampir dengan kueri, memberikan kedua-dua kueri dan dokumen merupakan vektor yang didefinisikan menggunakan ayat mereka. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri. Dalam strategi ini akan mengembalikan satu dokumen yang amat pendek yang mana menggunakan penambahan beberapa perkataan kueri.

15 SISTEM ANATOMI R1 : Gambaran Senibina Google Peringkat Tinggi

16 URLserver akan menghantar senarai URLs untuk diambil oleh crawler URLserver akan menghantar senarai URLs untuk diambil oleh crawler Laman web yang diambil kemudiannya dihantar ke storeserver Laman web yang diambil kemudiannya dihantar ke storeserver Storeserver akan memadatkan dan simpan laman web ke dalam repository Storeserver akan memadatkan dan simpan laman web ke dalam repository Setiap laman web mempunyai ID no. yang dinamakan docID yang mana ia diberikan URL baru untuk menghuraikan satu laman web Setiap laman web mempunyai ID no. yang dinamakan docID yang mana ia diberikan URL baru untuk menghuraikan satu laman web

17 Proses mengindeks menjalankan beberapa fungsi iaitu membaca repository, menghuraikan dan nyahpadatan dokumen Proses mengindeks menjalankan beberapa fungsi iaitu membaca repository, menghuraikan dan nyahpadatan dokumen Setiap dokumen diubah kepada satu set perkataan yang dipanggil hits Setiap dokumen diubah kepada satu set perkataan yang dipanggil hits Hits akan merekod perkataan, menentukan kedudukan dalam dokumen, anggaran saiz font dan penggunaannya Hits akan merekod perkataan, menentukan kedudukan dalam dokumen, anggaran saiz font dan penggunaannya Pengindeks akan mengagihkan hits ke dalam satu set “barrels” Pengindeks akan mengagihkan hits ke dalam satu set “barrels” Ia juga menghuraikan semua link yang terdapat dalam laman web dan simpan maklumat penting dalam anchor file Ia juga menghuraikan semua link yang terdapat dalam laman web dan simpan maklumat penting dalam anchor file

18 Pengisih (sorter) mengambil “barrels” dan mengisih semula untuk menghasilkan indeks songsang Pengisih (sorter) mengambil “barrels” dan mengisih semula untuk menghasilkan indeks songsang Ia juga menghasilkan satu senarai wordIDs dan mengimbanginya untuk dimasukkan ke dalam indeks songsang Ia juga menghasilkan satu senarai wordIDs dan mengimbanginya untuk dimasukkan ke dalam indeks songsang

19 Forward Index Indeks yang dihantar semula sebenarnya sudah diisih Indeks yang dihantar semula sebenarnya sudah diisih Ia disimpan dalam sejumlah “barrels” Ia disimpan dalam sejumlah “barrels” Setiap “barrel” memegang pelbagai wordID’s Setiap “barrel” memegang pelbagai wordID’s Ia memerlukan hanya 24 bits untuk meletakkan wordIDs dalam unsorted barrels Ia memerlukan hanya 24 bits untuk meletakkan wordIDs dalam unsorted barrels

20 Document Index Indeks dokumen menyimpan maklumat tentang setiap dokumen Indeks dokumen menyimpan maklumat tentang setiap dokumen Maklumat yang disimpan dalam setiap entri termasuk status semasa dokumen, penunjuk kepada repository dan pelbagai statistik Maklumat yang disimpan dalam setiap entri termasuk status semasa dokumen, penunjuk kepada repository dan pelbagai statistik Jika dokumen sudah diteroka, ia juga mengandungi penunjuk kepada pelbagai fail yang dinamakan docinfo Jika dokumen sudah diteroka, ia juga mengandungi penunjuk kepada pelbagai fail yang dinamakan docinfo Ia juga mengandungi fail yang mana ia digunakan untuk menukar URLs kepada docIDs Ia juga mengandungi fail yang mana ia digunakan untuk menukar URLs kepada docIDs

21 KEPUTUSAN DAN PENCAPAIAN Tahap ukuran yg terpenting bagi sesebuah enjin gelintar adalah kualiti sesuatu keputusan pencarian Tahap ukuran yg terpenting bagi sesebuah enjin gelintar adalah kualiti sesuatu keputusan pencarian Google akan mempersembahkan suatu keputusan yang lebih baik berbanding enjin gelintar yang lain Google akan mempersembahkan suatu keputusan yang lebih baik berbanding enjin gelintar yang lain Cth: penggunaan Page Rank, anchor text Cth: penggunaan Page Rank, anchor text dan proximity dan proximity

22 KEPERLUAN STORAN Google juga direkabentuk bg meluaskan kos scr efektif Google juga direkabentuk bg meluaskan kos scr efektif Antaranya menggunakan storan secara efisien (rujuk T1) Antaranya menggunakan storan secara efisien (rujuk T1) Merujuk kpd pemampatan sbyk 53GB jum saiz repository adalah 1/3 drpd jum data tersimpan Merujuk kpd pemampatan sbyk 53GB jum saiz repository adalah 1/3 drpd jum data tersimpan Dgn pengekodan yg lebih baik, suatu enjin gelintar berkualiti boleh memuatkan sbyk 7GB drive bg PC yg baru Dgn pengekodan yg lebih baik, suatu enjin gelintar berkualiti boleh memuatkan sbyk 7GB drive bg PC yg baru T1:Statistics T1:Statistics

23 PENILAIAN SISTEM Bagi Google, operasi terbesar adalah, indexing dan sorting Bagi Google, operasi terbesar adalah crawling, indexing dan sorting Ini perlu bagi memastikan jangkamasa yg diambil semasa crawling krn disk yg penuh, nama server bertindan, dll. Scr kasar, didapati masa 9 hari diambil utk download sbyk 26 million halaman (termasuk error)

24 PENILAIAN PENCARIAN Langkah meningkatkan penilaian terhadap carian tidak hanya tertumpu pada penyelidikan Langkah meningkatkan penilaian terhadap carian tidak hanya tertumpu pada penyelidikan Versi semasa Google menyatakan bahawa kebanyakan kueri antara 1- 10 saat Versi semasa Google menyatakan bahawa kebanyakan kueri antara 1- 10 saat Google tidak ada sbrg optimization spt queri caching dan subindeks pada common terms Google tidak ada sbrg optimization spt queri caching dan subindeks pada common terms Target mereka ialah mampu utk menampung sejumlah ratusan kueri sesaat Target mereka ialah mampu utk menampung sejumlah ratusan kueri sesaat T2 : Search Timers

25 KESIMPULAN KESIMPULAN Ciri sebuah enjin gelintar yang baik adalah dapat mencari apa sahaja yang terdapat dalam internet dengan pantas dan jitu

26 TAMAT TAMAT ACKNOWLEGDEMENT ACKNOWLEGDEMENT SEKIAN TERIMA KASIH KEPADA : PN SAIDAH SAAD RAKAN-RAKAN SEPERJUANGAN SEKALIAN


Download ppt "PEMBANGUNAN ENJIN GELINTAR (TP2433) Ahli Kumpulan: Rozaida bt Md Bashah A96843 Rozaida bt Md Bashah A96843 Arofah bt Zakaria A96862 Arofah bt Zakaria."

Similar presentations


Ads by Google