Presentation is loading. Please wait.

Presentation is loading. Please wait.

A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi.

Similar presentations


Presentation on theme: "A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi."— Presentation transcript:

1 A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi

2 A. Frank-T.Sharon 2 Search Engines Types בהקשר כאן נעסוק במידע מועיל ומעניין אודות מנועי החיפוש, כלי עבודה שלהם, וכיצד הם עובדים ? חשוב להבין את מנועי החיפוש ואת הבדלים בין הסוגים השונים, יתרונות וחסרונות של כל סוג, והיעוד הטוב ביותר של כל אחד. נסביר כאן בקצרה על סוגי מנועי החיפוש הבסיסיים שקיימים באינטרנט, יתרונות וחסרונות של כל סוג, כיצד הם עובדים, וכיצד מתבצעת שיטת האינדוקס / מיפתוח של כל אחד מהם.

3 A. Frank-T.Sharon 3 Types of Basic Search Engines ניתן לחלק את מנועי החיפוש לשני סוגים עיקריים : אינדקסים ( אספנים ) ומדריכים. החלוקה היא ע ” פ עקרונות ומנגנוני הכנסת האתרים השונים למנועים. מספר האתרים במפתח של מדריך קטן בהרבה ממספר האתרים באינדקסים, וגם קצב העדכון שלהם קטן יותר. ההבדל מצטמצם בשנים האחרונות לאחר שאינדקסים הכניסו קטגוריות חיפוש שונות, כולל מדריכים, על מנת להקל על החיפוש, ולהיפך.

4 A. Frank-T.Sharon 4 Basic-SE (BSE) General-SE (GSE) General (GD) Specialty (SD) Specialty-SE (SSE) Directory (Catalog, Guide, Subject gateway) Browse Oriented Index (Crawler, Robot) Search Oriented

5 A. Frank-T.Sharon 5 Indices (1) מנוע האינדקס מפעיל תוכנת רובוט, הסורק אתרים ברשת באופן שטחי תוך מעבר מאתר לאתר ע ” פ הקישורים שבו. אם הרובוט מצא אתר חדש הוא מעתיק את התוכן אל השרת של המנוע. המנוע ממפתח את המידע שנאסף ושומר את כל המילים שבתוכן ומידע - על נוסף ( תאריך “ הורדה ”, כותרת, תמצות וכו ’) במסד הנתונים שלו.

6 A. Frank-T.Sharon 6 הרובוט מכניס את הקישורים שבאתר ל ” תור ” ומשם נלקחים האתרים הבאים ל ” ביקור ”. המנוע מקבל שאילתות דרך יישום GUI ומחפש אותן באינדקס שבנה. האתרים שנמצאו מתאימים מסודרים באמצעות מנגנון מיוחד לפי מידת שייכותם לנושא. למשתמש מוחזרת רשימת תוצאות. Indices (2)

7 A. Frank-T.Sharon 7 יתרונות : 1. מכסה מספר אתרים רב יחסית. 2. ניתן לחפש בכל הטקסט, חיפוש ע ” פ מילות מפתח. 3. מהודר אוטומטית. 4. קצב עדכון מהיר יחסית. Indices (3)

8 A. Frank-T.Sharon 8 חסרונות : 1. איכות כוללת נמוכה יחסית של המאגר. 2. חוסר “ במגע אנושי ” - אין סיווג ותמצות אנושי של האתרים. Indices (4)

9 A. Frank-T.Sharon 9 What differentiates between Indices? – נושא המנוע ( כללי או ייעודי ). – מנגנון החיפוש והדרוג. – גודל המאגר. – האתרים שהאספן סורק (WWW, קבוצות דיון, FTP וכו '). – סריקת כל האתר או רק אתרים עם מספר כניסות רב וקצב עעדכון גבוה. – המידע שנשמר ( רק תחילת המאמר, כל המאמר ). – המידע שמטופל ( טקסט, קבצי קול, תמונות, קישורים וכו ').

10 A. Frank-T.Sharon 10 Details of Web Crawling לפני שמנוע חיפוש יכול ליידע היכן הדף שחיפשת נמצא, הוא חייב למצוא אותו קודם לכן. למציאת מידע בביליוני דפי אינטרנט שקיימים, מנוע החיפוש " מעסיק " תוכנת רובוט מיוחדת שנקראת זוחלים ((Crawlers כדי לבנות רשימת מילים שנמצאת באתר אינטרנט. כשהזוחלים בונים רשימה כזו התהליך נקרא זחילה (Web Crawling). בכדי לבנות ולתחזק רשימה מועילה של מילים הזוחלים חייבים להסתכל בכמות גדולה של דפי אינטרנט. איך מתחיל הזוחל את חיפושו באינטרנט ? בד " כ מתחילים בנקודה שמשתמשת בהמון שרתים ודפים מאוד פופולאריים. הזוחל מתחיל באתר פופולארי, מאנדקס את המילים לכל דף, ועוקב אחר כל קישור באתר וכך הוא מתחיל להתפשט באינטרנט.

11 A. Frank-T.Sharon 11 How a Web Crawler works? (1) הזוחל מחפש אחרי דפי אינטרנט ע " מ לבנות אינדקס. מתחיל באיסוף מעני אינטרנט ומורידים את דפי האינטרנט. מוציא ושומר את כל הקישורים מדפים אלו ( בהם יחפש מאוחר יותר ). כל המילים מדף זה נשלפות, מאוחסנות במסד נתונים ומשויכות לדף החיפוש מאוחר יותר. מידע נוסף שנשמר עבור כל דף : – זמן הורדת הדף – זמן העדכון האחרון של הדף – תקציר מילים – כותרת לדף הקישורים נשמרים לחיפוש מאוחר יותר ועל כל אחד מהם מתבצע תהליך זהה.

12 A. Frank-T.Sharon 12 How a Web Crawler works? (2)

13 A. Frank-T.Sharon 13 How a Web Crawler works? (3)

14 A. Frank-T.Sharon 14 Operation of a Web Crawler (1) בדוק את הדף הבא להורדה - המערכת שומרת בתור מענים של דפים להורדה. בדוק האם הדף " ראוי " להורדה – בדיקה זאת נעשית ע " פ כללים כדי לקבוע האם הדף ראוי להורדה או לא, וכן בדיקה האם יש הוראות המונעות לכלול את הדף הנוכחי ( לעתים יש בעלי אתרים שלא מעוניינים להיכלל במנועי חיפוש ). הורד את כל הדף. הוצא את כל המילים מהדף, שמור אותם במסד נתונים כמשויכים לדף הנוכחי ושמור את המילים בצורה שניתן יהיה לחפש ביטוי בתוכן זה ולא רק מילות מפתח. הוצא את כל קישורים, מעני אינטרנט וכן מענים לדפים אחרים באתר - אלה מוצאים ונכנסים לתור להורדה מאוחר יותר. אופציונאלי - סנן את התוכן למבוגרים / שפות וכדומה. שמור מידע - על לדף זה כולל תאריך אחרון של עדכון דף זה כך שהמערכת תדע מתי לבצע בדיקה מחודשת לדף.

15 A. Frank-T.Sharon 15 Operation of a Web Crawler (2)

16 A. Frank-T.Sharon 16 Directories (1) מדריך (Directory) הוא סוג אחר של מנוע חיפוש. המידע שבו מסודר לפי נושאים וקטגוריות כאשר המשתמש מבצע חיפוש בקטגוריות שמוגדרות בו מראש. מדריך ממפתח אתרים, המסודרים לפי נושאים במבנה עץ מדרגי, כל נושא מחולק לתת - נושאים וכך הלאה. המידע שנצבר ומאורגן במדריך הוא ע " י אנשים המפעילים את המדריך עם עזרה מבעלי האתרים שמעוניינים להופיע בו.

17 A. Frank-T.Sharon 17 Directories (2)

18 A. Frank-T.Sharon 18 Directories (3) מדריך ממפתח אתרים, המסודרים לפי נושאים במבנה עץ מדרגי, כל נושא מחולק לתת - נושאים וכך הלאה. רוב המדריכים הם כלליים ומקיפים את הנושאים העיקריים באינטרנט, אך ישנם מדריכים ייעודיים המתמקדים בתחום מסוים. מדריכים מסוננים - מדריכים הבודקים, מעריכים ונותנים ציון לכל אתר המוכנס לקטלוג - ע ” י בני אדם. מדריכים שונים זה מזה במבנה העץ, בצורת הקטלוג וכו '.

19 A. Frank-T.Sharon 19 עיתונים, כתבי עת וחדשות בריאות ורפואה פנאי, תחביבים וספורט מדינות בעולם מדעים מדויקים מדעי החברה תרבויות ודתות אמנות ומדעי הרוח מסחר וכלכלה חינוך, אוניברסיטאות ובתי ספר מחשבים ואינטרנט בידור : סרטים, טלוויזיה, מוסיקה וכו ’ פוליטיקה וממשל ברוב המדריכים ניתן למצוא את הנושאים הבאים : Directories (4)

20 A. Frank-T.Sharon 20 יתרונות : 1. איכות כוללת טובה יחסית של המאגר. 2. ניתן לבצע חיפוש ע ” י מושגים רוחביים. 3. מהודר אנושית (Humanly- compiled). Directories (5)

21 A. Frank-T.Sharon 21 חסרונות : 1. מכסה מס ’ קטן יחסית של אתרים 2. סיווג ושיוך האתרים במבנה המדרגי הוא אישי ושונה מאדם לאדם. 3. דורש משאבי אנוש רבים. 4. קצב עדכון איטי יחסית. Directories (6)

22 A. Frank-T.Sharon 22 Meta-Search Engines (1) מנועים טפילים, השותלים את מחרוזת החיפוש במנועים אחרים, מקבלים מהם את הקישורים המתאימים למחרוזת החיפוש ומחזירים רשימה ממוזגת וממוינת של האתרים למשתמש. מפעילים מספר מנועי חיפוש בסיסיים במקביל.

23 A. Frank-T.Sharon 23 יתרונות : 1. טווח רחב יותר של תשובות. 2. מספקים מנשק משתמש אחיד עבור שאילתות במנועים שונים. 3. כיסוי Coverage )) רב יותר ממנוע חיפוש בסיסי יחיד. חסרונות : 1. קבלת יותר תוצאות לא רלוונטיות, דבר הגורם לקושי במציאת התשובות הרלוונטיות ברשימה. 2. מספר אפשרויות החיפוש המיוחדות נמוך - המכנה המשותף לכלל המנועים. Meta-Search Engines (2)

24 A. Frank-T.Sharon 24 Local/Global Crawlers בד " כ עובדים ב - 2 צורות : גלובאלי ומקומי. זוחלים מקומיים מוגדרים כך שלא יחפשו " רחוק " מדי מהמקום שהם מחפשים. לעיתים הם משרתים מנועי חיפוש המיועדים לחיפוש באתר מסוים או באזור מסוים. זוחלים גלובאליים מוגדרים לחיפוש בכל האינטרנט ומנסים לאסוף כמות מידע גדולה ככל האפשר ולבצע אינדוקס על המידע. לצורך כך דרושים משאבים פיסיים " ענקים ". בנוסף יש שימוש באלגוריתמים " חכמים " מאוד לחיפוש. זוחלים בד " כ מופעלים באופן אוטומטי ועם קצת מאוד הנדסת אנוש ולכן תוצאות החיפוש טובים עבור חיפוש חופשי מסוים אבל לא עבור מידע נפוץ, לדוגמא : אם תחפש כדורסל במנוע חיפוש מסוג אינדקס תקבל אלפי תוצאות מפוזרות לעומת זה את תחפש במדריך תגיע לקטגוריה שלמה העוסקת בנושא.

25 A. Frank-T.Sharon 25 Limitations of Crawlers (1) מטרתו של מנוע החיפוש היא לחפש באזור מסוים או בכל האינטרנט. למצוא נתיב שממנו יוכל להמשיך לכל האינטרנט ( או לכמות גדולה מאוד של דפים ) החכמה היא למצוא נתיב " חכם " כך שלא נצטרך לחזור שוב לאותו נתיב ולא נגיע מהר למבוי סתום. למנועי החיפוש יש בעיות נוספות. הם מתחילים בנקודה מסוימת ומעוניינים לאסוף מידע גדול ככל האפשר אבל לעיתים ישנם קישורים שבורים, קישורים חסרים, פערים, ובעיות תקשורת. חשוב לזכור שמידע רב לא מאונדקס ע " י המנועים מסיבות שונות. חלקם מכיוון שהמערכת מוצאת את הדף לא ראוי וחלקם ממענים / אתרים שלא נשלחו למערכת לאינדוקס ולכן ישנו מידע שלא יוצג לעולם ע " י מנוע החיפוש.

26 A. Frank-T.Sharon 26 Limitations of Crawlers (2) התהליך של הורדת הדפים ואינדוקס התוכן הוא מאוד קשה. אם המערכת הייתה צריכה להוריד כל דף בנפרד ( דף בכל פעם ), כיסוי כל האינטרנט היה לוקח שנים. ישנם " צווארי בקבוק " - איטיות התקשורת, ולכן המערכת מורידה אלפי דפים באותו זמן ומעבדת אותם. תהליך האינדוקס של הדפים ושמירת התוכן לחיפוש חייב להיות מהיר והשמירה של המידע חייבת להיות בצורה כזו כך שהחיפוש העתידי ( חיפוש המשתמש במנוע החיפוש ) לא יארך זמן רב. לא נרחיב בנושא אבל ברור שמושקעת המון מחשבה בפיתוח של אלגוריתמים מתאימים לתהליך השמירה והחיפוש. המידע באידקסים מעודכן כל זמן מסוים ( בד " כ חודש ). זה לא ממש יעיל מכיוון שישנו מידע שהמשתמש מעוניין בו והוא עדיין לא עודכן ולכן מבחינת המשתמש הוא לא קיים.

27 A. Frank-T.Sharon 27 Limitations of Directories הסדר שנקבע במדריך הוא אנושי ולעיתים מובן בצורה שונה לאנשים שונים. לדוגמא : חיפוש של דייג יכול להיות בקטגוריה של ספורט או בקטגוריה של תחביבים, לכל אדם זה מובן בצורה שונה. מדריכים משקיעים המון בארגון ונוחות למשתמש אבל לא תמיד זה מצליח. מדריכים נותנים לך לחפש בארכיון שלהם ממש כמו באינדקסים אבל החיפוש מתבצע רק על כותרות האתר ובמידע - על ולא בתוכן האתר עצמו. המטרה במדריך היא לחפש את סוג המידע ולא את תוכן המידע ( נקודה שחשוב לזכור ). מדריכים מאוד יעילים למציאת מידע נפוץ אבל הם לא יכולים לארגן את כל המידע בצורה מסוימת כך שיהיה קל למצוא אותו.

28 A. Frank-T.Sharon 28 Maintenance Aspects אינדקסים מתוחזקים ברובם אוטומטית והתערבות אנושית נעשית למציאת שגיאות והסרתם. חיפוש דפים ועיבודם נעשה רק אם צריך להסיר מידע לא מתאים. מדריכים זקוקים להרבה יותר אחזקה. מדריכים מתוחזקים בד"כ ע"י אנשים עם עזרה מגולשי האתר ומבעלי האתרים. מי שמוסיף את האתרים למדריכים הם אנשים. אם המדריך מתוחזק טוב, האתרים מתווספים מהר והעדכונים מתבצעים מהר. ככל שהמדריך גדל, מלאכה זו נעשית קשה ויקרה. מכיוון שמנועי החיפוש מאוד מורכבים ומחוברים אליהם מספר עצום של משתמשים בו-זמנית, ברור מדוע החברות שמפעילות את המנועים לא משנות הרבה את צורת העבודה שלהם. אם האתר לא יספק את השרות זמן מסוים, המשתמש יעבור להשתמש במנוע אחר.

29 A. Frank-T.Sharon 29 Bibliography http://www.searchenginewatch.com http://www.searchtools.com http://www.allsearchengines.com/ http://www.notess.com/search/ http://www.searchengineworld.com/ http://extremesearcher.com/ http://www.lookoff.com/


Download ppt "A. Frank-T.Sharon 1 Internet Resources Discovery (IRD) Search Engines Types Thanks to Chen Lin, Yossi Yitshaki and Ofer Kaatabi."

Similar presentations


Ads by Google