Presentation is loading. Please wait.

Presentation is loading. Please wait.

Pronalaženje informacija na Internetu

Similar presentations


Presentation on theme: "Pronalaženje informacija na Internetu"— Presentation transcript:

1 Pronalaženje informacija na Internetu
Miroslav Milinović Zagreb, listopad 2000.

2 Sadržaj Internetski prostor informacija
Mrežni izvori informacija (resursi) Identifikacija mrežnih resursa Metadata Pretraživanje mrežnih resursa (alati; strategija) pretraživanje Web resursa pretraživanje ne-Web resursa Imenički servisi

3 informacije publicirane tiskanjem
Prostor informacija Internet informacije publicirane tiskanjem Web ostalo

4 Internetski prostor informacija
Kako izgleda Internet svijet informacija. NIJE UREĐEN - unificiran Postoje različiti izvori informacija (resursi) Mnoštvo tema Informacije su dostupne u različitim formatima Pristup je moguć pomoću različitih alata (programa) Postoje informacije koje (još) nisu: publicirane u elektroničkom obliku dostupne putem mreže

5 Internetski prostor informacija
Ima svega ( ... tko zna što se upravo sprema) - nažalost i ... smeća. Mnoštvo dostupnih tema i formata: dokumenti različitog formata slikovni, audio i video zapis elektronička izdanja novina, časopisa, knjiga, ... katalozi, organizirane kolekcije informacija baze podataka javno dostupna programska podrška ... smeće

6 Mrežni izvori informacija (resursi)
RESURS == izvor informacija == informacija publicirana nekim mrežnim servisom Informacije se publiciraju pomoću različitih mrežnih usluga i servisa: Web FTP arhive distribucijske liste mrežne novine elektronička pošta imenički servisi (LDAP, ...) baze podataka dostupne putem mreže ...

7 Web informacijski prostor
pretraživi (publicly indexable) Web veljača 1999., Lawrence and Giles, NEC Institute 800 miliona stranica, 15 (6) TB informacija sadržaj: 83% com, 6% sci/edu, 1.5% porn 60% Weba je indeksirano / katalogizirano siječanj 2000., Inktomi & NEC Institute više od 1 milijarde Web stranica top-level domene: 55% .com, 8% .net, 4% .org, 1% .gov

8 Web informacijski prostor
40% od 800 miliona stranica su duplikati FAST, 2000. 30% Web stanica su kopije Shivakumar and Garcia-Molina, 1998. “Deep” Web 400 do 550 puta veći od “surface” Weba 7500 TB podataka The Deep Web: Surfacing Hidden Value; BrightPlanet.com, srpanj 2000.

9 Web informacijski prostor
85% korisnika rabi pretraživačke mahanizme ili tematske kataloge kako bi pronašli informacije Steve Lawrence, Lee Giles , Nec Institute, veljača 1999. korisnici smatraju da je Internet važan izvor informacija 2/3 korisnika smatra da je Internet važan ili vrlo važan izvor informacija 53%(47%) smatra TV (radio) jednako važnim Center for Communication Policy, UCLA, kolovoz 2000.

10 Problemi? velika očekivanja korisnika alati i mehanizmi
još uvijek nedovoljno dobri u stalnom razvoju informacijski prostor nije (dobro) organiziran nepouzdana: kvaliteta informacija integritet informacija povjerenje u izvor informacija

11 Znate li ... tko je bila prva žena pilot u nekoj komercijalnoj avio-kompaniji? Možete li pronaći njenu sliku (traži se točna URL adresa)? Odgovor: Helen Richey; da ( Put: Rabimo Northern Light s upitom "first woman airline pilot". Jedan od prvih 10 odgovora je i link na ISAfaqs.html Web stranicu. URL:

12 Identifikacija mrežnih resursa
URI - Uniform Resource Identifier URL - Uniform Resource Locator određuje: način pristupa, adresu računala, naziv datoteke ... protocol://host_name[:port_num][/path][/file_name] PURL - Persistent URL URN - Uniform Resource Name URC - Uniform Resource Characteristics podaci o mrežnom resursu metadata = podaci o podacima

13 Meta podaci (metadata)
podaci o mrežnim resursima mogu se rabiti u različite svrhe: pronalaženje informacija rangiranje/vrednovanje sadržaja zaštita autorskih prava zaštita privatnosti ... koriste ih alati za pretraživanje (?) nema pravog standarda (?)

14 Meta podaci (2) posebna pažnja usmjerena je na Web:
W3C: Dublin Core: zapisivanje meta podataka: HTML ima posebnu oznaku (tag): META <META NAME=“value” CONTENT=“value”> najčešće korištene vrijednosti NAME atributa: DESCRIPTION, KEYWORDS, TITLE, AUTHOR RDF - Resource Description Framework

15 Alati za pretraživanje
ALAT = programska podrška, ali to ipak nisu obični programi već uz sebe imaju i značajne sakupljene informacije (pretražive kolekcije podataka) kao svoj integralni dio. mnoštvo različitih alata većinom su specijalizirani za pretraživanje određenih resursa (gotovo) svi alati imaju Web sučelje doseg pretraživanja je globalni ili lokalni nema savršenog niti sveobuhvatnog alata opterećeni su problemom ažurnosti i/ili kvalitete postoje alati koji se temelje na Webu, ali ne pretražuju Web resurse

16 Alati za pretraživanje Weba
O podjeli će još biti riječi. Ovdje samo treba kratko reći grubu podjelu. Definicije slijede. Pretraživački mehanizmi (search engines) pretraživački mehanizmi (search engines) metapretraživački mehanizmi (metasearch engines, unified search interfaces) Tematski katalozi (subject catalogs, subject indexes, subject directories, virtual libraries, ...) pretraživi (searchable indexes, searchable catalogs) Ostali alati: višestruka sučelja (multiple search interfaces) specijalizirana sučelja (information gateways) ... Portali

17 Pretraživački mehanizmi Što su i kako rade?
Ovo je priča - slika slijedi, a ona ilustrira ovu priču. Automatizirani sustavi koji prikupljaju informacije o mrežnim resursima i omogućuju pretraživanje prikupljenih informacija Prikupljanje informacija obavljaju posebni programi - roboti (robot, crawler, spider) robot pregledava dostupne mrežne resurse (Web dokumente) gradi pretraživu kolekciju podataka (bazu podataka) provjerava ažurnost izgrađene baze podataka i obnavlja njen sadržaj Web sučelje omogućuje korisniku pretraživanje baze podataka (database search, index search)

18 Pretraživački mehanizmi Što su i kako rade? (2)
Priča s prethodnog slajda. Web dokumenti ... baza podataka pretraživački mehanizam robot

19 Pretraživački mehanizmi Što su i kako rade? (3)
Nastavljamo opisivanje kako stvar radi. Ne u detalje - ovo služi uvodu da ljudi znaju što da očekuju. Upit se postavlja upisivanjem u odgovarajuću formu Osim jednostavnog pretraživanja po zadanoj ključnoj riječi ili frazi moguće je postaviti i složenije upite Rezultat pretraživanja osim URL adresa može sadržavati i dodatne informacije Moguća je kontrola ispisa rezultata pretraživanja Izgled sučelja i mogućnosti pretraživanja ovise o konkretnom alatu (pretraživačkom mehanizmu)

20 Roboti mogu jako opteretiti i mrežu i računalo (poslužitelj)
postoje pravila ponašanja (etika) za robote: robot exclusion protocol ROBOT META tag korisna URL adresa:

21 Robot Exclusion Protocol
može rabiti samo osoba s pravom pisanja u odgovarajućem direktoriju (webmaster) robot.txt datoteka (u početnom direktoriju Web poslužitelja) primjer: User-agent: * Disallow: /archives/ Disallow: /radni/

22 ROBOT META tag može rabiti autor Web stranice prema potrebi
<META NAME="ROBOTS” CONTENT=”content"> content = ALL | NONE | directive ["," directive] directive = index | follow index = "INDEX" | "NOINDEX” follow = "FOLLOW" | "NOFOLLOW” default: INDEX, FOLLOW primjer: <meta name="robots"content="index,nofollow">

23 Pretraživački mehanizmi Primjeri
GO.com (InfoSeek) - Lycos Search - Alta Vista - excite! NetSearch - Google - HotBot - WebCrawler - Nothern Light Search - FAST - Raging Search - pretraživački mehanizmi lokalnog dosega

24 Pretraživački mehanizmi Postavljanje upita
Forsirati Alta Vistu i Infoseek (ako rade, ako ne - onda dalje redom Excite, Lycos, ...). Korisnici probaju - vidjeti koliko je puno dokumenata. Korisno je da sad ljudi shvate, barem uoče, (pyton = zmija, program, Monty P.; island= otok, Island) problem konteksta i relevantnosti rezulatata pretraživanja Sintaksa upita i spektar mogućnosti ovisi o alatu postoji standardni spektar mogućnosti (uporaba malih i velikih slova, fraze, kontrola ključnih riječi, …) Moguć je izbor resursa koje pretražujemo Web ili neki drugi resursi; čitavi dokumenti ili samo naslovi, ... Korisno je pri prvom susretu s nekim alatom pročitati raspoložive upute

25 Pretraživački mehanizmi Mogućnosti kod postavljanja upita
Probati po jedan primjer (vrijeme) !!!! uporaba malih i velikih slova John December island uporaba fraza “John December” “NASA Space shuttle program” uporaba logičkih operatora (AND, OR, NOT) vegetables AND green fruit NOT apple kontrola ključnih riječi (+, -) +film +noir -”pinot noir” python -monty

26 Pretraživački mehanizmi Mogućnosti kod postavljanja upita (2)
Probati po jedan primjer (vrijeme) !!!! susjednost - proximity search Internet NEAR training uporaba dijelova (korijena) riječi (Keyword Truncation) - *, % alumi*um comput* kaskadno pretraživanje (Infoseek) kontrola resursa (AltaVista, HotBot, Infoseek) title:”Internet training” natural language searching (Ask Jeeves! - novi pristupi: Ditto.com - Simpli.com - Oingo -

27 Pretraživački mehanizmi Važne odlike
Sve piše. Koristiti upravo stečena svježa iskustva - usporediti alate po ovim kriterijima. ALTA VISTA je velika i složena, INFOSEEK ima kaskadno pretraživanje, ... Baza podataka (veličina, ažurnost, složenost) Google million web pages INKTOMI million web pages AltaVista million web pages FAST million web pages Mogućnosti postavljanja (složenih) upita Brzina rada (odziv) Rangiranje rezultata (ranking) Kvaliteta i mogućnost kontrole ispisa Dodatne mogućnosti (kaskadno pretraživanje, profinjavanje upita ...)

28 Pretraživački mehanizmi Prednosti i mane
Sve piše. Prednosti: veliki opseg efikasno pretraživanje i pristup informacijama automatiziran rad Mane: nema kontrole kvalitete nema klasifikacije rezultati mogu biti izvan konteksta (npr. “film”) sadrže i zastarjele i nepostojeće URL adrese sadrže i smeće

29 Pretraživački mehanizmi Metapretraživački mehanizmi
Sve piše - primjeri slijede. metasearch engines, unified search interfaces omogućuju korisniku da putem unificirane forme postavi jedan upit kojeg zatim distribuiraju odabranim pretraživačkim mehanizmima kod postavljanja upita treba koristiti samo sintaksu koju poznaje metapretraživački mehanizam korisnik dobiva zbirni rezultat pretraživanja nemaju vlastite baze podataka niti robot program

30 Pretraživački mehanizmi Metapretraživački mehanizmi (2)
Sve piše. važne odlike: broj i izbor povezanih pretraživačkih mehanizama brzina rada (odziv) rangiranje rezultata način udruživanja rezultata (results merging) kvaliteta ispisa mogućnost kontrole ispisa dodatne mogućnosti

31 Pretraživački mehanizmi Metapretraživački mehanizmi (3)
Sve piše. Problemi su jasni (gubitak precizne kontrole ispisa). imaju sve prednosti i mane običnih pretraživačkih mehanizama dodatna prednost: pojednostavljuju pristup i pretraživanje dodatne mane: unificiranjem upita gube se dodatne mogućnosti postavljanja složenijih upita i kontrole ispisa sporije pretraživanje

32 Pretraživački mehanizmi Metapretraživački mehanizmi (4)
Sve piše. Problemi su jasni (gubitak precizne kontrole ispisa). primjeri metapretraživačkih mehanizama: All4one - Mamma - MetaCrawler - SavvySearch (CNET Search.com) -

33 Tematski katalozi Što su i kako rade?
tematski organizirane kolekcije podataka o odabranim mrežnim resursima (odabrani resursi klasificirani po temama) sadrže URL adrese mrežnih resursa mogu sadržavati i nazive resursa, sažetke, ... ne održavaju se automatski (programski) već se temelje na radu urednika

34 Tematski katalozi Što su i kako rade? (2)
klasificiranje resursa se odvija prema hijerarhijskoj shemi tema (područja) način klasificiranja nije unificiran (UDC, Dewey, proizvoljan ...) postoji mogućnost pretraživanja kataloga

35 Tematski katalozi Primjeri
Pokazati Yahoo, Galaxy, Magellan - ljudi probaju. Pokazati i pretraživanje kataloga (pazi - Yahoo ima vezu na “strani” pretraživački mehanizam - AltaVistu). Yahoo - LookSmart - EINet Galaxy - Magellan - NetGuide - About.com - Open Directory - Brittanica.com - katalozi lokalnog opsega: -

36 Tematski katalozi Važne odlike
Sve piše. Koristiti upravo stečena svježa iskustva - usporediti alate po ovim kriterijima. RANGIRANJE RESURSA JE OVDJE VREDNOVANJE koje radi čovjek-urednik, a ne program!!! veličina (broj klasificiranih resursa) Yahoo (1999) editors, 1.2 million Web links Open Directory editors, 1 million Web links tematsko stablo - način klasifikacije dostupne informacije o resursima rangiranje resursa mogućnost pretraživanja dodatne mogućnosti ...

37 Tematski katalozi Prednosti i mane
Sve piše. Prednosti: klasifikacija resursa po temama (područjima) mogućnost internog pretraživanja kataloga nema “smeća” Mane: manualno održavanje pojedine dijelove kataloga ne uređuju profesionalci sadrže i zastarjele informacije

38 Višestruka sučelja (multiple search interfaces)
Ostali alati Primjetiti da je POJEDNOSTAVLJENJE== GUBITAK PRECIZNE KONTROLE. Pokazati sučelja (barem jedno), ali se ne upuštati u pretraživanje (VRIJEME!!!!). Višestruka sučelja (multiple search interfaces) jednostavna sučelja koja korisniku omogućuje da na jednom mjestu odabere pretraživački mehanizam nemaju vlastite baze podataka niti robot program primjeri: All-in-One - Easy Searcher -

39 Specijalizirana sučelja (information gateways)
Ostali alati (2) Information Gateways su orjentirani na jedno područje, ali su NAJSTRUČNIJE UREĐENI jer ih rade eksperti za područje. Pokazati primjere koliko vrijeme dopušta ( i domaći). Specijalizirana sučelja (information gateways) prednosti: korektno klasificiran sadržaj uvijek u kontekstu moguće pretraživanje mane: vezani uz jednu temu (područje) manualno održavanje primjeri: OMNI - SOSIG -

40 Ostali alati (3) pretraživanje kolekcija (baza) podataka i ... PORTALI
Information Gateways su orjentirani na jedno područje, ali su NAJSTRUČNIJE UREĐENI jer ih rade eksperti za područje. Pokazati primjere koliko vrijeme dopušta ( i domaći). pretraživanje kolekcija (baza) podataka Inivisible Web - Lycos Seach. DB - INFOMINE - Terraserver - i ... rječnici, enciklopedije, vodiči, pretražive kolekcije multimedijalnih sadržaja, …. PORTALI

41 Portali ulaz u informacijski prostor Interneta
hibridni alat - pravo rješenje nude pristup (svim) mrežnim servisima na jednom mjestu temelje se na pretraživačkom mehanizmu i/ili tematskom katalogu opći ili specijalizirani (tema ili interesna skupina) ...

42 Alati za pretraživanje Web resursa - zaključak
FINALE == probali su - sad zaključci idu lakše. svaka grupa alata ima svojih prednosti i mana orijentirani su na tekst dokumenta (slikovni i zvučni zapis nije moguće pretraživati po sadržaju) očekuje se da obuhvaćaju i ne-Web resurse temeljne brige: kako biti ažuran kako očuvati kvalitetu (precision .vs. recall) kako odijeliti “mrežno smeće” od kvalitetne informacije budućnost je u “suradnji među alatima” pobjednik: PORTAL

43 Pretraživanje Web resursa Kako pretraživati?
FINALE == probali su - sad zaključci idu lakše. Ovdje je sve VAŽNO! dobar izbor ključnih riječi je presudan biti usmjeren k cilju (Ne lutati!) treba se koncentrirati na temu, a ne na postavljanje uputa ići k cilju postepeno (profinjavati upite) upoznati alat (Pročitajte HELP i FAQ!) biti fleksibilan i probati više različitih (tipova) alata graditi vlastite kolekcije zanimljivih mjesta na mreži

44 Pretraživanje Web resursa Izbor alata
FINALE == probali su - sad zaključci idu lakše. Ovdje je sve VAŽNO! PORTALI ! tematski katalozi kad nemamo (dobre) ključne riječi odnosno jasnu ideju što tražimo pretraživački mehanizmi kad imamo precizne ključne riječi i jasnu ideju što tražimo višestruka sučelja korisna jer daju pregled raspoloživih alata specijalizirana sučelja (za neko područje) nude kvalitetne informacije (ako postoje i znamo za njih)

45 Alati za pretraživanje ne-Web resursa
“ne-WWW” područje koje su osvojili WWW alati (još se samo Archie drži, Gopher je “na izdisaju” pa ni Veronici neide; WAIS stagnira). Mnogo informacija (još uvijek) nije publicirano putem Weba Za pretraživanje ne-Web resursa razvijani su specijalizirani alati (Veronica, Archie, ...) Pravci razvoja: Web alati za ne-Web resurse Web sučelja prema postojećim alatima

46 Alati za pretraživanje ne-Web resursa (2)
Pokazati - PAZI ZA TE STVARI POSTOJE TEČAJEVI (B24) Probati primjer s WWW sučeljem i ključnom riječi NETSCAPE. Komentirati rezultat. FTP poslužitelji: Archie, CroArchie Web sučelja: FTP search - alternativne (Web) kolekcije datoteka: ...

47 Alati za pretraživanje ne-Web resursa (3)
Pokazati - PAZI ZA TE STVARI POSTOJE TEČAJEVI (B26). Može primjer s dejanews (“Internet Hunt”) Naći listu koja ima temu “Croatia” (ako postoji). mrežne novine (Usenet, Netnews): Web alati CROSS (za .hr grupe) distribucijske (mailing) liste: poslužitelji lista omogućuju pretraživanje arhiva (putem elektroničke pošte ili Web sučelja) (pronalaženje liste)

48 Pristup bazama podataka
baze podataka na Internetu: javno dostupne komercijalne različiti načini pristupa: putem telneta (posebna sučelja) putem Web sučelja specijalizirani sustavi (primjerice OVID) primjeri: CARNet online baze - NSK - LOC - Nema izravnog pristupa / oba URL-a su samo info. Neke baze su komercijalne. Pokaži OVID.

49 Imenički servisi  Directory Services “Telefonski imenici Interneta”
Sve piše. Directory Services “Telefonski imenici Interneta” Omogućuju publiciranje i pronalaženje elektroničkih adresa i ostalih podataka o pojedincima, ustanovama i resursima u Internetu Mogu biti: lokalni ili globalni distribuirani ili centralizirani

50 Imenički servisi (2) Dijele se na: Koriste se putem:
Sve piše. Dijele se na: White Pages - podaci o pojedincima Yellow Pages - ostalo (ustanove, resursi) Koriste se putem: odgovarajućih klijent programa Web sučelja koje olakšava postavljanje upita, ali smanjuje mogućnost kontrole Naglasak na White Pages servisima U CARNetu:

51 Imenički servisi Postojeći standardi i servisi
Nabrojiti . Ne detaljizirati. WWW se i ovdje “ubacio”. Netfind Whois / Whois ++ X.500 LDAP CCSO (ph) RWhois servisi utemeljeni na Web tehnologiji ...

52 Imenički servisi Temeljni koncepti
Model podataka == popis i opis atributa. Ostalo sve piše. Model podataka Distribuirani ili centralizirani ? Način i mogućnosti postavljanja upita Kontrola pristupa i sigurnost podataka

53 Dobar imenički servis treba:
omogućiti jednostavan i efikasan pristup, ažuriranje i pretraživanje podataka krajnjem korisniku osigurati kontrolu pristupa osigurati privatnost (pravo vlasnika podataka da ih ukloni iz imenika)

54 X.500 / LDAP http://www.dante.net/np/pdi.html
Sve piše. X.500 je ISO standard (protokol) za imeničke servise distribuirani, globalni imenički servis temelj je hijerarhijski model podataka, geografski organiziran (Directory Infromation Tree) X.500 je složen za održavanje i uporabu LDAP (Lightweight Directory Access Protocol) je razvijen radi pojednostavljenja rada s X.500 servisom primjeri:

55 X.500 - model podataka (DIT)
World . . . c=HR c=USA . . . o=SRCE o=IRB . . . cn=Miro dn: cn=Miro, o=SRCE, c=HR

56 LDAP LDAP - Lightweight Directory Access Protocol
LDAP v2 - RFC 1777, RFC 1778 LDAP v3 - RFC 1779 referral model podrška za LDAP ugrađuje se u: Netscape & MS IE browsere (od ver. 4.0) novije MUA (Eudora, …) LDAP URL format: ldap://server_address/dn (ldap://ldap.carnet.hr/cn=Miro,o=SRCE,c=HR)

57 Imenički servisi utemeljeni na Web tehnologiji
Ovdje ponovno svi probaju naći (iaf ili four11) adresu Miroslava Milinovica (PAZI VRIJEME). Moze primjer on-line telefonskih imenika (whowhere, pc411 - on zna i naci ime prema broju telefona). Pokazati prvi od primjera YP servisa. osim Web sučelja za pojedine imeničke servise postoje i imenički servisi utemeljeni na Webu primjeri (White Pages): primjeri (Yellow Pages):

58 Dvojbe oko imeničkih servisa
Sve piše. Nije jasno tko je “NAJ” servis. Standardizacija (model podataka, protokoli) Jednostavnost uporabe, ažurnost Dvojbe oko zaštite privatnosti / sigurnosti podataka Raširenost uporabe Problem Yellow Pages servisa gotovo je riješen WWW alatima Globalni imenički servisi: trebaju li nam doista? tko će ih održavati? “Pity the poor fanatic! When he loses sight of his objective he redoubles his efforts!” (Einar Stefferud)

59 O čemu je bilo riječi? Internetski prostor informacija
Mrežni izvori informacija (resursi) Identifikacija mrežnih resursa Metadata Pretraživanje mrežnih resursa (alati; strategija) pretraživanje Web resursa pretraživanje ne-Web resursa Imenički servisi


Download ppt "Pronalaženje informacija na Internetu"

Similar presentations


Ads by Google