Motoare de cautare

in Informatica

Hoinareala pe Web poate fi o joaca, dar a gasi exact ceea ce cauti nu este un joc de noroc si trebuie sa folosesti un motor de cautare potrivit.

Numite si paianjeni (spiders)
sau taratoate (crawlers), da-
torita modului In care umbla prin paginile web pentru a gasi ceva anume, motoarele de cautare (search engines) sunt locurile preferabile pen- tru a Incepe un voiaj prin aceasta lume. Ele navigheaza prin Internet, indexeaza ceea ce au gasit, va dau posibilitatea de a verifica listele gasite si va ofera rezultatele sub forma de link-uri.

Am selectat pentru prezentare sapte motoare mai importante, cu scop gene-ral. Pe langa acestea, diverse site-uri ofera si alte moduri de cautare. Directoarele Web (Web directories), cum ar fi Yahoo, folosesc si motoare de cautare si datele organizate de editori umani pentru a raspunde interogarilor noastre si pentru a „cerne” informatiile gasite. Iar site-urile de meta-cautare (meta-search sites) ofera un acces comod la mai multe motoare de cautare, marind sansele de a gasi ceea ce cautati. Toate aceste unelte au un punct comun: fiecare se proclama ca cea mai buna In a gasi exact ceea ce cautati pe Internet.

Pentru a rezolva dilema, am supus cele sapte motoare de cautare la o varietate de teste, apreciind totodata si interfetele, posibilitatile de cautare avansata si facilitatile suplimentare. Apoi am trecut In revista un numar de meta-cautatoare si directoare, pentru a va forma o imagine mai cuprinzatoare a ofertei existente pe Web.

Modul de testare

Este imposibila testarea exhaustiva a motoarelor de cautare: bazele lor de date sunt prea mari, numarul interogarilor potentiale prea vast si, In fine, exista factorul subiectiv: cum sa judecam, de exemplu, relevanta rezultatelor unei cautari? Ceea ce putem face totusi este sa testam cat de bine evita fiecare motor de cautare cele mai comune greseli: prezentarea unor link-uri irelevante sau a unor pagini web care nu mai exista, duplicarea link-urilor etc.

Am trimis aceleasi 30 de interogari fiecarui motor de cautare. Apoi am evaluat primele 10 link-uri returnate, pe baza a trei criterii: numarul link-urilor relevante, numarul de duplicate si numarul link-urilor expirate (care nu mai duc nicaieri). Pentru ca aprecierea relevantei unui link este inevitabil subiectiva, aceasta este facuta de comun acord de doua persoane.

Interogarile au fost introduse fara a folosi semne sau operatori speciali (cum ar fi operatorii booleeni OR, +, -). Acestea au cuprins cuvinte simple sau multiple, nume proprii, termeni continand numere si au acoperit o anumita gama de domenii.

Rezultatele au fost ponderate astfel: acuratetea 37,5%, usurinta de utilizare 25%, cautari avansate 25% si facili- tatile suplimentare 12,5%. In fine, acestea sunt sintetizate In tabelul alaturat.

In continuare va prezentam gala vedetelor.

Alta Vista

Intrucat indexeaza un mare numar de pagini, dar nu va prea ajuta la interogari, Alta Vista (http://www.altavista. digital.com) este In acelasi timp puternic si greu de utilizat. Pentru a scoate tot ce se poate din acest motor ar trebui sa fiti foarte familiari cu operatiile booleene. Cu toate neajunsurile sale _ printre care cel mai important este lipsa unei interfete grafice pentru cautari avansate _ Alta Vista este remarcabil de precis, depasit doar de Infoseek In ce priveste procentajul de pagini relevante returnate. Pe de alta parte, se Impleticeste cand este vorba de eliminarea duplicatelor si link-urilor expirate. La aceste categorii Alta Vista se afla pe locurile 4 si respec-tiv 5, dintre cele 7 motoare testate.

Din Alta Vista puteti cauta atat pe Web cat si newsgroup-urile Usenet. Engine-ul afiseaza 10 adrese pe un ecran, ordonate dupa relevanta si cu o foarte scurta descriere. De asemenea, un lucru util este includerea datei cand link-ul a fost actualizat ultima data. Ca si HotBot, Alta Vista include un mic icon cu care puteti deschide pagina respectiva Intr-o noua fereastra a browser-ului.

Alta Vista _ un motor de camion Intr-o cursa de Formula 1.

Alte facilitati interesante sunt personalizarea (de exemplu, puteti stabili ca totdeauna sa va returneze descrieri mai extinse ale site-urilor gasite) si suportul pentru cautare In 6 limbi (engleza, franceza, italiana, germana, spaniola si portugheza).

Un tool interesant este si refine care afiseaza cuvinte-cheie legate (sau uneori nelegate) de subiectul cautat, pe care le puteti include sau exclude din cautare. Desi puteti utiliza interogari In lim-baj natural (In cele 6 limbi mentionate), utilizatorii care doresc sa realizeze interogari mai sofisticate se vor orienta spre optiunea Advanced Search In care pot folosi operatori booleeni, pot re- strange cautarile dupa data calenda- ristica, pot ordona rezultatele si pot face cautari atat pe Web cat si pe Usenet utilizand un numar de functii utile. Intrucat nu exista o interfata care sa va permita sa alegeti aceste functii, trebuie sa le cunoasteti pentru a le folosi.

In concluzie, Alta Vista nu este un loc unde sa gasiti facilitati sofisticate. Este un motor de cautare pur si simplu, pe care Il veti folosi cand aveti nevoie de forta bruta Impotriva Web-ului.

Excite

Operabilitatea si lista bine ordonata de link-uri ar fi putut face din Excite (http:// www.excite.com) favoritul testului, daca acesta ar fi returnat ceea ce cautam. In test, aproape jumatate din pagini au fost irelevante si un numar uimitor de mare _ una din cinci _ au fost duplicate.

O lista de cuvinte suplimentare nu este de mare ajutor daca nu prea au legatura cu subiectul.

Desi engine-ul ofera o cale de a vizualiza duplicatele prin listarea lor dupa numele de domeniu (cate 40 pe o pagina, prin optiunea List by Web site), veti pierde mult timp alegand ceea ce va intereseaza, mai mult decat cu oricare alt motor de cautare, cu exceptia lui Open Text Index si a lui Northern Light.

Mai mult, cautarea cu Excite necesita ceva pregatire preliminara. Acesta nu returneaza doar paginile bazate pe cuvintele pe care le-ati introdus, ci si pe conceptele pe care engine-ul le considera apropiate. De exemplu, introducand „elderly people” (oameni batrani, In varsta), Excite va returna si pagini despre structura populatiei In Thailanda. Aceasta abordare (numita Intelligent Concept Extraction) produce o gama mai larga de raspunsuri In comparatie cu alte motoare de cautare, astfel Incat trebuie sa va alegeti cu grija cuvintele. Pe de alta parte, Excite va ofera o lista de cuvinte suplimentare care sa va ajute In rafinarea interogarii.

Oricum, optiunea Power Search (cu facilitatile booleene echivalente doar cu MUST si NOT) greu se poate compara cu sofisticatele mecanisme de cautare din Alta Vista sau HotBot.

Desi ofera un numar substantial de facilitati nelegate direct de cautare, acestea nu compenseaza incapacitatea engine-ului Excite de a va aduce pe ecran ceea ce cautati.

HotBot

Avand cea mai buna interfata grafica, HotBot (http://www.hotbot.com) este castigatorul testului pentru toate felurile de cautari. Este de remarcat aici numele firmei Inktomi, a carei tehnologie de cautare sta la baza motorului HotBot si care a fost licentiata de Microsoft pentru propriul sau motor de cautare In curs de realizare.

Desi ofera mai multe pagini irelevan-te decat Infoseek, HotBot este totusi pe locul 2 In ce priveste acuratetea, rareori oferind link-uri la pagini care nu mai exista, ceea ce este un indiciu clar ca indexurile engine-ului sunt la zi.

Portretul unui campion _ HotBot

Uneltele extrem de flexibile fac foarte usoara constructia interogarilor com-plexe direct din homepage.

De asemenea, puteti da clic pe unul din link-urile din bara de navigatie pentru a accesa respectiva categorie.

Daca doriti sa cautati In pagini web, puteti stabili tipul cautarii: dupa titlu, fraze exacte, URL (Universal Resource Locator _ adresa Internet) sau doar Intr-un anumit domeniu (prin optiunea SuperSearch) si puteti stabili perioada de timp si zona geografica. Puteti vizualiza Intre 10 si 100 de link-uri pe o pagina, cu descrieri sumare sau extinse sau doar URL-ul. Link-urile pot fi des chise Intr-o fereastra separata, astfel Incat lista de unde ati pornit va ramane vizibila In fereastra originala.

SuperSearch, unealta de cautare avansata adauga noi facilitati: selectia mediului (Java, VBScript si ActiveX), un domeniu de date calendaristice mai detaliat si posibilitatea de a limita cautarile la anumite pagini sau site-uri.

Desi nu poate concura cu Excite sau Infoseek ca destinatie Web _ Ii lipsesc serviciile suplimentare, ca e-mail gratuit, pagini de pornire personalizate sau obisnuitele canale de descarcare a informatiilor (content channels) _ sectiunea de link-uri va conduce la unele din cele mai bune site-uri de pe Web.

In concluzie, ca motor de cautare, HotBot este deocamdata #1 pe Web.

Infoseek

Infoseek (http://www.infoseek.com) este premiantul In ce priveste numarul de pagini relevante returnate, dar nu a castigat concursul din cauza unui lips crucial: o unealta avansata de cautare.

Infoseek _ foarte precis si cam atat: pentru cei care nu vor sa se complice inutil.

Peste 70% din link-urile returnate de Infoseek au fost bine tintite, mai putin de 3% au fost expirate (broken links), iar duplicatele au fost practic absente.

Desi Infoseek gaseste repede paginile cautate, nu are facilitati de cautare avansata, In locul acestora oferind niste butoane care limiteaza cautarea la categorii generale, cum ar fi Web, newsgroups, news si companii.

Putati cauta fraze Intregi punandu-le Intre ghilimele, adrese Web sau nume de domenii, dar Infoseek nu suporta operatorii booleeni. Altfel spus, nu este pentru vanatorii versati ai Internet-ului.

Engine-ul afiseaza 10 sau 20 (daca nu au descriere) de link-uri si le grupeaza dupa domenii. Dar pentru ca acestea sunt ascunse In spatele paginii celei mai relevante trebuie sa dati un clic pe optiunea More results from this site… pentru a le vedea.

De asemenea, mai afiseaza In partea stanga si alte link-uri legate de subiect, mergand de la stranii la ilare. Daca Incercati cu „Titanic disaster” veti obtine printre altele si echipament stereo.

Infoseek se dovedeste mai bun In a oferi extra-facilitati. Cu continutul Web organizat In 15 canale, pagina sa de intrare ofera la fel de multa informatie ca si Yahoo. Mai ofera chat (loc de tran caneala online), dar nu si e-mail gratuit.

Aceasta este unealta de folosit cand doriti sa obtineti rezultate cu cat mai putina bataie de cap.

Lycos

Renovat acum cateva luni, Lycos (http://www.lycos.com) se concentreaza In prezent pe furnizarea de continut la fel de mult ca si pe cautare. Pentru „exploratori” asta nu aduce mai nimic pentru ca acuratetea acestuia este nesatisfacatoare. Lycos sufera de aceeasi boala ca si Excite: produce prea multe duplicate si link-uri expirate fara a compensa aceste lipsuri cu suficiente documente relevante. Este ceva mai bun ca Excite, dar nu cu mult.

Lycos _ proaspat renovat, dar numai la suprafata. Prea multe duplicate si link-uri expirate.

Odata ce aveti pe ecran lista de link-uri In ordinea relevantei, mai puteti rafina cautarea doar prin adaugarea sau eliminarea cuvintelor-cheie. Lycos Incearca sa gaseasca ceea ce cautati In ghidul cu cele mai bune 5% pagini (Top 5% guide), dar rezultatele sunt la fel de inconsistente ca si cele ale Infoseek.

Interfata de cautare avansata, Lycos Pro este mult mai flexibila decat cea standard. Aici puteti folosi interogari In limbaj natural, puteti stabili numarul de link-uri returnate pe pagina si puteti rafina interogarile acordand o importanta relativa cuvintelor-cheie dupa care se face cautarea. De asemenea, sunt disponibili 12 operatori booleeni.

In afara uneltelor de cautare, Lycos ofera link-uri la 23 de directoare Web, e-mail gratuit, ghiduri ale oraselor, acces tetic ca al engine-ului Open Text Index. Numarul mare de link-uri expirate si duplicate (circa 30%) au contribuit si ele la scaderea notei.

Asemeni Infoseek, Northern Light nu se complica cu o unealta avansata de cautare, astfel Incat nu va va fi usor sa rafinati o cautare pentru a obtine rezultate mai bune. Tot ce puteti face este sa-i dati engine-ului cat mai multe cuvinte si sa folositi operatorii booleeni disponibili (OR, + si -).

In schimb, Northern Light se bazeaza pe Custom Search Folders, un fel de directoare care contin topici asemanatoare, care va ajuta la gasirea informatiilor pe care le cautati. Link-urile gasite sunt afisate cate 25 pe o pagina, cele mai relevante la Inceput. Aceasta este o idee excelenta, care va scuteste de selectia pe care ati face-o cu oricare alt engine. Dar asta nu va este de mare folos daca adresele gasite nu sunt relevante.

Facilitatile suplimentare sunt cele Intalnite si la alte motoare, In plus ofe-rind posibilitatea de cautare In peste 2900 de reviste specializate si baze de date cu diverse articole. Vestea proasta este ca trebuie sa platiti Intre 1 si 4 dolari pe articol, ceea ce In lumea gratuita a Web- ului Ii va lasa indiferenti pe multi.

Northern Light Impinge mai departe decat altii „ambalajul” motorului de cautare, dar rezultatele slabe umbresc aceasta inovatie.

Open Text Index

La fel ca Alta Vista, Open Text Index (http://index.opentext.net) cataloghea- za fiecare cuvant din fiecare pagina pe care o strabate. Rezultatul? Numarul de link-uri va poate coplesi usor. Dar Open Text nu egaleaza nici Alta Vista, nici celelalte motoare In a oferi pagini relevante si actuale. Aproape 60% din pa-gini au fost irelevante, iar link-urile expirate au fost de 5 ori mai multe decat la HotBot, cel mai „curat” motor.

Deviza lui Open Text: mult si prost.

Modul de cautare Simple Search este ceea ce Ii spune numele: puteti cauta doar pagini web si doar dupa fraze pagina pentru ca aceasta sa fie returnata).

Pentru a scormoni In alte parti ale Internet-ului (newsgroup-uri, adrese e-mail etc.) trebuie sa alegeti alt motor.

Daca ramaneti pe Web, Improve Your Result va conduce la un ecran In care puteti adauga alte cuvinte sau puteti limita cautarea la o anumita parte a acestuia cum ar fi titluri sau URL-uri.

Modul de cautare Power Search este aproape la fel de simplist ca si Simple Search. Aici puteti introduce pana la 5 cuvinte sau fraze si sa-i spuneti motorului unde sa le caute: In titlu, subtitlu, URL sau sumar. Sunt disponibili si 5 operatori booleeni Intr-o lista pull-down.

Bazandu-se doar pe cateva facilitati de baza, Open Text nu ofera mai nimic In plus, asa cum fac cele mai multe motoare. Singurul cadou este o scurta lista de site-uri, ascunse sub meniul Discover.

Treceti si pe aici daca nu aveti altceva de facut!

Ce va trebuie

Motoarele de cautare va ofera ceea ce cautati, dar fiecare In felul sau. Pentru a determina care motor este cel mai potrivit pentru ceea ce vreti sa obtineti, orientati-va dupa urmatoarele criterii.

Acuratetea este probabil cea mai importanta calitate. Un motor de cautare care furnizaza sistematic informatii incorecte este mai rau decat lipsa lui. Invers, cu cat paginile returnate sunt mai la subiect, cu atat mai usor veti gasi ceea ce cautati. Infoseek este primul la acest capitol. De asemenea, trebuie sa aveti In vedere numarul de duplicate (cu cat mai putine, cu atat cautarea va fi mai rapida) si link-urile nefunctionale (aceasta arata cat de des si cat de bine Isi actualizeaza motoarele indexurile). Infoseek a dat cele mai putine duplicate, In timp ce HotBot cel mai mic numar de link-uri expirate.

Merita trecut pe acolo!

Usurinta In utilizare este un alt criteriu foarte important. Pentru multi utilizatori poate cel mai important. Toate motoarele utilizeaza In esenta acelasi mecanism pentru cautari simple _ un camp pentru introducerea cuvintelor-cheie si un buton de pornire a cautarii _, dar poate doriti si altceva: cautari In alte zone ale Internet-ului decat Web-ul, schimbarea lungimii descrierilor de pagina, combinarea duplicatelor etc. HotBot este campionul usurintei de utilizare, dar nici Excite, Infoseek si Lycos nu sunt departe.

Uneltele de cautare avansata sunt cele care va permit sa plonjati In abisurile Internet-ului. Cu exceptia Infoseek si Northern Light, toate celelalte au asa ceva. Cele mai bune dispun de interfete grafice (meniuri pull-down si check box-uri), operatori booleeni si posibilitati de restrictionare a cautarilor _ dupa data calendaristica, localizare sau tip de date (imagini, audio, applet-uri Java etc). La acest punct Alta Vista este cel mai capabil, dar greu de utilizat. HotBot este o alegere mai buna pentru multi „scafandri” ai Internet-ului.

Facilitatile suplimentare sunt frisca de pe tort, care au ca scop atragerea utilizatorului la respectivul site (cu cat traficul la acel site este mai important cu atat va fi mai atragator pentru cei care-si fac reclama pe Internet). Cele mai importante facilitati sunt directoarele web si asa numitele content channels care va conduc direct la paginile de interes (stiri, sport, distractie, vreme).

La final

Desi nu este cea mai buna solutie pentru toate felurile de cautari, HotBot este cel mai bun motor de cautare al momentului. Bazat pe tehnologia de cautare a firmei Inktomi, acesta ofera cea mai buna combinatie de precizie, usurinta de cautare si functionalitati de cautare avansata.

Totusi, daca aveti de facut cautari simple, Infoseek este o alegere mai buna, Invingandu-si concurentii la capitolul link-uri relevante returnate, adica precizia cautarii. Cand factorul cel mai important pentru dvs. este oferta de facilitati suplimentare _ organizarea sub forma de directoare a continutului de pe Web, de exemplu _ Infoseek poate fi destinatia preferata.

Alta Vista, desi Impovarat de sintaxa dificil de Invatat pentru cautari avansate, ofera rezultate aproape la fel de precise ca HotBot.

Ca tema de casa, va mai oferim cateva adrese ale unor motoare de cautare sau directoare web, mai mult sau mai putin specializate, pe care le puteti Incerca singuri.

Four11 (http://www.four11.com) este un director specializat pe adrese de e-mail si numere de telefon.

DejaNews (http://w2.dejanews.com) va permite sa cautati In newsgroup-urile Usenet.

Euroseek (http://www.euroseek.com) este un motor de cautare orientat mai mult spre informatii europene, In care cautarea se poate face pe tari, continente si domenii specifice, iar interfata poate fi afisata In una din limbile europene.

Polar Search (http://www.polarsearch. com) este un motor de cautare de origine suedeza care se bazeaza pe tehnologia dezvoltata de firma canadiana Open Text.

Metasearch sites

Daca un motor de cautare este bun, mai multe nu pot fi decat si mai bune. Aceasta este ideea care sta la baza meta-cautarii si a site-urilor de meta-cautare. Acestea va permit sa construiti o singura interogare, care este trimisa apoi mai multor motoare de cautare.

All-In-One Search Page (www. albany.net/allinone) trimite interogarile la _ teoretic _ toate motoarele, directoarele sau site-urile specializate. I s-ar putea spune de aceea unealta de mega-cautare, nu meta-cautare.

Ask Jeeves (www.askjeeves.com) va permite sa introduceti cautarile In limbaj natural, dupa care va pune Intrebari aditionale (In engleza) pentru a focaliza cautarea. Excelenta pentru noii veniti In domeniu.

Dogpile (www.dogpile.com) conduce meta-cautarile pe Web utilizand 14 motoare diferite, dar nu elimina duplicatele.

EZ_Find at the River (www. theriver.com/TheRiver/Explore/ezfind.html) pur si simplu foloseste cateva motoare de cautare In aceeasi pagina.

Find-It (www.itools.com/find-it/) seamana cu EZ-Find prin faptul ca va pune la dispozitie multiple motoare de cautare, dar pe care le foloseste simultan. Un site cu nume similar, Find It (www.sary.com/findit.html), ofera acces la mai multe engine-uri, dar lucreaza In acelasi fel.

Mamma (www.mamma.com) aplica meta-cautarile la doar sapte site-uri, dar combina rezultatele si le reordoneaza folosind propriile criterii de relevanta.

Metacrawler (www.metacrawler. com), unul din cele mai vechi si mai bune unelte de meta-cautare, aduna paginile gasite la un mare numar de site-uri, incluzand Lycos, Infoseek, Excite si Alta Vista. MiniCrawler, care opereaza Intr-o ferestra discreta, este un mic campion In felul lui.

Metafind (www.metafind.com) lucreaza asemanator cu Dogpile, doar ca nu intra In site-urile Usenet, FTP sau de stiri si omite descrierile paginilor gasite.

Savvy Search (guaraldi.cs.colostate.edu:2000) este oferit de Universitatea din Colorado. Interfata acesteia (o puteti alege In mai multe limbi, printre care si romana) va permite sa va alegeti motoarele de cautare, apoi organizeaza rezultatele si elimina duplicatele.

AccessCom (www.accesscom. net) va ofera o lista consistenta de motoare de cautare, directoare si meta-cautatoare plus alte site-uri pe diferite subiecte. Web Directories

Directoarele web _ printre care Yahoo este cel mai bun si cel mai cunoscut _ sunt colectii organizate pe subiecte de site-uri Web. Desi In mod normal includ un motor de cautare, directoarele sunt mai utile decat acestea cand este vorba de informatii generale. In continuare, va prezentam Intr-o scurta enumerare cateva directoare.

AOL NetFind (www.netfind.com) are cateva ghiduri „how-to-find”care va orienteaza catre un numar de site-uri. Motorul sau de cautare este Excite.

LookSmart (www.looksmart. com), realizat de Reader’s Digest, are de toate, dar condensate. Va afiseaza o multime de categorii si subcategorii, pana nu mai vedeti padurea din cauza copacilor.

Magellan Internet Guide (www. mckinley.com), o alta subsidiara a Excite, este un ghid fara „floricele” inutile, dar care ofera un continut consistent.

SEARCH.COM (www.search. com) ofera acces la peste 100 de site-uri grupate In 14 categorii diferite. Acesta se bazeaza pe motorul de cautare Infoseek.

Snap Online (www.snap.com) foloseste engine-ul Infoseek, dar scopul site-ului este de a fi raspunsul Web la America Online (AOL). Vizitati Snap daca vreti doar sa „frunzariti” Web-ul, fara sa „plonjati” In el.

WebCrawler (www.webcrawler. com), acum apartinand de Excite, a fost odata un produs competitiv. Utilizati-l daca doriti o interfata mai „aerisita” decat Excite.

loading...
DESCARCA APLICATIA CYD PE MOBIL
Aplicatie CYD Google Play

Nu sunt un artist, nu sunt un talentat scriitor, sunt om ca si tine. Doar ca diferentele dintre mine si tine o fac obiceiurile noastre si viata pe care o traim. Nu ne invartim in aceleasi anturaje, nu avem acelasi limbaj, la dracu nici macar nu ne cunoastem, dar sigur avem de impartit idei sau am avut aceleasi idei o data, desi repet nu ne cunoastem.

Nu te stiu, nu te cunosc, nu te vad, nu te ating, nu te caracterizez, nu te critic, nu te injur, nu te admir, nu te laud, dar tu poti sa ma critici, aplauzi, caracterizezi, poate chiar si sa ma apreciezi. E dreptul tau, e timpul tau.