Leitin breytir heiminum

UT-blaðið 24 .janúar 2006

Eftir Hjálmar Gíslason, embla.mbl.is

Í árdaga Vefsins voru flokkuð vefsíðusöfn helsta leiðin til að finna upplýsingar á vefnum. Risafyrirtækið Yahoo! byrjaði feril sinn þegar stofnendurnir ákváðu að birta safn sitt af áhugaverðum veftenglum og leyfa öðrum að fletta í því. Safnið taldi örfáar þúsundir tengla og var á þeim tíma nokkuð tæmandi.

Í dag er öldin önnur. Á vefnum eru milljarðar síðna (10 – 200 milljarðar eftir því hver er spurður og hvernig er talið). Það er því alllangt síðan Yahoo! hætti að hafa undan að flokka. Samhliða þessari fjölgun hafa flokkuð söfn vikið nær alveg fyrir flatri textaleit. Reyndar er textaleit á Vefnum orðin svo góð – þökk sé Google frekar en nokkrum öðrum – að við búumst við því í dag að geta hent inn í leitarglugga einu eða tveimur stikkorðum um það sem við erum að hugsa og fá til baka um hæl þær upplýsingar sem leitað er að – og það gengur í flestum tilfellum eftir! Meira að segja Yahoo! er hætt að tefla síðusafninu sínu fram og einbeitir sér nú aðallega að textaleit líkt og keppinautarnir.

Skjámynd af íslensku leitarvélinni Emblu

Hjá Spurl ehf. höfum við unnið að þróun leitartækni, að hluta til með séríslenskar aðstæður í huga. Þessi leitartækni knýr meðal annars leitarvélina Emblu á mbl.is (http://embla.mbl.is/). Íslenski vefurinn bliknar auðvitað í samanburði við heildina, en er engu að síður í dag álíka stór og veraldarvefurinn allur var í byrjun árs 1997. Okkur telst til að heildarfjöldi vefsíðna á íslensku liggi í kringum 12-14 milljónir. Stærsti hluti þeirra er þegar skráður og efnisorðagreindur hjá okkur, auk þess sem nýjum síðum er bætt við eftir því sem þær koma á vefinn og við uppgötvum þær.

Íslensk leitartækni

Leit á íslensku er að nokkru frábrugðin leit t.d. á ensku. Flestar mest notuðu leitarvélarnar eru þróaðar í hinum enskumælandi heimi og taka mjög mið af enskum texta. Enska er ákaflega einföld að þessu leyti og ensk orð hafa örfáar orðmyndir - oft aðeins tvær. Það skiptir því tiltölulega litlu máli að gera ráð fyrir mismunandi orðmyndum þegar leitað er á ensku. Í máli eins og íslensku getur þetta hins vegar haft grundvallaráhrif á bæði umfang og gæði leitarniðurstaðna.

Leitartæknin okkar hefur innbyggt orðasafn með orðmyndum íslenskra orða og þegar notandi slær inn leitarorð, er leitað að öllum orðmyndum þess. Þannig finnur leitarvélin Embla t.d. setningar eins og „ódýrustu tölvunámskeiðin“ og „tölvunámskeiðið verður haldið...“ þó notandi hafi bara slegið inn leitarorðið „tölvunámskeið“. Aðrar leitarvélar missa af þessum síðum, komi orðið ekki fyrir í nákvæmlega þeirri mynd sem slegin var inn.

Orðasafnið sem Embla byggist á kemur frá Orðabók Háskólans og inniheldur um 2,3 milljónir einstakra orðmynda af tæplega 200.000 uppflettiorðum. Orðasafnið var unnið í verkefni sem nefnist Beygingarlýsing íslensks nútímamáls sem kostað var af Tungutæknisjóði Menntamálaráðuneytisins.

Til að gera leitina mögulega má segja að Spurl geymi á vélum sínum afrit af öllum íslenska vefnum. Þegar notandi slær inn leitarfyrirspurn er rennt í gegnum texta allra þessarra síðna í leit að orðunum sem slegin voru inn og þeim síðum raðað eftir vægi orðanna fyrir hverja síðu. Þetta vægi ræðst af tíðni orðanna, titli síðunnar, tenglum á hana, vefslóðinni og allmörgum fleiri þáttum.

Þjónusta Spurl.is

Það er okkar trú að flöt textaleit muni í auknum mæli koma í stað veftrjáa og efnisflokka á einstökum vefsvæðum, rétt eins og hún hefur gert í upplýsingaleit á Vefnum í heild. Í stað þess að notandi þurfi að setja sig inn í uppbyggingu og þankagang á bak við hvert vefsvæði, blasi við honum áberandi leitarbox með öflugum leitarmöguleikum. Nær allir vefnotendur nota vefleitarvélar og viðmótið er því orðið þeim tamt. Það skilja allir hvernig á að nota leitarbox, meðan hönnun og framsetning vefsvæða er því sem næst jafn ólík og vefsvæðin eru mörg.

Það er bæði einfaldara og fljótlegra fyrir notandann að slá inn það sem hann er að hugsa, t.d. “uppgreiðsla lána” en að átta sig á hvar í veftrénu höfundi Vefsins þóknaðist að setja viðkomandi upplýsingar, t.d. undir: Einstaklingar > Lán > Fasteignalán > Spurt og svarað > Spurning 25 (sem er raunverulegt dæmi af vef eins bankanna).

Leitarniðurstöðurnar þurfa vitanlega að vera traustar og góðar og þar skortir verulega á hjá mörgum fyrirtækjum og vefsvæðum. Í ofanálag má svo gera ýmislegt til að hjálpa notendunum enn frekar í leitinni, svo sem að tengja fyrirfram ákveðin leitarorð við svör úr Spurt og svarað grunni eða aðra gagnabanka sem vefsvæðið hefur að geyma.

Spurl ehf. er nýlega byrjað að bjóða íslenskum fyrirtækjum og vefrekstraraðilum slíka þjónustu. Við eigum jú þegar vefsíðuafritin til að byggja leitina á og í flestum tilfellum þarf aðeins að tengja leitarniðurstöðurnar inn á vefsvæðið; einfalt mál sem við aðstoðum með ef á þarf að halda.









Útlit síðu:

Þetta vefsvæði byggir á Eplica