Goedzo?! NiMS Forum Nieuw onderwerp  Reageer
mijn profiel | leden lijst inloggen | registreer | zoek | faq | forum home

  volgend oudste onderwerp   volgende nieuwste onderwerp
»
» Mijn recente berichten « | » De actieve onderwerpen van vandaag «
Goedzo?! NiMS Forum » Computers » Internet » Ilse lanceert nieuwe zoekmachine

 - UBBFriend: Email deze pagina naar iemand!    
Auteur Onderwerp: Ilse lanceert nieuwe zoekmachine
NiMS
Links of rechts?


Beoordeeld:
4
Icoon 1 geplaatst      Profiel voor NiMS   Homepage     Stuur een nieuw prive bericht       Bewerk/Verwijder bericht   Reageer met Quotes 
Ilse lanceert vandaag haar nieuwe, en naar eigen zeggen, verbeterde zoekmachine. Ilse belooft nu 'meer resultaten die op een betere manier in volgorde zijn gezet'.

Na een uitgebreide testperiode op campus.ilse.nl, heeft Ilse de testversie gisteravond definitief gemaakt op Ilse.nl.

Ilse belooft het pad op te gaan van 'continue verbeteringen aan de zoekmachine'.

Nils Rooijmans, de 'architect' van de nieuwe zoekmachine, zegt in het persbericht: 'We weten welke websites er zijn, maar ook welke echt de moeite waard zijn. Deze menselijke kennis gebruiken we om de beste resultaten boven te halen.'

Hopelijk gaat het nu goed met Ilse. Het eerste zochten we naar Ilse persberichten, waarvan de eerste 30 resultaten niets opleverden. Nog zo'n flauwe: zoeken op 'Ilse' bracht ons niet bij Ilse. Maar de dienst is wel beter geworden, er is keihard aan gewerkt door 9 mensen.

'Door verbeterde spider technologie optimaal af te stellen op het Nederlandse internet heeft de nieuwe Ilse index een record grootte van 18.223.641 miljoen webpagina's; een aantal dat vanaf vandaag onbeperkt kan groeien. Alles wat Ilse in Nederland kon vinden, is opgenomen in de database. Om deze grote hoeveelheid data (>150 GigaByte) efficient te kunnen doorzoeken zijn er verschillende indices met een totale grootte van 1,2 teraybyte (cq. 1200 gigabyte cq. 1.200.000 megabyte).

Door dataduplicatie en compressie kan met relatief weinig machine-beslag een dergelijke hoeveelheid informatie worden ontsloten voor meer dan 100 gebruikers tegelijkertijd.

De spider van de Ilse zoekmachine is zelflerend; de spider leert de frequentie waarmee webpagina's veranderen en past daarmee het spidergedrag aan. Dat houdt in dat de spider niet nodeloos verkeer genereert op sites die niet vaak veranderen en vaker zoekt op sites die een hogere verversingsfrequentie hebben.

Dit bijhouden van de 'update frequentie' in combinatie met een minimale 'request interval' van 10 seconden per server, garandeert dat webservers minimaal belast worden, en dat de index volledig up-to-date wordt gehouden.

Verbetering in het ranking-algoritme
Ilse heeft een volledig vernieuwd ranking-algoritme ontwikkeld dat gebruik maakt van de verschillende 'ranking-features'. Deze ranking-features bepalen op welke positie in de resultatenlijst een website getoond wordt. Nieuwe ranking-features zijn bijvoorbeeld de hoeveelheid relevante verwijzingen die de site in het Nederlandse domein heeft.

Ook onze kennis over het gebruik van diverse sites in Nederland weegt mee in het bepalen van de 'ranking score' van een pagina. Naast deze twee ranking-features worden er momenteel nog 22 andere algoritmen (waaronder het bekende TFIDF) gebruikt die een featurescore geven welke gebruikt wordt om de relevantie van een pagina voor een gegeven zoekopdracht te bepalen.

De verschillende ranking-features worden via een wiskundige formule gecombineerd tot een resultaatscore die de positie van een pagina in de resultaatlijst bepaald. Deze algoritmen zijn gebaseerd op de meest recente wetenschappelijke onderzoeken naar 'Information Retrieval'. (zie oa: sunsite.dcc.uchile.cl/irbook/links.html)

Link-based en content-based ranking algoritmen in combinatie met verschillende representaties van het gebruik en kwaliteit van de pagina's geven, naar mening van Ilse, de optimale resultatenlijst weer voor de gebruiker.

De resultatenlijst zal in de komende weken ook nog worden beinvloed door een aantal zelflerende mechanismen, waarover Ilse -in verband met het voorkomen van misbruik- geen nadere details verstrekt.

De grote hoeveelheid webpagina's in het Nederlandse domein, stelden hoge eisen aan het programmeren van de zoekmachine. De missie was om ook zonder een immens machinepark snel resultaten te tonen. Momenteel bestaat het serverpark voor de zoekmachine uit in totaal 15 dedicated dual pentium III 1Ghz machines. Voor het behalen van optimale performance met minimale hardware zijn er verschillende indices gebouwd. Optimalisatie van zowel disk-access, compressie-algoritmen als netwerkverkeer heeft tot enorme snelheidsverbetering geleid. Daarnaast zijn domeinspecifieke sorteeralgoritmen gebruikt om de performance van de 18 rankers op elk een pentium III 1 Ghz processoren te optimaliseren.

Ilse heeft de presentatie van de resultaten verbeterd, waardoor de gebruiker sneller ziet welk resultaat het beste aan de vraag voldoet. Door verbeterde taaltechnologie is de beschrijving van een pagina duidelijker geworden.'

--------------------
People are like pieces of a puzzle. We all fit together, but not all of us connect.

Berichten: 6985 | Plaats: Zeist | Geregistreerd: Jul 2002  |  IP: Gelogd | Rapporteer dit bericht aan een Moderator
   

Snelle Reactie
Bericht:

HTML staat uit.
UBB Code™ staat uit.

Kant en klare Graemlins
   


     » Mijn recente berichten « | » De actieve onderwerpen van vandaag «
Nieuw onderwerp  Reageer Sluit Onderwerp   Feature Onderwerp   Verplaats onderwerp   Verwijder onderwerp volgend oudste onderwerp   volgende nieuwste onderwerp
 - Printer-versie van dit onderwerp
Spring naar:


Neem contact met ons op | Nims home

Copyright 2004 Ni-Frith Media Systems

Powered by Infopop Corporation
UBB.classic™ 6.7.0
Vertaald door NiMS