Det viktigaste steget i arbetet med att göra text sökbar är att skapa index. När det görs i lösningar baserade på Findwises öppna ramverk Hydra utförs också andra uppgifter, som beskrivs som att ”berika data”. Det kan till exempel vara att leta reda på rubriker i en text, skapa miniatyrbilder av sidor i dokument eller att identifiera vilket språk ett dokument är skrivet i.

– Vi har produktifierat de lösningar som vi har infört hos kunder tidigare. Målgruppen är kunder med stora datamängder som behöver göras sökbara, både för internt och externt bruk, säger Kristian Norling, marknadschef på Findwise.

En poäng med Hydra är att olika sådana uppgifter kan fördelas på olika datorer i en distribuerad arkitektur. Det ska dels ge bra prestanda, dels bra tillförlitlighet eftersom olika uppgifter körs i separata virtuella Javamaskiner. Om en dator i den distribuerade arkitekturen slutar fungera omfördelas arbetet med de dokument som den har hanterat till andra datorer.

Om det blir problem med en operation behöver bara den virtuella Javamaskin som utför just den operationen startas om. Andra operationer som utförs på andra dokument påverkas inte.

Eftersom det är en distribuerad arkitektur ska prestanda vara skalbar. Om fler datorer läggs till kan fler dokument hanteras samtidigt. Arbetet kan också med ett visst dokument fördelas på flera datorer.

Hjärtat i Hydra är en central databas, eller repository som är begreppet som används. Den är implementerad med den öppna dokumentdatabasen MongoDB. Vilka uppgifter som ska utföras på dokumenten definieras av användaren i ett separat verktyg. Inställningarna som görs lagras också med hjälp av MongoDB.

Det ska gå att hantera alla typer av data med lösningar skapade i Hydra, till exempel pdf-dokument, webbsidor, xml-data och även data som lagras i relationsdatabaser. Det finns programmeringsgränssnitt för att definiera kopplingar till olika datakällor och ett antal färdiga definitioner finns. Resultatet av hanteringen kan sändas vidare till sökmotorer eller databaser. Det går alltså att göra lösningar skapade med Hydra till delar av större tillämpningar, som till publika webbplatser och interna system.

Fakta

  • Det är gratis att använda Hydra. Findwises affärsmodell är att erbjuda kringtjänster till plattformen.
  • Findwise har 80 anställda och har kontor i bland annat Göteborg, Stockholm, Oslo och Köpenhamn.