Alla som har försökt få ordning på data från flera olika källor känner igen sig. Förr eller senare, oftast förr, lovar ett företag att göra informationshanteringen enklare - enklare att hitta, enklare att sortera, enklare att publicera.

Tyvärr brukar det krävas att man skriver nya program och bygger om den tekniska infrastrukturen.

En lösning som verkar mer praktiskt är den semantiska webben. Den beskriver information för datorer. Datorerna ska kunna välja ut, sammanställa, sortera och kombinera information.

På konferensen Bio IT 2005 talades det mycket om den semantiska webben, eftersom det verkar vara ett verktyg som passar den framväxande vetenskapen - som i själva verket är en kombination av många forskningsfält - bra.

Men låter det inte som ännu en universallösning?

Sir Tims nya skötebarn
Kanske det. Men den främste förespråkaren för den semantiska webben är inte vem som helst. Det är sir Tim Berners-Lee, som uppfann hela webben för femton år sedan.

Nu är han chef för World Wide Web Consortium, W3C, på Massachusetts Institute of Technology. Han ser den semantiska webben som webbens nästa fas:
- Om jag måste definiera den, vilket är svårt, säger jag att det innebär att data integreras över gränserna mellan tillämpningar och över organisatoriska gränser, sa han när han inledningstalade på Bio IT:

- Den innebär att man tittar på data på ett webbmässigt sätt, nerifrån och upp, inte uppifrån och ner. Många av de sätten att se på webben är annorlunda än vad vi har gjort tidigare. Det är inte som objektorienterad programmering, och det är inte lätt att förklara. Men tro det eller ej, för femton år sedan var det var inte lätt att förklara webben heller.

Enklaste sättet att förklara hur det fungerar är att jämföra med den vanliga webben.

Allt på webben är lätt att läsa - för människor. Texten är på naturliga språk som engelska och kinesiska, det finns foton, teckningar och video. Det är lätt för människor att förstå, men datorer begriper ingenting.
- Alla bokmärken och taggar [dolda märkord] är gjorda för att bli lästa av människor, säger Eric Neumann. Han var tidigare chef för informationssökteknik på Sanofi-Aventis, men är nu fristående konsult. Med den semantiska webben ska informationen på webbsidor och andra datasamlingar bli hanterbar för datorer.

- Det har flera viktiga fördelar, säger Neumann. För det första kan man sammanställa information från flera källor automatiskt. För det andra kan man göra maskinella sökningar.

Bio och bioinformatik
Dennis Quan, forskare på IBM, beskriver denna nya typ av webb ur en biobesökares perspektiv:
- Om du vill gå på bio så kan du titta på ett antal webbsidor, läsa recensioner och få information som tid och plats. Det är okej om man bara går på bio ibland. Men det är opraktiskt om man går på bio ofta.

Från bio till bioinformatik:
- I bioinformatik gör man sådana operationer hela tiden. Folk besöker att antal webbsidor och laddar ner information som de behöver i arbetet. Det är arbetsintensivt. För varje webbplats måste man starta en session i webbläsaren. Data måste klippas ut, formateras om och klistras in i andra program.

Nätverket gör sökningarna
Den semantiska webben underlättar processen:
- Om du behöver data från tio webbsidor i dag måste du besöka alla tio webbsidorna och klippa och klistra innan du kan få en överblick, säger Matthew Shanahan, marknadsdirektör på biovetenskapföretaget Teranode:

- Nu flyttas i stället jobbet från din dator till nätet. Nätverket vet hur det skaffar och sammanställer data.

En webbläsare för den semantiska webben kan ställas in så att den besöker flera webbsidor, hittar efterfrågad information, hämtar den och visar det på en enda sida.

Det är som en portal - fast hos användaren.

Eric Neumann, Dennis Quan och Susie Stephens på Oracle har utvecklat något som heter Biodash - dash som i dashboard, instrumentbräde - en prototyp baserad på den semantiska webben. Den knyter ihop information om sjukdomar, läkemedel, molekylärbiologi och reaktionsvägar.

Det som skiljer Biodash från en vanlig sökmotor är att en forskare snabbt kan förändra den insamlade informationen och anpassa den till ett nytt perspektiv.

Det finns en vy som räknar upp all insamlad information om ett ämne. Med ett enkelt klick kan man i stället få en överblick över förhållandet mellan olika kemiska ämnen och mottagaren.

En kraftfull funktion är att komplexa regler kan skrivas och realiseras med ett minimum av programmering.

I Biodash kan man till exempel ta en vy och dra och släppa den i en annan vy. Släpp vyn reaktionsvägar i vyn relationer så får du en relationsvy av samma information.

Ju fler desto större effekt
Den semantiska webben är som den vanliga webben.

Ju fler webbplatser som anpassas för den, desto mer användbart blir systemet.

Tim Berners-Lee tror att gräsrötterna - enstaka forskare och avdelningar - spelar en avgörande roll. De startar i liten skala genom att förse publicerade data med rdf-metadata. Men det kommer inte att betala sig på kort sikt:
- Om ni vill ha ett räntabilitetstal, säger han, så går det inte att säga vad den semantiska webben ger om arton månader. Det viktiga är att inse detta: om jag gör detta under de kommande arton månaderna, och om en massa andra människor också gör det, se vad som skulle hända: mina data skulle kopplas ihop med andra människors data.

På spåret
Tim Berners-Lee tycker om att beskriva den semantiska webben genom att jämföra med den välkända kartan över Londons tunnelbana.
- Jag har försökt med olika liknelser, som korsord, men det bästa är kartan över Londons tunnelbana. Nu är vi på hög abstraktionsnivå. Se tunnelbanelinjerna som olika begrepp och stationerna som olika tillämpningar, som min digitalkamera.

Tänk dig tunnelbanelinjerna som informationsinsamling som passerar genom databaser, kalendrar, adressregister, digitalkameror, ritningar.

Allt som händer, inklusive mitt bankkonto, har en gemensam linje - allt händer i tiden.

IDG News
bearbetad av Anders Lotsson

Fakta

  • Semantik är vetenskapen om ordens betydelser.
  • Människor förstår ord genom att knyta orden till kunskap, erfarenhet och känslor.
  • För datorer är orden bara ettor och nollor.
  • Den semantiska webben går ut på att lära datorer att handskas med ord ur människornas språk.
  • Det gör man genom att beskriva relationerna mellan orden på ett sätt som datorer förstår.
  • Semantik i datorvärlden är ett system av ord som har väl definierade relationer.
  • Det har inte så mycket med erfarenhet och känslor att göra, men vad kan man begära av en dator?
  • En mamma är en kvinna som har barn, en pappa är en man som har barn, en förälder är en mamma eller en pappa. Alltså har en förälder barn.
  • En mor är också en kvinna som har barn, alltså är en mor och en mamma samma sak. Svårare är det inte. Men det är lätt att se att ju fler ord man definierar för datorerna, desto mer kan datorerna fylla i själva. Det är det som ska göra den semantiska webben kraftfull.
  • W3Cs webbsidor om den semantiska webben finns på www.w3.org/2001/sw/

W3C har utvecklat tre tekniska standarder för den semantiska webben:

RDF - Resource Description Framework, för beskrivning och igenkänning av data;

Owl - Web Ontology Language (ja, det förkortas så), för beskrivning av begreppsvärldar;

SWRL - Semantic Web Rule Language, för beskrivning av sambanden mellan olika termer.

Semantiska webben använder dessa tre standarder tillsammans med befintliga standarder som xml.

Syftet är att man ska beskriva data på ett allmängiltigt sätt så att en dator kan hitta och sammanställa information från flera olika källor.

Metadata är ett vanligt sätt att beskriva information. Man förser informationen med beskrivande etiketter, som i en bibliotekskatalog.

Det nya med den semantiska webben är att den också beskriver relationerna mellan etiketterna i metadata. Exempel: Hundar är ett slags husdjur, alltså ska en sökning efter "husdjur" också hitta information om "hundar".

Den semantiska webben beskriver data i så kallade tripletter, som med grammatikens språk består av subjekt, predikat och objekt.

I proteinforskningen kan man skriva att kinas (subjekt) är ett slags (predikat) protein (objekt).

Det behöver inte vara ord hela vägen. Objektet kan vara en bild. Till exempel: hemoglobin (subjekt) har "denna" 3d-struktur (predikat) och "denna" pekar på en 3d-modell i proteindatabanken (objekt).