Det är ingen ände på tillväxten för det som kallas data science. En gång i tiden var det några forskare i ett labb som samlade in och analyserade data. Numera vill varenda företag dra nytta av data för att rationalisera sina organisationer och hålla kunderna nöjda.
Och följaktligen finns det en hel värld av verktyg för data science. Det var bara några år sedan som datavetarna jobbade från kommandoraden och kanske med ett fåtal bra programsviter med öppen källkod. Numera utvecklar företagen gedigna, professionella verktyg som kan sköta många av rutinuppgifterna, till exempel att rensa upp data.
Omfattningen har också förändrats. Förr bestod data science av matematiska rutiner som teknikerna måste utföra efter att de genomfört besvärliga experiment. Nu är det en ständig del av arbetsflödet. Företagen integrerar matematisk analys i sina redovisningar och låter utveckla instrumentpaneler som visar smarta visualiseringar för att man snabbt ska uppfatta vad som är på gång.
Och takten ökar. Om analys en gång i tiden gjordes årligen eller kvartalsvis så görs det nu i realtid. Företagen vill veta vad som händer – nu – för att chefer och anställda ska kunna fatta smartare beslut och dra nytta av allt som datavetenskapen kan förse dem med.
Här är några av de främsta verktygen som kan tillföra precision och vetenskaplighet till din organisations analys av det ändlösa flödet av data.
Jupyter Notebooks
Det här är samlingar av ord, kod och data som har blivit datavetenskapens lingua franca. Statiska pdf:er med oföränderlig analys och innehåll kan fortfarande vinna respekt, eftersom de utgör en permanent dokumentation, men arbetande datavetare älskar att titta under huven och peta i mekanismen därunder. Med Jupyter Notebooks kan läsarna göra mer än att läsa innantill.
De första versionerna av anteckningsböckerna skapades av Python-användare som ville låna en del av Mathematicas flexibilitet. I dag stöder standardversionen av Jupyter Notebook över 40 programspråk, och det är inte ovanligt att hitta R, Julia och även Java eller C i dem.
Själva anteckningsbokens kod är öppen källkod. Det innebär att den bara är början på spännande större projekt för vård av data, stöd av kurser eller helt enkelt utbyte av idéer. Universitet kör en del kurser i anteckningsböckerna. Datavetare använder dem för att utbyta idéer och presentera idéer. JupyterHub är en containeriserad central server med autentisering som klarar allt som krävs för att presentera dina geniala datavetenskapliga idéer till en publik – de behöver inte installera och underhålla mjukvara på sina persondatorer eller bekymra sig om skalbarheten hos servrar.
Labb för anteckningsböcker
Jupyter Notebooks sköter sig inte själva. De behöver en hemmabas där data kan lagras och analyserna utföras. Det finns flera företag som erbjuder sådant stöd. Ibland som en gratistjänst, ibland mot en mindre avgift. Bland de mest kända finns Googles Colab, Githubs Codespaces, Azure Machine Learning, JupyterLabs, Binder, CoCalc och Datalore. Men ofta är det inte särskilt besvärligt att rigga upp en egen server under arbetsbänken.
Även om alla de här tjänsterna är likartade på insidan så finns det skillnader som kan vara av betydelse. De flesta stöder Python på ett eller annat sätt, men frånsett det så hänger det på preferenserna. Microsofts Azure Notebooks, för att ta ett exempel, stöder också F#, ett språk som Microsoft har utvecklat. Googles Colab stöder Swift, ursprungligen från Apple, och det stöds också för maskininlärningsprojekt med Tensorflow. Dessutom finns det massor av skillnader när det gäller menyer och andra mindre saker som dessa labb kan erbjuda.
RStudio
Språket R utvecklades av statistiker och datavetare. Det är optimerat för inläsning av aktiva datamängder och för användning av de bästa algoritmerna för analys av dessa data. En del vill köra R direkt från kommandoraden, men många andra föredrar att låta RStudio sköta rutingörat. Det är en integrerad utvecklingsmiljö för matematiska programkörningar.
Kärnan är en arbetsbänk i öppen källkod. Men den kan du utforska dina data, ändra i koden och sedan generera den mest avancerade grafik som R kan klara. Den dokumenterar dina beräkningar så att du kan gå tillbaka eller upprepa samma instruktioner, och den har också visst stöd för debugging om koden inte fungerar. Och om du behöver använda Python så kan det köras i RStudio.
Företaget bakom RStudio lägger också till funktioner till stöd för grupper som vill kunna samarbeta om en gemensam mängd data. Det betyder versionshantering, rollar, säkerhet, synkronisering och annat.
Sweave och Knitr
Datavetare som skriver artiklar i Latex lär uppskatta komplexiteten hos Sweave och Knitr. Det är två paket som är gjorda för att förena datatuggningskraften hos R eller Python med formateringselegansen hos Tex. Målet är att skapa en enda kedja som förvandlar rådata till en skriven redogörelse, komplett med diagram, tabeller och grafer.
Tanken är att kedjan ska vara dynamisk och föränderlig, men att den i slutänden ska bli en beständig dokumentation. I och med att data tvättas, organiseras och analyseras justeras diagram och tabeller. När allt är klart finns data och text tillsammans i ett enda paket som realiseras som den slutgiltiga texten.
Integrerade utvecklingsmiljöer
Thomas Edison lär ha sagt att geni var en procent inspiration och 99 procent transpiration. Och det kan kännas som om 99 procent av datavetenskapen består i att rensa upp i datamängden och förbereda den för analys. Integrerade utvecklingsmiljöer (integrated development environments, IDE), är då bra att jobba med, eftersom de stöder vanliga programspråk som C# liksom en del språk som är mer inriktade på datavetenskap, som R. Eclipse-användare kan till exempel tvätta sin kod i Java och sedan gå till R för att analysera med rJava.
Python-utvecklare använder Pycharm för att integrera sina Pythonverktyg och för att orkestrera Python-baserad dataanalys. Visual Studio bollar vanlig kod med Jupyter Notebooks och annat mer specialiserat.
I och med att belastningen på datavetenskap växer är det en del företag som utvecklar IDE:er i lågkod och no-code, avsedda för sådana här arbetsuppgifter. Verktyg som Rapidminer, Orange, och Jasp är några av många exempel på utmärkta verktyg som är optimerade för dataanalys. De jobbar med visuella editorer. I många fall kan man göra allt genom att bara flytta omkring ikoner på bildskärmen. Om det inte räcker brukar allt som behövs vara några rader med kod.
Domänspecifika verktyg
Det är många datavetare som är specialiserade på områden som marknadsföring eller optimering av leveranskedjor. Och det finns verktyg för dem. Några av de bästa verktygen är hårt specialiserade på bestämda områden. De är optimerade för välkända problem som alla som ägnar sig åt dessa specialiteter stöter på.
Till exempel har marknadsförare dussintals bra alternativ inom vad som ofta kallas för kunddataplattformar. De kan integreras med skyltfönster, annonsportaler och meddelandeapplikationer och skapa en konsistent (och ofta oupphörlig) ström av information till kunder. De bygger på en analysmaskin som levererar den statistik som marknadsförarna behöver för att utvärdera sina kampanjer.
Det finns faktiskt hundratals bra domänspecifika program som fungerar på alla nivåer. Voyant, till exempel, analyserar text för att utvärdera läsbarhet och hitta likheter mellan avsnitt. Forecast från AWS är optimerat för att förutsäga framtiden för företag med utgångspunkt i data ordnade i tidsordning. Video Analyzer från Azure använder artificiell intelligens för att hitta svar i videoströmmar.
Hårdvara
Utvecklingen av molntjänster har blivit en gudagåva för datavetarna. De behöver inte hålla sig med egen hårdvara bara för att köra en analys då och då. Molnoperatörerna hyr ut kapacitet per minut till dig när du behöver det. Det kan vara precis vad du behöver om du måste ha en väldig massa arbetsminne, men bara i några timmar. Men projekt som löpande behöver köra krävande analyser kan kanske finna att det blir billigare att köpa eget maskineri.
På sista tiden har det kommit mer specialiserade lösningar för parallella beräkningar. Datavetare använder ibland grafikprocessorer (gpu:er), som från början konstruerades för datorspel. Google tillverkar specialiserade tensor processing units (tpu:er) för att snabba upp maskininlärning. Nvidia kallar en del av sina chipp för data processing units, dpu:er. En del nystartade företag, som d-Matrix, konstruerar specialiserad hårdvara för artificiell intelligens. En bärbar dator kan duga bra för en del jobb, men för stora projekt med invecklade beräkningar finns det alltså kraftfullare alternativ.
Data
Men verktygen är inte mycket att ha utan rådata. Det finns företag som erbjuder granskade datamängder. En del gör det för att sälja sina molntjänster (AWS, GCP, Azure, IBM). Andra ser det som en form av återbetalning (Openstreetmap). Och det finns amerikanska federala myndigheter som ser det som en del av jobbet att dela med sig av data (Federal repository). Andra är mindre, som städer som vill hjälpa invånare och företag att nå framgång (New York City, Baltimore, Miami, Orlando). Och en del gör det för att kunna ta betalt. Men alla kan hjälpa dig att spara tid och besvär om du slipper leta reda på och rensa data själv.