Visualisering

Följande sidor syftar till att ge en introduktion till grunderna i visualisering av data. När det gäller biologi och medicin kan visualiseringsbegreppet spänna över allt från utforskande diagnostik till förklarande populärvetenskap, men vi har här valt att fokusera på den kommunikativa komponenten, samtidigt som hänsyn tas till domänen.

I syfte att öka förståelsen för hur visuellt material kan användas för att utforska, berika eller kommunicera insamlad data eller information försöker vi här identifiera gemensama nämnare, principer och riktlinjer som kan vara ett stöd i visualiseringsarbetet. Då det avgränsade fältet spänner över discipliner som fokuserar på allt från makromolekyler på nanoskalan till globala populationer och ekosystem så är följande material förhållandevis generellt till sin natur, även om undantag och specialfall förekommer.

Disposition

Denna resurs presenteras i tre sammanlänkade delar, som i sin tur speglar överväganden i olika stadier av visualiseringsprocessen. Delarna går utmärkt att konsultera var för sig, oberoende av varandra, men helhetsbilden som delarna tillsammans presenterar, ger en mer omfattande förståelse för såväl processen som några av de teorier som trängs inom kunskapsområdet.

Initialt går vi kortfattat igenom de teoretiska grunderna:

  • Syfte och målgrupp; att ta hänsyn till domänen
  • Grafiska principer och mänsklig perception; hur vi interagerar med visuella verktyg

Därefter undersöks praktiska tillämpningar:

  • Grafisk kodning av information; vad som gör en visualisering effektiv och expressiv

Allra först behöver vi dock besvara en avgörande fråga:

Varför visualisera?

Att visualisera innebär i föreliggande sammanhang att synliggöra rådande förhållanden eller tillstånd i ett avgränsat underlag, ett dataset, till exempel. Syftet kan antingen vara att vidare analysera och utforska underlaget i jakt på ytterligare information eller kunskap, eller så kan det vara att förklara och förmedla den kunskap och information som underlaget givit upphov till. Som vanligt när det gäller vetenskapligt orienterat arbete är det kvaliteten på, såväl som hanteringen av, insamlad data som ligger till grund för vilken kunskap som kan genereras eller förmedlas med hjälp av en visualisering.

I ett av de inledande styckena i en artikeln A Tour through the Visualization Zoo, från 2010, uttrycker författarna att [t]he goal of visualization is to aid our understanding of data by leveraging the human visual system's highly tuned ability to see patterns, spot trends, and identify outliers. Well-designed visual representations can replace cognitive calculations with simple perceptual inferences and improve comprehension, memory, and decision making.

Att anta detta perspektiv innebär alltså att det övergripande målet med visualisering blir att bättre förstå insamlad data genom att mer effektivt utnyttja de egenskaper vi tenderar att förknippa med mänsklig perception.

Anscombes kvartett

Ett exempel som ofta används för att beskriva vikten av att visualisera data är den frispråkiga och läsvärda artikeln Graphs in Statistical Analysis författad av statistikern Francis Anscombe och publicerad i The American Statistician, 1973. Exemplet, som populärt kallas Anscombes kvartett, består av fyra avgränsade dataset med nästan identiska statistiska egenskaper. Genom att studera tabelldata kan visserligen en del slutsatser dras, i synnerhet kan det konstateras att x-värdena i dataset 1-3 är identiska, men att x i dataset 4 är avvikande. Det är dock först när datan översätts till grafer som artikelns syfte framträder och det blir tydligt att visualisering av data har potential att avslöja ytterligare information.

Anscombes kvartett; fyra dataset som har liknande statistiska egenskaper, men som tydligt skiljer sig åt när de ritas ut.

Alla fyra dataset delar, som sagt, vissa statistiska egenskaper, såsom följande standardmått:

Mått Värde
Antal observationer 11
Medelvärde för x 9
Medelvärde för y 7,5
Standardavvikelse för x 3,32
Standardavvikelse för y 2,03

Utan de visuella representationerna, och enbart baserat på dessa standardmått, är det lätt att anta att sambandet mellan x och y är, mer eller mindre, detsamma i alla fyra set. De utritade graferna demonstrerar dock tydligt att så inte är fallet. Regressionslinjen (röd, streckad), som är utritad i varje separat graf, förstärker vidare det intrycket.

Dataset 1 visar datapunkter spridda längs regressionslinjen, datasetet tycks alltså passa en enkel linjär regression. I dataset 2 liknar grafen mer ett andragradspolynom och avviker därmed från det linjära samband som dataset 1 uppvisar. Vad gäller dataset 3 så ser sambandet mellan x och y ut att vara linjärt, men förekomsten av en extrem datapunkt, en så kallad outlier, ställer till det och är något som skulle betinga närmare granskning av dataunderlaget. Dataset 4 demonstrerar vidare hur en relativt extrem outlier kan ge upphov till vad som förefaller vara ett linjärt samband, men det sambandet tycks inte alls finnas mellan övriga datapunkter i samma dataset. Även här är det alltså en outlier som kraftigt påverkar den grafiska representationen.

Anscombe har naturligtvis överdrivit exemplen här, men poängen är tydlig: visualisering borde vara ett givet verktyg inom dataanlys.

Att dra nytta av mänsklig visuell perception, det vill säga synsinnet och hjärnans förmåga att behandla visuell information, för att lättare, snabbare och bättre tolka data är det som gör visualisering till ett så kraftfullt kommunikationsverktyg. Det här är en bärande tes i ett av fältets centrala verk; Visualization Analysis and Design (2015) av Tamara Munzner. I boken betonar Munzner nyttan av externa representationer som visuella hjälpmedel och likställer visualiseringar med kognitiva hjälpmedel och verktyg som effektivt avlastar och "frigör" arbetsminne, som till exempel en kulram. Det här sättet att förhålla sig till, såväl statiska som interaktiva, visualiseringar på, är en god utgångspunkt och ett rekommenderat perspektiv, oavsett om syftet med visualiseringen är utforskande eller förklarande.

Syfte och målgrupp

Syftet med en visualisering är kopplat till målgrupp och mottagare. Ett enkelt (och i viss mån förenklande) sätt att se på kopplingen mellan syfte och målgrupp är att beskriva en visualisering på en skala mellan antingen mer utforskande, å ena sidan, eller mer förklarande, å den andra. Begreppen exploratory respektive explanatory eller discover respektive present används ofta inom fältet för att beskriva skalans ändar.

 

Utforskande och undersökande visualiseringar placeras i ena änden på skalan och kan i föreliggande kontext bestå av till exempel bilddiagnostik i klinisk verksamhet, varianter av mikroskopi i laboratorier, nätverksanalyser, epidemiologiska studier, med mera. Målgrupp eller mottagare utgörs av någon eller några med stor kännedom om dataunderlaget eller den aktuella kunskapsdomänen; mottagaren besitter, med andra ord, tillräckliga kunskaper för att utforska, analysera och omsätta visuell data till relevant information och kunskap. Det innebär att mottagaren av en explorativ visualisering kan vara du själv eller kollegor med en motsvarande nivå av relevant kunskap, till exempel.

Syftet med en utforskande visualisering kan alltså, till exempel, vara att fatta adekvata beslut om nästa steg i en forskningsprocess eller riktning för en viss medicinsk behandling. Målgrupperna är då den visualiserande forskaren själv respektive den medicinskt ansvariga klinikern.

Den yttersta delen av den andra änden av skalan beskriver förklarande visualiseringar där målgruppen är en mottagare som antas sakna den domänspecifika kunskapen som ligger bakom den genererade visualiseringen. Exempel på förklarande visualiseringar hittar vi i populärvetenskaplig kommunikation, utbildningsmaterial och annan utåtriktad eller uppsökande verksamhet. Adekvat presentation är dessutom centralt för att så effektivt som möjligt kommunicera något förhållandevis komplicerat till mottagare som ju får antas sakna djupare kunskaper om det aktuella ämnet.

Syftet med en förklarande visualisering kan till exempel vara att kommunicera resultatet av en studie, förklara och motivera val av behandling eller som en del i undervisningen. Målgrupper i föreliggande visualiseringsexempel kan således vara den intressearde allmänheten, patienten som behandlas respektive universitetsstudenter.

Mellan de båda extrema punkterna utforskande och förklarande ryms sedan allt visuellt kommunicerat vetenskapligt material, enligt denna modell. Oavsett om visualiseringen är avsedd för användning i en konferenspresentation, en ansökan om forskningsanslag, en vetenskaplig artikel, etc.

Det är viktigt att förstå skalan som ett sätt att klassificera och beskriva visualisering på, inte som ett verktyg för bedömning eller värdering. Skalans ändar bör inte heller ses som varandras motpoler eftersom de snarare beskriver ett förhållande mellan subjektet (mottagaren) och objektet (dataunderlaget).

Skalan har sammanfattats på ett pedagogiskt sätt av professor Yong-Yeol Ahn, vid Indiana University Bloomington, i en visualiseringskurs enligt följande: Although exploratory and explanatory visualizations have slightly different aims – to discover hidden patterns vs. to communicate insights and messages in the data – good exploratory visualizations explain what is going on and good explanatory visualizations let people explore the ideas.

Grafiska principer

För datavisualisering, som metod, finns inga generellt fastslagna regler att applicera. Praxis och riktlinjer, i den mån några alls existerar, tenderar att utvecklas vid behov för att sedan accepteras som ett slags standard inom den enskilda disciplinen.

Handritat banddiagram av en molekyl
Triosfosfatisomeras framställd som banddiagram av Jane S. Richardson (1981).
Bild från Wikimedia Commons (CC BY 3.0).

Ett exempel på detta är hur Jane S. Richardson, professor i biokemi, valde att grafiskt representera betaflak som pilar och, den antingen parallella eller antiparallella, kopplingen mellan bitarna i peptidkedjan, något hon också beskrev i en artikel i Nature redan 1977. Richardsons visuella språk har sedan dess präglat visualiseringen av proteiner till den grad att det förekommer i de flesta av de digitala verktyg som idag används för visualisering av molekyler i banddiagram. Det har blivit ett slags standard och praxis som fyller ett disciplinspecifikt behov.

För att hitta något slags mer generellt och disciplinöverskridande teoretiskt fundament att bygga vidare på får vi vända oss till vår varseblivning. Människans förmåga att se mönster och avvikande detaljer i en grafisk framställning är, enligt målbeskrivningen i artikeln från 2010 ovan, bärande inom visuell kommunikation. Det är den mänskliga perceptionen som sörjer för att vi, till exempel, kan skönja klusterbildning i ett sambandsdiagram, trender i ett stapeldiagram eller separera färgade fält från varandra i en koropletkarta. Vår varseblivning möjliggör dessutom visuell tolkning av såväl helheten som delarna av en form eller figur, ett motiv som är centralt inom gestaltpsykologin och som formulerats i en uppsättning principer. Varseblivning och de gestaltprinciper, som oftare än andra associeras till datavisualisering, finns sammanfattade på sidan om grafiska principer. Hur de teoretiskt fungerar beskrivs först kortfattat, varpå exempel på hur de praktiskt kan tillämpas i visualiseringsarbetet sedan presenteras.

Grafisk kodning av information

Med en teoretisk utgångspunkt i mänsklig perception behövs verktyg för den praktiska tillämpningen av principerna, verktyg för att omsätta teori till praktik.

Begreppet kodning, som används ovan, är en fri översättning av det engelska begreppet encoding, som är den term som ofta används i visualiseringssammanhang. Begreppet syftar till att beskriva översättningen från information till grafisk representation; att rita ut 50 % som hälften i ett cirkeldiagram, för att använda ett väldigt grundläggande exempel, är att grafiskt koda information.

Det finns många olika sätt att beskriva den grafiska kodningen på och vi inleder här med att först fokusera på främst två tongivande artiklar, där den ena dessutom ligger till grund för den andra. Artiklarna söker båda producera praktiska verktyg för tillämpningen av den teoretiska basen genom att granska processer associerade till mänsklig perception. Därefter presenteras ett par kompletterande, mer utvecklade och pedagogiska, perspektiv.

Cleveland & McGill, 1984

En av de mest grundläggande och inflyelserika texterna i det teoretiska fundamentet är William S. Cleveland och Robert McGills artikel med titeln "Graphical Perception: Theory, Experimentation, and Application to the Development of Graphical Methods" från 1984, publicerad i Journal of the American Statistical Association. Artikelns betydelse kan tillskrivas den ordnade lista över vilka grafiska representationer vår mänskliga perception är bäst lämpad att tolka och avkoda. För att beskriva den basala tolkningsprocess vår perception sörjer för använder Cleveland och McGill begreppet elementary perceptual task eftersom a viewer performs one or more of these mental-visual tasks to extract the values of real variables represented on most graphs.

Listan utgörs av 10 olika varseblivningsrelaterade processer som engageras i tolkningsarbetet. Processernas lämplighet och expressiva förmåga är empiriskt verifierade och rangordnade, detta beskrivs närmare i artikeln. Fokus ligger på extraherandet av kvantitativa data:

  1. Position on a common scale
  2. Position on a non-aligned scale
  3. Length
  4. Direction
  5. Angle
  6. Area
  7. Volume
  8. Curvature
  9. Shading
  10. Color saturation

Fördjupning:

Om du är intresserad av en kommenterande analys av den lista som Clevland och McGill presenterar, inklusive grafiska exempel, finns ett informativt och pedagogiskt blogginlägg av Nathan Yau (2010) att läsa.

Mackinlay, 1986

Jock Mackinlay, då vid Stanford University, utvecklade Cleveland och McGills arbete genom artikeln "Automating the design of graphical presentations of relational information", publicerad i ACM Transactions on graphics, 1986. Mackinlays modell rangordnar varseblivningsrelaterade processer med hänsyn till tre olika typer av underliggande data: dels kvantitativa data, som hos föregångarna Cleveland och McGill, och dels ordinaldata samt nominaldata. Det här sättet att ställa upp och jämföra, såväl egenskaper hos dataunderlaget, som de kognitiva processernas förmåga att avkoda en given parameter, kan användas som stöd i visualiseringsarbetet.

Tabell över perceptionsassocierade uppgifter, inbördes ordnade i tre olika datakategorier. Gjord efter förlaga i Mackinlays artikel.

Tabellen i bilden ovan visar hur till exempel en stapels höjd, det vill säga position, i ett diagram kan vara ett effektivt sätt att representera kvantitet på. Detsamma gäller angle (vinkel), till exempel på en linje mellan olika mätpunkter i ett linjediagram, ju brantare lutning, desto större förändring i värde.

Color hue (kulör), å andra sidan, är illa utrustad för att ange mängd, men lämpar sig istället bra för att uttrycka nominaldata, olika kategorier, till exempel.

Detta blir tydligt i ett enkelt cirkeldiagram där vinkeln på "tårtbiten" beskriver hur stor del av helheten som åsyftas (det kvantitativa) och färgen lämpligen används för att särskilja aktuell tårtbit från övriga (det nominala).

Staplarna i diagrammet intill är baserade på samma rudimentära dataunderlag. Den lilla, men betydande, skillnaden i kvantitet som föreligger mellan A och D blir tydligare här, trots att tårtbitarnas area i cirkeldiagrammet visar exakt samma sak. Position i höjdled, en variant av det som Clevland & McGill benämner position on a common scale, har lättare att förmedla absoluta och jämförbara värden. Det är dock klokt att ha olika diagramtypers styrkor och svagheter i åtanke när den här sortens jämförelser görs, vi använder olika diagram för att betona olika egenskaper hos dataunderlaget. Det hänger ihop med det som brukar benämnas effektivitet och expressivitet, något du kan läsa mer om nedan.

Att koda information med färg: ett specialfall

De begrepp som i Mackinlays tabell benämns color hue (nyans) och color saturation (mättnad), och i viss mån även begreppet texture (mönster, i föreliggande sammanhang), är mer komplicerade och behäftade med fler undantag än många av de övriga begreppen. På sidan om färg kan du läsa mer om detta.

Munzner, 2015

Det är rekommenderat att förhålla sig till Cleveland & McGills ranking, samt Mackinlays tabell, som rekommendationer där den rådande inbördes ordningen snarare pekar ut en riktning än en absolut sanning. Tabellen kan ge en förståelse för varför vissa sätt att grafiskt representera data upplevs som mer effektiva än andra.

Vi finner ett kompletterande perspektiv hos Tamara Munzner i hennes bok Visualization Analysis and Design (2015). Munzner utgår också från ett liknande system med ranking av visuella och kognitiva processer, men de benämns annorlunda och indelningen följer en annan logik; olika datatyper (kategoridata, ordinaldata/kvantitativa data, relationell data) kodas med fördel av vissa marks (geometriska former och figurer såsom punkter, linjer, areor etc.) vars utseende bestäms av visual channels (position, färg, vinkel, storlek etc.). Genom att, steg för steg, besvara en fråga i taget landar utövaren i en lämplig form för sin visualisering, där de värsta fallgroparna och misstagen undviks.

Vi tar kategoridata som exempel. Det gäller alltså data som svarar på frågorna vad eller var, och enligt Munzners system beskrivs den datatypen bäst med, till exempel, de visuella kanalerna planposition eller färg. Föreställ dig att den form eller figur som placeras och färgas är en area, förslagsvis en nation på en politisk karta.

Har vi med kvantitativa data att göra så beskrivs de hellre med hjälp av storlek, till exempel, och den figur som påverkas är alltså större eller mindre beroende på vad dataunderlaget dikterar. Föreställ dig olika stora cirklar som får representera orter, med varierande folkmängd, på samma politiska karta som i exemplet ovan.

Munzner beskriver i sin bok ett komplett system för visualiseringsarbete, med såväl teoretiska diskussioner som praktiska tillämpningar. Boken erbjuder en matnyttig fördjupning i fältet där många tidigare lärdomar och kunskaper renodlats till något sammanhållet och hanterbart, möjligt att omsätta i praktiken för såväl noviser som veteraner.

Bokomslag Visualization Analysis and Design

Rekommenderad läsning

Tamara Munzner Visualization Analysis and Design, 2015

ISBN: 9781466508910

Expressivitet och effektivitet

I artikeln "Automating the design of graphical presentations of relational information" (1986) beskriver Jock Mackinlay grafiska representationer som ett visuellt språk. En visualisering, en graf eller ett diagram till exempel, utgör således en mening (sentence) uttalad på detta språk. Mackinlay stipulerar vidare två designkriterier för att både formulera och utvärdera meningar på detta språk; expressivitet och effektivitet.

Expressivitet

En visualisering är expressiv till den grad den förmår förmedla, eller uttrycka, allt som dataunderlaget innehåller och enbart det som dataunderlaget innehåller. Kriteriet syftar till tydlighet och transparens och vikten av att presentera sina fynd såsom de är, varken mer eller mindre.

Effektivitet

En visualiserings effektivitet är ett mått på dess begriplighet, hur väl den kommunicerar det som uttrycks, hur väl den tas emot av betraktaren. Om expressivitet snarast är ett mått i relation till dataunderlaget, är effektivitet ett sätt att relatera en visualisering, eller mening, till en annan, som uttrycker samma sak. Kriteriet är förknippat med tabellen som rankar kognitiva processer.

Ett visuellt språk

Genom att eftersträva såväl en hög grad av expressivitet som effektivitet börjar ett visuellt språk, eller en mening, att formuleras. Hänsyn till dataunderlaget gör att vissa typer av diagram genast kan förkastas, medan andra blir högst lämpliga kandidater. Det här är en bra början eftersom det kan vara svårt att välja rätt diagram, eller om vi fortsätter att följa språkanalogin, det kan vara svårt att formulera meningen rätt.

Som ovan konstaterats, i den snabba jämförelsen mellan cirkeldiagram och stapeldiagram, besitter diagrammen olika styrkor och förmågor. Just användningen av cirkeldiagram är något som ofta kritiseras; de är inte tillräckligt exakta, det är svårt att jämföra storleken på tårtbitarna, och så vidare. Kritiken är kanske inte helt obefogad, men cirkeldiagram har också många fördelar. Det går, till exempel, oerhört snabbt för oss att avkoda ett cirkeldiagram, framförallt ett med få och tydliga tårtbitar. Vinklar som delar in cirkeln i halvor eller kvartar identifieras synnerligen enkelt. Eftersom beskrivande axlar med enheter inte är nödvändiga reduceras den kognitiva belastningen. En tydlig legend kan däremot vara att föredra, det är dock ett faktum ingalunda förbehållet enbart cirkeldiagrammet.

Kort sagt; ta hänsyn till dataunderlaget och försök att få en så expressiv visualisering att bli så effektiv som möjligt. Det finns många resurser att tillgå när du söker efter rätt diagram, vi har samlat några av dessa på sidan om resurser för visualisering.

En pedagogisk repetition

Begreppen expressivitet och effektivitet, såsom formulerade av Mackinlay, är visserligen innehållsrika, men kan uppfattas som lite otympliga. Jeffrey Heer, vid University of Washington, översatte Mackinlays kriterier till något mer lätthanterligt i en visualiseringskurs:

ExpressivenessTell the truth and nothing but the truth (don’t lie, and don’t lie by omission)

EffectivenessUse encodings that people decode better (where better = faster and/or more accurate)

Sammanfattning

Genom att bekanta sig med målgruppen, och eventuella principer och praktiker som är kopplade till domänen, kan man få mycket gratis i början av ett visualiseringsarbete. Tar man dessutom med mänsklig perception och kognitiva processer i beräkningarna blir det också lättare att förstå när det är befogat att göra avsteg från dessa principer och praktiker.

Visualisering, oavsett om den sker i utforskande eller förklarande syfte, är en kreativ och pedagogisk process, och även om vissa estetiska eller tekniska överväganden måste göras så är de grundläggande principerna förhållandevis väl sammanfattade i designkriterierna expressivitet och effektivitet. Din visualisering ska förmå uttrycka den underliggande datan, varken mer eller mindre. Den ska vidare vara utformad så att den är begriplig för den avsedda betraktaren, oavsett om det är du själv, seminariet eller allmänheten.

De källor och resurser vi hänvisar till här ger alla en version av sanningen, även de mest dogmatiska, och syftet är främst att stimulera till eftertanke och diskussion. De har alla såväl styrkor som svagheter och ingenstans finns en komplett modell för visualisering av biologiska data, även om en sådan som Tamara Munzner nog kommer ganska nära. Av den anledningen har vi valt att presentera ett bredare urval av perspektiv och i takt med att fältet utvecklas, nya metoder och verktyg tillkommer, förändras och breddas även diskussionen här.