Mitkä ovat hyvät sanat blogiotsikoissa?

Artikkelien määrä suhteessa jakoihin (100 tai alle jakoa saaneet artikkelit)

Olen aiemminkin purkanut blogissani CrCo-dataani. Datasettinä on 2046 blogikirjoitusta erilaisilta ViNOlaisilta blogaajilta ja niiden jaot Facebookissa. Olen karsinut datasta ei jaettuja viestejä ja kirjoituksia, joiden Facebook-jakoja järjestelmä ei vielä ole ehtinyt ottaa. Facebook-jakoihin lasketaan tässä ainakin tykkäykset, jaot ja kommentit artikkeliin liittyen.

Tällä kertaa tutkin blogikirjoitusten otsikoiden suhdetta jakoihin.

Blogikirjoitusten otsikon pituus ei vaikuta jakojen määrää niin, että saisin sitä eroa tilastollisesti esiin. Voi olla, että eroa voisi vähän muodostua erilaisella analyysillä, mutta mitkään yksinkertaiset menetelmät eivät tuoneet eroja esiin.

Analysoin samalla eräitä mieleeni pälkähtäneitä sanoja tai sanan osia. On huomattava, että tein haut siten, että myös väleillä oli merkistä. Eli esimerkiksi blogikirjoitus, joka alkaa sanalla “Vihreät” ei tartu mukaan, hakuun “_Vihreät_“, missä _-merkillä merkitsen välejä. Samoin haut tekevät eron ison ja pienen kirjaimen välillä, joten myöskään “vihreät” haku ei tuohon osuisi.

Sanat on valittu täysin satunnaisesti ja jos keksitte mielenkiintoisia sanoja, voin mielläni katsoa, mitä tietokanta sanoo niistä.

Tilastollisesti merkittävästi jakoa helpottavia sanoja (p < 0,05):

  • Vihreä
  • nuoret
  • ?
  • puheenjohtaja
  • _ja_
  • minä

Tilastollisesti ehkä jakoa helpottavia sanoja (0,05 < p < 0,1):

  • politiikka

Sanoja jotka eivät kuulu näihin kategorioihin eli sanoja, joilla ei ole merkitystä tilastollisesti

  • _on_
  • vihreä
  • tekee
  • ismi
  • Helsinki
  • Kallio
  • luonto
  • ympäris
  • peruss
  • hyvä
  • homo
  • usko
  • koulu
  • netti
  • !
  • Kuka
  • Miten
  • Voiko
  • tie
  • varapuheenjohtaja
  • hallitus
  • velka
  • köyhä
  • tulee
  • seksi
  • nainen
  • kansa
  • _ovat_

Tilastollisesti ehkä jakoa vaikeuttavia sanoja (0,05 < p < 0,1):
Suomi

  • olisi

Tilastollisesti merkittävästi jakoa vaikeuttavia sanoja (p < 0,05):

  • _ei_
  • Tampere
  • Turku
  • ajaa
  • EU
  • kunta
  • kaupunki
  • Miksi
  • talous
  • ei ole
  • sukupuoli
  • sinä
  • me
  • sana
  • blogi

On hankala sanoa mitään suurempaa näistä listoista. Monet sanat selittyvät varsin yksinkertaisilla syillä. Esimerkiksi puheenjohtaja-sana ilmenee hakemuksissa puheenjohtajiksi tai muiden tukiviesteissä. Mukana on myös virallisia kannanottoja, jotka tuntuvat keräävän vähän enemmän jakoja, kun järjestön jäsenet jakavat viestiä eteenpäin.
Mielenkiintoisimmat poiminnat ovat nuo negatiivisesti jakoihin vaikuttavat sanat. Ne vaikuttvat varsin byrokraattisilta asioilta (EU, kunta, kaupunki) tai pienemmän piirin kannalta mielenkiintoisilta asioilta (Turku, Tampere). Mielenkiintoista.
Ongelmia metologiasssani on paljon. Kyseessä on pääasiassa ViNOlaisten aktiivien kirjoituksista eli tuloksia ei todellakaan voi suoraan yleistää ainakaan tämän joukon ulkopuolelle. Toisaalta data itsessään on vähän huonosti kerättyä ja sisältää ainakin jonkin verran duplikaatteja. Tämä voi vääristää vastauksia jonkin verran, mutta vahivimpien löytöjen luulisi pitävän silti.