Come funziona Google News

Come funziona esattamente Google News? Che tipo di informazioni vengono favorite dall’algoritmo informatico che ne sta alla base? Un anno fa, il colosso dell’informazione ha aggiornato il proprio brevetto con un nuovo documento che rende conto in maniera dettagliata delle 13 funzioni matematiche che vengono utilizzate da Google News per rintracciare e classificare gli articoli e le informazioni.

Di seguito daremo un riassunto di queste funzioni, presentandole nello stesso ordine con cui vengono nominate nel brevetto ufficiale e corredandole con una opinione informale sulla loro affidabilità, vulnerabilità ad eventuali manomissioni, pertinenza, etc.

1.Quantità di produzione da parte di una fonte di informazione. “Una funzione capace di determinare la qualità delle fonti di una notizia può includere il numero totale di articoli prodotti da quella fonte durante un dato periodo di tempo [settimane o mesi]. Questo sistema può essere determinato dal conteggio complessivo del numero di articoli non-duplicati prodotti dalla fonte lungo il dato periodo [o] contando il numero di frasi e periodi originali prodotti dalla fonte.” Questo sistema favorisce chiaramente la capacità di produrre quantitativamente tante notizie. Va tutto a beneficio delle grandi compagnie mediatiche che possono contare su grandi staff. Ma il sistema può anche essere ingannato dalle cosidette “fattorie di contenuti”, ovvero quelle compagnie che, affidandosi ad un grande numero di freelance, producono appositamente un gran numero di articoli testuali per falsare l’algoritmo del sistema.

2.Lunghezza degli articoli. Chiaro e semplice: più lunga è la storia, più alta sarà la sua posizione in classifica. Novità che va a svantaggio degli aggregatori informatici di notizie che tagliano, copiano e ricostruiscono brevi riassunti di notizie che veri organi di informazione producono con dispendio di tempo ed energie.

3.“l’importanza di copertura di una fonte di informazione”. Per dirlo in altro modo, questa funzione mette in relazione il totale della copertura mediatica di una fonte con il volume complessivo prodotto su un determinato argomento. Da ciò si comprende come sia premiato il dare grande risonanza ad una determinata notizia.

4. Il fattore “notizie straordinarie”. “Questa funzione misura la capacità di una fonte di informazione nel riportare una notizia subito dopo che un evento importante è accaduto. Il sistema calcola un punteggio basandosi sulla tempestività con cui la fonte di informazione ha rilasciato una determinata notizia. Ad esempio, il punteggio è un numero alto se l’articolo è stato pubblicato subito dopo l’avvenimento di un fatto, basso se invece l’articolo è stato pubblicato molto tempo dopo.” Stiano attenti i siti di informazione pigri: questo sistema vi mette in competizione contro staff più agili, veloci (e forse anche meno scrupolosi) che si atterrano al motto “prima pubblichiamo, poi verifichiamo”). Ci sarà da decidere cos’è meglio: pubblicare immediatamente un pezzo magari scadente e male informato oppure aspettare un po’ e produrre un articolo più lungo, più completo e curato che verrà premiato dai sistemi 2 e 3 di questa stessa lista? Dipende dal numero di storie riguardanti un dato avvenimento.

5. Modelli di utilizzo. “Si tiene conto dell’utilizzo dei singoli link che collegano il motore di ricerca di un sito di informazione con un determinato articolo [si contano i numeri di clicks effettuati su ogni link]. Si rilevano le fonti di informazione più utilizzate e viene loro assegnato un valore relativo. Siti conosciuti, come quello della CNN, tendono ad essere preferiti a siti meno popolari (..).” Questa funzione è al cuore del modello di Google: riconoscendo la popolarità di un sito grazie a varie componenti di PageRank, comprendenti ad esempio il conteggio del numero di link che riconducono ad ogni pagina web.

6.“L’opinione umana sul sito di informazione”. “Agli utenti saranno sottoposti dei semplici questionari per identificare il giornale (o la rivista) che preferiscono leggere (o che hanno visitato). In alternativa, o in aggiunta a ciò, si domanderà di indicare il sito web di informazione che l’utente preferisce visitare”. Qui le cose si fanno interessanti. Google dice chiaramente che si avvarrà di osservatori esterni per rilevare le preferenze tra vari media –non solo i loro siti, ma anche la cronologia delle loro preferenze. Secondo il brevetto, la valutazione potrà includere anche il numero di Premi Pulitzer di ogni organizzazione. Comunque, quello che si intende con il termine “opinione umana” è un vero e proprio indicatore di qualità per fonti di informazione che non sono necessariamente collegate con le rispettive controparti virtuali. In parole povere, questo tipo di fattori favoriscono i media tradizionali.

7. Pubblico e movimento. Semplicemente, Google si affida a statistiche provenienti da Nielsen/Netratings e simili.

8. Ampiezza dell’organico. Più grande è uno staff, più alto sarà il valore. Questa funzione ha il merito di premiare i grandi investimenti nel settore dell’informazione. Ma potrebbe diventare impreciso se si tiene conto che “grandi” staff digitali tendono a reclutare nell’organico vare figure di scarsa esperienza con poco o nullo valore in termini qualitativi.

9. Numero di agenzie stampa. E’ un altro modo di favorire grandi organizzazioni – nonostante le agenzie inizino a diminuire sia qui che all’estero.

10. Numero di “entità originali nominate”. Questa è una delle funzioni più interessanti. Una “entità nominata è il nome di una persona, posto o organizzazione”. E’ il principale strumento per analisi semantiche. “Se una fonte di informazione produce una storia che contiene una “entità nominata” che altri articoli sullo stesso argomento non contengono, questo sarà un indicatore che quella fonte è capace di produrre informazioni originali.” Ovviamente qualche disonesto potrebbe introdurre nominativi appositamente sbagliati per creare delle false entità originali e aggirare il sistema. Ma questo sistema è certamente un ottimo modo per premiare una più approfondita ricerca di informazioni.

11. L’ampiezza. Tiene conto della capacità di una fonte di informazione a coprire un largo ventaglio di argomenti.

12. La portata globale di una fonte di informazione. Di nuovo, favorisce grandi organizzazioni che vengono visti, lette, linkate, quotate, twittate dall’estero.

13. Stile di scrittura. Nel mondo di Google, questo significa una analisi satistica per accertare “correttezza grammaticale e forma”

14. Che conclusioni possiamo trarne? Questo elenco chiaramente mostra come Google intenda favorire i media tradizionali nei confronti di aggregatori di notizie o organizzazioni nate sul web in formato digitale. Le funzioni aggiunte di recente, come “la scelta dell’editore”, rinforzano questo dato. La ragione potrebbe essere che i media tradizione sono meno portati a cercare di aggirare o ingannare l’algoritmo. Questa volta, una debolezza tecnologica è diventata un vantaggio per qualcuno.