Rzetelność automatów i prasy (na przykładzie linii lotniczych i dziennikarskiej relacji o łańcuszku)

Skoro Gazeta.pl, powołując się na lokalny serwis, ale nie sprawdzając o co w rzeczywistości chodzi, może zrobić "nową" aferę z łańcuszka widzianego w Sieci od 8 lat, to dlaczego dziwimy się, gdy zaindeksowanie przez news.google.com tekstu sprzed sześciu lat doprowadza - mające i tak już problemy finansowe - amerykańskie linie lotnicze na skraj bankructwa. Pojawia się bolesne pytanie o odpowiedzialność za informacje "podawane przez automaty" (chociaż automatami sterują ludzie). Ale to nic nowego, bo przecież Google poinformował kiedyś na swojej "newsowej stronie" o aresztowaniu w Kanadzie prezydenta USA, George'a W. Busha, a to w związku z oskarżeniem o przestępstwa wojenne. Pamiętacie? Wówczas był to najważniejszy tekst na Google News, chociaż nikt nie sprawdził, że pochodzi z satyrycznego serwisu (innym to nie przeszkadzało cytować tej informacji jako aktualnego wydarzenia politycznego).

Zacznijmy od początku. W 2002 roku (6, słownie: sześć, lat temu) serwis internetowy Sun Sentinel z Florydy (właścicielem serwisu i odpowiadającej mu gazety jest Tribune Co.) opublikował historię na temat potencjalnego bankructwa United Airlines (sktór UAL pochodzi od United Air Lines). Dotyczyło to - przypomnijmy - sytuacji aktualnej w 2002 roku... Tytuł tego tekstu brzmiał: "UAL files for bankruptcy" (aktualnie można znaleźć ten tekst jedynie w kopii lokalnej Google, gdyż na stronie Sun Sentinel - jak się wydaje - usunięto materiał. Tekst ten pochodził najpewniej z "Chicago Tribune" (na stronie Sun Sentinel publikowane są materiały z różnych źródeł, jak np. z Associated Press albo z Baltimore Sun...).

fragment strony z serwisu Sun Sentinel8 września 2008 roku (czyli 3 dni temu) historia bankructwa niespodziewanie pojawiła się w jednej z sekcji na stronie Sun Sentinel, a sekcja ta to "Popular stories: Business" i zakładka: "More most viewed" (czyli najpopularniejsze treści z działu biznes, najczęściej odwiedzane - por. obok na screenshocie). Potem - jak wynika z dostępnych doniesień - robot Google News zindeksował ten artykuł, a jak twierdzi Google w swoim blogu (por. Update on United Airlines story) - nie było powodu, by indeksować ze starą datą (czyli z datą z 2002 roku), ponieważ robot podążający za linkiem umieszczonym na stronie głównej serwisu z Florydy nie odnalazł przy tekście żadnej daty (sprawdziłem i faktycznie nie ma daty przy tekście). Uznano więc (pytanie czy uznał automat czy człowiek - to pytanie o sposób działania robota Google News), że jest to wiadomość nowa i aktualna.

fragment strony z artykułem pt. UAL files for bankruptcy, o którym wiadomo, że ukazał się opinii publicznej w 2002 roku
Fragment strony z artykułem pt. UAL files for bankruptcy, o którym wiadomo, że ukazał się opinii publicznej w 2002 roku. Przy tekście - ani przy widocznym na obrazku tytule, ale również pod tekstem, nie ma daty publikacji.

Strona zatem pojawiła się - jako nowa - w serwisie Google News (przypominam, że np. ten serwis również jest źródłem dla agregatora Google; por. Źródło dla news.google.com i innych, regionalnych, gdzie odnotowałem, że serwis VaGla.pl został przypisany do Google News z pewnym błędem, który zresztą został później skorygowany).

A gdy "świeży tekst" "pojawił się" w internecie - o sprawie napisał Bloomberg, poważne źródło informacji finansowych. A potem już poszło z górki. Na wieść o jeszcze większych kłopotach linii lotniczych (linie te generalnie starają się wyjść z zapaści, redukuje się miejsca pracy, wdraża się programy naprawcze, etc, wszystko związane z tymi kłopotami, które pojawiły się w 2002 roku i potem w kolejnych, m.in. w 2006 roku) - zareagowała giełda papierów wartościowych. Inwestorzy postanowili sprzedawać posiadane przez siebie walory. W efekcie - kurs akcji UAL spadł o trzy czwarte (76%), z 12,5 do 3,72 dolarów.

wykres przedstawiający reakcję giełdy
Wykres przedstawiający notowania UAL Corporation (Public, NASDAQ:UAUA). Ten wykres - nomen omen - pochodzi również z serwisu prowadzonego przez Google, czyli z Google Finance... To kolejny przyczynek do rozważań opublikowanych wcześniej w tym serwisie, pod tytułem Podziwiam Google i jestem przerażony oraz Śmierć cywilna w społeczeństwie informacyjnym (na przykładzie usług Google).

A proszę pamiętać, że na całym świecie dostrzega się problem manipulacji informacjami giełdowymi (por. felieton z 2003 roku Byk i niedźwiedź w internecie). W Polsce były również rozstrzygnięcia dotyczące tego tematu (por. 100 tysięcy złotych za manipulacje informacją). Na podstawie art. 39 ust. 2 pkt 4) ustawy z dnia 29 lipca 2005 r. o obrocie instrumentami finansowymi: manipulację stanowi m.in.

(...)
rozpowszechnianie za pomocą środków masowego przekazu, w tym internetu, lub w inny sposób fałszywych lub nierzetelnych informacji albo pogłosek, które wprowadzają lub mogą wprowadzać w błąd w zakresie instrumentów finansowych:

a) przez dziennikarza - jeżeli nie działał z zachowaniem należytej staranności zawodowej, albo jeżeli uzyskał z rozpowszechniania takich informacji bezpośrednią lub pośrednią korzyść majątkową lub osobistą dla siebie lub innej osoby, nawet działając z zachowaniem tej staranności,

b) przez inną osobę - jeżeli wiedziała lub przy dołożeniu należytej staranności mogła się dowiedzieć, że są to informacje nieprawdziwe lub wprowadzające w błąd.
(...)

Jeśli w wyniku działania systemu indeksowania stron (nie zapominam, że Google toczy przecież spór prawny dotyczący praw autorskich do tekstów, które indeksuje; por. Google przegrało w sporze z belgijskimi wydawcami prasy, czy Chcemy oglądalności bez pośredników - belgijskie orzeczenie przeciwko Google) spółka notowana na giełdzie może ponieść miliardowe straty, to siłą rzeczy, ktoś musi pytać o ludzi, od których może domagać się odszkodowania. To kwestia odpowiedzialności za rozpowszechnianie informacji (co jest coraz trudniejszym zagadnieniem w coraz bardziej zautomatyzowanych systemach agregujących i przetwarzających informacje). A przecież manipulacja informacją finansową może dotyczyć również świata gier (por. Kłopoty na rynkach finansowych w alternatywnej rzeczywistości). Mówi się również o tym, że newsy będą powstawały całkowicie automatycznie i w tych doniesieniach pojawia się przykład informacji finansowych, jako tych, które najlepiej nadają się do tego, by wyeliminować z ich tworzenia dziennikarzy, zastępując ich "sztuczną inteligencją" (por. Co będzie miało wartość w prawdziwie informacyjnym społeczeństwie?; wszelkiego rodzaju "automaty" pojawiają się nie tylko w kontekście dziennikarstwa, ale również np. w dyskusji o orzekaniu, o prawie umów, etc.; por. Automatyczne przyjęcie oferty, Wykrakałem: automatyczne mirrory, Automatyczne orzekanie receptą na korupcję i niedouczenie?, Automatyczne tłumaczenie i tendencyjny wybór źródeł).

Jak widać problem nie jest trywialny. We wstępie do tego tekstu wspomniałem, że to nie pierwszy raz, gdy Google News stał się powodem globalnego zamieszania informacyjnego (ciekawe, że żadne media instytucjonalne do tego wątku nie nawiązywały w swoich relacjach o UAL). Wspomniane wyżej medialne "aresztowanie" Prezydenta Busha nastąpiło w 2004 roku, kiedy to tekst Canadians Authorities Arrest U.S. President Bush on War Charges (link prowadzi do tekstu w zmienionej - w stosunku do oryginalnej z tego czasu - lokalizacji) opublikowany w serwisie Axis of Logic (serwis o zabarwieniu satyrycznym) pojawił się w na głównej stronie Google News, w miejscu przeznaczonym dla najważniejszego doniesienia w danej chwili (na świecie):

fragment screenshotu serwisu Google News z tekstem Canadians Authorities Arrest U.S. President Bush on War Charges
Fragment screenshotu strony głównej serwisu Google News z linkiem do tekstu pt. "Canadians Authorities Arrest U.S. President Bush on War Charges"

Ale przecież opisana tu, kłopotliwa sytuacja z obiegiem informacji nie jest jedynie związana z wadliwie działającymi automatami.

W komentarzu Ktoś się obudził mariuszs wskazał tekst opublikowany w serwisie Gazeta.pl z datą dzisiejszą, a w tekście pt. Rozsyłają e-maile myśląc, że dostaną laptopa można przeczytać inną interpretację, niż wynika np. z mojego tekstu Laptopy rozdaje - ten hoax wciąż działa.... Chociaż wiadomo dokładnie, że hoax ma już 8 lat (pierwszy list z Anną Swelund pojawił się w 2000 roku), to Gazeta.pl w swoim tekście, powołując się - podobnie jak w przypadku "bankructwa" linii lotniczych inne media - na lokalny serwis, pisze:

Od kilku dni bielscy adresaci poczty elektronicznej zalewani są olbrzymią ilością listów, w których nadawca obiecuje bezpłatne laptopy w zamian za odesłanie maila na kolejne adresy. Zainteresowaliśmy się tą sprawą. Okazuje się, że ten nowy łańcuszek św. Antoniego jest gigantycznym oszustwem - donosi portal www.bielsko.biala.pl

I dalej:

Jak nieoficjalnie ustalili dziennikarze portalu, koncern wynajął hackera, którego zadaniem jest odnalezienie autora mistyfikacji. Być może spółka będzie chciała wytoczyć mu proces za bezprawne wykorzystanie nazwy firmy i narażenie na szwank jej dobrego imienia.

Dziennikarze z Gazety Wyborczej z Bielsko-Białej nie zadali sobie trudu, by sprawdzić o co chodzi w tej sprawie. Po prostu zrelacjonowali coś, co jako "wielkie śledztwo dziennikarskie" przedstawił lokalny serwis. I tak to właśnie działa. O ile jednak w przypadku Google News zadziałał automat (być może źle ustawiony przez kogoś, ale jednak automat parsujący), to w przypadku Gazeta.pl (oraz portalu bielsko.biala.pl) teksty przygotowali i opublikowali żywi ludzie...

Przypomnę jeszcze komentarz opublikowany pod tekstem No i nie wykradł "Precious", co teraz?, tj. komentarz pt. Krótka historia Precious w obrazkach. Tu widać jak "news" po jego publikacji żyje już własnym życiem, a dla tego "newsa" "źródłem" był internetowy serwis policja.pl. To właśnie ze względu na takie konsekwencje, jak w przypadku opisywanych wyżej problemów amerykańskich linii lotniczych, a nie z powodu potencjalnej, chorobliwej przyjemności czerpanej z dokuczaniu Policji, w tym serwisie pojawiają się różne postulaty dotyczące internetowych serwisów policyjnych (por. ostatnio Jest kozioł ofiarny w sprawie zmanipulowanych zdjęć Policji).

A z tych historii jasno wynika, że problem linków i - szerzej - podawania źródeł wiadomości jest tak samo ważny, jak rzetelność dziennikarska podczas sprawdzaniu faktów (por. m.in. Gdzie są media w sporach o technologię?). "Duże media instytucjonalne" nie są skłonne podawać w swoich serwisach internetowych linków do źródeł, z których czerpią informacje (publikowane zwykle jako swoje). Wykop.pl się denerwuje, że Gazeta.pl podaje - jako źródło - swój Alert24, że TVN - by nie powoływać się na "sprawniejsze serwisy" uruchomił Kontakt, etc. Jak tu konkurować z blogerami, gdy się jest wielomilionową inwestycją medialną, która sama ma być źródłem dla innych? Ważne jest również - a to dopiero przed nami - kwestia ustalenia sprawiedliwych i powszechnie, globalnie akceptowalnych zasad odpowiedzialności za publikowane treści. A skoro wspomniałem o źródłach, to poniżej publikuję (jak to robię zwykle) źródła doniesień na temat kłopotów z artykułem sprzed sześciu lat (mniej więcej w kolejności ukazywania się online). Być może za sześć lat komuś przyda się to zestawienie, gdy nie będzie mógł trafić przez wyszukiwarki na relacje na temat przebiegu zdarzeń (jeśli za sześć lat ten serwis nadal będzie funkcjonował):

Opcje przeglądania komentarzy

Wybierz sposób przeglądania komentarzy oraz kliknij "Zachowaj ustawienia", by aktywować zmiany.

Nie wiem kim jesteś, menago od łańcuszków

xpert17's picture

Pół roku temu felietonistka Joanna Szczepkowska oburzała się w "Wysokich obcasach" (felieton: Dzieko w sieci) na kogoś kto "zapocząkował" hoax z serii "potrzebna krew dla chorego dziecka". Szczepkowska ostro atakuje:

Jeśli zrobiłeś to z rozmysłem, jesteś wirtualnym zabójcą umierającego dziecka.

nie rozumiejąc, że jeśli ktoś tutaj jest zabójcą umierającego dziecka, to ona sama:

Krótki dźwięk SMS-a oderwał mnie od okna. Na długo.'Roześlij, gdzie możesz - to bardzo ważne: poszukiwana jest krew grupy A Rh- dla umierającego dziecka. Prośba o pomoc. Dzięki'. (...) Nie można tracić czasu. Rozsyłam SMS-y, gdzie mogę. Nie mam tej grupy krwi, a poza tym jestem w pociągu. Może znam kogoś, kto ma A Rh-? Nie znam. Nie wiem. Wiem tylko, że umiera jakieś dziecko i ktoś pokłada nadzieję w sieci komórkowej. Nie mija minuta i dzwoni telefon. Kolega. Ma kogoś z tą grupą, ale numer nie dopowiada U niego też nie? Następny telefon. Mam A Rh-! Gdzie jechać? Nie wiem! Nie wiem! Znowu ktoś dzwoni. Z Paryża. Jest gotów wsiadać w samolot. Ale dokąd jechać!

Szkoda, że wykształcona felietonistka nie rozumiała, że za takim łańcuszkiem nie stoi żaden "menago", żaden "hakier" ani dowcipniś. Stoi za tym wyłącznie mem, wyłącznie sposób działania ludzkiego mózgu i możliwości jakie daje nam współczesna technologia.

Łańcuszek "krew dla dziecka" pojawił się w Internecie około roku 2002 (źródło: atrapa.net) - prawdopodobnie jako mutacja jakiegoś prawdziwego apelu (tak, memy też mutują). Bardzo ciekawa była epidemia z początku 2008 roku (na którą załapała się także pani Szczepkowska), ponieważ wtedy samorzutnie (naprawdę nie stał za tym żaden menago) mem przedostał się z Internetu do sieci komórkowej (SMS).

Już po pierwszym akapicie

LukasS's picture

Już po pierwszym akapicie tekst z bielsko.biala.pl opuściłem (a leży od paru dni), po sugestii, że jestem zasypywany mailami, a tak na prawdę nie dostałem ani jednego o tej treści.

Jeśli chodzi o treści gromadzone przez Google bot'a, to podzielone są one na dwa typy pod względem ich świeżości, i tak mamy FreshIndex, czyli materiały dopiero co znalezione, które widnieją bardzo często wysoko w wynikach przez pierwsze dni od zaindeksowania i drugi DeepIndex, to są już strony dłuższy czas przetrzymywane i aktualizowane (często spadają ze swoich pierwotnych pozycji). Wg. tego schematu można dojść do wniosku, że Google bardzo promuje nowe informacje, i tak na ogół jest, jednak tu powinny zadziałać dodatkowe mechanizmy kontrolne, zaimplementowane od jakiegoś czasu: na pewno zawiódł system sprawdzana „duplicate content”, ponieważ taka informacja już była, system powinien to wyłapać (a tego nie zrobił).

Google stosuje również system stron autorytatywnych (takie strony uważane są za rzetelne), z których materiały są zawsze wyżej od reszty. Tu ten system zawiódł, w połączeniu z algorytmami kojarzącymi materiały o tym samym temacie (widoczne w postaci dodatkowych linków do innych portali na news.google.com pod danym newsem). Zrozumiałbym, że crawler wyrzucił na główną stronę tą informację po tym jak opisał to Bloomberg (działając wg. zasady im o czymś się częściej/więcej pisze tym musi to być ważniejsze), ale z tego co tu jest napisane stało się to wcześniej.

Warto też dodać inną wpadkę Google'a, którą usunięto parę miesięcy temu. Chodziło o faworyzowanie domen .edu w wynikach. Masa spamerów przejmowała konta studentów i wykorzystywała jako doorway'e dla swoich stron, które potrafiły być wyżej niż poważane i wieloletnie znane serwisy o takiej samej tematyce. Naprawienie tego zajęło Google'owi prawie rok, zastanawiam się ile potrwa dostrajanie publikacji News.google.com po tej wpadce.

cztery przepisy

ksiewi's picture

Zacytuję tylko cztery przepisy z prawa autorskiego, które dobrze rozważyć w kontekście tej historii:

Art. 25. 1. Wolno rozpowszechniać w celach informacyjnych w prasie, radiu i telewizji:
1) już rozpowszechnione:
a) sprawozdania o aktualnych wydarzeniach,
b) aktualne artykuły na tematy polityczne, gospodarcze lub religijne, chyba że zostało wyraźnie zastrzeżone, że ich dalsze rozpowszechnianie jest zabronione,
c) aktualne wypowiedzi i fotografie reporterskie,
[...]
4. Przepisy ust. 1-3 stosuje się odpowiednio do publicznego udostępniania utworów w taki sposób, aby każdy mógł mieć do nich dostęp w miejscu i czasie przez siebie wybranym, [...]

[...]

Art. 34. Można korzystać z utworów w granicach dozwolonego użytku pod warunkiem wymienienia imienia i nazwiska twórcy oraz źródła. Podanie twórcy i źródła powinno uwzględniać istniejące możliwości. [...]

[...]

Art. 116. 1. Kto bez uprawnienia albo wbrew jego warunkom rozpowszechnia cudzy utwór w wersji oryginalnej albo w postaci opracowania, artystyczne wykonanie, fonogram, wideogram lub nadanie,
podlega grzywnie, karze ograniczenia wolności albo pozbawienia wolności do lat 2.
2. Jeżeli sprawca dopuszcza się czynu określonego w ust. 1 w celu osiągnięcia korzyści majątkowej,
podlega karze pozbawienia wolności do lat 3.
3. Jeżeli sprawca uczynił sobie z popełniania przestępstwa określonego w ust. 1 stałe źródło dochodu albo działalność przestępną, określoną w ust. 1, organizuje lub nią kieruje,
podlega karze pozbawienia wolności od 6 miesięcy do lat 5.

4. Jeżeli sprawca czynu określonego w ust. 1 działa nieumyślnie,
podlega grzywnie, karze ograniczenia wolności albo pozbawienia wolności do roku.

[...]

Art. 122. Ściganie przestępstw określonych w art. 116 ust. 1, 2 i 4, [...] następuje na wniosek pokrzywdzonego.

Nie chodzi mi tu o sugerowanie, że ktoś może ponieść odpowiedzialność karną. Do tego jak wiemy konieczne jest wykazanie paru innych elementów, a nie samo przywołanie przepisów. Tak sobie tylko skojarzyłem i chciałem się tym skojarzeniem podzielić.

Jest inny przykład

VaGla's picture

Gazeta.pl nie zdążyła za innymi serwisami, więc napisała tekst Google w sądzie za wywołanie paniki wśród inwestorów? (2008-09-12, ostatnia aktualizacja 2008-09-12 09:31). Tam też (bardzo) krótki opis sytuacji, a że już trochę ta sprawa trwa, a widać w tytule sąd, to można przypuszczać, że to coś nowego, że po zamieszaniu w sprawie pojawił się kolejny element, że regulator albo inwestorzy, albo sama spółka, której walory straciły na wartości, że ktoś z nich poszedł (już) do sądu... Ale nie. W przypadku tego tekstu tytuł uzasadniony został jedynie takim stwierdzeniem:

Sprawa najprawdopodobniej znajdzie finał w sądzie.

--
[VaGla] Vigilant Android Generated for Logical Assassination

Co ma do tego Google?

Ja nie rozumiem dlaczego to Google, a nie Bloomberg ma odpowiadać za spadek akcji UAL? Czy to dziennikarz (redaktor) Google napisał i umieścił informację na stronie WWW? Przecież to Chicago Tribune przywrócił stare info nie datując go, a więc wprowadził w błąd opinię publiczną! Google to zindeksowało i tyle. Wg mnie absurdem jest posądzanie wyszukiwarek o cokolwiek (albo co z tego, że domeny .edu pojawiały się na początku w wynikach wyszukiwania - może było to celowe działanie?). Google nie musi się przed nikim tłumaczyć z działania swoich robotów. A jeśli wyniki działania wyszukiwarki będą nierzetelne albo manipulowane, to ludzie po prostu przestaną z niej korzystać.

To nie jest kwestia tak lub nie.

sheep's picture

A co jeśli rezultaty będą tylko trochę zmanipulowane? Nie na tyle, żeby odstraszyć użytkowników, ale wystarczająco, żeby mieć wpływ na wybrane istotne kwestie? A co w sytuacji, gdy nie ma wyboru, bo wszystkie wyszukiwarki manipulują?

Albo jeśli wszyscy będę polegać na jednej wyszukiwarce do tego stopnia, że jej manipulacje w krótkim czasie przeciekną do wielu innych źródeł i staną się rzeczywistością? Wygląda na to, że bankructwo tych linii lotniczych staje się jednak dość prawdopodobne, w stylu samospełniającej się przepowiedni...

Zawody stare, od dawna związane z przekazywaniem informacji, takie jak kronikarz/historyk, dziennikarz, reporter, a także listonosz czy nawet pracownik telekomunikacji doczekały się całego szeregu przepisów i tradycji związanych z odpowiedzialnością za rozprzestrzeniające się informacje. Być może podobnych regulacji należy się spodziewać w związku z rozwojem Internetu? Papier (i komputer) jest cierpliwy, odpowiedzialność spada zawsze na ludzi.

dalszy ciąg historii z Google News

Jeśli wynik śledztwa komisji nadzoru giełdowego potwierdzi przypuszczenia o manipulacji, linie lotnicze United Airlines rozważają wniesienie pozwu przeciwko Google i Tribune Co. Tymczasem zarówno Google jak i Tribune Co., wydawca florydzkiego dziennika, wzajemnie obciążają się winą.

Webhosting.pl: Śledztwo komisji nadzoru giełdowego w sprawie pomyłki Google News (za TheRegister.co.uk)

Piotr VaGla Waglowski

VaGla
Piotr VaGla Waglowski - prawnik, publicysta i webmaster, autor serwisu VaGla.pl Prawo i Internet. Członek Rady ds Cyfryzacji przy Ministrze Cyfryzacji, ekspert w Departamencie Oceny Ryzyka Regulacyjnego Ministerstwa Rozwoju, felietonista miesięcznika "IT w Administracji" (wcześniej również felietonista miesięcznika "Gazeta Bankowa" i tygodnika "Wprost"). Uczestniczył w pracach Obywatelskiego Forum Legislacji, działającego przy Fundacji im. Stefana Batorego w ramach programu Odpowiedzialne Państwo. W 1995 założył pierwszą w internecie listę dyskusyjną na temat prawa w języku polskim, Członek Założyciel Internet Society Poland, pełnił funkcję Członka Zarządu ISOC Polska i Członka Rady Polskiej Izby Informatyki i Telekomunikacji. Był również Członkiem Rady Informatyzacji przy MSWiA, członkiem Zespołu ds. otwartych danych i zasobów przy Komitecie Rady Ministrów do spraw Cyfryzacji oraz Doradcą społecznym Prezesa Urzędu Komunikacji Elektronicznej ds. funkcjonowania rynku mediów w szczególności w zakresie neutralności sieci. W latach 2009-2014 Zastępca Przewodniczącego Rady Fundacji Nowoczesna Polska, w tym czasie był również Członkiem Rady Programowej Fundacji Panoptykon. Więcej >>