"Zgłoś błąd" - słaba jakość danych publicznych

Jedna z refleksji, która pojawiła się u mnie w związku z realizacją projektu "System Analiz Orzeczeń Sądowych", czyli SAOS, dotyczyła słabej jakości danych publicznych. Zaczęło się od marzenia. Skoro udało się przekonać Ministerstwo Sprawiedliwości do tego, by powstały portale udostępniające treść orzeczeń sądów powszechnych, to - korzystając z nieco bardziej zaawansowanych technik analizy danych, które rozwijane są w Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego, warto było pokusić się o przeanalizowanie udostępnionych orzeczeń.

Analiza takiego zbioru danych na temat orzeczeń mogłaby dostarczyć danych na temat sposobu, w jaki w Polsce realizowane jest prawo. W praktyce wszak prawo realizują sądy. Poza tym, że stworzenie narzędzi pozwalających obywatelom na śledzenie orzecznictwa w wybranych przez owych obywateli obszarach (tu potrzebne są spójne słowniki i taksonomie, dzięki którym rzeczywiście da się monitorować społecznie zapadające w Polsce wyroki), dzięki takiej analizie można by zebrać materiały potrzebne do zasilenia Ocen Skutków Regulacji i wykorzystać wiedzę płynącą z aktywności wymiaru sprawiedliwości dla polepszenia jakości procesu legislacyjnego. A rzeczywistość jest taka, że w orzeczeniach znajdowaliśmy wcześniej przepis na sałatkę (por. Centralna Baza Orzeczeń Sądów Administracyjnych +1 ząbek czosnku).

Kontrola społeczna. To dzięki pracom nad SAOS-em zidentyfikowaliśmy odwróconego Orła Białego (por. Uchwała SN w sprawie wyboru Prezydenta RP pokazuje, że państwo stoi na głowie). To nie mechanizm automatycznej publikacji go odwrócił, gdy publikowano na stronach Sądu Najwyższego uchwałę w sprawie ważności wyborów Prezydenta Rzeczypospolitej Polskiej przeprowadzonych w dniach 20 czerwca 2010 r. oraz 4 lipca 2010 r. To zrobił człowiek. I zrobił to najpewniej celowo...

A tak to wyglądało:

Zrzut ekranu z fragmentem uchwały Sądu Najwyższego w sprawie ważności wyborów Prezydenta Rzeczypospolitej Polskiej przeprowadzonych w dniach 20 czerwca 2010 r. oraz 4 lipca 2010 r.
Zrzut ekranu z fragmentem uchwały Sądu Najwyższego w sprawie ważności wyborów Prezydenta Rzeczypospolitej Polskiej przeprowadzonych w dniach 20 czerwca 2010 r. oraz 4 lipca 2010 r. opublikowanej na stronie Sądu Najwyższego (kopia pliku PDF na serwerze vagla.pl).

Kiedyś Ministerstwo Sprawiedliwości dało się przekonać do tego, by tworząc portale orzeczeń sądów powszechnych każdy z nich udostępniał API (ang. application programing interface). Dobrze przygotowane API daje możliwość pobierania danych udostępnianych przez administrację publiczną przy jednoczesnym poszanowaniu infrastruktury teleinformatycznej państwa. Nie każdy to rozumie. Kiedy dawniej próbowaliśmy (działałem tu w ramach organizacji pozarządowej) pobierać informacje z Centralnej Bazy Orzeczeń Sądów Administracyjnych szybko zorientowaliśmy się, że NSA blokuje próby pobierania danych z serwerów NSA. A chcieliśmy chronić infrastrukturę przed przeciążeniem. Dlatego dane pobieraliśmy w nocy. Administratorzy serwerów szybko się zorientowali, że ktoś pobiera dane i uznał za słuszne zablokowanie takiego pobierania. Potem mechanizm blokujący został "systemowo" wbudowany w serwis NSA. Kiedy system zauważył, że ktoś automatycznie próbuje pobierać opublikowane wyroki sądów administracyjnych - w pierwszej kolejności włączała się CAPTCHA (przepisywanie z obrazka), potem zaś transmisja była blokowana. NSA nie udostępniła API do rozwijanego przez siebie serwisu. W efekcie nie da się pobrać tylko kilku ostatnio dodanych orzeczeń. Sposób uzupełniania bazy też nie pomaga w tworzeniu narzędzi w oparciu o ponowne wykorzystanie informacji z sektora publicznego (re-use). Na przykład czasem ktoś doda samo uzasadnienie jako odrębny w stosunku do sentencji rekord bazy danych. Trzeba parsować serwis WWW. Bez sensu.

Tworząc w ICM UW system SAOS zrezygnowaliśmy z pobierania danych z NSA. Nie było sensu kopać się z koniem, a wnioskowanie o dostęp do orzeczeń sądów administracyjnych nie realizowało sensu re-use. Równie dobrze mógłbym co miesiąc wnosić o to, by mi nowo opublikowane orzeczenia wlewano do podesłanego wiadra. Skoncentrowaliśmy się więc na sądach powszechnych. Po pobraniu danych przez API w pierwszej kolejności postanowiliśmy posortować orzeczenia ze względu na datę ich wydania. Okazało się, że w ten sposób wyłapaliśmy te orzeczenia, które - wedle informacji z portali orzeczeń - wydane zostały np. w 2030 roku. A mieliśmy rok 2015. Ktoś wprowadzając dane zrobił "ludzki błąd". To, czego mi zabrakło, a - po doświadczeniu tworzenia SAOS-a chętnie postuluję w dyskusji o informatyzacji państwa, to element interfejsu cyfrowego repozytorium danych publicznych - przycisk "zgłoś błąd". Do tego potrzebna byłaby procedura podobna do tej z ustawy o świadczeniu usług drogą elektroniczną (notice and takedown), która uruchamiałaby odpowiedzialność za dane publiczne po stronie administracji publicznej. Wiem, że obsługa takiej procedury wymaga środków finansowych (finansowania) i jasnego określenia zasad odpowiedzialności za jakość danych. No, ale konstytucyjna zasada budowania zaufania obywatela do państwa do czegoś zobowiązuje...

Tak. Chociaż czasy dla prawników odwołujących się do konstytucyjnych zasad są trudne - nadal wierzę w zasady Konstytucji Rzeczypospolitej Polskiej.

Czepiam się. Wiem. Ale poniższy obrazek pokazuje orzeczenie, które - wedle administracji wymiaru sprawiedliwości - zostało wydane drugiego sierpnia 2030 roku:

fragment zrzutu ekranu pokazującego prezentację orzeczenia I ACz 526/13 - Sąd Apleacyjny w Rzeszowie I Wydział Cywilny

Opcje przeglądania komentarzy

Wybierz sposób przeglądania komentarzy oraz kliknij "Zachowaj ustawienia", by aktywować zmiany.

Macie API i co dalej ?

Czy możesz się podzielić informacjami jak dokładnie ten instytut to bada? Jakieś hasła kluczowe.

Czym się to różni od narzędzi udostępnianych przez http://www.opensemanticsearch.org.

Czy możliwe jest pobranie oryginalnej treści dokumentów i próba analizy po "swojemu" ?

Czy sposoby analizy i walki o otwartą administrację są otwarte ?

Gdzie mogę pobrać dokumentacją dotyczącą założeń dotyczącą metodyk analizy tych danych?

SAOS

VaGla's picture

saos.org.pl, a na GitHubie: System Analizy Orzeczeń Sądowych /Court Judgement Analysis System. Są też dodatkowe narzędzia: soclabs.icm.edu.pl:3838/saos, a także interfejs dla R.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Zgłaszam błąd

DiskDoctor's picture

Pod adresem https://www.saos.org.pl/analysis - "analiza orzeczeń" (jedna z trzech głównych pozycji spod głównego menu). Ekran się w kółko odświeża i nie można nic zrobić.

Safari 9.0.2.

Przy okazji... Pomyślności, wytrwałości i pozytywnej / pożytecznej / owocnej działalności w Nowym Roku życzę!

Zabawy za naszą kasę

Kilku naukowców, publiczna kasa, miesiące pracy i mamy zidentyfikowany jeden błąd dotyczący daty. Brawo!

Czy naprawdę jest w tym jakiś sens, aby dla tej grupki fanatyków państwo wydawało fortunę na stworzenie API, którymi nikt poza rzeczonymi fanatykami nie będzie się interesował?

Wnoszę o uruchomienie jakiegoś systemu (choćby częściowej) odpłatności dla hobbystów.

Dlaczego fortunę?

API powinien mieć niemal każdy przyzwoity system. Dlaczego miałoby to kosztować fortunę?

świetny system

świetny system,

z praktycznego punktu widzenia pozwala np. na wyszukiwanie orzeczeń konkretnych sędziów sądu odwoławczego, co z kolei jest przydatne w formułowaniu skutecznych zarzutów apelacyjnych oraz skutecznego odwoływaniu się do poglądów orzecznictwa ;)

chapeau bas!

Piotr VaGla Waglowski

VaGla
Piotr VaGla Waglowski - prawnik, publicysta i webmaster, autor serwisu VaGla.pl Prawo i Internet. Ukończył Aplikację Legislacyjną prowadzoną przez Rządowe Centrum Legislacji. Radca ministra w Departamencie Oceny Ryzyka Regulacyjnego a następnie w Departamencie Doskonalenia Regulacji Gospodarczych Ministerstwa Rozwoju. Felietonista miesięcznika "IT w Administracji" (wcześniej również felietonista miesięcznika "Gazeta Bankowa" i tygodnika "Wprost"). Uczestniczył w pracach Obywatelskiego Forum Legislacji, działającego przy Fundacji im. Stefana Batorego w ramach programu Odpowiedzialne Państwo. W 1995 założył pierwszą w internecie listę dyskusyjną na temat prawa w języku polskim, Członek Założyciel Internet Society Poland, pełnił funkcję Członka Zarządu ISOC Polska i Członka Rady Polskiej Izby Informatyki i Telekomunikacji. Był również członkiem Rady ds Cyfryzacji przy Ministrze Cyfryzacji i członkiem Rady Informatyzacji przy MSWiA, członkiem Zespołu ds. otwartych danych i zasobów przy Komitecie Rady Ministrów do spraw Cyfryzacji oraz Doradcą społecznym Prezesa Urzędu Komunikacji Elektronicznej ds. funkcjonowania rynku mediów w szczególności w zakresie neutralności sieci. W latach 2009-2014 Zastępca Przewodniczącego Rady Fundacji Nowoczesna Polska, w tym czasie był również Członkiem Rady Programowej Fundacji Panoptykon. Więcej >>