Projekt stanowiska rządu w sprawie europejskiej strategii otwartego dostępu do danych

pudełko z dokumentamiMam prośbę: jeśli ktoś ma wolne zasoby (albo może nieco poprzesuwać zasoby tak, by pochylić się nad czymś takim), to warto zapoznać się z opublikowanym dziś na stronach Ministerstwa Administracji i Cyfryzacji projektem stanowiska rządu w sprawie europejskiej strategii otwartego dostępu do danych. Ministerstwo czeka na uwagi do 15 lutego 2012 r. Mało czasu (72 godziny to mało czasu!). Wiadomo. Ale warto przeczytać, przemyśleć, spisać uwagi i wysłać. A jeśli nawet nie do ministerstwa (bo ktoś się, nie wiem, wstydzi), to chociażby zachęcam do dyskusji w komentarzach. Tematyka tego stanowiska związana jest w pewnym sensie z formułowanymi przeze mnie postulatami w zakresie "pozytywnej agendy" wobec problemu ACTA. To jest ważna sprawa.

Materiał opublikowano pod tytułem Zapraszamy do konsultacji stanowiska rządu w sprawie europejskiej strategii otwartego dostępu do danych. Jest to element tego, o czym pisałem wcześniej w tekście Propozycja zmian podejścia do re-use w UE, czyli tzw. "Open data package".

Przy okazji MAiC zadaje trzy pytania:

  • Czy są Państwo za ustanowieniem niezależnego organu do nadzoru nad zasadami ponownego wykorzystywania informacji sektora publicznego?
  • Czy są Państwo za rozszerzeniem zakresu stosowania dyrektywy na biblioteki, muzea i archiwa?
  • Jakie zasoby publiczne powinny, Państwa zdaniem, zostać w przyszłości udostępnione w celu ponownego wykorzystywania: edukacyjne, kulturalne, naukowe?

Ministerstwo przygotowuje stanowisko do następujących dokumentów:

1) wniosek dotyczący dyrektywy Parlamentu Europejskiegoi Rady zmieniającej dyrektywy 2003/98/WE w sprawie ponownego wykorzystywania informacji sektora publicznego(COM(2011) 877) (PDF)

2) Komunikat Komisji do Parlamentu Europejskiego, Rady, Europejskiego Komitetu Ekonomiczno-Społecznego i Komitetu Regionów: Otwarte dane – siła napędowa innowacji, wzrostu gospodarczego oraz przejrzystego zarządzania(COM(2011) 882) (PDF)

Sam projekt stanowiska rządu również dostępny online: stanowisko_Rzadu_pozalegislacyjny_887-2.doc.

Oto fragment przedstawiające cele tego dokumentu:

Celem dokumentu jest przedstawienie przez Komisję Europejskiej propozycji zmian dyrektywy 2003/98/WE Parlamentu Europejskiego i Rady w sprawie ponownego wykorzystywania informacji sektora publicznego. Wniosek Komisji Europejskiej jest efektem drugiego przeglądu stosowania dyrektywy 2003/98/WE.
Główne zmiany w zaproponowanej przez Komisję nowelizacji dyrektywy 2003/98/WE w sprawie ponownego wykorzystywania informacji sektora publicznego to:
- wprowadzenie ogólnej zasady, zgodnie z którą wszystkie dokumenty udostępniane przez organy sektora publicznego mogą być ponownie wykorzystane do dowolnych celów: komercyjnych lub niekomercyjnych, chyba że są one zabezpieczone prawami autorskimi osób trzecich;
- wprowadzenie zasady, że organy publiczne nie będą mogły pobierać opłat wyższych od kosztów wynikających z realizacji poszczególnych wniosków o przekazanie informacji (są to nieznaczne koszty); co w praktyce będzie oznaczało, że większość danych będzie oferowana bezpłatnie lub praktycznie nieodpłatnie, za wyjątkiem należycie uzasadnionych przypadków;
- wprowadzenie obowiązku udostępniania danych w powszechnie stosowanych, nadających się do odczytu maszynowego formatach, w celu zapewnienia możliwości skutecznego ponownego wykorzystywania danych;
- wprowadzenie nadzoru regulacyjnego w celu egzekwowania tych zasad;
- znaczne rozszerzenie zakresu dyrektywy, aby po raz pierwszy obejmował on również biblioteki, muzea i archiwa; istniejące od 2003 roku; zasady będą również mieć zastosowanie do danych z takich instytucji.
(...)

Mnie osobiście również zależałoby na zasobach publicznego radia i telewizji (por. Prawa pokrewne do sejmowych nagrań wideo i inne pytania). Więcej na temat ponownego wykorzystania informacji w dziale re-use niniejszego serwisu. Zwracam przy tym uwagę na magiczne słowa "prawo autorskie" (por. Urzędowe dokumenty, materiały, znaki i symbole w orzecznictwie sądów administracyjnych).

Chętnie poznam Państwa komentarze i przemyślenia związane zadanymi pytaniami, a także z wnikliwą lekturą wyżej podlinkowanego projektu stanowiska oraz dokumentów Komisji. To ważna sprawa.

Przeczytaj również:

W tym ostatnim z podlinkowanych tekstów znaleźć można następujące, formułowane przeze mnie w ramach "pozytywnej agendy" propozycje w zakresie równego i pełnego dostępu do informacji publicznej i zniesieniu barier w ponownym ich wykorzystaniu:

  • Ograniczenie liczby serwisów internetowych polskiego rządu (a także ograniczenie liczby serwisów prowadzonych przez inne organy władzy publicznej; por. Jeden uczciwy serwis rządu zamiast chmury witryn marketingu politycznego ministrów);
  • Zrezygnowanie z odrębności "stron własnych" i BIP-ów (po prostu prowadzony przez administrację publiczną serwis jest BIP-em);
  • Zrezygnowanie z profili społecznościowych rządu (obywatele stworzą narzędzia do publikowania informacji w Facebookach czy innych Twitterach, jeśli te informacje będą udostępniane w jednym miejscu przez zobowiązane do tego podmioty);
  • Posłowie nie mogą być uprzywilejowani w dostępie do informacji w stosunku do obywateli (obywatele i posłowie dowiadują się o treści dokumentów z tego samego źródła, w tym samym czasie i za pośrednictwem tych samych narzędzi);
  • Ponieważ nie ma przecież obowiązku kontraktowania z państwem - wprowadzenie zasady w prawie zamówień publicznych, zgodnie z którą na zamawiającego przechodzą prawa autorskie majątkowe do zamawianych dzieł;
  • Jasne stwierdzenie, że te materiały, które publikowane są w serwisach internetowych administracji publicznej (a więc w BIP-ach) są materiałami urzędowymi w rozumieniu art. 4 ustawy o prawie autorskim i prawach pokrewnych, a więc nie są przedmiotem prawa autorskiego (tu zatem dopuszczona jest koncepcja "wywłaszczenia" z praw);
  • Jasne stwierdzenie, że te materiały, które publikowane są na stronach Sejmu i Senatu, są materiałami urzędowymi w rozumieniu art. 4 upaopp jw., co powinno również dotyczyć wszelkich relacji/transmisji wideo, które dokonywane z Sejmu za publiczne pieniądze, por. Ograniczono możliwość korzystania z materiałów serwisu Sejmu, Jak przekonać Sejm, by przestał zabraniać korzystać z materiałów? Brać przykład z Malamuda? oraz Prawa pokrewne do sejmowych nagrań wideo i inne pytania;
  • Powołanie organu, który będzie mógł wydawać wiążące decyzje w stosunku do innych organów administracji publicznej i innych podmiotów, w zakresie dostępu do informacji publicznej oraz re-use;
  • Rząd - już teraz, a w przypadku powołania organu właściwego - ten organ, powinien przygotowywać i przedstawiać w Sejmie raport roczny na temat problemów związanych z dostępem do informacji publicznej oraz ponownym jej wykorzystaniem.

PS
Formaty danych w Polsce regulowane są m.in. rozporządzeniami wykonawczymi do ustawy o informatyzacji działalności podmiotów realizujących zadania publiczne, o których to rozporządzeniach m.in. w tekście 7 dni na uwagi do projektu ram interoperacyjności i minimalnych wymagań.

Opcje przeglądania komentarzy

Wybierz sposób przeglądania komentarzy oraz kliknij "Zachowaj ustawienia", by aktywować zmiany.

Projekt stanowiska i uzasadnienie

Pomyślałem, że jednak wkleję (bo wielu nie lubi klikać w linki źródłowe, albo ich nie zauważa).

Stanowisko rządu:

Rząd RP przyjmuje z zadowoleniem Komunikat Komisji oraz popiera wszelkie działania mające na celu wyeliminowanie utrzymujących się i pojawiających się różnic pomiędzy państwami członkowskimi w zakresie wykorzystywania informacji sektora publicznego.

Rząd RP docenia działania Komisji Europejskiej zmierzające do dokonania oceny funkcjonowania w praktyce przepisów dyrektywy 2003/98/WE. Rząd RP pozostaje otwarty na dalszą współpracę i dyskusję nad ewentualną potrzebą i zakresem zmian aktualnie funkcjonujących rozwiązań prawnych.
Rząd RP wyraża zadowolenie, iż rozwiązania prezentowane przez Komisję Europejską są w znacznej części zgodne z duchem nowelizacji ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej (Dz.U. Nr 112, poz. 1198, z późn.zm.), która weszła w życie 29 grudnia 2011 r. i która to nowelizacja realizuje politykę ponownego wykorzystywania informacji publicznych.

W odniesieniu do istotnych zmian dyrektywy 2003/98/WE proponowanych przez Komisję Europejską Rząd RP chciałby zwrócić uwagę na przyjęte krajowe rozwiązania.
Nowelizacja ustawy z dnia 6 września 2001 r. o dostępie do informacji publicznej ustanowiła jako zasadę bezpłatne i bezwarunkowe udostępnianie informacji publicznych w celu ich ponownego wykorzystywania. Jednocześnie określiła jedyne możliwe warunki tj.: obowiązek informowania o źródle, czasie wytworzenia i pozyskania informacji publicznej; obowiązek dalszego udostępniania innym użytkownikom informacji w pierwotnie pozyskanej formie; obowiązek informowania o przetworzeniu informacji; zakres odpowiedzialności podmiotu zobowiązanego za przekazywane informacje; określenie sposobu korzystania z informacji publicznej spełniających warunki utworu lub stanowiących bazę danych). Opłaty mogą być nakładane wyłącznie w sytuacji, gdy przygotowanie informacji w sposób wskazany we wniosku wymaga poniesienia dodatkowych kosztów.

Ustawa wprowadziła obowiązek udostępniania przez podmioty zobowiązane informacji publicznych do ponownego wykorzystywania niezależnie od celu ich wykorzystywania np. komercyjnego lub niekomercyjnego, w formatach danych umożliwiających odczyt maszynowy.
Ustawa przyznała wnioskodawcy (osobie zainteresowanej) prawo do skarżenia nie tylko odmowy przekazania informacji publicznej do ponownego wykorzystywania, ale także zaoferowanych warunków wykorzystywania, które jej zdaniem naruszają ustawę.

Nowelizacja wprowadziła nowy tryb udostępniania i ponownego wykorzystywania informacji publicznej – skatalogowane repozytorium służące do udostępniania zasobów informacyjnych. W ramach tego trybu udostępnione zostaną informacje publiczne w sposób skoordynowany, zapewniający ich aktualność, przeszukiwalność, możliwość jak najszerszego wykorzystywania i maszynowego odczytu. Pod pojęciem zasobów informacyjnych rozumie się zbiory danych oraz inne informacje posiadane przez instytucje publiczne, które mają szczególne znaczenie dla rozwoju innowacyjności. W ich wypadku przydatność, użyteczność i efektywność wykorzystania informacji zależy od trybu ich przygotowania i udostępnienia, który będzie określony przez odpowiednie przepisy wykonawcze.
Wreszcie w przypadku informacji publicznych spełniających cechy utworu bądź bazy danych i będących przedmiotem praw autorskich, nowelizacja nakłada na podmiot zobowiązany wymóg określenia sposobu korzystania z informacji tak, by zapewnić dowolne wykorzystanie utworu bądź bazy danych. W szczególności należy zapewnić swobodę korzystania do celów komercyjnych i niekomercyjnych, tworzenia i rozpowszechniania kopii utworu lub bazy danych, w całości lub we fragmentach, oraz wprowadzania zmian i rozpowszechniania utworów zależnych.

Zgodnie z zapisami dokumentu Komisja Europejska przygotuje wytyczne wdrażania zapisów dyrektywy, m.in. w zakresie warunków licencji oraz wykorzystywanych formatów.

Rząd RP za zasadne uznaje więc rozważenie możliwości wprowadzenia praktyki wykorzystania przez państwa członkowskie, oprócz otwartych licencji na prezentowane treści, także prezentowania danych w formatach umożliwiających ich szerokie wykorzystywanie (ogólnodostępne formaty plików oraz przekazywanie danych, a nie odwzorowań cyfrowych dokumentów z danymi).

W artykule 13 proponowane jest dodanie informacji o przekazywaniu przez państwa członkowskie Komisji Europejskiej rocznych sprawozdań dotyczących skali ponownego wykorzystania informacji sektora publicznego. Rząd RP zwraca uwagę, iż uzyskanie tego typu informacji w skali kraju, biorąc pod uwagę liczbę podmiotów obowiązanych do rozpatrywania wniosków o ponowne wykorzystanie, może być bardzo trudna, a koszty przygotowania zestawienia mogą być niewspółmierne do potencjalnych zysków z ich posiadania.

Jednocześnie Rząd RP popiera zaproponowane rozwiązania w zakresie propagowania wykorzystania przez państwa członkowskie otwartych licencji, dostępnych
w Internecie. Ministerstwo Gospodarki od 2010 roku oraz Ministerstwo Administracji i Cyfryzacji od 2011 roku na swoich stronach udostępniają treści na zasadzie licencji Creative Commons Attribution-Share Alike 3.0, co zwiększa możliwość ich wykorzystywania przez obywateli. Doprecyzowania wymaga zapis artykułu 8, dotyczący standardowych licencji – tak by zapewnić jeden system licencjonowania informacji publicznej. Wymienione w artykule 8 otwarte licencje rządowe, ze względu na brak ich kompatybilności, nie tworzą takiego systemu. W zamian należy zapewnić stosowanie na terenie całej Unii Europejskiej pojedynczej, standardowej i otwartej licencji. Proponujemy również dodanie wymogu znakowania dokumentów nie będących przedmiotem praw autorskich.
Dodatkowo, biorąc pod uwagę doświadczenia Rządu RP, pragnę zwrócić uwagę na korzyści płynące z wykorzystania przez jednostki administracji publicznej oprogramowania open source, zwłaszcza w portalach internetowych. Tego typu praktyka ułatwia odbiorcom nie tylko korzystanie z treści, ale również integrowanie swojego oprogramowania z portalami sektora publicznego, co przyczynia się do zwiększenie liczy produktów i usług opartych o publiczne dane.
Ponadto, Rząd RP widzi potrzebę dodatkowych wyjaśnień lub doprecyzowania proponowanych zmian w artykułach 4, 6 oraz 13 w zakresie dotyczącym wprowadzenia nowego podmiotu - niezależnego organu oraz nałożenia obowiązku rocznej sprawozdawczości, a także dotyczących artykułu 9 w odniesieniu do rozwiązań praktycznych ułatwiających wielojęzyczne poszukiwanie dokumentów. W związku z tym, Rząd RP będzie zgłaszał szczegółowe uwagi w pracach Rady na forum Unii Europejskiej.

Uzasadnienie stanowiska:

Proponowane przez Komisję Europejską zmiany dyrektywy 2003/98/WE oddają istotę przyjętej przez Rząd RP polityki ponownego wykorzystywania informacji publicznej.

W budowie społeczeństwa informacyjnego kluczowe znaczenie ma przetwarzanie informacji publicznej, w szczególności ujawnianie informacji przez podmioty publicznoprawne oraz ich pozyskanie i wykorzystywanie przez inne osoby i podmioty. Podmioty wykonujące zadania publiczne, ze względu na ilość zgromadzonych informacji publicznych, są najważniejszymi źródłami wiedzy w państwie, która powinna zostać wykorzystywana przez inne jego podmioty, w zależności od ich indywidualnych potrzeb komercyjnych lub niekomercyjnych.

Spośród szeroko pojętych informacji publicznych można wyróżnić - obok tych służących przede wszystkim przejrzystości spraw publicznych - informacje mogące mieć kluczowy wpływ na szanse rozwojowe współczesnych społeczeństw. Należy je traktować jako źródłowy zasób, w oparciu o który może powstać konkurencyjny i innowacyjny rynek nowych produktów i usług, komercyjnych i niekomercyjnych. Jego powstanie i sukces zależy od jak najszerszej dostępności wysokiej jakości informacji publicznych udostępnianych przez podmioty wykonujące zadania publiczne.

Dzięki technologiom informacyjno-telekomunikacyjnym (ICT) informacja – w porównaniu do tradycyjnych metod – dostarczana jest szybciej, do liczniejszej grupy odbiorców, w większej ilości i tańszym kosztem.

Te same technologie sprzyjają także ponownemu wykorzystaniu informacji, która w postaci cyfrowej może być łatwiej i taniej przetwarzana. Z informacji publicznej korzysta w szczególności wiele nowoczesnych serwisów internetowych i mobilnych.

W chwili obecnej wartość informacji publicznej nie może być w pełni wykorzystana ze względu na istniejące bariery. Wiążą się one zarówno z brakiem dostatecznych rozwiązań prawnych, ale też rozwiązań organizacyjnych i technicznych służących zapewnieniu odpowiedniej jakości i użyteczności informacji publicznej.

Komunikat nie powoduje bezpośrednich skutków prawnych. Należy jednak zaznaczyć, iż proponowane w nim zmiany będą wymagały dodatkowej analizy, od wyników której będzie zależał kierunek zmian w obowiązujących w Rzeczypospolitej Polskiej przepisach dotyczących zasad ponownego wykorzystywania informacji publicznej.

--
[VaGla] Vigilant Android Generated for Logical Assassination

Trudno wlasciwie przyczepic

Trudno wlasciwie przyczepic sie do czegokolwiek od strony merytorycznej w tym stanowisku. Jedyna uwaga, to taka, ze przy licencjach z "attribution" zawsze jest watpliwosc jak powinno to attribution wygladac, gdzie konkretnie je umiescic (zalozmy ze budujemy strone www wykorzystujaca dane publiczne jako jedno z wielu zrodel), jakie jest minimum. Oczywiscie chodzi o to, zeby koncowy uzytkownik wiedzial jak znalesc zrodlo danej informacji. Jednak jesli udostepnianie danych w sposob otwarty staloby sie (w koncu) standardem w UE, to po kilku latach dla kazdego bedzie oczywiste gdzie zglaszac sie po takie dane.

Milo byloby tez zobaczyc kiedys ruch w strone usuniecia wyjatkow od udip, ktore sa w polskim prawie. Konkretnie tam gdzie ustawa mowi, ze nie dotyczy informacji publicznych objetych odrebnymi ustawami, takich jak prawo geodezyjne i kartograficzne (tryb dostepu opisany w tym prawie jest kompletnym zaprzeczeniem wszystkiego co opisali w tym stanowisku). To tez jest jedna z roznic miedzy panstwami czlonkowskimi, wiec wypadaloby sie do niej ustosunkowac. Stanowisko rzadu niby nie wspomina nic o tym ze mozliwe sa wyjatki, ale tez nie mowi ze maja byc wyeliminowane.

Od strony tekstu to pod koniec nagle pojawia sie pierwsza osoba (liczba mnoga, potem pojedyncza).

Attribution dla psi

Zeby troche uzupelnic to co napisalem o attribution, wspomne co wymyslili w innych krajach czlonkowskich. Ogolnie podobaja mi sie te pomysly.

W Wielkie Brytanii czesci dancyh rzadowych jest udostepniana na licencji OGL (Open Government License) czy jakos tak.. nie mam zrodel pod reka. Wymaga ona tylko "attribution" na pierwszym poziomie utworow pochodnych, czyli zrodlo musza podawac tylko ci, ktorzy remiksuja bezposrednio dane publiczne. Ci ktorzy remiksuja utwory tych pierwszych juz nie musza podawac administracji jako zrodlo, moga na przyklad podac jako zrodlo tych od kogo wzieli dane.

W Hiszpanii dane katastralne z kolei sa publikowane na takich ciekawych warunkach, ze pobrane dane mozna publikowac jedynie przez 10 lat od pobrania ich ze stron administracji. Wlasne remiksy mozna juz publikowac jak sie komu podoba, bez podania daty ani zrdola, ale oryginalne dane tylko przez 10 lat. Mysle, ze pomysl ciekawy.

czy łączy się to z

czy łączy się to z tym :
http://www.informacjapubliczna.org.pl/11,655,czy_polska_przystapi_do_partnerstwa_na_rzecz_otwartego_rzadu.html
---------------
gdzie jest mowa o jawności :
- działań,..
- ich finansowania...
- a przede wszystkim sprzeciwu korupcji /!/...?

To nie jest ta inicjatywa

To nie jest ta inicjatywa. To, czego dotyczy stanowisko, to związane z reformą europejskiej dyrektywy re-use. Proszę czytać materiały linkowane z tekstu.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Konsultacje

Wymyślają odpowiedz przez 2 miesiące a na konsultacje dają 3 dni czy to jakiś żart?

Rząd dalej leci w kulki ze społeczeństwem?

No to proszę to rządowi napisać

No to proszę to rządowi napisać. Może Pani/Pan wysłać tam pismo i uprzejmie poprosić o przedłużenie czasu na konsultacje, ponieważ dany termin gwałci zasady demokratycznego państwa prawnego. Do tego może Pani/Pan opublikować taki list w internecie, przesłać go do wiadomości Rzecznika Praw Obywatelskich, etc. Tutaj zaś proszę o komentarze dot. kwitów. Dziękuję.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Również dziękuję...

...w imieniu oryginalnie komentującego, ale ten kometarz był na miejscu. Cytując Ciebie:

"No to proszę to rządowi napisać. Może Pani/Pan wysłać tam pismo i uprzejmie poprosić o przedłużenie czasu na konsultacje, ponieważ dany termin gwałci zasady demokratycznego państwa prawnego."

Ja nie wiem jak "napisać rządowi", a w szczególności jak "wysłać tam pismo". Przysięgam że wyślę, ale proszę szanownych prawników o instrukcję jak to zrobić, aby dotarło.

Pozdrawiam,
incognitus

Jest w treści

Jest w treści linkowanej notatki na stronach MAiC (obecnie zmienionej, bo do jutra dano teraz termin):

Prosimy odpowiedzi pod adresem adres: dsi.konsultacje@mac.gov.pl do 16 lutego 2012 r. do

--
[VaGla] Vigilant Android Generated for Logical Assassination

Oczywiście, źle się wyraziłem...

Technicznie masz oczywiście rację, nie przeczę.

Pisząc "dotarło" miałem na myśli język, którego użycie miałoby jakikolwiek wpływ na konsultacje.

Mogę napisać wiele rzeczy które mają sens z punktu widzenia zwyczajnego obywatela (i nie omieszkam tego zrobić!), ale z naprawdę mikro-osobistego doświadczenia (na poziomie osobistej dyskusji z doradcą szefa Kancelarii Prezesa Rady Ministrów) wiem, że podanie konkretnych paragrafów do zmiany z podaniem uzasadnienia ma o wiele większy oddźwięk. Nie wymagaj tego od szeregowych czytelników portalu!

Pozdrawiam,
incognitus

OCR

"wprowadzenie obowiązku udostępniania danych w powszechnie stosowanych, nadających się do odczytu maszynowego formatach, w celu zapewnienia możliwości skutecznego ponownego wykorzystywania danych;"

Tu mam pytanie, czy ten zapis oznacza, że dokumenty skanowane powinny być OCRowane?

Bo jest taki problem, że np. Ministerstwo Nauki umieszcza niejednokrotnie różne informacje na skanowanych pdfach, a przydałoby się, żeby można było w tych skanach wyszukiwać.

Podobnie było też z głośną w mediach transkrypcją z katastrofy smoleńskiej, wykonaną przez krakowski Instytut Ekspertyz Sądowych. W internecie podano skan tego dokumentu, w którym nie dało się wyszukiwać tekstu. A przecież wszyscy wiedzieli, że dokument będzie szeroko wykorzystywany przez dziennikarzy i analizowany. Więc jaki jest sens utrudniać?

Aha, przecież ostatnie dokumenty ws. ACTA ujawnione przez rząd to też były skany. Na Wikiźródłach ludzie dopiero musieli zrobić obywatelską akcję przepisywania ich do wersji tekstowej.

Więc ja bym uściśliła w przepisach, że dokumenty muszą być przeszukiwalne tekstowo.

Utrudnianie dostępu

Akurat w tym przypadku wydaje mi się, że brzytwa Hanlona (http://en.wikipedia.org/wiki/Hanlon's_razor) jest wystarczającym uzasadnieniem. Co oczywiście nie oznacza, że istniejący stan rzeczy jest akceptowalny.

Licencje tam, gdzie nie powinno być ograniczenia

Na marginesie: tam, gdzie system prawny stwierdza, że materiały urzędowe nie są przedmiotem prawa autorskiego - wprowadzenie licencji jest raczej ograniczeniem możliwości korzystania z informacji, nie zaś upowszechnieniem takiej możliwości. Przy okazji przypominam tekst Dlaczego jestem sceptycznie nastawiony do CC - zamówiona przez czytelników odpowiedź.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Re-use a GIS

Istotne jest również to, że w UE istnieje jeszcze dyrektywa INSPIRE, która w odrębny sposób podchodzi do danych typu GIS. Jeśli system ma działać właściwie, to powinien być spójny, zatem może prawodawca unijny powinien zweryfikować sposób działania re-use w taki sposób, by również w UE nie było przepisów odrębnych. Przeczytaj:

--
[VaGla] Vigilant Android Generated for Logical Assassination

Tez uwazam, ze stanowisko

Tez uwazam, ze stanowisko powinno uwzglednic te inne typy danych (GIS) itp., co napisalem w oddzielnym komentarzu. Taka tylko uwaga, ze INSPIRE wlasciwie nic nie mowi o prawnych aspektach. To tylko specyfikacja formatu. Jesli chodzi o licencje, to o INSPIRE w tym kontekscie nie ma nawet sensu wspominac.

Publiczne bazy danych bez spoconego czoła

Odnośnie baz danych i ich ochrony sui generis warto pamiętać np. o takiej sprawie przed ETS: Doktryna urządzeń kluczowych i podmiot władzy publicznej, który za kasę udziela wglądu do rejestru handlowego. Uważam, że w tej sprawie troche źle zadano pytania, bo w przypadku baz danych, które powstają w ramach realizacji zadań publicznych - jak uważam - nie powinno być (a nawet uważam, że nie ma) ochrony prawa pokrewnego (bo nie ma spoconego czoła). Tak czy inaczej - temat ten również jest istotny przy okazji tego stanowiska i reformy przepisów w UE.

Przeczytaj również:

--
[VaGla] Vigilant Android Generated for Logical Assassination

I jeszcze - obejście zakazu umów na wyłączność

I pytanie o to, czy można obchodzić postulat niezawierania umów na wyłączność w sferze re-use - tu przykład Koncesja MinFinu na dwutygodnik internetowy.

--
[VaGla] Vigilant Android Generated for Logical Assassination

I had a

I had a dream....

Pomyślałem, że rzeczą dobrą i wskazaną byłoby posiadanie w telefonie komórkowym wersji offline niektórych aktów prawnych (chociażby Kodeksu Drogowego czyli Ustawy Prawo o ruchu drogowym).

OK, podejście pierwsze do napisania takiej aplikacji. Szukamy tekstów źródłowych. Jest isap.sejm.gov.pl. Niby baza publiczna, ale..."Nie zezwala się na komercyjne używanie, kopiowanie i inne wykorzystywanie danych znajdujących się w bazie danych ISAP."., a PDFy częściowo z zablokowaną funkcją kopiowania.

No nic. Pojawił się http://dziennikustaw.gov.pl...ale też tylko PDFy.

Czyli w chwili obecnej mamy żmudne kopiowanie i sklejanie. Nie można było publikować również XMLi z całym dobrodziejstwem opisującym sposoby zmian aktów prawnych ?

Pewnie tak, ale tego nie zrobiono (nie chcę dywagować, czy ze względów takich jak opisane w innych artykułach w tym serwisie czy innych).

Myślę, że to byłoby teraz podstawą (może również publikacja kodów podstawowych narzędzi automatycznie przeglądających takie repozytorium). I nie można mówić o otwartym dostępie do danych bez rozwiązania tak podstawowej kwestii....

Być może nie jest to do końca powiązane z tematem stąd, ale...to mi się samo jakoś tak nasunęło.

A prawo co cytowania/kadrowania

Niepokoi mnie ten fragment (w kontekście działań i zastrzeżeń na stronie prezydent.pl):

jedyne możliwe warunki tj.: obowiązek informowania o źródle, czasie wytworzenia i pozyskania informacji publicznej; obowiązek dalszego udostępniania innym użytkownikom informacji w pierwotnie pozyskanej formie; obowiązek informowania o przetworzeniu informacji; zakres odpowiedzialności podmiotu zobowiązanego za przekazywane informacje; określenie sposobu korzystania z informacji publicznej spełniających warunki utworu lub stanowiących bazę danych).

Czy dobrze rozumiem, że oznacza to zakaz cytowania/kadrowania (bo cytat/kadrowanie) to nie jest pierwotnie pozyskana forma?

Nie ma cytowania w przypadku materiałów urzędowych

To tylko na marginesie, bo rozumiem zaniepokojenie i podzielam. Natomiast w przypadku materiałów urzędowych nie możemy mówić o cytowaniu w rozumieniu polskiej ustawy o prawie autorskim i prawach pokrewnych, ponieważ tam (w art 29) mowa o korzystaniu z utworów, a materiały urzędowe nie są przedmiotem prawa autorskiego (więc nie sa utworem). Nie ma monopolu prawnoautorskiego w przypadku materiałów urzędowych, więc nie ma też sensu dawać prawnoautorskiej licencji (np. ustawowej). Próba wprowadzenie licencji tam, gdzie nie ma monopolu, jest - jak uważam - ograniczeniem w stosunku do istniejącego stanu rzeczy.
--
[VaGla] Vigilant Android Generated for Logical Assassination

To zrobią same wyjątki? I wszystko "od urzędują"?

Tak jak to zrobili ze zdjęciami zamieszczanymi na stronie prezydent.pl. Dodajmy ze zdjęciami wykonywanymi przez urzędowych fotografów Prezydenta RP.

Tam dodatkowo przecież zabronili z korzystania z prawa do cytowania, jakim przecież może być kadrowanie zdjęcia, czy też wykorzystanie go w sposób inny niż przez nich zalecany (tam nawet kontekst wykorzystania zdjęcia wyznaczają).

Może należy postulować, żeby wszystko bez wyjątku na takich stronach było materiałem urzędowym bez możliwości wprowadzenia podobnych do tych jakie są na stronie Prezydenta RP ograniczeń?

"w pierwotnie pozyskanej

"w pierwotnie pozyskanej formie"

- Zaraz, czyli jak ministerstwo wystawiło na swojej stronie skan, to można tylko "cytować" bitmapę z tego skanu?

Tym bardziej paląca staje się kwestia OCR.

problem konkurencji biznesowo-społeczno-publicznej

I jeszcze problem konkurencji biznesowo-społeczno-publicznej: BBC zagraża niezależnemu dziennikarstwu, czyli czas zastrzelić królewskiego kowala, by przejąć kuźnię. Z tym się wiąże problem subwencjonowania biznesu oraz tego, że jak ktoś będzie udostępniał narzędzia bezpłatnie, to inny nie będzie mógł tak wiele zarobić "na informacji", o ile tylko informacja miałaby by być elementem tworzenia przewagi konkurencyjnej (por. Konkurencja darmowego z płatnym na przykładzie dostępu do map oraz Prosumenci, świadczący usługi konsumenci oraz ustalenie cen na rynku usług foto w decyzji Prezesa UOKiK).

Być może jednak w społeczeństwie informacyjnym informacja nie jest towarem, a usługą jest udostępnianie informacji, przy czym w sferze publicznej zamiast "usługi publicznej" mówiłbym o realizacji zadań państwa, a więc nie traktowałbym takiego udostępniania w kategoriach biznesowych.

--
[VaGla] Vigilant Android Generated for Logical Assassination

A jak jest z oprogramowaniem?

Najlepszym przykładam jest chyba niedawny spór twórców programu Janosik i naszego ZUSu.

http://pl.wikipedia.org/wiki/Janosik_%28program%29

Dokumentacja KSI MAIL została chyba ostatecznie uznana jako "informacja publiczna". Ale może należało by iść dalej i np. uznawać kod źródłowy każdego programu powstającego za publiczne pieniądze jako informacji publicznej?

informacja publiczna a materiał urzędowy

Informacja publiczna to nie to samo co materiał urzędowy. Materiały urzędowe (to kategoria prawno-autorska) są informacją publiczną (to pojęcie ze sfery prawa do informacji publicznej: informacja publiczna to każda informacja w sprawach publicznych), ale nie musi tak być w drugą stronę. Pytanie raczej chyba powinno brzmieć, czy program komputerowy wykorzystywany przez państwo nie powinien być materiałem urzędowym. Ale są silne argumenty rynkowe przeciwko takiemu postulatowi. Na przykład edytory tekstu stosowane w administracji publicznej - jeśli one byłyby "wywłaszczone", to producent nie miałby produktu. To też dotyczy edytorów FLOSS, bo np. licencja GPL to licencja prawnoautorska. Wywłaszczenie (uznanie za materiał urzędowy) oznaczałoby zniweczenie takiej licencji. To tylko przykłady.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Nie o to chodziło

Chyba nie o to mi chodziło. Jeśli firma sprzeda licencję na program urzędowi to wszystko pozostaje po staremu. Ta sama firma może sprzedawać licencję na ten sam program każdemu innemu podmiotowi. Ale jeśli firma napisze program na zlecenie urzędu za pieniądze publiczne (tak chyba było w przypadku programu Płatnik), to dlaczego kod źródłowy ma pozostać tajemnicą? W takim wypadku pojawiają się same problemy, dopisywać poprawki może ciągle tylko ta sama firma (mają przecież kod źródłowy), kolejne urzędy muszą płacić za napisanie oprogramowania od początku zamiast skorzystać z już napisanych modułów itd.
Moim zdaniem pomiędzy udzielaniem licencji, a pisaniem oprogramowania na zlecenie jest spora różnica. Np. kupując oprogramowanie Microsoftu nie płacimy za napisanie MS Windowsa czy MS Office, cena jest znacznie niższa. Natomiast ZUS prawdopodobnie w 100% pokrył koszty napisania Płatnika. W takim wypadku nie widzę powodu dlaczego wykonawca zlecenia nie ma zostać z prawa do kodu wywłaszczony. Oczywiście tylko w części która została napisana na zlecenie. Ewentualnie załączone oprogramowanie na innej licencji pozostawało by bez zmian.
Wiem, że często duże firmy mają zapędy aby najpierw napisać oprogramowanie na koszt klienta, a potem wielokrotnie starają się zarabiać sprzedając ten sam (tak naprawdę już nie swój) produkt innym podmiotom.
Moim zdaniem jednak (niezależnie od poglądów dużych firm) każdy produkt wykonany za pieniądze publiczne powinien stawać się własnością publiczną. Czyli kod źródłowy i dokumentacja powinny być udostępnione publicznie.

W takim wypadku nie widzę

W takim wypadku nie widzę powodu dlaczego wykonawca zlecenia nie ma zostać z prawa do kodu wywłaszczony.

Ale tutaj nie potrzeba żadnej zmiany prawa, tylko zdrowy rozsądek przy podpisywaniu umów, które powinny zobowiązywać do przekazania kodu źródłowego oraz odpowiednich praw autorskich.

Gdy w pracy pisałem oprogramowanie dla jakiejś korporacji, to zawsze zapewniała ona sobie dostęp do kodu źródłowego i możliwość wprowadzania modyfikacji na własną rękę.

Chyba jednak problem jest

No ok, ale zapewnienie sobie przez urząd kodu to jedna sprawa, a udostępnienie go na zasadzie informacji publicznej to coś zupełnie innego. O ile pamiętam kod Płatnika nie jest do dziś udostępniony. Problem był nawet z udostępnieniem protokołu wymiany danych. Dopiero po procesach sądowych z ZUSem udało się go odtajnić. Czyli w naszym wypadku urząd blokował dostęp (tak naprawdę blokuje chyba do dziś),a nie producent oprogramowania.

Co dalej po otrzymaniu przez rząd uwag obywateli?

Bardzo ciekawy wpis i komentarze - gdyby te postulaty zostały zrealizowane jakość prawa byłaby zapewne lepsza. Natomiast mam pytanie jaka jest procedura po otrzymaniu przez rząd opinii dotyczących tych zapisów - jak sądzę nie jest przewidziana dyskusja na ich temat, a sądzę że byłaby ze wszech miar wskazana. Jeśli mam rację to może zgłosić postulat, aby autorzy uwag zostali zaproszeni na spotkanie z urzędnikami w celu przedyskutowania ich propozycji? To by dało większą szansę na uwzględnienie tych uwag, bo w toku dyskusji trudniej urzędnikom byłoby odrzucić wartościowe propozycje.

+1

No właśnie...mam ten sam dylemat. Komu można to zgłosić? Partia? Jakiś ruch obywatelski? Ja osobiście jestem za głupi/nie mam umiejętności aby dyskutować z zawodowymi politykami.

Tu jest odpowiedź co dalej

Tu jest odpowiedź: Zapraszamy w piątek na spotkanie uzgodnieniowe w sprawie europejskiej strategii otwartego dostępu do danych
--
[VaGla] Vigilant Android Generated for Logical Assassination

Domena publiczna?

A ja wrócę do tematu domeny publicznej. Czy przy okazji re-use nie warto byłoby pokusić się o wspólną europejską definicję "domeny publicznej" jako odróżnienia od wytworów administracji publicznej i dzieł objętych prawami autorskimi? (3 grupy zagadnień) lub domeny publicznej jako odróżnienia od dzieł objętych prawami autorskimi? (2 grupy).
Wydaje się, że 3 grupy byłyby łatwiejsze do zdefiniowania.

Jakie zasoby publiczne powinny, Państwa zdaniem, zostać w przyszłości udostępnione w celu ponownego wykorzystywania: edukacyjne, kulturalne, naukowe?

W przyszłości oczywiście wszystkie zasoby, które zgodnie z nazwą są publiczne czyli dla publiczności, ale zaczynać należy od najważniejszych dla sprawnego funkcjonowania państwa i obywateli w tym państwie czyli informacji wytwarzanych obecnie przez urzędy, organy itp.

Czy są Państwo za rozszerzeniem zakresu stosowania dyrektywy na biblioteki, muzea i archiwa?

O ile zasoby bibliotek i muzeów nie budzą wątpliwości co do pełnego udostępniania, to nad archiwami warto się zastanowić. Nie wszystko w archiwach jest warte nakładów na udostępnianie i wielu zasobów nie można udostępniać z różnych powodów np. UODO. Czyli archiwa - tak, ale nie mechanicznie wpisać "biblioteki, muzea i archiwa" tylko określić ogólne ramy re-use zasobów archiwalnych, które miałyby podlegać dyrektywie. Warto dodać, że w przypadku archiwów używanie OCR czy możliwości przeszukiwania to bajka. Zatem udostępniony zasób archiwów to będą miliony obrazków czyli warto najpierw przeprowadzić rachunek kosztów.

Archiwa zdecydowanie warto

I to się zresztą dzieje: http://szukajwarchiwach.pl/

Oczywiście, proces ten warto przyspieszyć, ale sprawy systematycznie idą w dobrym kierunku.

Tutaj zresztą mamy umiłowaną przez VaGlę instytucję centralną (Narodowe Archiwum Cyfrowe), które koordynuje udostępnianie archiwaliów online (udostępnia katalog i skany poszczególnych obiektów).

I widać tu zresztą problemy: wiele osób i instytucji wolałoby samodzielnie udostępniać dane z Archiwów Państwowych, gdyby tylko dostało je do ręki. Robienie tego via NAC jest utrudnieniem. Na przykład mnóstwo archiwaliów jest zmikrofilmowanych. Chciałbym móc przyjść z własnym skanerem mikrofilmów i jechać po nich jak leci, a potem udostępniać online.

Natomiast to co się dzieje w muzeach to horrendum. Należy naciskać przede wszystkim na udostępnienie online pełnych inwentarzy. Kustosze bronią swoich zasobów jak niepodległości: zamiast pilnować żeby nie spleśniały starają się robić kariery naukowe na tym, że mają bezpośredni dostęp do zbiorów, a innym zawsze mogą negatywnie odpowiedzieć na kwerendę.

Marek Jerzy Minakowski (minakowski.pl)

Plus jeden

Jako były historyk z zacięciem do informatyzacji archiwistyki w pełni popieram przedmówcę, zwłaszcza ostatni akapit.

I nie mogę się pozbyć wrażenia, że gdyby gabinet Premiera (łamane na:dowolna partia polityczna) rzeczywiście chciałby się przysłużyć szeroko pojętemu Ludowi, to powinien czytać komentarze u Vagli - my nie jesteśmy prawnikami, czekamy na konkretne propozycje zmiany ustaw dotyczące tej kwestii (jak również np. crowdsourcingu) i nie możemy się doczekać. Czy czyta to jakaś partia chętna zagospodarować nasze głosy?

Wycinam

Wycinam w moderacji polityczne deklaracje partyjne, jeśli się pojawiają próby ich publikacji. Natomiast mógłbym odnotowywać realne działania, gdyby się pojawiały.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Przedłużony czas składania opinii

Update: zgodnie z informacją ze strony Ministerstwa, termin składania wniosków został przedłużony do czwartku, 16 lutego, do godz. 15:00.

Wspólna strona dla Ministerstw

Zastanawiają mnie niektóre propozycje, np.: wspólna strona dla Ministerstw. Od dobrych kilkunastu lat zajmuje się tworzeniem stron internetowych. Nie wyobrażam sobie jak tak różne tematyki i ilość informacji można w jasny i czytelny sposób upchać nad jednej stronie. Architekt informacji i grafik dostaliby zawału przy takim zadaniu. Czułbym się zagubiony na stronie, gdzie jest wszystko o wszystkich. Gdyby to było skierowane do jednej grupy społecznej to problem byłby mniejszy, tymczasem jest to skierowane do wszystkich grup, o różnym poziomie potrzeb, wiedzy (użytkowania stron internetowych). Myślę, że w tych sprawach warto byłoby się zapytać branży zajmującej się tworzeniem stron internetowych.

A tak z innej beczki, to nie wiem czy dobrze rozumiem, ale miałby powstać kolejny urząd? To chyba nie jest najlepszy pomysł ze względu na koszty.

Można

Googlowi jakoś wychodzi prostym interfejsem dostarczać informacje o dokumentach. W przypadku rządu ważne jest opracowanie taxonomii. Proszę zresztą sięgnąć do linku i tam znaleźć materiał o brytyjskim projekcie. Tam też jakoś sobie radzą. Może mają mniej chorych architektów informacji lub grafików.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Boję się kolejnego filtru między urzędami a ludźmi

Intuicja mi mówi, że lepiej żeby prawa do informacji bronił rzecznik praw obywatelskich (albo GIODO), a urzędy komunikowały się z ludźmi bezpośrednio, a nie przez kolejny filtr, jakim byłby urząd do spraw danych.

Stawiałbym bardziej na otwartość danych i stałą kontrolę czy jest naprawdę otwarte, a nie na jeden urząd, przez który będą przechodziły dane i on je będzie otwierał.

Co do Google - świetnie sobie radzi DLATEGO ŻE NIE MA taksonomii. Wciskanie świata w szytwną taksonomię to cholernie trudna sprawa (vide wszelkie SWW, PKWiU i inne takie, gdzie i tak wszystko ląduje w dziale "inne").

Marek Jerzy Minakowski (minakowski.pl)

Ale już

Ale już w news.google.com są taxonomie, a dodatkowo można tam tworzyć własne query podając słowa kluczowe, w oparciu o które tworzone są tam nowe, dynamiczne taxonomie. Inna sprawa, że nie działa to doskonale, ale taxonomie są.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Może i news.google.com byłoby dobre, ale

wyłącznie jako agregator do pewnych rzeczy, pobieranych z serwisów źródłowych przez API (nawet jeśli w HTML-u będą tylko jakieś metadane ukryte).

Uważam, że publikacja materiału powinna być jak najbliżej źródła, najlepiej jeszcze na etapie roboczym. Pozwoliłoby to na wydłużenie terminów konsultacji, bo w tej chwili instytucja ma 2 miesiące na zaopiniowanie, a daje 3 dni na konsultacje po wypracowaniu "własnego" stanowiska. Ponadto dostęp do informacji produkowanej na bieżąco przez urząd umożliwiłby lepszy dostęp do informacji publicznej.

Ponadto uważam, że systemy obsługujące pocztę/workflow/kalendarz powinny udostępniać dane dla obywateli. Np. w ten sposób można publikować dziennik podawczy on line i każdy może sprawdzić, czy w danej (jego lub ogólnej) sprawie coś się dzieje.

Co więcej, wydaje mi się, że powinna występować decentralizacja i różnorodność rozwiązań informatycznych (zgodnie z zasadą neutralności technologicznej państwa). To znaczy, że systemy te, w każdej dziedzinie ogólnej (kalendarz) jak i szczegółowej (geodezja) będą
musiały spełniać określone wymagania co do interfejsu. Prawda często jest niestety jednak taka, że dane źródłowe będą bogatsze niż najlepsze interfejsy i powinny również być dostępne, w formatach oryginalnych i również w otwartych (o ile takie dla danej dziedziny istnieją).

Oczywiście, utrzymywanie 18 zaślepek marketingowych ma mały sens, ale skupić się należy na merytorycznej stronie zagadnienia.

Należy jednak pamiętać dlaczego WWW jest sukcesem a niektóre szczegółowo projektowane interfejsy nie - po prostu WWW ma bardzo niską barierę wejścia. I o to chodzi, aby dostęp do tego dać każdemu urzędnikowi, a nie tylko upoważnionemu webmasterowi i powinno się to stać rutyną pracy administracyjnej.

--
[S.A.P.E.R.] Synthetic Android Programmed for Exploration and Repair

Google żyje z algorytmów

Google żyje z algorytmów wyszukiwania, więc ma jedne z najbardziej zaawansowanych narzędzi, nad którym pracuje spora ekipa. Problem w tym, że obok Binga Microsoftu (u nas wciąż króluje Google, ale w USA Bing ma przyczółek) nie istnieje znacząca konkurencja. Od Googla algorytmu się nie kupi. Czy jest jakaś firma, która może stworzyć skuteczne narzędzie do wyszukiwania dokumentów tworzonych przez setki ludzi? A co w przypadku, kiedy nie znam szczegółów interesującego mnie dokumentu? Wpisując ogólniki dostaniesz nieskończone morze wyników. Z tym problemem boryka się każdy programista, bo trzeba pamiętać, że to wyszukiwarka ma nas rozumieć, a nie my ją (czyt. co wpisujemy w wyszukiwarkę). Nie zapominaj, że ze stron korzystają także osoby, które mają problemy z poruszaniem się po Internecie i zupełnie inaczej korzystają z wyszukiwarek. Nawet Google się myli.

U Ciebie jest stosowana chmura tagów, ale ma swoje wady: otwarta grozi brakiem spójności w przypadku wielu osób pracujących przy publikacji informacji, a zamknięta ogranicza i dodatkowo przy dużym zakresie tematyki jest bardzo słabo czytelna. Każde złe oznaczenie to ucieczka ważnych informacji. Czytam od dawna Twój serwis i czasem mam problemy z wygrzebaniem wpisów na interesujący mnie problem.

Wracając do tematu to do tego dochodzi problem z atakami w cyberprzestrzeni. Rządowe strony są szczególnie narażona na takie ataki (zarówno wewnętrzne jak i zewnętrze, patrz: Gruzja, Łotwa). Złamanie zabezpieczeń jednej strony paraliżuje informacyjnie państwo. A nie ma strony, która byłaby nie do złamania. Zresztą można robić ataki ddos (vide ostatnie ataki na strony rządowe), które nie potrzebują szukania luk w bezpieczeństwie.

A co z aktualizacją danych na stronie? Na wspomnianej brytyjskiej prędzej czy później będzie to problem. Swoją drogą mają krótkie notki, a przecież nie będą w stanie wyłapać błędów przy dłuższych notkach, bo osoba publikująca musiałaby się znać na wszystkim (od ministerstwa zdrowia po rolnictwo).

Zobaczymy co przyniesie eksperyment z UK, ale nie wróżę mu przyszłości. A jako podatnik krzywo patrzę na koszty związane z tworzeniem nowych instytucji czy budowy od nowa stron internetowych rządu. To już tak abstrahując od kwestii technicznych.

Ale też

Ale też rząd nie ma do zindeksowania tylu zasobów, co Google, która to spółka indeksuje sporą część internetu.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Sprawdziłem ilość stron

Sprawdziłem ilość stron na ministerstwie gospodarki (z bipem), w przybliżeniu ponad 50 tys. wyników ;-). Może i mało względem Internetu, ale dla jednego tagu może być setki wyników. Zapytanie: www.google.pl/search?q=site:mg.gov.pl. Zbudowanie dobrej wyszukiwarki tanie nie będzie, jeśli w ogóle się uda. Jako podatnik wolałbym, żeby nie wydawali kasy na to. Choć przyznam, że ta wyszukiwarka ma jeden wielki plus: politycy nie będą się promować za publiczne pieniądze. No chyba, że będzie jeden serwis, ale z newsami. To wtedy wojna oto, żeby być na pierwszej stronie serwisu :-).

Różnice w wyszukiwaniu

Zupełnie innym zadaniem jest indeksowanie stron w Internecie (różnorodność kontekstów, niespójność stylistyczna, róznorodność formatów i struktury), a zupełnie innym jest indeksowanie dokumentów, które publikuje się samemu (ustalona stylistyka, formaty, układ dokumentów i meta dane).

Dokumenty przed publikacją można opatrzyć meta danymi. Można przyjąć kilka sztywnych hierarchii (wzajemnie niezależnych) oraz chmurę tagów jednocześnie. Można zaimplementować pełne wyszukiwanie w modelu "bag of words" z thesaurusem (do wyszukiwań "apropos"). Można wreszcie sygnalizować publikację każdego dokumentu zainteresowanym na podstawie pozycji w różnych hierarchiach lub na podstawie słów kluczowych (bo dostajemy od razu informację o tym, że jakiś dokument został dodany).

Zadanie nie jest trywialne, wymaga pracy specjalistów od ergonomii, analizy tekstów, inżynierii oprogramowania i baz danych. Do tego przydałaby się integracja z wewnętrznymi systemami elektronicznego obiegu dokumentów, aby publikacji można było dokonać jednym kliknięciem (dokument obrasta w meta dane w trakcie tworzenia).

Zadanie jest jak najbardziej do wykonania.

Z tym wszystkim się zgadzam

Indeksowanie swoich zasobów jest zupełnie innym zadaniem niż indeksowanie całego Internetu. Dodatkowo udostępnianie naszych strategicznie ważnych krajowych danych za pomocą obcych serwisów (np. Googla) jest wyjątkowo nietrafionym pomysłem. W ten sposób pracownicy Google by mogli kiedyś nam spłatać jakiegoś brzydkiego figla i nie było by winnego.
Zresztą wynikami wyszukiwania Google mogą manipulować nie tylko pracownicy Google, jest wiele osób które to potrafi.
Wszelkie dane rządowe, sejmowe, urzędowe itd powinny być moim zdaniem na serwerach rządowych (specjalnie zabezpieczonych). To raczej nie powinno podlegać żadnej dyskusji.

Warto też się pobawić

Warto też się pobawić wyszukiwarką na wspomnianej stronie z UK. Hierarchia wyników to podstawa. Jeżeli wszystkie dokumenty będą dostępne przez tą jedną stronę to będą się działy cuda :).

Algorytm Google ma dwie przewagi nad każdą wewnętrzną (w serwisie) wyszukiwarką. Po pierwsze jest w stanie sprawdzić ile stron linkuje na daną stronę i jakie to są strony (ocenić), na podstawie tego będzie budować hierarchię wyników (uproszczając). Google też poświęca dużo uwagi badaniu użytkowników, a ma tutaj ogromny potencjał badawczy (nie tylko ilość osób, ale także zaawansowane technicznie metody).

Jak będę miał więcej czasu to pobawię się dłużej narzędziem z UK.

> Algorytm Google ma dwie

> Algorytm Google ma dwie przewagi nad każdą wewnętrzną
> (w serwisie) wyszukiwarką.

Wewnętrzna wyszukiwarka może się wspomagać logami własnego serwera, w tym popularnością poszczególnych zasobów oraz tzw. refererami, czyli adresami zewnętrznych stron linkujących, z których nastąpiło wejście. Google do niczego nie jest tu potrzebny.

Repozytorium dokumentów to nie strona internetowa

W moim rozumieniu repozytorium dokumentów to nie strona internetowa a system zarządzania dokumentami (tzw. back-end) ze stroną internetową jako jeden z kanałów dostępu (tzw. front-end).

Taki podział pozwala udostępniać dokumenty na różne sposoby. Kanałów dostępowych może być wiele i mogą to być strony internetowe o różnym "profilu" lub aplikacje "desktopowe" więc nie skazujemy się na jeden sposób prezentacji.

Różnica, w porównaniu do stanu obecnego, polega na tym, że zaistnieje jedno, autorytatywne źródło dokumentów publicznych, z którego reszta aplikacji będzie korzystać w roli "klienta".

W systemach z którymi pracuje na codzień, repozytorium pozwala zapewnić, że po wprowadzeniu dokument będzie:

  1. wyszukiwalny (system OCR przetwarzają każdy skan przed wprowadzeniem dokumentu do repozytorium)
  2. skatalogowany (przy wprowadzaniu dokumentu można dokument opisać metadanymi)
  3. dostępny (repozytorium może być rozproszone na kilku maszynach dzielących się obciążeniem)
  4. niemodyfikowalny (specjalne macierze dyskowe uniemożliwają nadpisanie dokumentu
  5. wersjonowany (wprowadzany dokument może zostać oznaczony jako )

Wszystkie te funkcje repozytorium udostępnia w formie API (np. WebService) z którego korzystają aplikacje i strony. W szczególności odbiorca mógłby stworzyć taką aplikację we własnym zakresie. Istotne jest aby API było publiczne i w miarę stabilne.

Takie systemy, kryjące się pod pojęciem Document Management System (DMS), są wykorzystywane od przeszło dekady, były wdrażane w dużych zachodnich firmach, do wewnętrznego zarządzania dokumentami różnej maści, m.in. do rozpatrywania odszkodowań komunikacyjnych.

Niestety nie znam żadnego systemu DMS, który jednocześnie spełniałby wszystkie powyższe punkty oraz posiadał publiczne API.

Problem zmieniania się (bez wyjaśnienia) informacji u Prezydenta

Pewien związek z powyższym ma też problem z którym spotkałem się na stronach Prezydenta RP.

Otóż na stronie Prezydenta RP umieszczane są m.in. statystyki orderów i odznaczeń. Pomijam już częste ich antydatowanie (tzn. wstawienie ich np. z miesięcznym opóźnieniem w stosunku do daty jaka podawana jest jako data ich publikacji), ale dochodzi w nich też - czasem chyba nawet wiele tygodni po publikacji - do zmiany danych liczbowych. I co istotne takie zmiany nie są w żaden sposób anonsowane.

Czy nie należałoby więc postulować o dodanie obowiązku/bezwzględnego wymogu podawania prawdziwej daty zamieszczenia/publikacji informacji oraz obowiązku umieszczania informacji o każdej zmianie dokonanej w już opublikowanym tekście wraz z podaniem daty i przyczyny takiej zmiany?

Podobny problem jest z tymi konsultacjami

Zmienił się tytuł notatki na stronie MAiC. Było "Zapraszamy do konsultacji stanowiska rządu w sprawie europejskiej strategii otwartego dostępu do danych", teraz jest "Przypominamy o konsultacji stanowiska rządu w sprawie europejskiej strategii otwartego dostępu do danych" plus informacja, że "Konsultacje te ogłosiliśmy 26 stycznia". I pojawił się link do notatki Konsultacje: jak przetwarzać informacje publiczne w Europie, przy której jest data 26 stycznia. Sprawdziłem. Agregator RSS-ów z MAiC sygnalizuje, że 30 stycznia zassał taki tytuł jak "Konsultacje: jak przetwarzać informacje publiczne w Europie", a dodatkowo Sieć przechowuje tekst Konsultacje: jak przetwarzać informacje publiczne w Europie opublikowany na zewnętrznej w stosunku do MAiC stronie.

Wniosek - re-use informacji publicznej potrafi wpływać na ocenę wiarygodności przekazywanych (i zmienianych jak widać w czasie) informacji.

Temat sygnalizuję dla porządku.
--
[VaGla] Vigilant Android Generated for Logical Assassination

Ważne byłoby żądanie trwałości adresu publikacji materiałów

Jest jeszcze inny ważny problem z materiałami publikowanymi na stronach publicznych - niestałość adresu.

Nierzadko jest tak, że "dzisiejsze" linkowanie do określonej publikacji "następnego" dnia pokazuje error.

I niekiedy by ponownie dotrzeć do interesującej nas publikacji, bywa że dodatkowo ukrytej gdzieś w głębi portalu, nie wystarczy żmudnych poszukiwań, trzeba mieć jeszcze szczęście, bo tak są schowane.

Doskonałym tego przykładem było to co się stało ze stroną Prezydenta RP. po wyborze Komorowskiego. Bodaj wszystkie wcześniejsze linkowania przestały działać.

Stąd postulat może dałoby się wprowadzić warunek nie zmienialności adresu każdego z materiałów z dyskutowanego zakresu po jej publikacji?

Niestety, ten problem nie

Niestety, ten problem nie jest nowy. Tim Berners-Lee sformułował podobny postulat niemal 15 lat temu:
http://www.w3.org/Provider/Style/URI.html

Niestety, wiele to nie dało :-/

Stop oszukiwaniu!

Mój ostatni komentarz. Dzisiaj szukając ekw, znalazłem stronę http://www.elektroniczne-ksiegi-wieczyste.pl/ która oferuje odpisy z ksiąg wieczystych. Tutaj otwartość Państwa na dostęp do danych może powinna ulec zmianie. Strona oferuje odpisy z ksiąg wieczystych. Oczywiście mają inne kwoty niż ustala to prawo jednak podszywanie się pod instytucje państwowe to już norma. Nie dość że layout strony jest bardzo zbliżony z ekw.ms.gov.pl to jeszcze w ewidentny sposób wprowadzają obywateli w błąd w karcie kontakt.

I jak tu obywatel ma się czuć nie oszukany.

Podobnie jest z innymi rejestrami.

Konsultacja przez ankietę

Przykłady z nowej formy konsultacji MKiDN:

"W jakim zakresie zdigitalizowane dobra kultury powinny być udostępniane do ponownego nieodpłatnego wykorzystania? Czy zdigitalizowane materiały powinny być udostępniane nieodpłatnie przez instytucje (np. muzea) do celów komercyjnych w celu osiągnięcia zysku przez podmioty trzecie?"

"Jaki powinien być status metadanych (opisów obiektów cyfrowych) tworzonych przez publiczne instytucje kultury? Czy powinny być udostępniane nieodpłatnie przez tego rodzaju instytucje (np. muzea) do celów komercyjnych w
celu osiągnięcia zysku przez podmioty trzecie?"

http://www.mkidn.gov.pl/pages/strona-glowna/finanse/konsultacje-w-sprawie-digitalizacji.php

Ładne?

Piotr VaGla Waglowski

VaGla
Piotr VaGla Waglowski - prawnik, publicysta i webmaster, autor serwisu VaGla.pl Prawo i Internet. Ukończył Aplikację Legislacyjną prowadzoną przez Rządowe Centrum Legislacji. Radca ministra w Departamencie Oceny Ryzyka Regulacyjnego a następnie w Departamencie Doskonalenia Regulacji Gospodarczych Ministerstwa Rozwoju. Felietonista miesięcznika "IT w Administracji" (wcześniej również felietonista miesięcznika "Gazeta Bankowa" i tygodnika "Wprost"). Uczestniczył w pracach Obywatelskiego Forum Legislacji, działającego przy Fundacji im. Stefana Batorego w ramach programu Odpowiedzialne Państwo. W 1995 założył pierwszą w internecie listę dyskusyjną na temat prawa w języku polskim, Członek Założyciel Internet Society Poland, pełnił funkcję Członka Zarządu ISOC Polska i Członka Rady Polskiej Izby Informatyki i Telekomunikacji. Był również członkiem Rady ds Cyfryzacji przy Ministrze Cyfryzacji i członkiem Rady Informatyzacji przy MSWiA, członkiem Zespołu ds. otwartych danych i zasobów przy Komitecie Rady Ministrów do spraw Cyfryzacji oraz Doradcą społecznym Prezesa Urzędu Komunikacji Elektronicznej ds. funkcjonowania rynku mediów w szczególności w zakresie neutralności sieci. W latach 2009-2014 Zastępca Przewodniczącego Rady Fundacji Nowoczesna Polska, w tym czasie był również Członkiem Rady Programowej Fundacji Panoptykon. Więcej >>