Filtr wie lepiej

Właściwie to tylko odnotuję kłopoty urzędników, którzy - tak wyszło - mają do wykonania jakąś pracę z komputerem, ale komputer, a ściślej filtry mające zabezpieczać urzędników przed nieprawomyślnymi treściami, jakoś starają się im przeszkadzać w pracy. Efekt jest taki, że ktoś może odnieść wrażenie, że " zakazane treści czają się wszędzie".

O problemach warszawskich urzędników pisze Gazeta.pl w tekście Dla miejskich komputerów seks czai się wszędzie. No dobrze. Nie Gazeta.pl pierwsza, a Życie Warszawy, na które Gazeta.pl się powołuje. Podane są tam przykłady niedozwolonych przez programistów słów: municipality, banalny, analiza, XX wiek, i inne iksy. Jednym słowem zastosowano prosty mechanizm, który znany jest z tekstu Czarna lista Beniamina - jak się blokuje "homik" to siłą rzeczy blokuje się też "chomik", bo to "homik" z "c" (a poza tym takie zupełnie nieszkodliwe zwierzątko).

Tak. Sporo było już w tym serwisie o filtrach.

Opcje przeglądania komentarzy

Wybierz sposób przeglądania komentarzy oraz kliknij "Zachowaj ustawienia", by aktywować zmiany.

W tekście ZW więcej szczegółów

Programom filtrującym wszystko kojarzy się z jednym, odcinają więc urzędników od sieci jako potencjalnych erotomanów. Przykładem jest urząd Ochoty. Zapanowała tam konsternacja, gdy pracownicy próbowali wejść na anglojęzyczną stronę urzędu Ursynów. Na ekranie ukazało się ostrzeżenie, że strona nie może zostać otwarta, gdyż... zawiera treści zakazane.

http://www.zw.com.pl/artykul/226506.html

Takie filtry stosowane w

Filtry stosowane w urzędach są m.in. odpowiedzią na zarzuty, że urzędnicy zajmują się wszystkim tylko nie pracą i ich obsługiwaniem petentów. Trudno uznać za konsekwentne takie narzekanie, a potem naśmiewanie się z problemów techniczny gdy ktoś chce coś z tym zrobić (to nie do Ciebie Piotrze, tylko do niektórych redakcji, których zachowanie jest w tej kwestii nieco schizofrenicznie).

Zarządzam paroma serwerami firmowymi gdzie generowane są m.in. statystyki ruchu i mówiąc szczerze czasem zastanawiam się za co ludzie tam pracujący biorą pieniądze biorąc pod uwagę charakter oraz ilość stron odwiedzanych przez nich w ciągu całego dnia roboczego.

Natomiast odrębny problem to to, że sprzedawane obecnie w Polsce filtry są na poziomie aplikacji dla rodziców z lat 90-tych.

Trudno się dziwić, że działają niedokładnie, skoro stosują prymitywne filtrowanie za pomocą słów kluczowych. Tym, że jakiś filtr zablokował słowo "Essex" gazety w USA podniecały się 10 lat temu. Dzisiaj mało kto o tym pisze, bo zdarza się to rzadko, a nawet jak się zdarzy to system ma zawsze mechanizm pozwalający na odblokowanie takiej strony i zgłoszenie problemu do producenta.

Obecnie rynek "web content filters" to potężna gałąź produktów, które charakteryzują się przede wszystkim tym, że pozwalają filtrować strony według precyzyjnie zdefiniowanych kategorii a nie mętnie zdefiniowanej "niewłaściwości treści".

Czyli mamy oddzielne kategorie "porno", "hate speech", ale także "blogi". Jeśli polityka firmy nie zezwala na łażenie po blogach to produkt może je blokować. Jeśli zezwala, to nie blokuje. Taka skompresowana baza dla jednego z high-endowych produktów, które znam ma ok. 1,5 GB posortowanych linków. A w naszych filtrach wszystko jest wrzucone do jednego worka - chaotyczne fragmenty domen, słowa kluczowe itd.

Ale problem ze stworzeniem takiego projektu jest bardzo konkretny - trzeba mieć kogoś, kto będzie codziennie weryfikował nowe strony podlegające blokowaniu oraz zgłoszenia stron błędnie zakwalifikowanych. A temu komuś trzeba płacić i to codziennie - to dokładnie taki sam problem jak z systemami IDS/IPS i który doprowadził do komercjalizacji regułek Snorta.

Za kilka dolarów miesięcznie można kupić przyzwoite listy blokujące utrzymywane przez zespół DansGuarda ale... dostosowane do użytkownika anglosaskiego.

Jeśli ktoś szuka więc pomysłu na biznes w Polsce to jest jak znalazł, mogę doradzić jakich błędów nie popełnić.

--
Podpis elektroniczny i bezpieczeństwo IT
http://ipsec.pl/

A może by tak Bayes...?

A może by tak do filtrowania "niedozwolonych" stron zastosować filtr bayesowski? Skoro tak dobrze sprawdza się przy filtrowaniu spamu to czemu tu ma byc gorzej? Oczywiście ktoś w instytucji chcącej zastosowac taki filtr musiałby najpierw go wytrenować, przejśc te kilkaset stron i zaznaczyć, co ma być blokowane, a co nie, ale Bayes ma tę zaletę, że nie potrzeba miec kompletnej, ciągle uaktualnianej bazy adresów, które mają być blokowane, tylko będzie blokował wszystko "podobne do". A jeżeli jakaś konkretna strona zostanie zablokowana niesłusznie - to też w ramach trenowania filtru mozna wskazac, żeby jej nie blokował...

a myslisz ze filtr Bayesa

a myslisz ze filtr Bayesa jest znany informatykom z urzedu? wybacz ale ja podobnych "informatykow" znam i jakos choc formalnie wyksztlacenia takowego nie posiadam to cos sie jednak znam a moi "znajomi" to raczej nie - smiem wierdzic...

Piotr VaGla Waglowski

VaGla
Piotr VaGla Waglowski - prawnik, publicysta i webmaster, autor serwisu VaGla.pl Prawo i Internet. Ukończył Aplikację Legislacyjną prowadzoną przez Rządowe Centrum Legislacji. Radca ministra w Departamencie Oceny Ryzyka Regulacyjnego a następnie w Departamencie Doskonalenia Regulacji Gospodarczych Ministerstwa Rozwoju. Felietonista miesięcznika "IT w Administracji" (wcześniej również felietonista miesięcznika "Gazeta Bankowa" i tygodnika "Wprost"). Uczestniczył w pracach Obywatelskiego Forum Legislacji, działającego przy Fundacji im. Stefana Batorego w ramach programu Odpowiedzialne Państwo. W 1995 założył pierwszą w internecie listę dyskusyjną na temat prawa w języku polskim, Członek Założyciel Internet Society Poland, pełnił funkcję Członka Zarządu ISOC Polska i Członka Rady Polskiej Izby Informatyki i Telekomunikacji. Był również członkiem Rady ds Cyfryzacji przy Ministrze Cyfryzacji i członkiem Rady Informatyzacji przy MSWiA, członkiem Zespołu ds. otwartych danych i zasobów przy Komitecie Rady Ministrów do spraw Cyfryzacji oraz Doradcą społecznym Prezesa Urzędu Komunikacji Elektronicznej ds. funkcjonowania rynku mediów w szczególności w zakresie neutralności sieci. W latach 2009-2014 Zastępca Przewodniczącego Rady Fundacji Nowoczesna Polska, w tym czasie był również Członkiem Rady Programowej Fundacji Panoptykon. Więcej >>