30 godina ‘dobrog alata Hašeka’ koji dnevno obradi više od 30 tisuća vaših tekstova

netokracija - prije 2 mjeseca - link

Kako to obično biva u Hrvatskoj, taj iskorak nije rezultat rada sustava ili institucija, nego entuzijastičnog pojedinca, kojeg se šira javnost sjetila nedavno, povodom vijesti o njegovoj smrti. Riječ je o Šandoru Dembitzu, profesoru na zagrebačkom FER-u, gdje je radio od 1974. u Zavodu za osnove elektrotehnike i električka mjerenja.

Srećom po korisnike, Dembitzov rad na Hašeku nastavio je prof. Gordan Gledec, nekadašnji dekan FER-a i njegov dugogodišnji bliski suradnik na ovom projektu. S njim smo popričali o izazovima u razvoju Hašeka u vremenu prije zamaha umjetne inteligencije, o njegovoj motivaciji za angažman, trendovima koje je u korištenju Hašeka uočio, smislu bavljenja hrvatskim jezikom itd.

Šandor Dembitz bio mi je asistent na tadašnjem ETF-u, ali u to doba nisam znao kojim se istraživanjima bavi. Tek kad sam se potkraj devedesetih zaposlio na FER-ovu Zavodu za telekomunikacije, saznao sam za njegov spelling checker Hascheck.

Hascheck je javno dostupan od 21. ožujka 1994. kao online usluga putem elektroničke pošte, tj. korisnicima je omogućavao da mailom pošalju svoj tekst, a Hascheck bi vratio popis nepoznatih riječi, bez ponuđenih ispravaka.

Budući da me smeta šlampavost u pisanju, otprilike 2003. godine zainteresirao sam se više za njegov rad i napravio web-sučelje za Hašek, koje je omogućavalo prikazivanje pogrešaka u poslanom tekstu, zadanoj web-stranici ili u PDF-datoteci poslanoj na obradu. To je izgledalo otprilike ovako.

Link na uslugu brzo se proširio mrežom tako da je broj korisnika rastao, a Šandor je uveo i funkcionalnost nuđenja ispravaka. Kasnije smo u projekt spellcheckera uključivali i svoje studente.

Hascheck iz 2008. godine.

Informatički izazovi u počecima

Izrada web-sučelja bila je prekretnica koja je omogućila da uslugu postupno počne koristiti sve veći broj korisnika. Kad se proširila među novinarima i drugim stvarateljima sadržaja, osigurali su jaču hardversku podršku koju su u više navrata i proširivali. Naime, u vrijeme nastanka Haschecka IT tehnologije bile su bitno manje razvijene pa izazova u razvoju nije nedostajalo:

U početku usluge problem je bilo ograničenje memorije i diska, ali i izostanak rječničke baze – inicijalna baza općejezičnih pojmova nastala je na temelju desne strane Bujasova englesko-hrvatskog rječnika koji je sredinom sedamdesetih Šandor dobio na računalno uređivanje.

Kasnije su problem bili različiti znakovni skupovi koje su korisnici upotrebljavali (prastari CROSCII, zatim ISO-8859-2, Microsoftov CP1250 i kasnije UTF). Izvorna baza i dalje koristi format zapisa iz vremena početka usluge, a zbog Unix-skripti koje je obrađuju, a koje su nastale prije više od 30 godina, danas je teško išta mijenjati ili popravljati u njima.

Objašnjava dalje da je uspjeh uopće i razumjeti što je Šandor programirao. Zato se nova funkcionalnost razvija u web-aplikaciji, koja isprva poziva originalnu Hascheckovu skriptu i parsira njegov rezultat, ali onda kontekstnu provjeru i provjeru najčešćih gramatičkih i sintaktičkih pogrešaka obavlja bez oslanjanja na Hascheck.

Lako pamtljiva adresa i greške koje se ponavljaju

Nakon web-sučelja, sljedeća velika prekretnica bila je promjena domene, otkad Hašeka možete naći na https://ispravi.me/. Osim same funkcionalnosti jezične provjere, tu je ažurna statistika korištenja, ali i široj javnosti uvijek zanimljiv godišnji pregled najčešćih jezičnih pogrešaka korisnika Haschecka.

Na toj adresi saznali smo da se u 2023. godini od pravopisnih pogrešaka najviše griješilo u upotrebi „ć“ i „č“, „ije“ i „je“, što se već godinama ponavlja.

Zamjetno je i često pisanje riječi “svo” umjesto “sve”, “niko” umjesto “nitko”, “šta” umjesto “što”, “vjerovatno” umjesto “vjerojatno” ili “projekat” umjesto “projekt”. Pri vrhu je i pogrešno pisanje negacije pa tako “ne bi” postaje “nebi”, a “ne znam” postaje “neznam”. “Sa mnom” često postaje “samnom”,

navodi se na Hašekovu blogu, uz još niz primjera i preglednih statistika.

Primjerice, od gramatičkih i stilskih pogrešaka, kojih je lani pronađeno 300 tisuća, jako su zastupljene sintagme “s obzirom da” (treba “s obzirom na to da”), “na taj način” (bolje je “tako”) ili “na način da” (bolje je “tako da”), “zajedno s” (najčešće je dovoljno “s”),“iz razloga što” (ispravno je “zato što”) itd.

Dnevno se provjeri 30 tisuća tekstova

Zanimalo nas je i koje je dugogodišnje trendove Gledec uočio u svom 20-godišnjem bavljenju Hascheckom. Osim stalnog povećanja broja korisnika i količine materijala, izdvaja dvije zanimljivosti:

Iznenadili smo se kad smo ustanovili da sve više korisnika dolazi iz Srbije i Crne Gore, s tekstovima na njihovim jezicima, što je vjerojatno odraz činjenice da tamo nema ovakve usluge, a jezici su slični. Njima ne smeta što im Hašek ekavicu uredno ijekavizira. Uočili smo i da su tekstovi koji dolaze iz SAD-a i Njemačke pismeniji od onih koji dolaze s domaćih adresa.

Izvorno je ova usluga bila namijenjena akademskoj zajednici, a danas ima stotine tisuća malih korisnika. Među njima su i oni profesionalni, koji su izvor prihoda za održavanje usluge:

Od profesionalnih korisnika, koji našu uslugu u iznadprosječnom obujmu koriste za svoje profesionalne potrebe, tu su najveće medijske i televizijske kuće, PR i internetske oglašivačke agencije, ali i neke kompanije i poduzeća čije vodstvo razumije nužnost ispravnog pisanja i urednost u komunikaciji s korisnicima. Prije desetak godina uslugu je aktivno podržavao i Agrokor, koji ga je koristio kao korporacijski pravopisni provjernik.

S novim imenom i ruhom, Hascheck ima i informacije za one koji žele znati više: bila to najčešća pitanja ili najvažnije novosti na njihovom blogu.

Inače, osim preko web-sučelja, uslugu je moguće koristiti i putem API-ja, koji tvrtka, primjerice, može ugraditi u svoj CMS.

Očekivano, Gledec raspolaže i svježim statistikama:

Dnevno imamo oko 10 tisuća korisnika koji na provjeru pošalju 30 tisuća tekstova. Dosad smo ovog mjeseca imali više od 55 tisuća korisnika koji su na obradu poslali gotovo 420 tisuća tekstova s gotovo 90 milijuna riječi.

Hoćemo li ikad dobiti jezični alat moćan kao Grammarly?

Dobra je vijest što projekt neće stati nakon Dembitzove smrti jer su, uz Gledeca, u njegovu razvoju već dugo uključeni studenti FER-a:

Nakon mog uključivanja, na razvoju su sudjelovali i naši studenti prijediplomskih i diplomskih studija te naši asistenti (koji su istovremeno radili na magisterijima ili doktoratima). Nakon Šandorove smrti preuzeo sam svakodnevne poslove uređivanja i održavanja sustava i učenja novih riječi, kao i održavanje n-gramskog sustava jezika.

Sa studentima radim na novim funkcionalnostima vezanim uz ispravljanje gramatičkih i kontekstualnih pogrešaka, u nadi da ćemo korisnicima dati bar dio funkcionalnosti kakvu za engleski jezik daju poznati svjetski servisi.

Na naše pitanje odgovara da nije realno očekivati da ćemo ikad za hrvatski jezik dobiti jezični alat moćan kao Grammarly:

Engleski jezik govori daleko veći broj ljudi, ima ogroman korpus dostupnog teksta važnog za učenje. Njegove morfološke karakteristike, posebno sustav deklinacija i konjugacija, daleko su jednostavnije nego u hrvatskom. Dominantan je u međunarodnoj komunikaciji i u njega se puno ulaže puno više resursa i istraživanja.

Zašto je onda važno bavljenje hrvatskim jezikom?

Smatram da brigom o jeziku doista i stvarno čuvamo i razvijamo svoju kulturu i nacionalnu pripadnost. Oni koji se busaju o nacionalna velikohrvatska prsa po društvenim mrežama najčešće su potpuno nepismeni, do razine osnovne škole, čime i njihovo hrvatstvo (p)ostaje samo deklarativno. Ako si veliki Hrvat, daj barem nauči jezik.

Što se sprema novoga?

U tome itekako mogu pomoći najnovije i najavljene mogućnosti Hašeka:

Prije nekoliko mjeseci u uslugu smo ugradili mogućnost prepoznavanja pogrešno napisanog datuma, zatim suvišnih razmaka ispred ili iza znakova interpunkcija i zagrada, ispravnog pisanja postotaka; ubrzano je ispravljanje gramatičkih i pleonastičkih pogrešaka i slično.

U planu je implementacija ispravljanja zatipaka (tipfelera) koji su zapravo ispravne riječi, ali u krivom kontekstu (npr. svjetlo i svijetlo). Vjerujem da ćemo ići i prema dodavanju usluge parafraziranja i stilskog dotjerivanja teksta.

I konačno, neizbježno je pitanje odakle mu motivacija za dugogodišnji rad na ovoj javnoj usluzi.

Na ovom projektu dotakli su se moj interes za jezik i za web, vjerojatno i činjenica da sam u nekoj mjeri i grammar-nazi, a motivacija mi je to što smatram da svojim radom pomažem tisućama ljudi koji svaki dan koriste uslugu. Hrvatski jezik je u europskim (ali i svjetskim) razmjerima računalno prilično zapušten, a utvaram si da su Šandorov i moj rad dali bar mali doprinos dostupnosti jezičnih tehnologija za njega.

pročitaj cijeli članak

Intervju (67)Tehnologija (492)