O projektu
Projekt Razvoj i primjena modela za normalizaciju grafije starih latiničnih tiskanih tekstova (MONOGRAF) provodi se od 1. siječnja 2024. do 31. prosinca 2027. u Institutu za hrvatski jezik kao projekt koji financira Europska unija – NextGenerationEU u okviru Nacionalnoga plana oporavka i otpornosti 2021. – 2026. Voditelj je projekta dr. sc. Vuk-Tadija Barbarić, a suradnica je dr. sc. Marijana Horvat. Prethodio mu je projekt u okviru osnovne djelatnosti Instituta za hrvatski jezik Razvoj modela za normalizaciju grafije starih latiničnih tiskanih tekstova, koji se provodio od 1. siječnja 2021. do 31. prosinca 2023.
Više o projektu
Velika prepreka stvaranju hrvatskih povijesnih jezičnih resursa jest povijesna tropismenost, a unutar nje posebno složenost latiničnih grafija. Predloženim projektom razvit će se model kojim će se prevladati navedeni problem, što će pokazati put do bržeg stvaranja povijesnojezičnih korpusa te posljedično ubrzati i inače mukotrpnu tekstološku produkciju. U korpus za analizu uključit će se dovoljno digitaliziranih starih latiničnih knjiga kako bi se došlo do brojke od milijun pojavnica, a među njima će se naći i neke gramatike. Knjige će se digitalizirati u izvornoj grafiji s pomoću OCR-a (optical character recognition) uz provođenje procedure koja će znatno umanjiti mogućnost pogrešaka u digitaliziranoj građi. Projekt će iznjedriti vjerno digitalizirane knjige visoke kvalitete (kvalitetu kontroliraju iskusni filolozi, a ne samo tehnički osposobljeno osoblje).
Postoji znatna literatura o hrvatskoj povijesnoj latiničnoj grafiji, ali ovaj će se projekt nadograditi na nju te je dopuniti preciznim grafematičkim opisima primjerenijim za računalnu praktičnu primjenu. Očekuje se da će se rezultati projekta, a ponajprije predviđeni korpus, uspješno dopunjavati s postojećim vrijednim („analognim” i digitalnim) resursima kao što su Akademijin rječnik (AR) i Rječnik hrvatskoga kajkavskoga književnog jezika (KR). S tim u vezi projekt će surađivati s drugim institutskim (tekstološkim) projektima, koji će se i u budućnosti moći trajno služiti njegovim rezultatima.
Za korpus su izabrane sljedeće knjige:
Josip Banovac, Predike od svetkovina došašća Isukrstova, 1759. (zastupljena u AR-u; već u cijelosti digitalizirana)
Josip Banovac, Blagosov od polja, 1767. (zastupljena u AR-u)
Nikola Dešić, Raj duše, 1560. (nezastupljena u AR-u)
Hrvatski protestanti, Proroci, 1564. (zastupljena u AR-u, ali prema izdanju Vatroslava Jagića)
Šime Starčević – Nova ričoslovica ilirička, 1812. (nezastupljena u AR-u; već u cijelosti digitalizirana)
Bartol Kašić – Vanđelja i pistule, 1641. (nezastupljena u AR-u)
Bartol Kašić – Pismo od nasledovanja Gospodina našega Jezusa, 1641. (zastupljena u AR-u; digitalizacija se obavlja u okviru drugoga institutskog projekta De imitatione Christi na trima stilizacijama hrvatskoga književnog jezika)
Ivan Krištolovec (?), Od nasleduvanja Krištuševoga, 1710. (zastupljena u KR-u, ali prema izdanju iz 1760.; digitalizacija se trenutačno obavlja u okviru drugoga institutskog projekta De imitatione Christi na trima stilizacijama hrvatskoga književnog jezika)
Marko Marulić, prvih pet izdanja Judite (1521., 1522., 1523., 1586., 1627.), što ih ovdje zbog relativno male veličine sve brojimo kao jednu knjigu (zastupljena u AR-u, ali samo prema izdanju iz edicije Starih pisaca hrvatskih)
Ivan Pergošić, Decretum, 1574. (zastupljena u KR-u, ali prema kritičkom izdanju iz 1909.; osobito izazovna za razvoj modela zbog mnogo teksta na njemačkome jeziku)
Matija Antun Relković – Nova slavonska i nimačka gramatika, 1767. (nezastupljena u AR-u)
[Dodatna knjiga iz koje će se preuzeti dovoljno teksta ako bude potrebe da se postigne veličina korpusa od milijun pojavnica jest: Anton Dalmatin i Stipan Konzul, Postila, 1568. (zastupljena u AR-u, ali prema glagoljičnoj inačici iz 1562.)]
Projekt financira Europska unija iz fonda NextGenerationEU.