Časté OCR chyby

editovat
  • (v|na) právo → (v|na) pravo
  • pólo → polo
  • z čistá jasná → z čista jasna
  • tornu → tomu
  • (\d)+1et[áéíý] → (\d)+let[áéíý]
  • plátn[oa] → platn[ao]

Regulární výrazy pro hledání záměn 0/O a 1/I nebo l

editovat
grep '^0' cswikisource-YYYYMMDD-pages-articles.xml | grep -v 'https?:'
grep ' 0 ' cswikisource-YYYYMMDD-pages-articles.xml | egrep -v '(margin|padding)'
grep '0[[:alpha:]]' cswikisource-YYYYMMDD-pages-articles.xml  | egrep -v '(<sha1|<comment|<timestamp|ISBN=|https?:)'
egrep '([Il][0-9]|[0-9][Il])' cswikisource-YYYYMMDD-pages-articles.xml | grep -v 'https?:'

Ještě je to potřeba doladit, 2. řádek dává hodně falešně pozitivních výskytů např. v tabulkách, 3. řádek zase ve slovech typu 10letý nebo zápisech typu 40px.

Rozpracováno a opuštěno

editovat

viz Kategorie:Údržba:Rozšířit

Sledování přesunů

editovat

Stránky, na které je odkazováno z Wikislovníku, a přitom je reálné, že budou přejmenovány nebo rozděleny:

Nápověda

editovat
  • extrakce obrázku z djvu: ddjvu -page=NNN -format=tiff -verbose vstup.djvu vystup.tiff
  • spojení do jednoho souboru djvu: djvm -c cele.djvu *.djvu
  • spojení do jednoho souboru txt a konverze: for i in *.txt; do cat $i >> cele.txt; echo >> cele.txt; done; dos2unix cele.txt; sed -i -e 's///g' -e 's/[[:space:]]\+/ /g' -e 's/"/“/g' cele.txt (substituční skripty pro sed provedou, po řadě, odstranění Unicode znaku FEFF (znak není očima vidět, ale způsobil již nejeden problém), stažení opakovaných bílých znaků, záměnu uzavírací uvozovky (vhodné při konverzi z Krameria))
  • hromadné mazání (parametr -file mi, nevím proč, nefungoval): cat smazat.txt | { while read i; do python delete.py -page:"$i" -summary:"relikt po přesunu" -always; done; }
  • regulární výrazy pro přidávání prefixu Autor: v Emacsu, vynechávají odkazy vedoucí do jiného projektu (tj. obsahující dvojtečku); normálně bych to nahradil sedem, ale potřeboval jsem potvrzování každého jednotlivého nahrazení, protože seznamy obsahovaly i několik odkazů na díla, tedy Emacs:
    • verze [[Jméno]] → [[Autor:Jméno]]: \[\[\([^]:|]*\)\]\][[Autor:\1|\1]]
    • verze [[Jméno|Jméno jinak]] → [[Autor:Jméno|Jméno jinak]]: \[\[\([^]:|]*\)|\([^]:|]*\)\]\][[Autor:\1|\2]]
  • nahrazování pomocí regulárních výrazů ve vimu: :[rozsah]s/hledat/nahradit/[volby], kde rozsah může být např. 8,10 (8.–10. řádek) nebo % (celý dokument), jinak nahrazuje jen na aktuálním řádku, a volby může být např. g (nahrazuje více výskytů na řádku, jinak jen první výskyt) nebo c (požaduje se potvrzení každého nahrazení)
  • značkování čísel veršů: sed -i -e 's/^\([0-9]\+\) /{{Číslo verše|\1}}/' -e 's/^\(.*\) \([0-9]\+\)$/{{Číslo verše|\2}}\1/' soubor.txt
  • převod nečíslovaného „číslovaného“ seznamu na číslovaný seznam, pro arabské i římské číslování: sed -i -e 's/^\*\[\[\(\/[IVXLCDM0-9]\+\. \+\)\(.*\)\/\]\]/# [[\1\2|\2]]/' soubor.txt
  • náhrada tří teček (v různých variantách včetně proložení mezerami) znakem výpustky: sed -i -e 's/\ *\.[. ][. ]*\./…/g' soubor.txt
  • obrys textu v Gimpu: http://www.gimpology.com/submission/view/how_to_outline_text
  • při substování konstrukcí s #if nebo #switch uvnitř šablony je nutné uzavírat prefixy subst: do <includeonly>, viz např. wikt:Šablona:Vzor verbum