Uživatel:Milda/poznámky

Časté OCR chyby

(v|na) právo → (v|na) pravo
pólo → polo
z čistá jasná → z čista jasna
tornu → tomu
(\d)+1et[áéíý] → (\d)+let[áéíý]
plátn[oa] → platn[ao]

Regulární výrazy pro hledání záměn 0/O a 1/I nebo l

grep '^0' cswikisource-YYYYMMDD-pages-articles.xml | grep -v 'https?:'
grep ' 0 ' cswikisource-YYYYMMDD-pages-articles.xml | egrep -v '(margin|padding)'
grep '0[[:alpha:]]' cswikisource-YYYYMMDD-pages-articles.xml  | egrep -v '(<sha1|<comment|<timestamp|ISBN=|https?:)'
egrep '([Il][0-9]|[0-9][Il])' cswikisource-YYYYMMDD-pages-articles.xml | grep -v 'https?:'

Ještě je to potřeba doladit, 2. řádek dává hodně falešně pozitivních výskytů např. v tabulkách, 3. řádek zase ve slovech typu 10letý nebo zápisech typu 40px.

Rozpracováno a opuštěno

viz Kategorie:Údržba:Rozšířit

Sledování přesunů

Stránky, na které je odkazováno z Wikislovníku, a přitom je reálné, že budou přejmenovány nebo rozděleny:

Nápověda

extrakce obrázku z djvu: ddjvu -page=NNN -format=tiff -verbose vstup.djvu vystup.tiff
spojení do jednoho souboru djvu: djvm -c cele.djvu *.djvu
spojení do jednoho souboru txt a konverze: for i in *.txt; do cat $i >> cele.txt; echo >> cele.txt; done; dos2unix cele.txt; sed -i -e 's///g' -e 's/[[:space:]]\+/ /g' -e 's/"/“/g' cele.txt (substituční skripty pro sed provedou, po řadě, odstranění Unicode znaku FEFF (znak není očima vidět, ale způsobil již nejeden problém), stažení opakovaných bílých znaků, záměnu uzavírací uvozovky (vhodné při konverzi z Krameria))
hromadné mazání (parametr -file mi, nevím proč, nefungoval): cat smazat.txt | { while read i; do python delete.py -page:"$i" -summary:"relikt po přesunu" -always; done; }
regulární výrazy pro přidávání prefixu Autor: v Emacsu, vynechávají odkazy vedoucí do jiného projektu (tj. obsahující dvojtečku); normálně bych to nahradil sedem, ale potřeboval jsem potvrzování každého jednotlivého nahrazení, protože seznamy obsahovaly i několik odkazů na díla, tedy Emacs:
- verze [[Jméno]] → [[Autor:Jméno]]: \[\[$[^]:|]*$\]\] → [[Autor:\1|\1]]
- verze [[Jméno|Jméno jinak]] → [[Autor:Jméno|Jméno jinak]]: \[\[$[^]:|]*$|$[^]:|]*$\]\] → [[Autor:\1|\2]]
nahrazování pomocí regulárních výrazů ve vimu: :[rozsah]s/hledat/nahradit/[volby], kde rozsah může být např. 8,10 (8.–10. řádek) nebo % (celý dokument), jinak nahrazuje jen na aktuálním řádku, a volby může být např. g (nahrazuje více výskytů na řádku, jinak jen první výskyt) nebo c (požaduje se potvrzení každého nahrazení)
značkování čísel veršů: sed -i -e 's/^$[0-9]\+$ /{{Číslo verše|\1}}/' -e 's/^$.*$ $[0-9]\+$$/{{Číslo verše|\2}}\1/' soubor.txt
převod nečíslovaného „číslovaného“ seznamu na číslovaný seznam, pro arabské i římské číslování: sed -i -e 's/^\*\[\[$\/[IVXLCDM0-9]\+\. \+$$.*$\/\]\]/# [[\1\2|\2]]/' soubor.txt
náhrada tří teček (v různých variantách včetně proložení mezerami) znakem výpustky: sed -i -e 's/\ *\.[. ][. ]*\./…/g' soubor.txt
obrys textu v Gimpu: http://www.gimpology.com/submission/view/how_to_outline_text
při substování konstrukcí s #if nebo #switch uvnitř šablony je nutné uzavírat prefixy subst: do <includeonly>, viz např. wikt:Šablona:Vzor verbum