Uživatel:Milda/poznámky
Časté OCR chyby
editovat- (v|na) právo → (v|na) pravo
- pólo → polo
- z čistá jasná → z čista jasna
- tornu → tomu
- (\d)+1et[áéíý] → (\d)+let[áéíý]
- plátn[oa] → platn[ao]
Regulární výrazy pro hledání záměn 0/O a 1/I nebo l
editovatgrep '^0' cswikisource-YYYYMMDD-pages-articles.xml | grep -v 'https?:'
grep ' 0 ' cswikisource-YYYYMMDD-pages-articles.xml | egrep -v '(margin|padding)'
grep '0[[:alpha:]]' cswikisource-YYYYMMDD-pages-articles.xml | egrep -v '(<sha1|<comment|<timestamp|ISBN=|https?:)'
egrep '([Il][0-9]|[0-9][Il])' cswikisource-YYYYMMDD-pages-articles.xml | grep -v 'https?:'
Ještě je to potřeba doladit, 2. řádek dává hodně falešně pozitivních výskytů např. v tabulkách, 3. řádek zase ve slovech typu 10letý nebo zápisech typu 40px.
Rozpracováno a opuštěno
editovatSledování přesunů
editovatStránky, na které je odkazováno z Wikislovníku, a přitom je reálné, že budou přejmenovány nebo rozděleny:
- Národopisné a cestopisné obrázky z Čech/Obrazy z okolí domažlického – z wikt:loch
- Slovanské národní písně/Zlomky písní a některé krátké#33. – z wikt:oř
- Paměti/IX. — Léta 1509–1530 – z wikt:dvěmi
- O věcech obecných čili Zóon politikon/I.Komu sloužiti – z wikt:dvěma
- Ve stínu lípy – z wikt:dceř a wikt:plynu
- Cesta z Království Českého do Benátek, odtud do země Svaté, země Judské a dále do Egypta, a potom na horu Oreb, Sinai a Sv. Kateřiny v Pusté Arábii - Díl druhý/Kapitola 23. – z wikt:kára
- Cesta z Království Českého do Benátek, odtud do země Svaté, země Judské a dále do Egypta, a potom na horu Oreb, Sinai a Sv. Kateřiny v Pusté Arábii - Díl druhý/Kapitola 24. – z wikt:holení
- Faust/Prvý díl tragédie – z wikt:nítit
- Bílá nemoc/Akt druhý - Obraz šestý – z wikt:nemoci
- Prodaná nevěsta – z wikt:pravila
Nápověda
editovat- extrakce obrázku z djvu:
ddjvu -page=NNN -format=tiff -verbose vstup.djvu vystup.tiff
- spojení do jednoho souboru djvu:
djvm -c cele.djvu *.djvu
- spojení do jednoho souboru txt a konverze:
for i in *.txt; do cat $i >> cele.txt; echo >> cele.txt; done; dos2unix cele.txt; sed -i -e 's///g' -e 's/[[:space:]]\+/ /g' -e 's/"/“/g' cele.txt
(substituční skripty pro sed provedou, po řadě, odstranění Unicode znaku FEFF (znak není očima vidět, ale způsobil již nejeden problém), stažení opakovaných bílých znaků, záměnu uzavírací uvozovky (vhodné při konverzi z Krameria)) - hromadné mazání (parametr
-file
mi, nevím proč, nefungoval):cat smazat.txt | { while read i; do python delete.py -page:"$i" -summary:"relikt po přesunu" -always; done; }
- regulární výrazy pro přidávání prefixu Autor: v Emacsu, vynechávají odkazy vedoucí do jiného projektu (tj. obsahující dvojtečku); normálně bych to nahradil sedem, ale potřeboval jsem potvrzování každého jednotlivého nahrazení, protože seznamy obsahovaly i několik odkazů na díla, tedy Emacs:
- verze [[Jméno]] → [[Autor:Jméno]]:
\[\[\([^]:|]*\)\]\]
→[[Autor:\1|\1]]
- verze [[Jméno|Jméno jinak]] → [[Autor:Jméno|Jméno jinak]]:
\[\[\([^]:|]*\)|\([^]:|]*\)\]\]
→[[Autor:\1|\2]]
- verze [[Jméno]] → [[Autor:Jméno]]:
- nahrazování pomocí regulárních výrazů ve vimu:
:[rozsah]s/hledat/nahradit/[volby]
, kderozsah
může být např.8,10
(8.–10. řádek) nebo%
(celý dokument), jinak nahrazuje jen na aktuálním řádku, avolby
může být např.g
(nahrazuje více výskytů na řádku, jinak jen první výskyt) neboc
(požaduje se potvrzení každého nahrazení) - značkování čísel veršů:
sed -i -e 's/^\([0-9]\+\) /{{Číslo verše|\1}}/' -e 's/^\(.*\) \([0-9]\+\)$/{{Číslo verše|\2}}\1/' soubor.txt
- převod nečíslovaného „číslovaného“ seznamu na číslovaný seznam, pro arabské i římské číslování:
sed -i -e 's/^\*\[\[\(\/[IVXLCDM0-9]\+\. \+\)\(.*\)\/\]\]/# [[\1\2|\2]]/' soubor.txt
- náhrada tří teček (v různých variantách včetně proložení mezerami) znakem výpustky:
sed -i -e 's/\ *\.[. ][. ]*\./…/g' soubor.txt
- obrys textu v Gimpu: http://www.gimpology.com/submission/view/how_to_outline_text
- při substování konstrukcí s
#if
nebo#switch
uvnitř šablony je nutné uzavírat prefixysubst:
do<includeonly>
, viz např. wikt:Šablona:Vzor verbum