„Szerkesztő:BinBot/munka/vegyes” változatai közötti eltérés

Tartalom törölve Tartalom hozzáadva
Nincs szerkesztési összefoglaló
→‎Vegyes helyesírási javítások: Nagyobb felújítás: a vegyes helyesírási javítócsomagok október-novemberben lefuttatott friss változata a tapasztalatokkal. Aki szeretné, futtassa. :-)
2. sor:
 
== Vegyes helyesírási javítások ==
Ez egy eredetileg igen összetett javítócsomag, amelynek nagyon hosszú volt a futásideje, és sok esetben vezetvezetett konfliktushoz (azaz javítandó hibákra és hamis találatokra is illeszkedikilleszkedett egy cikken belül – ilyenkor csak kézzel lehet szerkeszteni a szócikket). Ezért jelenleg tíz részre bontva fut. Ezáltal csökken a konfliktusok és az egyszerre kigyűjtött lapok száma és a botgazdára eső lelki terhelés. A tesztelések során sikerült a hamis találatok arányát egész jól használható szintre csökkenteni, amint a munkanaplóban is látható. Érdemes megfontolni egyes részeinek külön futtatását.
<!-- Semmi köze a Pascalhoz, csak ez ad egy jól olvasható színkombinációt. Még a C is elég jó. -->
<source lang="cpascal">
# ***********************************************************************************************************
'vegyesjav': {
# *** ***
# *** Itt kezdődnek a vegyes javítások. A korábbi egybeépített vegyesjav hatékonysági okból megszűnt! ***
# *** ***
# ***********************************************************************************************************
 
'vegyesjav1': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|GyakoriRészleges helyesírási hibákjavítások javítása]](1. kézicsoport: vegyes kis-nagybetűérzékeny ellenőrzéssel',
 
jav.)]] kézi ellenőrzéssel',
},
'replacements': [
 
#Kis/nagybetűérzékeny javítások
(ur'Tíbor', ur'Tibor'),
24 ⟶ 31 sor:
(ur'[Cc]elsius\s*\-*\s*fok', ur'Celsius-fok'),
#Magyar nyelvű
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
 
#Toldalékolási hibák
'vegyesjav2a': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (2./a csoport: számok toldalékolása)]] kézi
 
ellenőrzéssel',
},
'replacements': [
#Toldalékolási hibák -- csak a számok maradtak, hogy gyorsabban fusson (igazából %-ból volt nagyon sok)
#Ez így most szép sebességgel fut, és gyorsan javítható is. :-)
(ur'2-őt', ur'2-t'),
#Az alábbi sorsorban fontoselvileg lenne,simán dea "no(\D)0-át, such\g<1>-t group"is hibát okozműködnek, mertde 10-nekcsak olvassa a \1-etelvileg.
#(ur'(?P<tipp>\D)0-?át', ur'\g<1tipp>0-t'), #Ez \D nélkül az aug. 20-átólt aug. 20-tólra javítaná.
(ur'\b0-?át', ur'0-t'), #Ez most javítja: "0-át", "1.0-át", de nem találja meg: "20-át, 00-át", "x0-át" -- még nem az igazi
 
(ur'0-?ás', ur'0-s'),
(ur'0-?ás', ur'0-s'), #még az M0-s is, külön benne van a szótárban a nullánál
#Előbb a közönséges törtek jönnek, szerencsés esetben egyjegyű nevezővel
#Még jó, hogy egyjegyű, de bővítésnél ezt talán úgy lehetne megfogni, hogy nem szóköz van a szám előtt
#>>> Gloster E.28/39 <<<
#- Ezen túlmenöen az E.28/39-el végzett próbák kikövezték
#+ Ezen túlmenöen az E.28/39-cel végzett próbák kikövezt
(ur'\/(4|5|9)-el\b', ur'/\1-del'),
(ur'\/(8|6|3)-al\b', ur'/\1-dal'),
#Most jönnek a tizedestörtek, mondjuk három tizedesig. Akkor már legyen öt, az ugyanannyi munka.
#Egyelőre azonban nem jönnek, amíg olyan számok vannak a Wikipédiában, hogy 9,345,300 :-(
#Na jó, amelyik nem végződik nullára, arról tételezzük fel, hogy tizedestört! Különben is ezek közül csak a 3

tizedesnél probléma ez!
#1,4,5 tizedes; a tárgyragnál vagy magánhangzó, vagy - legyen a t előtt, különben a tonnákat is javítja!
#1,4,5 tizedes
(ur'(\d),(\d{1}|\d{4,5})\s*-*(gyel|[vdztc]?[ae]l)\b', ur'\1,\2-del'),
(ur'(\d),(\d{1}|\d{4,5})\s*-*[eöőoa]t\b', ur'\1,\2-et'),
(ur'(\d),(\d{1}|\d{4,5})\s*-t\b', ur'\1,\2-et'), #Vagy magánhangzó, vagy - legyen a t előtt, különben a tonnákat is javítja!
#3 tizedes, nem nullára végződik
#Ezek sajnos hamis találatot adnak a mozdonyos szócikkekben, jó lenne csak ezt szűrni a MÁV szóra. :-(
#Nem javítottam az autóversenyes szócikkekben az ezredmásodperceket, az élőbeszédhez igazodva. Véleményes.
(ur'(\d),(\d{2})([1-9])\s*-*(gyel|[vdztc]?[ae]l)\b', ur'\1,\2\3-del'),
(ur'(\d),(\d{2})([1-9])\s*-*[eöőoa]t\b', ur'\1,\2\3-et'),
48 ⟶ 91 sor:
#2 tizedes
(ur'(\d),(\d{2})\s*-*(gyel|[vdztc]?[ae]l)\b', ur'\1,\2-dal'),
(ur'(\d),(\d{2})\s*-*[eöőoa]t\b', ur'\1,\2-ot'), ######### ide tegyük be a 4,51-est
(ur'(\d),(\d{2})\s*-t\b', ur'\1,\2-ot'), #a tonnák miatt, lásd fent
# >>> KCSV6 <<<
62 ⟶ 105 sor:
(ur'3-?m?al\b', ur'3-mal'),
(ur'10-?z?el\b', ur'10-zel'),
#(ur'1000-?r?el\b', ur'1000-rel'), #Ez a visszaállítható eredeti, ha a következő sor nem működne.
(ur'(?P<tipp>[1-9])000-?r?el\b', ur'\g<tipp>000-rel'), #Elvileg minden ezresre jó. *nincs tesztelve
(ur'20-?s?z?al\b', ur'20-szal'),
(ur'10030-?zc?al\b', ur'10030-zalcal'),
#(ur'(\d?P<tipp>[4579])000-al?n?el\b', ur'\100g<tipp>0-zalnel'), hibát#40-, okozott50-, az70-, Évtized90-nel szócikkben
(ur'(?P<tipp>[68])0-?n?al\b', ur'\g<tipp>0-nal'), #60-, 80-nal
#(ur'100-?z?al\b', ur'100-zal'), #Ez a visszaállítható eredeti, ha a következő sor nem működne.
(ur'(?P<tipp>[1-9])00-?z?al\b', ur'\g<tipp>00-zal'), #Elvileg minden százasra jó.
#Elvileg ez most a maradék tárgyragot stb. kötőjelezi meg számjegy után, t kizárva a tonnák miatt.
(ur'(\d)([aeoö]t|h[oeö]z|[trb][óő]l|[öeo]n|b[ae]n?|r[ae]|n[ae]k|kor|ért)\b', ur'\1-\2'),
#Kivétel lesz: Se7en (sok van belőle!), Thir13en (filmcímek)
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
r'Se7en', #Ez egy film címe, sok van belőle
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
 
'vegyesjav2b': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (2./b csoport: százalékok és mértékegységek
 
toldalékolása)]] kézi ellenőrzéssel',
},
'replacements': [
#Toldalékolási hibák -- kivettem a százalékokat és velük a mértékegységeket, hogy gyorsabb legyen.
#Futtatás előtt lásd az utolsó sort.
#Mellesleg ezt hatékonyan lehetne kombinálni a %, kg, km előtti tizedespontok javításával is.
(ur'km-ert', ur'km-t'),
(ur'km-er', ur'km'),
#Ajjajj!
#>>> Versailles-i békeszerzödés <<<
#tett, hogy 50-50km-eres körzetben n
#tett, hogy 50-50kmes körzetben nem
(ur'km-el', ur'km-rel'),
(ur'kg-al', ur'kg-mal'),
(ur'kg-t\b', ur'kg-ot'), #kg-tól nem!
(ur'(\d)\s*m-el', ur'\1 m-rel'),
(ur'(\d) *%-*al\b', ur'\1%-kal'), #számjegy után ne legyen szóköz; \b: % align= kivétel, sok táblázatban van, meg

50% alatti
(ur'%\s*-*\s*al\b', ur'%-kal'), #pl. száz %-kal -- szöveges számnál nem irtjuk a szóközt
(ur'(\d)\s*%-*\s*(kal|os|ot|át|tól|ban|ig|áig|uk|a\b)', ur'\1%-\2'), #számhoz tapad a %
(ur'%\s*-*\s*(kal|os|ot|át|tól|ban|ig|áig|uk)', ur'%-\1'), #betűhöz nem tapad a %
#Az előző kettőből kiemeltem azt az esetet, amikor a toldalék csak egy a betű.
#Nagyon gyakori, hogy a "% a" helyes, mert az a névelő, ez automatikusan nem különíthető el.
#Ezért a javítás során érdemes lehet ezt a két sort külön futtatni (bár a keresésnél mehet együtt).
#Ezt többé nem érdemes futtatni, lásd lent a statisztikát. A "% a" minden esetben névelőnek bizonyult.
#(ur'(\d)\s*%-*\s*a\b', ur'\1%-a'), #számhoz tapad a %
#(ur'%\s*-*\s*a\b', ur'%-a'), #betűhöz nem tapad a %
#Helyette csak meglévő kötőjel esetén javítunk (volt felesleges szóköz és két kötőjel is)
(ur'(\d)\s*%-+\s*a\b', ur'\1%-a'), #számhoz tapad a %
(ur'%\s*-+\s*a\b', ur'%-a'), #betűhöz nem tapad a %
#Elgondolkodás: Lehet, hogy egyszerűbb lenne tetszőleges betűt keresni a fenti toldalékok helyett is?
#
#
#
#Most jön a % tapadása a számjegyekhez toldaléktól függetlenül. Nagyon gyakori.
#Már csak az ütközések elkerülése végett is érdemes előre külön futtani. Akár automatikusan is.
#Módszer: kigyűjtés egyben, futtatás külön előre.
#Utána a fenti két %-a sor kikommentezésével a többi könnyen, gyorsan, vidáman fut.
#Harmadik menet: csak az a két maradék sor.
#
#Lehetséges problémák automatikus futtatásnál:
# - ha a % műveleti jel (programozási cikkekben)
# - ha a belső vagy külső linkek rossz kódolással vannak megadva, és a %hexa... ékezetes betűt jelöl
#
#Az automatikus futtatás eredménye 2009. október 28-án:
#
#Hibát okozott ezekben a cikkekben:
#[[Windows XP-parancsok listája]]
#http://hu.wikipedia.org/w/index.php?title=Windows_XP-parancsok_list%C3%A1ja&diff=prev&oldid=6440519
#[[Mesg]] (http://hu.wikipedia.org/w/index.php?title=Mesg&diff=prev&oldid=6440672)
#Ezeken már van {{sl|sicc}} sablon.
#
#Statisztika: a teljes vegyesjav2b által kigyűjtött 536 szócikkből javított 329-et (61%)
#Ebből hibás javítás: 2. Futásidő: 65 perc
#2. menet a %-a sorok nélkül: kézi javítással 77 igen, 14 nem. 445 átugorva.
#3. menet, %-a: kézi javítással 4 igen, 106 nem (abból 4-5 rossz, de nem javítható a bottal). 426 átugorva.
#A 4 javított: van kötőjel, de előtte vagy utána szóköz, illetve két kötőjel volt.
#
(ur'(\d)\s*%', ur'\1%'),
#
(ur'%\s*-*\s*(kal|os|ot|át|tól|ban|ig|áig|uk|a\b)', ur'%-\1'),
#
#A számokat kellene fejleszteni, most miért csak 10, 100, 1000? 30-al, 5000-el stb.
#
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
 
'vegyesjav3': {#Ez a legnagyobb javítócsomag!
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (3. csoport: i/í)]] kézi ellenőrzéssel',
},
'replacements': [
#i/í
(ur'(t|T)izes', ur'\1ízes'),
86 ⟶ 239 sor:
(ur'(v|V)izigény', ur'\1ízigény'), #A piszok (POV!) vizigótok miatt kell külön venni.
(ur'(v|V)izi([^tog ])', ur'\1ízi\2'), #vizit kizárva, vízitelep IJ :-), mellékhatás: televizió :-)
(ur'(v|V)izi ([^E])', ur'\1ízi \2'), #Vizi E. Szilveszter miatt a szóközösök külön sorban vannak. Lehetne (?!E.

Szi)
#Valamint a vizigót, a revizionista és a vizionál is kizárva, a víziorgona meg IJ.
#HIBA! Kimarad a vízió, víziója stb. is!
(ur'(v|V)ízig[oó]t', ur'\1izigót'), #Ezt meg visszafelé javítjuk (nyugati gót).
#Hahó! Ebben van a valószínű is, az is elég sok!
(ur'sz[ií]n[üű](?!k)', ur'színű'), #színű, valószínű, de a színük nem; mondat elején nem keressük
(ur'(s|S)z[ií]n[üű]k', ur'\1zínük'), #színük
(ur'(s|S)zervíz', ur'\1zerviz'),
(ur'(m|M)indíg', ur'\1indig'),
(ur'(f|F)ínom', ur'\1inom'),
(ur'(s|S)íma', ur'\1ima'),
102 ⟶ 258 sor:
(ur'(h|H)írdet', ur'\1irdet'),
(ur'(a|A)noním', ur'\1nonim'),
(ur'(d|D)ícsér', ur'\1icsér'),
(ur'(b|B)íztat', ur'\1iztat'),
(ur'(b|B)íztos', ur'\1iztos'),
(ur'(f|F)elírat', ur'\1elirat'), #gyakori, érdemes külön futtatni!
(ur'(e|E)llenőríz', ur'\1llenőriz'),
(ur'(m|M)itosz', ur'\1ítosz'),
(ur'(i|I)rígy', ur'\1rigy'), #mirigyre is jó :-)
(ur'(b|B)[ií]rk[oó]z', ur'\1irkóz'),
#
(ur'(a|A)rgentin(a|á)(?!\}|\.svg|\.gif|\.png|\.jpg)', ur'\1rgentín\2'), #{{flagicon|[aA]rgentina}} és a képek kizárása negatív előreolvasással
# Itt jönnek kigyűjtve a leggyakoribbak, amiket érdemes előre megcsinálni.
#
#Nyílván javítása: érdemes külön futtatni, automatikusan!
#(sok van, szó közepén is! -- 2009. okt. 16.: 282 lap! Ebből 1 nem hibás. :-))
# KIVÉTEL: Haydn: A Teremtés
(ur'(n|N)yílván', ur'\1yilván'),
(ur'(d|D)ícsér', ur'\1icsér'), #Sok van, érdemes lehet külön futtatni.
(ur'(m|M)indíg', ur'\1indig'), #Sok van, érdemes lehet külön futtatni. (Együtt is.)
#Az argentinokat is hasznos előre lefuttatni külön. Sok angol és spanyol nyelvű találat lesz!
#Sőt: még keresni is csak külön lenne szabad, egészen ki kell venni innen! Ronda kulimunka.
#Statisztika 2009. október 29-én:
#A nyílván, mindíg, dícsér külön javítása után maradt 1767 lap.
#Ebből a három argentin sor futtatása: 147 javítva, 199 nem javítva, sok konfliktus
(ur'(a|A)rgentin(a|á)(?!\}|\.svg|\.gif|\.png|\.jpg)', ur'\1rgentín\2'), #{{flagicon|[aA]rgentina}} és a képek
 
kizárása negatív előreolvasással
(ur'(a|A)rgentínok', ur'\1rgentinok'),
(ur'(a|A)rgentín\b', ur'\1rgentin'),
#Ki kéne zárni a Teatro Argentinát, a Republica Argentinát, Division, 469 és a Rally A.-t és a Live In
 
Argentinát. (neg. visszaolvasás) Az javítaná a fenti arányt.
#
#Szó elejiek
(ur'izület', ur'ízület'),
(ur'Izület', ur'Ízület'),
(ur'\bigy\b', ur'így'), #imigyen és igyekez* kizárása (az utóbbira rengeteg találat van)
(ur'\bIgy\b', ur'Így'), #És az igyon, igyunk stb. is. Bőven elég ez szóvégjelekkel.
#írtás (ezt nagyon körül kell járni), nyílvánpl. írtották, írtás, írtó. Nem gyakori. Majd egyszer.
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
r'Szelidi-t',
ur'Hévizi Ottó',
r'heviziensis',
r'[tT]elevizij',
ur'ászkisér',
ur'[hH]elyszínül',
ur'színü(ltig|gy)',
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
 
'vegyesjav4': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (4. csoport: u/ú, ü/ű)]] kézi
 
ellenőrzéssel',
},
'replacements': [
#u/ú, ü/ű
(ur'(s|S)űrgős', ur'\1ürgős'),
122 ⟶ 334 sor:
(ur'(h|H)uszat', ur'\1úszat'),
(ur'(i|I)ndúl', ur'\1ndul'),
#Ez a Julius-dolog még így is _nagyon_sok_ fals találatot (neveket) ad, <s>talán</s> csak kisbetűvel kéne
(ur'(j|J)u([nl])ius\s+(?![A-Z]|von)', ur'\1ú\2ius '), #Julius keresztnevűek kizárása: ha szóköz, akkor nem nagybetű (Caesaron kívül is sok van)
 
(ur'(j|J)u([nl])ius\B', ur'\1ú\2ius'), #vagy ne legyen szóhatár
keresni.
(ur'(j|J)u([nl])ius\s+(?![A-Z]|von)', ur'\1ú\2ius '), #Julius keresztnevűek kizárása: ha szóköz, akkor nem
 
nagybetű (Caesaron kívül is sok van)
(ur'(j|J)u([nl])ius\B', ur'\1ú\2ius'), #vagy ne legyen szóhatár | Ez bibis, időnként sortöréseket tüntetne el!
 
Vagy az az előző, a \s+ miatt?
(ur'(k|K)ívűl', ur'\1ívül'),
(ur'(s|S)zűntet', ur'\1züntet'),
131 ⟶ 350 sor:
(ur'(h|H)únyt el', ur'\1unyt el'),
(ur'(g|G)yanu', ur'\1yanú'),
(ur'(g|G)yepü', ur'\1yepű'),
#Készűl: szó közepén is, automatikusan is, rengeteg van! (2009. 10. 15-én futott)
(ur'(k|K)észűl', ur'\1észül'), #kivétel a Botond-monda cikkben
(ur'(a|A)múr', ur'\1mur'),
(ur'(t|T)úri(szt|zm|sta|stá)', ur'\1uri\2'), #A túristvándi vízimalom nem. :-)
136 ⟶ 358 sor:
(ur'(k|K)ultúrál', ur'\1ulturál'),
#Szó elejiek
(ur'[uú]j+on+an+', ur'újonnan'), #Zseniális, láttam az AÜ-n ezt a szót egyszerre három hibával! :-) Sőt,

szócikkben is... De összesen négy lehet. :-)
(ur'[UÚ]j+on+an+', ur'Újonnan'),
(ur'[uú]j+ab+', ur'újabb'), #sok hamis
(ur'[UÚ]j+ab+', ur'Újabb'),
#Uj kezdetűből rengeteg régies alak, tulajdonnév, nem magyar szó van, elég rossz a találati arány!
(ur'\buj([^jg])', ur'új\1'), #ujgurok kizárva, újgörög IJ
#Érdemesebb a következő két sort kikommentezni és egyáltalán nem használni, lásd a 2009. okt. 24-i naplót.
(ur'\bUj(?!j|gur|ház|vári|váry|lak|hely|fal)', ur'Új'), #Jellemző tulajdonnevek kizárása
#(ur'\buj([^jg])', ur'új\1'), #ujgurok és ujjong kizárva, újgörög és újít IJ
#(ur'\bUj(?!j|gur|ház|vári|váry|lak|hely|fal|szász)', ur'Új'), #Jellemző tulajdonnevek kizárása
(ur'\bugy( |is|se|hogy)', ur' úgy\1'),
(ur'\bUgy( |is|se|hogy)', ur' Úgy\1'),
150 ⟶ 376 sor:
#Ennek mindegy
(ur'értelmü([^kn])', ur'értelmű\1'),
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
'vegyesjav5': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (5. csoport: o/ó, ö/ő)]] kézi
 
ellenőrzéssel',
},
'replacements': [
#o/ó, ö/ő
(ur'(e|E)lőszőrl[öő]ss?z[öő]r', ur'\1lőször'),
(ur'\b(e|E)l[öő]l?r[öő]l\b', ur'\1lölről'), #Magyarázat fent az 'elolrol' fixben.
(ur'\b(u|U)tól([^a])', ur'\1tol\2'), #(f)utólag(os) kizárva, csak szó elején (falutól stb.)
(ur'(a|A)utó(ma|gén|imm|gr|mob|rit)', ur'\1uto\2'), #autómosó, -motor stb.
#(ur'(a|A)ut[oó]n[oó]m(?!ikus)', ur'\1utonóm'), #rengeteg fals! Lásd a naplót, 2009. október 20.
(ur'(a|A)ut[oó]tr[oó]f', ur'\1utotróf'),
(ur'(k|K)[őö]r[úu]ta', ur'\1öruta'),
162 ⟶ 415 sor:
(ur'(k|K)iló(méter|gramm)', ur'\1ilo\2'),
(ur'(p|P)óst', ur'\1ost'),
#Video: érdemesebb a külön video fixet futtatni. 2009. jan. 11-i javítás után okt. 17-én 84 db. hibás cikk volt.
(ur'(v|V)ide[oó]klip+(?!el|é)', ur'\1ideoklip'), #klippel, klippé marad
(ur'(v|V)ide[oó]klipp(el|é)', ur'\1ideoklipp\2'), #klippel, klippé is legyen rövid o-val
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
'vegyesjav6': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (6. csoport: rövid/hosszú mássalhangzók)]]
 
kézi ellenőrzéssel',
},
'replacements': [
#Rövid/hosszú mássalhangzók
(ur'(l|L)essz\b', ur'\1lesz1esz'),
(ur'(k|K)issebb', ur'\1isebb'), #Sok szócikkben szerepel idézetben!
(ur'((j|J))átsza\b', ur'\1átssza'), #szó végén!; érdemes külön is futtatni
(ur'[óÓ]rakkor', ur'órakor'),
(ur'(n|N)incsennek', ur'\1incsenek'), #2 volt, de wikinévtérben még egy csomó
(ur'(m|M)innél', ur'\1inél'),
(ur'(m)iat\b', ur'miatt'), #Nagybetűvel nem várható.
(ur'(u|U)tánna', ur'\1tána'),
(ur'\b(ö|Ö)n+ál+ó', ur'\1nálló'), #szóhatár, fönnálló nem
177 ⟶ 459 sor:
(ur'\b(e|E)ggy([^eé])', ur'\1gy\2'), #meggyes nem; eggyé vált, eggyel több sem (ebből sok van!)
(ur'\b(e|E)hez', ur'\1hhez'),
(ur'(k|K)ellet\b', ur'\1ellett'), #szóA gyakorlatban nem kell a szóvég, mehet automatikusan végén!is.
(ur'(m|M)ellet\b', ur'\1ellett'), #szó végén!
#A következő hibát okozott múlt időben: átépítetették --> átépíttetették, építetette-->építtetette
(ur'(é|É)pítetett', ur'\píttetett'), #Wikipédia:Botgazdák üzenőfala/Archív 7 (tényleg van pár!)
(ur'(aé|AÉ)aut[oó]gram+pítetett', ur'\1utogram1píttetett'), #kiv.Wikipédia:Botgazdák autogrammalüzenőfala/Archív --7 talán(tényleg nemvan gyakoripár!)
(ur'(ka|KA)ilógram\baut[oó]gram+', ur'\1ilogramm1utogram'), #kiv. autogrammal -- talán nem gyakori (Autogram, Steven Gerrard)
(ur'(k|K)ilogramil[óo]gram\]\]m', ur'\1ilogramm]]'), #Sajnos aA ]]-t is szóhatárnak veszi a következő.
(ur'(k|K)ilogramil[óo]gram\b', ur'\1ilogramm'), #A kilogramm szócikkben van egy kivétel! (Már nincs, hiba volt.)
#Kell majd egyszer egy millennium, de most kimarad (2009. okt.).
#Milleneum: 0 találat, millenium: sok hamis találat, képek stb., nem gazdaságos.
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
'vegyesjav7': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (7. csoport: egybeírás/különírás)]] kézi
 
ellenőrzéssel',
},
'replacements': [
#Egybeírás/különírás
(ur'(a|A)lacsonyszintű', ur'\1lacsony szintű'),
190 ⟶ 500 sor:
(ur'(m|M)agasrangú', ur'\1agas rangú'), #hosszú távon: magas????[úű], kivéve magasságú, magasrendű
(ur'(a|A)lacsony rendű', ur'\1lacsonyrendű'),
(ur'(e|E)gyetlen egy(?!séges|etem|ház|ed)', ur'\1gyetlenegy'), #szóközzel a végén több hibát hagy ki, mint

javítana jót
(ur'(m|M)ég is\b', ur'\1égis'),
(ur'(m|M)égegyszer\b', ur'\1ég egyszer'), #2009. okt. 7-én 67-et javítottam főnévtérben. Sok!
(ur'(a|A)mikoris', ur'\1mikor is'),
(ur'(n|N)agyonis', ur'\1agyon is'),
197 ⟶ 510 sor:
(ur'(t|T)öbb(száz|ezer|millió|milliárd|tucat)', ur'\1öbb \2'),
(ur'(k|K)oránt sem', ur'\1orántsem'),
(ur'(j|J)ónéhány', ur'\1ó néhány'), #2009 októberében 167 találat volt szócikknévtérben.
(ur'(r|R)észtve(sz|tt)', ur'\1észt ve\2'),
(ur'(e|E)gészalakos', ur'\1gész alakos'), #Wikipédia:Botgazdák üzenőfala/Archív 7
#Vigyázat, erre be fog jönni a segédalakulat is, de az még nincs. Ja, már nem, mert a megalakulás-->meg alakúlás

miatt kivettem az [uú]-t.
#A papagájalakúak stb. kizárása negatív előreolvasással
#(ur'([a-zióöőúüű])alakú(?!ak\]\]|ak\||ak rend)', ur'\1 alakú'), #bármi, kivétel: két- stb./nagy-/kis-/többalakú,

hangalakú; nagybetűk nem kellenek.
#Kikommentezve, mert még így is gyakorlatilag csak fals találatokat adott.
#Új koncepció: keressük csak az egyes számú alakot, ezzel a rendszertani kategóriákat kizárjuk. De így is

figyelni kell!
(ur'([a-zióöőúüű])alakú(?!ak)', ur'\1 alakú'),
#ezen kívül
#\be miat\b, \ba miat\b, mondat elején is!
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
'vegyesjav8': {
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (8. csoport: j/ly és az egyebek)]] kézi
 
ellenőrzéssel',
},
'replacements': [
#j/ly
(ur'(m|M)uszály', ur'\1uszáj'),
214 ⟶ 561 sor:
(ur'(v|V)ákum', ur'\1ákuum'), #A vákuum szócikkben van egy kivétel!
(ur'(p|P)sziho', ur'\1szicho'),
(ur'(k|K)ülömb', ur'\1ülönb'), #Kivétel: Balassi Bálint, Verseghy Ferenc, Címerfestő
(ur'(e|E)gyenlőre', ur'\1gyelőre'),
(ur'(a|A)k{1,2}umlátor', ur'\1kkumulátor'),
(ur'(b|B)ocsájt', ur'\1ocsát'),
(ur'(l|L)i(c|sz)ensz', ur'\1icenc'),
(ur'(m|M)eteoriteket', ur'\1eteoritokat'), #Hatékonyabb lenne kiemelni.
(ur'(m|M)eteoritekről', ur'\1eteoritokról'),
(ur'(m|M)eteoriteknek', ur'\1eteoritoknak'),
227 ⟶ 574 sor:
(ur'(t|T)erületete', ur'\1erülete'), #Külön javítottam 77 előfordulást. :-O
(ur'(v|V)ietnám', ur'\1ietnam'),
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink',
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
],
}
},
 
 
#ú, ű, u, ü végű szavak
'repeta': {
#Iszonyú gyors és hatékony csomag. 421-ből 334 javítás,
#Amikor lefutott, még 90 lap várt mentésre, és negyedóráig tartott a munkanapló mentése után!
'regex': True,
'msg': {
'hu':u'[[User:BinBot/munka/vegyes|Részleges helyesírási javítások (repeta: ami a többi kilenc csomag futtatása
 
közben feltűnt: működés, óvoda, kitűnő, címke, Vlagyimir)]] kézi ellenőrzéssel',
},
'replacements': [
(ur'Vszelovod', ur'Vszevolod'), #Az óvodások kapcsán bukott ki. :-)
(ur'[óo]v[oó]d', ur'óvod'), #óvoda, óvodás; Krasznovodszkot érdemes kizárni!
(ur'[ÓO]v[oó]d', ur'Óvod'), #óvoda, óvodás
(ur'(k|K)it[üű]n[öőoó]', ur'\1itűnő'), #kitűnő
(ur'(k|K)itün(ik|t|tek|ni|het)\b', ur'\1itűn\2'), #kitűnik, kitűnt, de nem kitüntet
(ur'(k|K)itűntet', ur'\1itüntet'), #kitüntet, -és, -ő stb.
(ur'(c|C)imk', ur'\1ímk'), #címke, címkét, mit talál még? :-)
(ur'(m|M)[üű]k[öő]dö\b', ur'\1űködő'), #működő
(ur'(m|M)[üű]k[öő]d', ur'\1űköd'), #működés, működik, működött, működ (hátha :-)) (nem találta meg: műkődőtt)
(ur'(v|V)lagyimír', ur'\1lagyimir'), #Vlagyimir, vlagyimiri
],
'exceptions': { #Súgó: lásd a metás lapomon a hasznos holmiknál.
'inside-tags': [
'hyperlink', #lehetne elvileg template is, de talán frissíteni kellene hozzá
#'template', #Ez működik!!! Óvatosan kell bánni vele!
],
'text-contains': [
ur'(\{\{[Ss]zinnyei\}|\{\{[Pp]allas\}|\{\{[Ff]ényes\}|\{\{[Vv]ályi\}|Vályi András|Fényes Elek|\{\{sicc\})',
],
'inside': [
ur'[kK]rasznovodszk', #Valamiért nem zárta ki az összeset.
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket.
ur'Novodomszk', #y Éva
#Ez a Metából adaptált kifejezés a képneveket üti ki, kivéve a galériákat és sablonparamétereket.
ur'\[\[([Ii]mage|[fF]ile|[fF]ájl|[kK]ép)\:[^\]\|]+?\|', # Képek nevében ne
ur'[kK]ép\:\w+?(jpg|png|gif|svg|JPG|PNG|GIF|SVG)', #Galériás képek nevében se (sablon is kéne)
r'\[\[[\w\-]{2,12}:.*?\]\]', #Ez közelítőleg lefedi az interwikiket és a kategóriákat.
r'\{\{DEFAULTSORT:.*?\}\}', #A defaultsortban szándékosan ékezet nélküli szavak vannak.
r'\[\[Kategória:.*?\|.*?\]\]', #Nem akar működni. :-( #A kategóriabeli rendezésben szándékosan ékezet nélküli szavak vannak.
],
}
},
 
# ***********************************************************************************************************
# *** ***
# *** Itt végződnek a vegyes javítások. A korábbi egybeépített vegyesjav hatékonysági okból megszűnt! ***
# *** ***
# ***********************************************************************************************************
</source>