Szerkesztő:BinBot/munka/nagykötőjel

Gyakoribb helyesírási javításaim BinBot segítségévelSzerkesztés



Dátumok nagykötőjelesítése, szóközirtás a nagykötőjel és a zárójel között, egyedülálló évszámok pont nélkülSzerkesztés

Lásd még: Wikipédia:Kocsmafal (egyéb)/Archív125#Hiba maradt az élő személyek halálozási dátumáról szóló szavazásban!

    'datumjav-zarojel': {
        # Leszedi a szóközöket az élő személyek adatainál a nagykötőjel
        # és a zárójel közül, nagykötőjelesíti a kiskötőjeleket.
        # Pótolja a szóközt összetett dátumok után.
        # Leveszi a pontot az egyedülálló évszámokról (-tól/-ig szerkezetben)
        # Messze nem teljes, ez most nem is cél!
        # 2012. április 3.: az alapváltozattal 11211 címet mentett el!
        # Még nem kezeli a kérdőjeles kezdetű/végű intervallumokat.
        # Futtassunk le még egy keresést, ha kész van és van új dump, mert lesznek még pontozott évszámok!
        # Nagyon gyors, nagyon hatékony csomag, cikkenként számos javítással
        # (listáknál nem ritka a 20 feletti is), és elég kevés hamis találattal.
        # Máskor is sokat fog találni, érdemes gyakran futtatni.
        'regex': True,
        'msg': {
               'hu':u'[[User:BinBot/)redir|' +
		    u'Dátumok nagykötőjelesítése, szóközirtás a nagykötőjel ' +
                    us a zárójel között, egyedülálló évszámok pont nélkül]]'+
                    u' (kézi botszerkesztés)',
        },
        'replacements': [
            #Nulladik lépés: a linken belüli pont menjen kifelé, ha évszámról
            # van szó. Kettő ne maradjon. (Igen, van találat.)
            (ur'\[\[(\d{2,4})\.\]\]\.?', ur'[[\1]].'),

            # Összetett dátum után szóköz kell a nagykötőjel elé.
            # Utána zárójel jön, nincs záró dátum.
            (ur'(?i)(\(.*?(\d{1,2}|%s)\.?\]*\.?) *[-–—] *\)' % kisbetus_honapok,
                ur'\1 )'),
            # Eredetileg négy végződés volt: ár|us|is|ber, de ez hamis
            # találatokat okozott így:
            # >>> Savoyai Jenő <<< (Kis-) [[Oláhország]]
            # >>> Udmurt nyelv <<< ''(bár-, akár-)''.
            # >>> 1906 <<< Ez véletlenül jó! Csak a szóközt nem veszi ki. :-)
            # ([[Kaposvár]] -) [[Felsőmocsolád|Mocsolád]] – [[Siófok]]
            # Jó! http://hu.wikipedia.org/w/index.php?title=The_Police&diff=prev&oldid=11491370
            # Még mindig okoz problémát:
            # >>> Selenicereus grandiflorus <<<
            # - szárai legfeljebb 25&nbsp;mm átmérőjűek, (6-) 7-8 bordája
            # Ideiglenesen kivétellistára téve
            # Ugyanígy a Selenicereus grandiflorus subsp. lautneri is
            # Weberocereus imitans, Strophocactus chontalensis

            # Két összetett dátum intervalluma zárójelben, de lehet előttük
            # ország-város is:
            # Ez rettenetesen bugos, tele mellékhatásokkal, egyelőre kiiktatva!
            # Külön kell tesztelni.
            # (ur'(\(.*?(\d{1,2}|ár|us|is|ber)\.?\]*\.?) *[-–—] *([^\d\) ][^\d\)]{0,30}\d{2,4}.*?) *\)', ur'\1 – \3)'),

            # Csak évszám után nem kell szóköz a nagykötőjel elé. És pont se!
            # Utána zárójel jön, nincs záró dátum. (1. link nélkül, 2. linkelve)
            # - '''Boros Zoltán''' ([[Budapest]], [[1926]]. – ) [[Ybl Miklós-díj|Ybl-díjas]]
            (ur'(\(.*?\d{3,4})\.? *[-–—] *\)', ur'\1)'),
            (ur'(\(.*?\d{3,4})\]\]\.? *[-–—] *\)', ur'\1]])'),
            # [-–—] = kiskötőjel, 0150, 0151
            #
            # Egy évszám zárójel nélkül pl. <br>, | után, sor végén vagy
            # ugyanezekkel bezárva (1. link nélkül, 2. linkelve)
            (ur'([\>\|] *?\d{3,4})\.? *[-–—] *(?=\r|\n|\<|\|)', ur'\1–'),
            (ur'([\>\|] *?\[\[\d{3,4}\]\])\.? *[-–—] *(?=\r|\n|\<|\|)', ur'\1–'),
            # Pl. Kínai mozdonyok listája

            # Két évszám tisztán, zárójel és link nélkül
            # (sor eleje vagy szóköz vagy egyenlőségjel után)
            # Bővítés, 2012. 07. 26.: > vagy | után is, példa:
            # >>> MOM Művelődési Központ <<<
            # - | rekonstrukciók évei = 1970-1971; 2002<br>2009-2011
            # >>> Pásztor József (labdarúgó) <<<
            # [[1993–1994-es magyar labdarúgó-bajnokság (első osztály)|1993-1994-es bajnokságban]]
            # >>> Bristol City FC <<<
            # - |1897-1899
            # + |1897–1899
            #
            # Nemcsak évszámra jó, hanem 5-6 jegyű sorszámokra, számkódokra is
            # \d{2} még bugos, kiesik! Sőt, a 3 is:
            # >>> Zalaegerszeg <<<
            # erősen szabdalt 200-250 méter magas „hegyek”
            # Tucatnyi jó javítás között.
            # Még így is van néha kakukktojás. :-(
            # A napfénytartam: 1950-2000 óra/év között
            # 7000-8000 lakos:
            # http://hu.wikipedia.org/w/index.php?title=Tallinn_t%C3%B6rt%C3%A9nelme&diff=prev&oldid=12060754
            # >>> Kaposvár <<<
            # II. Kötet, 250-251. old.
            # Alkalmazottainak száma 100-150 fő
            # >>> Vietnami háború <<<
            # - |dátum=1955 – 1975. április 30.
            # + |dátum=1955–1975. április 30.
            # Ezt kettős egyenlőségjellel lehet kiküszöbölni (álmegoldás!)
            #És itt már vissza is üt:
            #>>> Szatmárnémeti <<<
            # - (Szatmárnémeti, 1876. – 1921. augusztus 5. [[Arad]])
            # + (Szatmárnémeti, 1876–1921. augusztus 5. [[Arad]])
            (ur'(\n|\n\r|==| |\>|\|)(\d{4,})\.? *[-–—] *(\d{4,})', ur'\1\2–\3'),

            # Két évszám vagy nagyobb szám tisztán, zárójelben, link nélkül
            # Bővítve: előtte-utána lehet vessző is (néha több intervallum vagy
            # szöveg + intervallum van egy zárójelben).
            # Bővítve: ], sorvég, sorkezdet, :
            # Két részre bontva, hogy ne lassítsuk függvénnyel (, után szóköz kell)
            (ur'\( *(\d{2,})\.? *[-–—] *(\d{2,})\.? *(\)|,|;|:|\n|\r)', ur'(\1–\2\3'),
            #Ebben nincs is zárójel. Régi:
            # (ur'(;|,|:|\]|\n|\r) *(\d{2,})\.? *[-–—] *(\d{2,})\.? *(\)|,|;|:|\n|\r)', ur'\1 \2–\3\4'),
            # Új: az utolsó csoportot előreolvasással keressük.
            # A különbség: >>> Tóth András (labdarúgó, 1949) <<<
            # ** bajnok: 1969, 1970-tavasz, 1970-71, 1971-72, 1972-73, 1973-74, 1974-75, 1977-78, 1978-79
            #Ebben a régi csak minden másodikat javította! Rekurzió vagy átfedés kéne, ami meg lassít, helyette előreolvasás
            (ur'(;|,|:|\]|\n|\r) *(\d{2,})\.? *[-–—] *(\d{2,})\.? *(?=\)|,|;|:|\n|\r)', ur'\1 \2–\3'),
            # Jó! >>> Spanyolország <<<
            # [[Martialis]] (40-101)-et javította nagykötőre.
            # Ugyanígy felismerte az 1887-88-at is. A Gyenesdiásban sok ilyen van.
            # ] és sorvég felismerése: Zlatko Zahovič (sokkal több javítás)
            #Ugyanebben a cikkben újabb találat a javított második sorral!
            # Ilyet is megtalált: >>> Christopher Mattheisen <<<
            # 2011. május 3., 12:30 - 12:40. --> 12: 30–12:40 (lett egy rossz szóköz!)
            #
            # Két évszám zárójelben, mind a kettő linkelve
            # Ha csak az egyik van linkelve, akkor IJ, nem akarom függvénnyel
            # lassítani.
            (ur'\( *(\[\[\d{2,4}\]\])\.? *[-–—] *(\[\[\d{2,4}\]\])\.? *\)', ur'(\1–\2)'),

            # BUG! BUG! BUG! BUG!
            # TODO:
            # >>> TV2 <<<
            # (1997. október 4. - 2011. augusztus 31.)
            # Ez kiskötős, nem javította!
            # Kell: két évszám linkelve, () nélkül (vagy csak az egyik a kettő közül)
            # Kell: formázott évszámok felismerése
            # Az {{Aranylabdások (1956-)}} sablont és egy láda zászlósablont
            # átneveztem, javíthatóak a hivatkozások.
            # {{A MOL Liga csapatai 2010-2011-ben}} javítva.
        ],
        'exceptions': { #Inside-tags: a fixes elején
            'inside-tags': [
            ],
            'text-contains': [
            ],
            'inside': [
                ur'(?i)IS[SB]N(\]\])?[= \d\-]+',
                ur'(?i)\{\{IS[SB]N.*?\}\}', # A | utáni évszámok miatt kell
                ur'Siebert, L. (and|és) T. Simkin \(2002\-\)\. Volcanoes of the World',
                # Ez valami forrásmunka millió cikkbe bekopizva. Nem derül ki, szándékos-e a kötőjel.
                # Ld. Szerkesztővita:Lakeof#Siebert, L. és T. Simkin (2002-)
                # Lehet, hogy véletlenül javítottam néhányat!
            ],
            'title': [
            ],
            'include': BaseExceptions,
        }
    },