A SMILES széles körben használt leíró nyelv a molekulák ASCII-karakterekkel történő tömör kódolására. A név mozaikszó, az angol simplified molecular input line entry specification (egyszerűsített, begépelhető molekulaleíró rendszer) kifejezés rövidítése. A legtöbb molekula-szerkesztő elfogadja bemenetként a SMILES kódokat, és képes őket kétdimenziós rajzokká vagy háromdimenziós modellekké alakítani. A SMILES-t Arthur és David Weininger fejlesztette ki az 1980-as években.[1][2] Azóta többen is bővítették és fejlesztették, elsősorban a Daylight Chemical Information Systems égisze alatt.[3] A Blue Obelisk csoport 2007-ben létrehozta a SMILES egy nyílt forráskódú megvalósítását OpenSMILES néven.[4]

A SMILES képes atomok, izotópok, vegyületek és kémiai reakciók leírására, beleértve a vegyületek térszerkezetét és aromás voltát. A nyelv kizárólag a hagyományos betűkészletet használja (32−127 közötti ASCII-kódok), és (különösen egyszerű molekuláknál) hasonlít a szokásos kémiai képletekre.

Az atomok SMILES-a a vegyjel szögletes zárójelben. Pl.: [Au] az arany SMILES-kódja. A vegyjelek első betűje nagy-, a második kisbetű. (Néhány egybetűs vegyjel kisbetűvel írható, ha aromás gyűrű tagja; lásd alább.)

A szögletes zárójelben megadható:

  • az atom töltése, pl. [H+] a proton, [Fe++] vagy [Fe+2] a vas(II)-ion,
  • az izotóp, pl. [2H] a deutérium,
  • megadhatók az atomhoz kapcsolódó hidrogénatomok, pl. [NH3] az ammónia, [OH-] a hidroxidion kódja.

A hidrogénatom

szerkesztés
„Szabályos” vegyértékek
Atom Vegyjel Vegyértékek
Bór B 3
Szén C 4
Nitrogén N 3, 5
Oxigén O 2
Foszfor P 3, 5
Kén S 2, 4, 6
Halogének F, Cl, Br, I 1

A szerves kémiában a képletek egyszerűsítése végett a hidrogénatomokat sokszor nem tüntetik fel. Ezt a gyakorlatot a SMILES is átvette. A szerves kémiában gyakori atomok szögletes zárójel nélkül írhatók. Az atomot ilyenkor hidrogénatomokkal a kémiai kötések figyelembe vételével a legkisebb „szabályos” vegyértékűre egészítik ki.

Példák:

Elem SMILES Képlet Név
Szén [C] C elemi szén
C CH4 metán
Foszfor [P] P elemi foszfor
P PH3 foszfin
[PH5] PH5 foszforán(en)
Oxigén [O] O oxigénatom
O H2O víz
Klór [Cl] Cl klóratom
Cl HCl sósav

Kémiai kötések

szerkesztés

Az egyes kötés jele: -, a kettesé =, a hármasé #, az aromásé :. Az egyes és aromás kötés jele elhagyható, és a gyakorlatban nem is használják őket.

Példák (az etánt négyféleképp is lehet írni):

Név SMILES Képlet
etán [CH3]-[CH3]; [CH3][CH3]; C-C; CC CH3—CH3
2-butin CC#CC CH3—C≡C—CH3
formaldehid C=O HCHO
etén C=C CH2=CH2
szén-dioxid O=C=O CO2
dimetil-éter COC CH3—O—CH3
hidrogén-cianid C#N HCN
etil-alkohol CCO CH3—CH2—OH
molekuláris hidrogén [H][H] H2

A pont azt jelzi, hogy két atom között nincsen kötés. Pl.: Cu2+SO2−4 SMILES-alakja: [O-]S(=O)(=O)[O-].[Cu+2]

Elágazó láncok

szerkesztés

Az oldalláncot zárójellel jelölik az után az atom után, amelyikből elágazik. A főlánc az (utolsó) oldallánc záró zárójele után folytatódik. A SMILES nem írja elő, melyik láncot tekintjük fő- ill. oldalláncnak. A lánc nem feltétlenül tartalmaz szénatomot. Az oldalláncban újabb oldallánc(ok) lehet(nek) (egymásba ágyazott zárójelezés).

Példák:

Gyűrűs vegyületek

szerkesztés
 
Ciklopropán
C1CC1

SMILES-ban nyílt vegyületeknél új kémiai kötést mindig egy új atommal együtt adják meg. Gyűrű lezárásakor egy új és egy korábban már előfordult atom között kell megadni kötést. Az ilyen atomokat megcímkézik. Ugyanaz a címke pontosan kétszer kell szerepeljen: a második előfordulás a gyűrűzárás.

A címke egy természetes szám. Az 1–9 közötti címkét közvetlenül a vegyjel után írják. Például a ciklopropán SMILES-kódja C1CC1. Az 1-es címke adja meg az első és harmadik szénatom közötti kötést.

Hasonlóan a ciklohexán SMILES-kódja C1CCCCC1.

Aromás vegyületek megadhatók váltakozó kettőskötésekkel (Kekulé-alak), vagy az aromás gyűrű atomjainak kisbetűs megadásával:

A gyűrűzáró atom oldalláncban is lehet:

 
3-cianoanizol.[5] A piros vonal mutatja a molekula bejárását. SMILES: COc(c1)cccc1C#N

Egy atomnak több címkéje is lehet, és a címke is lehet 9-nél nagyobb. Ilyenkor %-jelet kell használni. Pl. a C2%13%24 SMILES-részletben a szénatomnak három címkéje van: 2, 13 és 24.

A címkék újrahasznosíthatók. Ha már mindkét előfordulásuk megvolt, akkor új gyűrűzáró kötés adható meg velük.

Egy bonyolultabb példa:

 
Egy bonyolultabb molekula SMILES-kódja.
A: az eredeti képlet.
B: a gyűrűzáró élek és címkézésük.
C: zölddel jelölve a főlánc, a többi színnel az oldalláncok.
D: a SMILES-kód, színekkel jelölve a hozzájuk tartozó részlet

Királis vegyületek

szerkesztés

A térszerkezet megadására a SMILES a /, \, @ és @@ szimbólumot használja.

  1. Weininger, D. (1988), SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, J. Chem. Inf. Comput. Sci. 28, 31-36.
  2. Weininger, D.; Weininger, A.; Weininger, J.L. (1989) SMILES. 2. Algorithm for generation of unique SMILES notation J. Chem. Inf. Comput. Sci. 29, 97-101.
  3. SMILES - A Simplified Chemical Language
  4. Az OpenSMILES honlapja
  5. m-cyanoanisole (ChemSpider)