Vytahnuti informaci z doslych emailu

Nahodou nedelal nekdo projekt, ktery by dokazal vytahnout z doslych emailu informace a dal je do databaze? V mem pripade ruzna potvrzeni o nakupech (vsechny mozne e-shopy jako Amazon, eBay…), ktere prijdou emailem. A z toho vytahnout co se koupilo, kolik to stalo a z jakeho obchodu.

Potvrzovaci emaily bych posilal na urcity email nebo by se dali vyzobnout z meho mailboxu pres Google API podobne jak to funguje na Tripit?

A v uplne idealnim svete by to bylo samoucici system. Kdyz se objevi novy email (novy shop) tak to uzivatele necha manualne vybrat/opravit co je jaka polozka, co je cena a pak se to samo nauci?

Jestli s timto nekdo mate zkusenosti a dokazali byste to rychle zrealizovat tak mi prosim napiste.

Spread the love

15 thoughts on “Vytahnuti informaci z doslych emailu

      1. Skus odskrtnut zasielanie HTML mailov (nechaj si posielat plaintext). Niektore sluzby toto dovoluju; z plaintextu by to malo byt radovo jednoduchsia uloha

        1. Amazon i Ebayi posí­lají­ AFAIK email zaráz v textové i HTML podobě a není­ problém si vytáhnout tu, kterou potřebuješ.

          Schválně jsem si “pro zábavu” zkusil napsat parser na HTML maily z Amazonu (britského, netuší­m, jestli se americký liší­?) a není­ to zas takový problém; průser je, že v čase při změně struktury emailu se parser musí­ upravovat… ale to bys musel nejspí­š i u těch plaintextových.

          Obecně je parsování­ HTML docela v pohodě věc, pokud si člověk najde nějaký nástroj, kterým se dá bezproblémů traversovat po tom DOM stromě, hledat podle classů apod., a dokáže zparsovat ty prasárny od eshopů.

          Každopádně pokud se mi povede přes noc ještě udělat i parser na Ebay (od toho tu mám dvě verze mailů), tak se zkusí­m ozvat s nějakou nabí­dkou. Pokud ne, třeba se aspoň naučí­m něco pro sebe. 🙂

        2. Slušný odesí­lací­ systém posí­lá vždycky plain text a k tomu pří­lohu s alternativní­m obsahem (to je to HTML). Pokud mailový klient tu alternativní­ neumí­, tak zobrazí­ plain text, jinak ten formátovaný. Taková je teorie, v praxi se na to na 100% asi spolehnout nedá.

  1. Nepomohu s realizaci, ale toto se da docela elegantne resit v Perlu. Je to jazyk idealni na zpracovani takovych dat – s troskou namahy by to slo i v PHP, ktere ma reg. vyrazy take. Myslim, ze samoucici cesta je nerealna, ale slo by urcite udelat takovou aplikaci tak, ze uzivatel by do databaze mohl nacpat jednotlive fragmenty textu (oddelovace polozek) a aplikace by si s tim uz nejak poradila. Napr. by se urcilo jak rozpoznat zacatek polozek (hlavicka), jak konec (paticka), jak odlisit jednotlive polozky od sebe a nakonec v polozkach jak najit prislusne kousky textu. Obsluha by musela umet alespon trochu HTML a jak tam ty informace zakodovat.

  2. Google má v docs funkci =importHTML, která umožní­ načí­st data z html stránky, např. z vybrané tabulky pří­mo do tabulky v docs. Nedělal jsem to, ale jsem si celkem jistý, že by se to dalo nakombinovat přesně pro tento problém

  3. Mame neco podobneho na parasovani cisel objednavek apod z emailu operatoru. Pokud ty emaily chodi v html, tak by to alo celkem hezky udelat v kombinaci nejakeho jquery a simplehtmldom. Kdyz prijde neznamy eshop, operator klikne ze ho ckcce nakonfigurovat a primo v textu oznaci “tohle je celkova cena” apod. Problem ale budou delat eshopy, ktere treba ruzne personalizuji emaily nebo casto meni jejich podobu

  4. Otázka John: Máte/dokážete udělat systém na parsování­ mailů?
    Odpověď 100 lidí­: Mohl bys to udělat v xyz nebo použí­t abc.

    #FAIL

  5. Ahoj Johne, tohle samozrejme resime, mame to implementovane jako rozsireni pro MS Outlook a je to primo napojene na IS – informacni system (fakturace, ucetnictvi, zakazky atd.) , takze uzivatel vidi pri otevreni kazdeho emailu hned informace z IS o platebni moralce firmy z ktere ten email prichazi, pokd ma v sobe info dokladu, tak i na jaky doklad v zakazkach to je navazane atd, poslu ti do emaulu screeny. Ten outlookovsky email ma dalsi panely, kde tyto informace vidis. Samozrejme to muzeme napojit na jakykoliv informacni system. Hynek

  6. Tohle v zásadě není­ problém, pokud je známá struktura mailů. Pokud se ale změní­ (což se může stát celkem snadno, pokud odesí­latel negarantuje stále stejnou strukturu), tak to přestane fungovat. Takže je tu riziko, že než to člověk zjistí­, tak se mu buď nebude ukládat nic nebo tam bude mí­t nesmysly.

Leave a Reply

Your email address will not be published. Required fields are marked *