Nahodou nedelal nekdo projekt, ktery by dokazal vytahnout z doslych emailu informace a dal je do databaze? V mem pripade ruzna potvrzeni o nakupech (vsechny mozne e-shopy jako Amazon, eBay…), ktere prijdou emailem. A z toho vytahnout co se koupilo, kolik to stalo a z jakeho obchodu.
Potvrzovaci emaily bych posilal na urcity email nebo by se dali vyzobnout z meho mailboxu pres Google API podobne jak to funguje na Tripit?
A v uplne idealnim svete by to bylo samoucici system. Kdyz se objevi novy email (novy shop) tak to uzivatele necha manualne vybrat/opravit co je jaka polozka, co je cena a pak se to samo nauci?
Jestli s timto nekdo mate zkusenosti a dokazali byste to rychle zrealizovat tak mi prosim napiste.
to je napad na startup? 🙂
Svym zpusobem ano.
Skus odskrtnut zasielanie HTML mailov (nechaj si posielat plaintext). Niektore sluzby toto dovoluju; z plaintextu by to malo byt radovo jednoduchsia uloha
Amazon i Ebayi posílají AFAIK email zaráz v textové i HTML podobě a není problém si vytáhnout tu, kterou potřebuješ.
Schválně jsem si “pro zábavu” zkusil napsat parser na HTML maily z Amazonu (britského, netuším, jestli se americký liší?) a není to zas takový problém; průser je, že v čase při změně struktury emailu se parser musí upravovat… ale to bys musel nejspíš i u těch plaintextových.
Obecně je parsování HTML docela v pohodě věc, pokud si člověk najde nějaký nástroj, kterým se dá bezproblémů traversovat po tom DOM stromě, hledat podle classů apod., a dokáže zparsovat ty prasárny od eshopů.
Každopádně pokud se mi povede přes noc ještě udělat i parser na Ebay (od toho tu mám dvě verze mailů), tak se zkusím ozvat s nějakou nabídkou. Pokud ne, třeba se aspoň naučím něco pro sebe. 🙂
Kdybys chtel poslat nejaky email z obchodu tak mi rekni.. jako priklad.. treba z toho Americkeho Amazonu
Ok, zkusit to můžu 🙂 kdyžtak pavel.kouril@hotmail.com …
Slušný odesílací systém posílá vždycky plain text a k tomu přílohu s alternativním obsahem (to je to HTML). Pokud mailový klient tu alternativní neumí, tak zobrazí plain text, jinak ten formátovaný. Taková je teorie, v praxi se na to na 100% asi spolehnout nedá.
Nepomohu s realizaci, ale toto se da docela elegantne resit v Perlu. Je to jazyk idealni na zpracovani takovych dat – s troskou namahy by to slo i v PHP, ktere ma reg. vyrazy take. Myslim, ze samoucici cesta je nerealna, ale slo by urcite udelat takovou aplikaci tak, ze uzivatel by do databaze mohl nacpat jednotlive fragmenty textu (oddelovace polozek) a aplikace by si s tim uz nejak poradila. Napr. by se urcilo jak rozpoznat zacatek polozek (hlavicka), jak konec (paticka), jak odlisit jednotlive polozky od sebe a nakonec v polozkach jak najit prislusne kousky textu. Obsluha by musela umet alespon trochu HTML a jak tam ty informace zakodovat.
Google má v docs funkci =importHTML, která umožní načíst data z html stránky, např. z vybrané tabulky přímo do tabulky v docs. Nedělal jsem to, ale jsem si celkem jistý, že by se to dalo nakombinovat přesně pro tento problém
Mame neco podobneho na parasovani cisel objednavek apod z emailu operatoru. Pokud ty emaily chodi v html, tak by to alo celkem hezky udelat v kombinaci nejakeho jquery a simplehtmldom. Kdyz prijde neznamy eshop, operator klikne ze ho ckcce nakonfigurovat a primo v textu oznaci “tohle je celkova cena” apod. Problem ale budou delat eshopy, ktere treba ruzne personalizuji emaily nebo casto meni jejich podobu
Otázka John: Máte/dokážete udělat systém na parsování mailů?
Odpověď 100 lidí: Mohl bys to udělat v xyz nebo použít abc.
#FAIL
Nieco podobne riesil Frantisek Fuka, z potvrdozvacich emailov vytahuje info o prijatych platbach a graficky zobrazuje. http://fuxoft.cz/fffilm/ffffriends/
Nezní to složitě, troufl bych si… Ale nikdy by mě nenapadlo, že něco takového by se dalo použít jako startup.
Ahoj Johne, tohle samozrejme resime, mame to implementovane jako rozsireni pro MS Outlook a je to primo napojene na IS – informacni system (fakturace, ucetnictvi, zakazky atd.) , takze uzivatel vidi pri otevreni kazdeho emailu hned informace z IS o platebni moralce firmy z ktere ten email prichazi, pokd ma v sobe info dokladu, tak i na jaky doklad v zakazkach to je navazane atd, poslu ti do emaulu screeny. Ten outlookovsky email ma dalsi panely, kde tyto informace vidis. Samozrejme to muzeme napojit na jakykoliv informacni system. Hynek
Tohle v zásadě není problém, pokud je známá struktura mailů. Pokud se ale změní (což se může stát celkem snadno, pokud odesílatel negarantuje stále stejnou strukturu), tak to přestane fungovat. Takže je tu riziko, že než to člověk zjistí, tak se mu buď nebude ukládat nic nebo tam bude mít nesmysly.