Zamknięty

66159 Wtyczka do Thunderbirda lub mały program

Witam,

zlecę napisanie programu lub wtyczki do thunderbirda zawierającej Bayesowski filtr antyspamowy.

Najwygodniejsza byłaby wtyczka, bo wystarczyłoby analizować odebrane maile i segregować je do dodatkowego folderu \"spam\".

Program ma odbierać maila z wybranego konta pocztowego i dzięki zastosowaniu Filtru Bayesa rozpoznawać czy nie jest to spam.

__________________________

Zasada działania FILTRU BAYESA

Filtr bayesowski, jak sama nazwa wskazuje, wykorzystuje w swoim działaniu reguły Bayesa znane z rachunku prawdopodobieństwa. Powszechnie uznaje się Paula Grahama za autora idei walki ze spamem przy użyciu Naiwnego Klasyfikatora Bayesa. Zaproponował on jako pierwszy w swoim artykule „A Plan for spam”[4] omawiany poniżej sposób walki ze spamem. Udoskonalony algorytm został przedstawiony w artykule „Better bayesian filtering”.

Filtr tworzy na swój użytek rodzaj słownika, w którym każdemu z poznanych podczas procesu trenowania słów przypisuje prawdopodobieństwo jego wystąpienia w wiadomości spamowej. Następnie w momencie gdy do użytkownika przychodzi nowy mail, filtr dzieli tekst wiadomości na pojedyncze wyrazy i przypisuje im odpowiednie prawdopodobieństwa otrzymane ze słownika. Słownik ów jest najczęściej reprezentowany przez tablicę haszującą.

W przypadku gdy dany wyraz występuje jedynie w wiadomościach spamowych, natomiast nie ma go w wiadomościach „legalnych” stosuje się wartość prawdopodobieństwa równą 0.999, a w przypadku odwrotnym 0.001.

Ostatecznie obliczane jest prawdopodobieństwo całkowite z prawdopodobieństw pojedynczych wyrazów znajdujących się w analizowanej wiadomości i na podstawie jego wartości filtr wnioskuje czy dana wiadomość jest spamem czy też nie.

Załóżmy, że dla wyrazu „money” obliczone wcześniej prawdopodobieństwo wynosi 72%, a dla wyrazu „card” odpowiednio 60%, to prawdopodobieństwo całkowite obliczone na podstawie poniższego wzoru wyniesie 79,4%.

W przypadku gdy uzyskany z wiadomości wyraz nie występuje w naszym słowniku, możemy uznać, że jest on niegroźnym słowem nadając mu prawdopodobieństwo rzędu 0.4 – trochę poniżej poziomu neutralności (wartość 0.5 jest wartością „neutralną”). Podstawą takiego działania jest to, że słowa występujące w wiadomościach spamowych mają wysoką tendencję do powtarzalności. Tak więc, gdyby to słowo należało do maila spamowego, z wysokim prawdopodobieństwem moglibyśmy stwierdzić, że występowałoby ono już wcześniej w naszym słowniku.

Działanie filtra antyspamowego przypomina działanie Naiwnego Klasyfikatora Bayesa, lecz ze względu na specyfikę spamu musimy do owego klasyfikatora wprowadzić kilka modyfikacji aby nie dać się spamerom oszukać.

więcej na: [url removed, login to view]

_________________________________

Skupiłbym się np. na analizowaniu pierwszych dwóch zdań z wiadomości, analizowaniu adresu maila itd. Kilka różnych kombinacji, które zwiększyłyby siłę działania.

Zlecę napisanie wtyczki do Thunderbirda wykonującej te zadania. Może także być program (najchętniej w C++, Java) odbierający i wysyłający maile, jego głównym zadaniem byłoby jednak analizowanie spamu, a nie pisanie wiadomości.

Proszę o propozycje, bardziej szczegółowe informacje na maila lub gg

Umiejętności: Android, iPad, iPhone, Mobile App Development

Zobacz więcej: html 5 pl, ca 72, 5/y-5, rz, paula, dana, bayesian, plan java program, skupi, card 001, owa mail java, owa java, money java program, java owa, card java program, lub

O pracodawcy:
( 6 ocen ) LUBLIN, Poland

Numer ID Projektu: #5639444