19a4639f09dc0745c8b6098800461539.ppt
- Количество слайдов: 28
ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ ﻋﻤﻮﻣی آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian ﺍﺣﺴﺎﻥ ﺿﻤیﺮی ﺍﺳﺘﺎﺩ ﺭﺍﻫﻨﻤﺎ: آﻘﺎی ﺩکﺘﺮ کﺎﻫﺎﻧی ﺩﺍﻧﺸگﺎﻩ ﻓﺮﺩﻭﺳی ﻣﺸﻬﺪ
ﺭﺋﻮﺱ ﻣﻄﺎﻟﺐ • ﻣﺮﻭﺭی ﺑﺮ پﺪیﺪﻩ ﺍﺳپﻢ • ﺭﻭﺷﻬﺎی ﻣﺒﺘﻨی ﺑﺮ یﺎﺩگیﺮی ﺑﺮﺍی ﻓیﻠﺘﺮکﺮﺩﻥ ﺍﺳپﻢ ﻫﺎ • ﺭﻭﺵ Naïve Bayesian ﺑﺮﺍی ﻓیﻠﺘﺮکﺮﺩﻥ ﺍﺳپﻢ • ﻣﻌیﺎﺭﻫﺎی ﺍﺭﺯیﺎﺑی • ﺑﺮﺭﺳی ﻧﺘﺎیﺞ 2 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺍیﻤیﻞ ﻫﺎی ﺍﺳپﻢ • Spam/junk/bulk Emails § § § پیﻐﺎﻣﻬﺎیی ﺩﺭ Inbox ﺷﻤﺎ ﻫﺴﺘﻨﺪ کﻪ ﺷﻤﺎ آﻦ ﻫﺎ ﺭﺍﻧﺨﻮﺍﺳﺘﻪ ﻭ ﺯﻣﺎﻧی ﺭﺍ ﺑﺮﺍی ﺑیﺮﻭﻥ ﺍﻧﺪﺍﺧﺘﻦ آﻨﻬﺎ ﺻﺮﻑ ﻣی کﻨیﺪ. ﺩﺭ ﻣﻘﺎﺑﻞ آﻦ : ﻧﺎﻣﻪ ﻫﺎی ﺍﻟکﺘﺮﻭﻧیکی ﻣﻌﺘﺒﺮ یﺎ ham %08 -57 ﺍﺯ ﺣﺠﻢ ﻧﺎﻣﻪ ﻫﺎی ﺍﻟکﺘﺮﻭﻧیکی ﺭﺍ ﺍﺳپﻢ ﻫﺎ ) (spam ﺗﺸکیﻞ ﻣی ﺩﻫﻨﺪ ﺑﺎﻋﺚ ﺍیﺠﺎﺩ ﺗﺮﺍﻓیک ﺷﺪﻩ ﻭ ﻓﻀﺎی ﺣﺎﻓﻈﻪ ﻭ ﻗﺪﺭﺕ ﻣﺤﺎﺳﺒﺎﺗی ﺭﺍ ﺍﺯ ﺑیﻦ ﻣی ﺑﺮﺩ ﺑﺎﻋﺚ ﺿﺮﺭ ﺍﻗﺘﺼﺎﺩی § ﻫﺰیﻨﻪ ﺍی ﺑﺎﻟﻎ ﺑﺮ 05 ﻣیﻠیﻮﻥ ﺩﻻﺭ ﺑﺮ ﺍﻗﺘﺼﺎﺩ ﺍﻣﺮیکﺎ ﺩﺭ ﺳﺎﻝ 5002 ﻭﺍﺭﺩ ﺳﺎﺧﺘﻪ 3 § ﺑﺎ ﺗﻮﺟﻪ ﺑﻪ ﺷﺨﺺ ﻭ ﺳﺎﺯﻣﺎﻥ گیﺮﻧﺪﻩ ﺍیﻤیﻞ، ﺍﺳپﻢ ﻫﺎ ﺗﻌﺮیﻒ ﻣی ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian گﺮﺩﻧﺪ
ﻧﻤﻮﻧﻪ ﻫﺎیی ﺍﺯ ﺍیﻤیﻞ ﻫﺎی ﺍﺳپﻢ • Subject: AWARD CONFIRMATION We wish to congratulate you over your email success in our computer BALLOTING SWEEPSTAKE held on 16 th Nov, 2007. This is a millennium scientific computer game in which email addresses were used. It is a promotional program aimed at encouraging internet users; therefore you do not need to buy ticket to enter for it. • • “ You have won!!!!“, you are almost winner of $. . . “Your order”, your item$ have to be $hipped “Lose your weight”, no subscription required “Assistance required”, an amount of million 25 US$ • “Download it”, free celebrity wallpapers download Naïve Bayesian ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ 4
ﺑﺮﺧی ﺍﺯ ﺍﻫﺪﺍﻑ ﺍیﻤیﻞ ﻫﺎی ﺍﺳپﻢ • ﺑیﺸﺘﺮ ﺑﻪ ﻣﻨﻈﻮﺭ ﺍﻫﺪﺍﻑ ﺍﻗﺘﺼﺎﺩی ﺍﺳﺖ • • • ﺗﺒﻠیﻎ ﺑﺮﺍی یک کﺎﻻی ﺧﺎﺹ، ﺳﺮﻭیﺲ ﺧﺎﺹ ﻭ یﺎ یک ﺍیﺪﻩ ﺧﺎﺹ ﻓﺮیﺐ کﺎﺭﺑﺮﺍﻥ ﺑﺮﺍی ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺍﻃﻼﻋﺎﺕ ﻣﺤﺮﻣﺎﻧﻪ آﻨﻬﺎ phishing ﺍﻧﺘﻘﺎﻝ یک ﻧﺮﻡ ﺍﻓﺰﺍﺭ ﺧﺮﺍﺑکﺎﺭ ﺑﻪ کﺎﻣیپﻮﺗﺮ کﺎﺭﺑﺮ )ﻣﺜﻼ ﻭیﺮﻭﺱ( ﺍیﺠﺎﺩ یک ﺧﺮﺍﺑی ﺑﻪ ﺻﻮﺭﺕ ﻣﻮﻗﺘی ﺩﺭ Mail-Server ﺍیﺠﺎﺩ ﺗﺮﺍﻓیک پﺨﺶ ﻣﻄﺎﻟﺐ ﻏیﺮﺍﺧﻼﻗی ü ﺍﺳپﻢﻫﺎﺩﺍﺋﻤﺎ ﺩﺭﺣﺎﻝﺗﻐییﺮ ﻣﺤﺘﻮﺍ ﺷکﻞﻫﺴﺘﻨﺪ، ﺑﺮﺍیﺍیﻨکﻪﺗﻮﺳﻂ ﻭ ﺍﺳپﻢ ﺷﻨﺎﺳﺎییﻧﺸﻮﻧﺪ. ﻫﺎ آﻨﺘی 5 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺗکﻨیک ﻫﺎی ﻣﺒﺎﺭﺯﻩ ﺑﺎ ﺍﺳپﻢ ﻫﺎ ﻭ کﻨﺘﺮﻝ آﻨﻬﺎ • ﺭﻭﺷﻬﺎی ﺍﻗﺘﺼﺎﺩی § ﺩﺭیﺎﻓﺖ ﻭﺟﻪ ﺑﺮﺍی ﺍﺭﺳﺎﻝ ﺍیﻤیﻞ : ﻣﺎﻧﻨﺪ پﺮﻭﺗکﻞ Zmail § ﺭﻭﺷﻬﺎی ﻗﺎﻧﻮﻥ گﺬﺍﺭی ﻣﺎﻧﻨﺪ ﻗﺎﻧﻮﻥ § ﺍﻣﻦ ﺳﺎﺯی ﺑﺴﺘﺮﺍﻧﺘﻘﺎﻝ ﺍیﻤیﻞ US-CAN SPAM § ﺗﻐییﺮ پﺮﻭﺗکﻠﻬﺎی ﺍﻧﺘﻘﺎﻝ ﺍیﻤیﻞ )ﻣﺜﻞ (SMTP ﻭ ﺍﺭﺍﻧﻪ پﺮﻭﺗکﻞ ﻫﺎی ﺟﺎیگﺰیﻦ ﻣﺎﻧﻨﺪ Sender. Id § 1 ﻓیﻠﺘﺮیﻨگ ﺑﺮﺍﺳﺎﺱ یکﺴﺮی ﻗﺎﻋﺪﻩ ﻫﺎی ﻭﺭﻭﺩی کﻨﺘﺮﻝ ﺍیﻤیﻞ ﻫﺎی ﺧﺮﻭﺟی ﺩﺭ ﺑﺮﺍﺑﺮ کﻨﺘﺮﻝ ﺍیﻤیﻞ ﺍﺯ پیﺶ ﺗﻌﺮیﻒ ﺷﺪﻩ: § ﻓیﻠﺘﺮیﻨگ ﺍیﻤیﻞ ﻫﺎ ] — if $SENDER$ contains “schacht” $ACTION$=$INBOX$ [HAM ] — if $SUBJECT$ contains “Win” $ACTION$=$DELETE$ [SPAM ] — if $BODY$ contains “%%Money%%” $ACTION$=$DELETE$ [SPAM ﻣﺸکﻼﺕ: ﻗﻮﺍﻧیﻦ ﺛﺎﺑﺖ، ﻭﺍﺑﺴﺘگی ﺑﻪ ﺯﺑﺎﻥ، چﻪ ﺗﻌﺪﺍﺩ ﻗﺎﻧﻮﻥ؟، چﻪ کﺴی ﺑﺎیﺪ ﻗﻮﺍﻧیﻦ ﺭﺍ ﺗﻌﺮیﻒ کﻨﺪ -2 ﻓیﻠﺘﺮیﻨگ ﺑﺮﺍﺳﺎﺱ ﻟیﺴﺖ ﺳیﺎﻩ ﻭ ﺳﻔیﺪ ) (Black list-white list 3 -ü ﻓیﻠﺘﺮیﻨگ ﻣﺒﺘﻨی ﺑﺮ یﺎﺩگیﺮی )آﻤﺎﺭی( ﻭ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻭیژگیﻬﺎی پیﻐﺎﻣﻬﺎ 6 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ ﻋﻤﻮﻣی آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻓیﻠﺘﺮیﻨگ ﻣﺒﺘﻨی ﺑﺮ یﺎﺩگیﺮی )آﻤﺎﺭی( ﻭ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻭیژگیﻬﺎی پیﻐﺎﻣﻬﺎ • ﺩﺭ یﺎﺩگیﺮی ﻣﺎﺷیﻨی ﺑﺮﺍی ﻋﻤﻞ ﺩﺳﺘﻪ ﺑﻨﺪی ) (Classification ﺍﺯ ﻧﻤﻮﻧﻪ ﺩﺍﺩﻩ ﻫﺎیی )ﺍیﻤیﻞ ﻫﺎیی( کﻪ ﺍﺯ ﻗﺒﻞ ﻓﺮﺍﻫﻢ ﺷﺪﻩ ﺍﺳﺖ)ﺩﺍﺩﻩ آﻤﻮﺯﺵ یﺎ (training ﻭ ﻫﺮ یک ﺩﺳﺘﻪ)کﻼﺱ،ﺑﺮچﺴﺐ( ﻣﺸﺨﺺ ﺩﺍﺭﺩ، ﺍﺳﺘﻔﺎﺩﻩ کﺮﺩﻩ ﻭ ﺩﺳﺘﻪ)کﻼﺱ( یک ﻧﻤﻮﻧﻪ ﺟﺪیﺪ)ﺗﺴﺖ( ﺭﺍ ﺗﻌییﻦ ﻣی کﻨیﻢ. ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ آﻤﻮﺯﺵ ) M : (training Data ﺩﻭ ﻧﻮﻉ کﻼﺱ)ﺑﺮچﺴﺐ( : ﺍﺳپﻢ ﻭ ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ ) (ham • ﺑﺮﺩﺍﺭ پﺎﺭﺍﻣﺘﺮﻫﺎ) ﻭیژگی ﻫﺎ( θ ﺣﺎﺻﻞ آﻤﻮﺯﺵ ﺩﺳﺘﻪ ﺑﻨﺪ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ یک ﻣﺠﻤﻮﻋﻪ ﺩﺍﺩﻩ ﺍﺳﺖ کﻪ ﻗﺒﻼ ﺟﻤﻊ آﻮﺭی ﺷﺪﻩ ﺍﺳﺖ ﻧیﺰ ﺗﺎﺑﻊ آﻤﻮﺯﺵ ) (Training ﻣی ﺑﺎﺷﺪ • • ﺗﺴﺖ ﺩﺍﺩﻩ ﺟﺪیﺪ: ’ m یک ﺍیﻤیﻞ ﺟﺪیﺪ ﺍﺳﺖ ﻭ ﺩﺳﺘﻪ آﻦ ﺭﺍ ﻣی ﺧﻮﺍﻫیﻢ )? (spam or ham 7 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻣﺘﺪﻫﺎی یﺎﺩگیﺮی • یﺎﺩگیﺮی Offilne – ﺩﺍﺩﻩ ﻫﺎی آﻤﻮﺯﺵ ﺑﺎ کﻼﺱ)ﺑﺮچﺴﺐ( ﻣﺸﺨﺺ، ﻗﺒﻼ ﺟﻤﻊ آﻮﺭی ﺷﺪﻩ ﺍﺳﺖ ﻭ ﻣﺎ ﺩﺭ ﻃی ﺩﺳﺘﻪ ﺑﻨﺪی ﺍﺯ ﻫﻤیﻦ ﺩﺍﺩﻩ ﻫﺎی ﺛﺎﺑﺖ ﺍﺳﺘﻔﺎﺩﻩ ﻣی کﻨیﻢ • > <email type=“HAM_email”>Soha! sorry cannot reach at 18: 00</email • > <email type=“spam”>hi, have you thought online credit? </email • . . • یﺎﺩگیﺮی Online – کﺎﺭﺑﺮ ﻃﺒﻘﻪ ﺑﻨﺪی ﻫﺎ ﻏﻠﻂ ﺩﺳﺘﻪ ﺑﻨﺪ ﺭﺍ ﺗﺼﺤیﺢ ﻣی کﻨﺪ ﻭ ﺑﺮچﺴﺐ ﺻﺤیﺢ ﺭﺍ ﻣﻌیﻦ ﻣی کﻨﺪ؛ ﺑﻪ ﺍیﻦ ﺗﺮﺗیﺐ ﺣﺠﻢ ﺩﺍﺩﻩ آﻤﻮﺯﺵ ﺑﻪ ﺗﺪﺭیﺞ ﺍﻓﺰﻭﺩﻩ ﻣی ﺷﻮﺩ ﻭ ﺩﺍﻧﺶ ﺩﺳﺘﻪ ﺑﻨﺪ ﺍﻓﺰﺍیﺶ ﻣی یﺎﺑﺪ • ﻣﺜﺎﻝ: ﺩﺭ ﺳﺮﻭیﺲ ﺍیﻤیﻞ ! Yahoo ﻣی ﺗﻮﺍﻥ ﺑﺮ ﺭﻭی ” “spam ﻭ یﺎ ” “not spam کﻠیک کﺮﺩ ﻭ ﺑﺪیﻦ ﺗﺮﺗیﺐ ! Yahoo ﺍﺯ کﺎﺭﺑﺮ Feedback ﻣی گیﺮﺩ 8 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
یﺎﺩگیﺮی Yahoo Mail : Online 9 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺷﻤﺎی کﻠی ﻣﺪﻝ test training ﺍﻧﺘﺨﺎﺏ ﻭیژگی Feature Selection )2 (x ﺩﺳﺘﻪ ﺑﻨﺪ ) (Classifier test ﻭیژگی ﻫﺎی ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺩﺍﻣﻨﻪ classify ? Ham ? Spam Evaluate 01 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian ﻭیژگیﻬﺎی ﺑﻪ ﺻﻮﺭﺕ ﻟﻐﺖ ) (Tokenization ﻭیژگیﻬﺎ ی ﺑﻪ ﺻﻮﺭﺕ ﻋﺒﺎﺭﺍﺕ ﺩﺳﺖ ﺳﺎﺧﺘﻪ ﺍﺳﺘﺨﺮﺍﺝ ﻭیژگی ﻫﺎ Feature Extraction
ﻣﺮﺍﺣﻞ ﻣﺪﻝ • ﻣﺮﺍﺣﻞ: – ﺩﺍﺩﻩ ﻫﺎی آﻤﻮﺯﺵ ﺷﺎﻣﻞ ﺍیﻤیﻞ ﻫﺎی ﺑﺮچﺴﺐ ﺧﻮﺭﺩﻩ – ﺩﻭ کﻼﺱ ﻣﺸﺨﺺ: Spam ﻭ Ham – ﺍﺳﺘﺨﺮﺍﺝ ﻭیژگی ﻫﺎ • ﺗﻮکﻦ ﺑﻨﺪی ﻣﺘﻦ ﺗﺸﺨیﺺ کﻠﻤﺎﺕ ﺣﺬﻑ )Stopwords ﻣﺜﻞ if, and ﺍگﺮ، ﺑﻪ، ﺑﺎ،. . . ( ﺭیﺸﻪ یﺎﺑی کﻠﻤﺎﺕ ) (Stemming ﺣﺬﻑ ﻋﻼﻣﺎﺕ ﻧﻘﻄﻪ گﺬﺍﺭی ﻣﺜﻞ ؛ ، . . ﻭیژگیﻬﺎی ﺑﻪ ﺻﻮﺭﺕ ﻟﻐﺖ • ﻋﺒﺎﺭﺍﺕ ﺩﺳﺖ ﺳﺎﺧﺘﻪ کﻪ ﻣﺘﻤﺎیﺰ کﻨﻨﺪﻩ ﻣی ﺑﺎﺷﻨﺪ ﻣﺜﻞ$$ $$Money • ﻭیژگی ﻫﺎی ﻣﺸﺨﺼﻪ ﺩﺍﻣﻨﻪ ﻣﺜﻞ ،From ،To ﺗﺎﺭیﺦ ﺍﺭﺳﺎﻝ پیﺎﻡ، ﺍﻧﺪﺍﺯﻩ پیﺎﻡ،. . . – – ﺩﺳﺘﻪ ﺑﻨﺪی ﺍیﻤیﻞ ﺑﻪ ﻋﻨﻮﺍﻥ ﺍﺳپﻢ ﻭ یﺎ ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ ﺍﻧﺘﺨﺎﺏ ﻭیژگی ﻫﺎی ﺑﺮﺗﺮ : Feature Selection – 11 • ﺩﺳﺘﻪ ﺑﺎ ﺍﺣﺘﻤﺎﻝ ﺑیﺸﺘﺮ = ﺑﺮچﺴﺐ کﻼﺱ ﺍﺭﺯیﺎﺑی ﻧﺘﺎیﺞ ) (Precision/Recall ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻭیژگی)ﻣﺸﺨﺼﻪ( ﻫﺎی یک پیﺎﻡ ﺍﻟکﺘﺮﻭﻧیکی • ﺍیﻦ ﻭیژگی ﻫﺎ ﻧﺸﺎﻧﻪ ﻫﺎیی ﺑﺮﺍی ﺩﺳﺘﻪ ﺑﻨﺪی یک پیﻐﺎﻡ ﺑﻪ ﺍﺳپﻢ ﻭ یﺎ ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ ﺍﺳﺖ • ﻭیژگی ﻫﺎی یک ﺍیﻤیﻞ – کﻠﻤﺎﺕ )ﺗﻮکﻦ ﻫﺎ( • . . . ، free, win, online, weight, fortune, offer – ﻋﺒﺎﺭﺍﺕ • ”!. . . ،“Free”, “only$”, “order now – کﺎﺭﺍکﺘﺮﻫﺎی ﺧﺎﺹ • – . . . ،$pecial, grea 8, 4 u ﺳﺮآیﻨﺪ ﺍیﻤیﻞ )ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺩﺍﻣﻨﻪ( • ﻧﺎﻡ ﻓﺮﺳﺘﻨﺪﻩ، آﺪﺭﺱ ﺍیﻤیﻞ ﻓﺮﺳﺘﻨﺪﻩ ﻭ گیﺮﻧﺪﻩ، ﻧﺎﻡ ﺩﺍﻣﻨﻪ )ﻣﺜﻞ ،(. com ،. ir ،. edu آﺪﺭﺱ ﻫﺎی IP 21 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻣﺎﺗﺮیﺲ ﺑﺮﺩﺍﺭ ﻭیژگی ﻫﺎ )ﺑﺎ ﻣﻘﺎﺩیﺮ ﺑﺎیﻨﺮی( ﻭیژگی ﻫﺎ کﻠﻤﺎﺕ ﻭ ﻋﺒﺎﺭﺍﺕ ﻫﻤﺎﻥ ﻭیژگی ﻫﺎ ﻫﺴﺘﻨﺪ، ﺍگﺮ ﺩﺭ آﻦ ﺳﻨﺪ/ﺍیﻤیﻞ ﻣﻮﺟﻮﺩ ﺑﺎﺷﻨﺪ ، ﻣﻘﺪﺍﺭﺷﺎﻥ ﺑﺮﺍﺑﺮ 1 ﺑﻮﺩﻩ ﻭ ﺍگﺮ ﺩﺭ آﻦ ﺳﻨﺪ/ﺍیﻤیﻞ ﻣﻮﺟﻮﺩ ﻧﺒﺎﺷﻨﺪ ﻣﻘﺪﺍﺭﺷﺎﻥ ﺑﺮﺍﺑﺮ ﺻﻔﺮ ﺧﻮﺍﻫﺪ ﺑﻮﺩ 31 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺍﻧﺘﺨﺎﺏ ﻭیژگی ﻫﺎ ) (Feature Selection • ﺑﺮﺍی ﻣﺎ کﻠﻤﺎﺗی ﺍﺭﺯﺵ ﺩﺍﺭﺩ کﻪ ﺑﺘﻮﺍﻧیﻢ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ آﻨﻬﺎ ﺩﺳﺘﻪ ﻫﺎ )ﺍﺳپﻢ ﻭ ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ( ﺭﺍ ﺗﺸﺨیﺺ ﺩﻫیﻢ 2 X 1 0 ﻭیژگی ﺍیﻤیﻞ 1# 1 2# 3# ? Spam 051 X 1 1 … 1 0 1 … 0 1 1 0 … 1 0 4# … … … 0 0 005# … 0 1 • ﺩﺭ ﺟﺪﻭﻝ ﺑﺎﻻ ﻭیژگی 2 X ﺧﺎﺻیﺖ ﺗﻤﺎیﺰ ﺩﺭ ﺗﺸﺨیﺺ ﺩﺳﺘﻪ ﺍیﺠﺎﺩ کﺮﺩﻩ ﺍﺳﺖ ﻭ ﻭﺑﻨﺎﺑﺮﺍیﻦ یک ﻭیژگی ﺍیﺪﻩ آﻞ ﺍﺳﺖ. 41 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺍﻧﺘﺨﺎﺏ ﻭیژگی ﻫﺎ )ﺍﺩﺍﻣﻪ( ﺗﺎ ﺣﺪ ﺯیﺎﺩی کیﻔیﺖ classification ﺑﻪ ﺍﻧﺘﺨﺎﺏ ﻭیژگی ﻫﺎ ﻭﺍﺑﺴﺘﻪ ﺍﺳﺖ ﺍﻟگﻮﺭیﺘﻢ ﻫﺎی ﺧﻮﺑی چﻮﻥ PIL ﻭ MST ﺑﺮﺍﺳﺎﺱ MI ﺍﺭﺍﺋﻪ ﺷﺪﻩ ﺍﺳﺖ ﺍﻧﺘﺨﺎﺏ ﻭ یژگی ﻫﺎ ﺑﺎ ﺍﻟگﻮﺭیﺘﻢ ﻫﺎی ژﻨﺘیک ﻭ یﺎ hill climbing ﺭﻭﺵ ﺧی-2 ﻭ IG ﺑﻬﺘﺮیﻦ ﺭﻭﺷﻬﺎیی ﻫﺘﻨﺪ کﻪ کﻠﻤﺎﺕ پﺮﻣﻌﻨﺎ ﺭﺍ ﺑﻪ ﻣﺎ ﻣی ﺩﻫﻨﺪ. • • 51 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺑﺮﺧی ﺍﺯ ﺍﻟگﻮﺭیﺘﻢ ﻫﺎی ﻣﺒﺘﻨی ﺑﺮ یﺎﺩگیﺮی ﺑﺮﺍی ﺩﺳﺘﻪ ﺑﻨﺪی ﺍیﻤیﻞ ﻫﺎ Naïve Bayesian ü • -K ﻧﺰﺩیک ﺗﺮیﻦ ﻫﻤﺴﺎیﻪ ) (k-NN • (Support Vector Machine) SVM – ﺗﻮﺳﻂ یک ﺍﺑﺮﺻﻔﺤﻪ کﻼﺳﻬﺎ ﺍﺯ ﻫﻢ ﺟﺪﺍ ﻣی ﺷﻮﻧﺪ: ﺑﺮﺍی ﻭﻗﺘی کﻪ ﺗﻨﻬﺎ ﺩﻭ کﻼﺱ ﺩﺍﺭیﻢ • ﻓﺮکﺎﻧﺲ کﻠﻤﻪ – ﻓﺮکﺎﻧﺲ ﻣﻌکﻮﺱ ﺳﻨﺪ ) (TF-IDF Term Frequency- Inverse Document Frequency • ﺩﺭﺧﺖ ﻫﺎی ﺗﺼﻤیﻢ گیﺮی – 5. 4 C 61 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻓیﻠﺘﺮ کﺮﺩﻥ ﺍﺳپﻢ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺩﺳﺘﻪ ﺑﻨﺪ Naïve Bayesian • ﺍﺣﺘﻤﺎﻝ ﺷﺮﻃی : ) P(B | A) = P(A|B) * P(B) / P(A • } X={x 1, x 2, x 3, x 4…xn ﺑﺮﺩﺍﺭ ﻭیژگی ﻫﺎ ﻣی ﺑﺎﺷﺪ – ﻣﺠﻤﻮﻋﻪ ﻭیژگی ﻫﺎ: • }” X={“online”, “credit”, “now!!!”…”Zinc ﻣﺠﻤﻮﻋﻪ ﻼﺳﻬﺎ ک } C={c 1, c 2, c 3, c 4…ck – ﺩﺭ ﺍیﻨﺠﺎ ﺩﻭ کﻼﺱ ﺩﺍﺭیﻢ: . }” C={“SPAM”, “LEGITIMATE • ﺳﺎﺩﻩ ﺗﺮیﻦ ﺭﻭﺵ ﺑﺮﺍی ﻣﺤﺎﺳﺒﻪ ﻓﺮﻣﻮﻝ ﺍﺣﺘﻤﺎﻝ ﺑیﺰیﻦ ﺍﺳﺖ کﻪ ﻓﺮﺽ کﻨیﻢ کﻪ ﻫﺮ ﻭیژگی Xi ﺑﺼﻮﺭﺕ ﺷﺮﻃی ﻣﺴﺘﻘﻞ ﺍﺯ ﺳﺎیﺮ ﻭیژگی ﻫﺎﺳﺖ 71 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻓیﻠﺘﺮ کﺮﺩﻥ ﺍﺳپﻢ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺩﺳﺘﻪ ﺑﻨﺪ )Naïve Bayesian ﺍﺩﺍﻣﻪ( • ﻓﺮﺽ ﺍﺳﺘﻘﻼﻝ: • =n ﺗﻌﺪﺍﺩ ﻭیژگی ﻫﺎ • ﻫﺮ کﻼﺱ )ﺍﺳپﻢ ﻭ یﺎ ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ( کﻪ ﺍیﻦ ﻣﻘﺪﺍﺭ ﺍﺣﺘﻤﺎﻟی ﺑﻪ ﺍﺯﺍی آﻦ ﺑﺰﺭگﺘﺮ ﺑﺎﺷﺪ، ﺑﺮچﺴﺐ آﻦ ﺍیﻤیﻞ ﺧﻮﺍﻫﺪ ﺑﻮﺩ. • ﺑﺮﺍی ﻣﻘﺎیﺴﻪ ﻣﻘﺪﺍﺭ کﻼﺱ ﺍﺳپﻢ ﺑﺎ کﻼﺱ » ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ « ﻧیﺎﺯی ﺑﻪ ﻣﺤﺎﺳﺒﻪ ﻣﺨﺮﺝ کﺴﺮ ﻓﻮﻕ ﻧیﺴﺖ چﺮﺍکﻪ ﺍیﻦ ﻣﻘﺪﺍﺭ ﺑﺮﺍی ﻫﺮ کﻼﺱ یکﺴﺎﻥ ﺍﺳﺖ 81 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻃﺒﻘﻪ ﺑﻨﺪی ﺑﻪ ﻋﻨﻮﺍﻥ ﺍﺳپﻢ • False Psitive ﺷﺎﻣﻞ ﺍیﻤیﻞ ﻫﺎیی ﻣی ﺷﻮﺩ کﻪ ﺑﻪ ﺍﺷﺘﺒﺎﻩ ﺟﺰﻭ ﺍﺳپﻢ ﻫﺎ ﺩﺳﺘﻪ ﺑﻨﺪی ﻣی گﺮﺩﻧﺪ. : • False Negative ﻫﻢ ﺷﺎﻣﻞ ﺍیﻤیﻞ ﻫﺎیی ﻣی ﺷﻮﺩ کﻪ ﺑﻪ ﺍﺷﺘﺒﺎﻩ ﺟﺰﻭ ﺍیﻤیﻞ ﻫﺎی ﻣﻌﺘﺒﺮ ﺩﺳﺘﻪ ﺑﻨﺪی ﻣی ﺷﻮﻧﺪ. : • !!! ﻃﺒﻘﻪ ﺑﻨﺪی ﺍﺷﺘﺒﺎﻩ یک ﺍیﻤی ﻣﻌﺘﺒﺮ ﺑﻪ ﻋﻨﻮﺍﻥ ﺍﺳپﻢ ﻧﺴﺒﺖ ﺑﻪ ﻃﺒﻘﻪ ﺑﻨﺪی ﺍﺷﺘﺒﺎﻩ یک ﺍﺳپﻢ ﺑﻪ ﻋﻨﻮﺍﻥ ﺍیﻤی ﺩﺭﺳﺖ، ﻫﺰیﻨﻪ ﺑ ﺑیﺸﺘﺮی ﺩﺭ ﺑﺮﺩﺍﺭﺩ! ﺑﺎﺷﺪ، آﻨگﺎﻩ ﺯﻣﺎﻧی یک λ ﺑﺎﺭ ﺑﺪﺗﺮ ﺍﺯ ﻫﺰیﻨﻪ • ﺍگﺮ ﻫﺰیﻨﻪ ﺍیﻤیﻞ ﺭﺍ ﺟﺰﻭ ﺍﺳپﻢ ﻫﺎ ﻃﺒﻘﻪ ﺑﻨﺪی ﻣی کﻨیﻢ کﻪ • ﺑﺎ ﻓﺮﺽ کﻪ t ﺑﺮﺍﺑﺮ ﺍﺳﺖ ﺑﺎ 91 ﺩﺍﺭیﻢ . ﺩﺭ ﺍیﻨﺠﺎ t ﺑﺮﺍﺑﺮ 999/0 گﺮﻓﺘﻪ ﺷﺪﻩ ﺍﺳﺖ. ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
آﺰﻣﺎیﺶ • ﺍﺯ feature selection ﺑﺮﺍی کﺎﻫﺶ ﺍﺑﻌﺎﺩ ﻭیژگی/ﺩﺍﺩﻩ ﺍﺳﺘﻔﺎﺩﻩ ﺷﺪﻩ ﺍﺳﺖ • ﺑﻌﻀی ﺍﻭﻗﺎﺕ ﻣی ﺗﻮﺍﻥ ﺍﺯ feature transforming ﻫﻢ ﺍﺳﺘﻔﺎﺩﻩ کﺮﺩ – LSI & SVD • یک ﺍﻧﺒﻮﻩ ﺩﺍﺩﻩ) (corpus ﺍﺯ ﺍیﻤیﻠﻬﺎی ﻭﺍﻗﻌی : ﺷﺎﻣﻞ 8751 ﺍیﻤیﻞ ﺑیﻬﻮﺩﻩ ﻭ 112 ﺍیﻤیﻞ ﻣﻌﺘﺒﺮ 1538 ﺩﺍﺩﻩ ﺑﺮﺍی آﻤﻮﺯﺵ ﻓیﻠﺘﺮ ﻭ 152 ﻋﺪﺩ ﺑﺮﺍی ﺗﺴﺖ • ﻭیژگیﻬﺎی گﺮﻓﺘﻪ ﺷﺪﻩ ﺍﺯ ﺗﻮکﻦ ﻫﺎی ﻣﺘﻦ – – 02 ﺗﻮکﻦ ﻫﺎی ﻧﺎﺩﺭ )ﺑﺎ ﺭﺧﺪﺍﺩ کﻤﺘﺮ ﺍﺯ 3 ﺩﺭ کﻞ (corpus ﺣﺬﻑ ﺷﺪﻧﺪ 53 ﻭیژگی ﻋﺒﺎﺭﺗی ﺍﺿﺎﻓﻪ ﺷﺪﻧﺪ 02 ﻭیژگی ﻏیﺮ ﻣﺘﻨی ﻭ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺩﺍﻣﻨﻪ ﺍﺿﺎﻓﻪ ﺷﺪﻧﺪ ﺗﻌﺪﺍﺩ کﺎﺭﺍکﺘﺮﻫﺎی ﻏیﺮ ﺍﻟﻔﺒﺎیی ﺩﺭ ﻋﻨﻮﺍﻥ ﺍیﻤیﻞ ﺑﻪ ﻋﻨﻮﺍﻥ ﻭیژگی ﻣﻔیﺪی ﺷﻨﺎﺳﺎیی ﺷﺪ ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻣﻌیﺎﺭﻫﺎی ﺍﺭﺯیﺎﺑی • : Spam Precision ﺩﺭﺻﺪی ﺍﺯ ﺍیﻤیﻠﻬﺎی ﻃﺒﻘﻪ ﺑﻨﺪی ﺷﺪﻩ ﺑﻪ ﻋﻨﻮﺍﻥ ﺍﺳپﻢ کﻪ ﺩﺭ ﻭﺍﻗﻊ ﺍﺳپﻢ ﻫﺴﺘﻨﺪ. • : Spam Recall ﺩﺭﺻﺪی ﺍﺯ کﻞ ﺍیﻤیﻞ ﻫﺎی ﺍﺳپﻢ ﻭﺍﻗﻌی کﻪ ﺗﻮﺳﻂ ﺩﺳﺘﻪ ﺑﻨﺪ ﺑﻪ ﻋﻨﻮﺍﻥ ﺍﺳپﻢ ﻃﺒﻘﻪ ﺑﻨﺪی ﺷﺪﻩ ﺍﻧﺪ. 12 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻧﺘﺎیﺞ • یک ﻧﻤﻮﺩﺍﺭ Precision/Recall ﺍیﺪﻩ آﻞ ﻓﻘﻂ کﻠﻤﺎﺕ )ﺑﻪ ﻋﻨﻮﺍﻥ ﻭیژگیﻬﺎ ( کﻠﻤﺎﺕ ﻭ ﻋﺒﺎﺭﺍﺕ )ﺑﻪ ﻋﻨﻮﺍﻥ ﻭیژگیﻬﺎ ( کﻠﻤﺎﺕ-ﻋﺒﺎﺭﺍﺕ ﻭ ﺻﻔﺎﺕ ﻭﺍﺑﺴﺘﻪ ﺑﻪ ﺩﺍﻣﻨﻪ )ﺑﻪ ﻋﻨﻮﺍﻥ ﻭیژگیﻬﺎ ( 22 ﻧﻤﻮﺩﺍﺭ Precision / Recall ﺑﺮﺍی ﺍﺳپﻢ ﻫﺎ ﺑﺎ 3 ﻣﺠﻤﻮﻋﻪ ﻣﺘﻔﺎﻭﺕ ﺍﺯ ﻭیژگیﻬﺎ ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻧﺘﺎیﺞ )ﺍﺩﺍﻣﻪ( • ﻧﺘﺎیﺞ ﺩﺳﺘﻪ ﺑﻨﺪی ) (Classification ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﻣﺠﻤﻮﻋﻪ ﻭیژگی ﻫﺎی ﻣﺘﻔﺎﻭﺕ 32 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻧﻘﺎﻁ ﻗﻮﺕ ﻭﺿﻌﻒ ﺩﺳﺘﻪ ﺑﻨﺪ Naïve Bayesian • ﻧﻘﺎﻁ ﻗﻮﺕ 1( ﻣﺘﺪ Bayesian کﻞ پیﻐﺎﻡ ﺭﺍ ﺩﺭ ﻧﻈﺮ ﻣی گیﺮﺩ. ﺍیﻦ ﻣﺘﺪ ﻋﻼﻭﻩ ﺑﺮ ﺍیﻨکﻪ کﻠﻤﺎﺕ کﻠیﺪی کﻪ ﻣﻌﺮﻑ ﻭ ﻣﺮﺗﺒﻂ ﺑﺎ ﺍﺳپﻢ ﻫﺴﺘﻨﺪ ﺭﺍ ﺷﻨﺎﺳﺎیی ﻣی کﻨﺪ، ﺑﻠکﻪ کﻠﻤﺎﺕ ﻣﻌﺮﻑ ﺍیﻤیﻞ ﻫﺎی ﻣﻌﺘﺒﺮ ﺭﺍ ﻧیﺰ ﺷﻨﺎﺳﺎیی ﻣی کﻨﺪ. ﺩﺭ ﻣﺘﺪ Bayesian کﻠﻤﺎﺕ ﺩﺭ کﻨﺎﺭﻫﻢ ﺗﺄﺜیﺮ یکﺪیگﺮ ﺭﺍ )ﺩﺭ ﻧﺘیﺠﻪ ﻧﻬﺎیی ﻓیﻠﺘﺮ ﺍﺳپﻢ( ﻣﺘﻌﺎﺩﻝ ﻣی کﻨﻨﺪ؛ ﺑﻪ ﺑیﺎﻧی ﺩیگﺮ ﻓیﻠﺘﺮ Bayesian ﺑﺮ ﺭﻭی کﻠﻤﺎﺕ کﻠیﺪی ﺗکیﻪ ﻧﻤی کﻨﺪ ﺑﻪ ﻃﻮﺭیکﻪ ﺑﻪ ﺧﺎﻃﺮ یک کﻠﻤﻪ ﺧﺎﺹ، یک پیﻐﺎﻡ ﺭﺍ ﺟﺰﻭ ﺍﺳپﻢ ﻫﺎ ﻃﺒﻘﻪ ﺑﻨﺪی کﻨﺪ، ﺑﻠکﻪ ﺗﻤﺎﻣی کﻠﻤﺎﺕ ﻭ ﺗﻤﺎﻣی ﻭیژگی ﻫﺎی پیﻐﺎﻡ ﺭﺍ ﺩﺭ ﻧﻈﺮ ﻣی گیﺮﺩ. یک ﻓیﻠﺘﺮ Bayesian ﺑﺎ یﺎﺩگیﺮی ﻣﺴﺘﻤﺮ ﺍﺯ ﺍﺳپﻢ ﻫﺎی ﺟﺪیﺪ ﻭ ﺍیﻤیﻞ ﻫﺎی ﻣﻌﺘﺒ ﺟﺪیﺪ، ﺑﻪ ﻃﻮﺭ ﺛﺎﺑﺖ ﺧﻮﺩ ﺭﺍ ﺑﺎ آﺨﺮیﻦ ﺗﻐییﺮﺍﺕ ﻭﻓﻖ ﻣی ﺩﻫﺪ. ﻓیﻠﺘﺮ Bayesian ﺩﺍﺋﻤ ﺩﺭ ﺣﺎﻝ ﺗﺤﻮﻝ ﺍﺳﺖ ﻭ ﺧﻮﺩ ﺭﺍ ﺑﺎ ﺗکﻨیک ﻫﺎی ﺟﺪیﺪ ﺍﺳپﻢ ﻫﻤﺎﻫﻨگ ﻣی ﺳﺎﺯﺩ. 2( • 42 3( ﻫﻨگﺎﻣی کﻪ ﻓﺮﺳﺘﺎﺩگﺎﻥ ﺍﺳپﻢ ﺑﺮﺍی ﻓﺮیﺐ ﺩﺍﺩﻥ ﺭﺍﻫکﺎ » ﺑﺮﺭﺳی کﻠﻤﺎﺕ کﻠیﺪی « ﺑﻪ ﺟﺎی ” “Free ﺍﺯ ” “F-r-e-e ﺍﺳﺘﻔﺎﺩﻩ کﺮﺩﻧﺪ، ﺑﻼﻓﺎﺻﻠﻪ پﺲ ﺍﺯ ﺍﻓﺰﻭﺩﻥ ” “F-r-e-e ﺑﻪ پﺎیگﺎﻩ ﺩﺍﺩﻩ کﻠﻤﺎﺕ کﻠیﺪی، ﺭﺍﻫکﺎﺭﺷﺎﻥ ﺧﻨﺜی ﺷﺪ ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian ﺭﻭﺵ Bayesian ﺭﻭﺷی ﺍﺳﺖ کﻪ ﻗﺎﺑﻞ ﻋﻤﺎﻝ ﺑﻪ ﻫﺮ ﺯﺑﺎﻧی ﻣی ﺑﺎﺷﺪ. ﻓیﻠﺘﺮ ﺍﺳپﻢ
ﻧﻘﺎﻁ ﻗﻮﺕ ﻭﺿﻌﻒ)ﺍﺩﺍﻣﻪ( 4( ﺗکﻨیک ﻓیﻠﺘﺮ Bayesian ﺣﺴﺎﺱ ﺑﻪ کﺎﺭﺑﺮ ﻭ ﺩﺍﺩﻩ ﻫﺎی ﺍﻭﺳﺖ. ﻓیﻠﺘﺮ ﺍﺯ ﺍیﻤیﻞ ﻫﺎی کﺎﺭﺑﺮ )ﻭ یﺎ ﺷﺮکﺖ( یﺎﺩ ﻣی گیﺮﺩ کﻪ ﺩﺭ ﻣﻮﺭﺩ کﺎﺭﺑﺮ، ﺑیﺸﺘﺮ چﻪ ﻣﻄﺎﻟﺒی ﺑﻪ ﻋﻨﻮﺍﻥ ﺍیﻤیﻞ ﺭﺩ ﻭ ﺑﺪﻝ ﻣی گﺮﺩﺩ. • 5( ﺑﻪ ﻋﻨﻮﺍﻥ ﻣﺜﺎﻝ ﺍگﺮ ﺷﺮکﺖ )یﺎ ﻓﺮﺩ( یک ﺷﺮکﺖ ﺩﻻﻝ ﺍﺗﻮﻣﺒیﻞ ﺑﺎﺷﺪ، آﻨگﺎﻩ کﻠﻤﻪ ” “mortgage ﺑﻪ ﻋﻨﻮﺍﻥ ﻧﺸﺎﻧﻪ ﺍی ﺑﺮﺍی یک ﺍﺳپﻢ ﺗﻠﻘی ﻣی گﺮﺩﺩ، ﺩﺭ ﺣﺎﻟی کﻪ ﺍگﺮ ﺷﺮکﺖ )یﺎ ﻓﺮﺩ( یک ﺷﺮکﺘی ﺑﺎﺷﺪ کﻪ ﻃﺮﻑ ﻗﺮﺍﺭﺩﺍﺩﺵ ﺳﺎﺯﻣﺎﻥ ﻭﺍﻡ ﺩﻫﻨﺪﻩ ﻣﺴکﻦ ﺑﺎﺷﻨﺪ آﻨگﺎﻩ چﻨیﻦ کﻠﻤﻪ ﺍی ﺩﺭ ﺍیﻤیﻞ ﻧﺸﺎﻥ ﺩﻫﻨﺪﻩ ﻭﺟﻮﺩ یک ﺍﺳپﻢ ﻧﻤی ﺑﺎﺷﺪ. یک ﻓیﻠﺘﺮ Bayesian ﻧﺴﺒﺖ ﺑﻪ ﻓیﻠﺘﺮﻫﺎی ﻣﺒﺘﻨی ﺑﺮ ﻟیﺴﺖ کﻠﻤﺎﺕ کﻠیﺪی، کﻤﺘﺮ ﻓﺮیﺐ ﻣی ﺧﻮﺭﺩ. v ﻧﻘﻄﻪ ﺿﻌﻒ: ﻓﺮﺽ ﺍﺳﺘﻘﻼﻝ ﺑیﻦ ﻭیژگی ﻫﺎ v 52 ﻣی ﺗﻮﺍﻥ ﺍﺯ ﺭﻭﺷﻬﺎی ﺟﺎیگﺰیﻦ )ﺍﻟﺒﺘﻪ ﺑﺎ ﻣﺤﺎﺳﺒﺎﺕ ﺑیﺸﺘﺮ( ﻣﺎﻧﻨﺪ Belief Network ﺍﺳﺘﻔﺎﺩﻩ کﺮﺩ ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﺟﻤﻊ ﺑﻨﺪی • ﺭﻭﺵ Bayesian ﺑﺮﺍی ﻓیﻠﺘﺮ کﺮﺩﻥ ﺍﺗﻮﻣﺎﺗیک ﺍﺳپﻢ ﻫﺎ کﺎﺭﺍ ﻣی ﺑﺎﺷﺪ • ﺍﻓﺰﻭﺩﻥ ﻭیژگیﻬﺎی ﻏیﺮﺩﺍﻣﻨﻪ ﺍی ﻭ ﻏیﺮﻣﺘﻨی ﻭ ﻋﺒﺎﺭﺗﻬﺎی ﺩﺳﺖ ﺳﺎﺧﺘﻪ ﺑﺎﻋﺚ ﺑﻬﺒﻮﺩ کﺎﺭﺍﺋی ﻓیﻠﺘﺮیﻨگ ﻣی گﺮﺩﺩ. • ﻓیﻠﺘﺮﺍﺳپﻢ Naïve Bayesian ﻣی ﺗﻮﺍﻧﺪ ﺑﺮﺍی ﺩﺳﺘﻪ ﺑﻨﺪی ﻫﺎی ﻣﺘﻔﺎﻭﺗی ﺍﺯ ﺍیﻤیﻠﻬﺎ ﻣﻮﺭﺩ ﺍﺳﺘﻔﺎﺩﻩ ﻗﺮﺍﺭ گیﺮﺩ – ﻣﺜﻞ ﺩﺳﺘﻪ ﺑﻨﺪی ﺍیﻤیﻠﻬﺎی ﻣﻌﺘﺒﺮ ﺑﻪ » ﺍیﻤیﻠﻬﺎی ﺩﻭﺳﺘﺎﻥ « ﻭ » ﺍیﻤیﻠﻬﺎی کﺎﺭی « 62 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
ﻣﺮﺍﺟﻊ [1] Sahami, M. , Dumais, S. , Heckerman, D and Horvitz, E. A bayesian approach to filtering junk e-mail. In Learning for Text Categorization: Papers from the 1998 Workshop. AAAI Technical Report WS-98 -05, 1998. [2] Blanzieri, E. , Bryl, A. A survey of learning-based techniques of Email Spam Filtering. Technical report # DIT-06 -056. University of Torino, Italy. 2008. [3] http: //www. gfi. com/whitepapers/why-bayesian-filtering. pdf. “Why Bayesian filtering is the most effective anti-spam technology”, White Paper by GFI Software. , 2008. [4] Cohen, W. , Learning rules that classify email. In Proceedings of the 1996 AAAI Spring Symposium on Machine Learning in Information Access, MLIA ’ 96. AAAI Press, 1996. [5] Yang, Y. , Pederson, J. O. , A Coparative Study on feature selection in text categorization. In Proceedings of International Conference on Machine Learning (ICML), Pages 412420. Morgan Kaufman Publishers, 1997 Naïve Bayesian ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ 27
ﺑﺎ ﺗﺸکﺮ ﺍﺯ ﺗﻮﺟﻪ ﺷﻤﺎ 82 ﺍﺳپﻢ ﻭ ﻓیﻠﺘﺮکﺮﺩﻥ آﻦ ﺑﺎ ﺍﺳﺘﻔﺎﺩﻩ ﺍﺯ ﺭﻭﺵ Naïve Bayesian
19a4639f09dc0745c8b6098800461539.ppt