ارائه روشی بر مبنای پیوند جهت بهبود تشخیص صفحات فریب‌آمیز در گراف وب فارسی

پارویی, مرضیه; زارع بیدکی, علی محمد

ارائه روشی بر مبنای پیوند جهت بهبود تشخیص صفحات فریب‌آمیز در گراف وب فارسی

نویسندگان

¹ دانشجوی کارشناسی‌ارشد، دانشکده مهندسی برق و کامپیوتر، دانشگاه یزد،یزد،

² دانشیار، دانشکده مهندسی برق و کامپیوتر، دانشگاه یزد، یزد، ایران

چکیده

امروزهباافزایشچشمگیراستفادهازاینترنتوهمچنینرشدبسیارفزایندهصفحاتوب،استفادهازموتورهای جستجو اهمیتبیشتریپیداکردهاست. درنتیجهبعضیازافرادبرایبدستآوردنمخاطببیشترو افزایش سود ناشی از آن تلاشمیکنندموتورهای جستجوراگمراهکنندورتبهصفحاتموردنظرخودراباروشهاینامشروعبالاببرند.شناساییاینصفحاتمیتواندنقشیاساسیدربهبودعملکردموتورهایجستجووبالابردناطمینانکاربرانبه آنهاگردد. نظر به اهمیت کشف صفحات وب فریبآمیز، دراینمقالهروشی جدید بر مبنای اطلاعات پیوندها جهت شناسایی صفحات فریبآمیز در گراف وب فارسی ارائه میگردد. در این روش با بهرهگیری از اطلاعات پیوندها، ابتدا تودههای فریبآمیز شناسایی میشود و سپس امتیاز منفی آنها در کل گراف انتشار مییابد. برای بررسی صحت عملکرد الگوریتم ارائه شده، این روش بر روی دادههای موتور جستجوی فارسی پارسیجو پیادهسازی شده است و نتایج ارزیابیهای صورت گرفته بهبودی برابر با 21.2% را در فاکتور دقت نشان میدهد.
امروزهباافزایشچشمگیراستفادهازاینترنتوهمچنینرشدبسیارفزایندهصفحاتوب،استفادهازموتورهای جستجو اهمیتبیشتریپیداکردهاست. درنتیجهبعضیازافرادبرایبدستآوردنمخاطببیشترو افزایش سود ناشی از آن تلاشمیکنندموتورهای جستجوراگمراهکنندورتبهصفحاتموردنظرخودراباروشهاینامشروعبالاببرند.شناساییاینصفحاتمیتواندنقشیاساسیدربهبودعملکردموتورهایجستجووبالابردناطمینانکاربرانبه آنهاگردد. نظر به اهمیت کشف صفحات وب فریبآمیز، دراینمقالهروشی جدید بر مبنای اطلاعات پیوندها جهت شناسایی صفحات فریبآمیز در گراف وب فارسی ارائه میگردد. در این روش با بهرهگیری از اطلاعات پیوندها، ابتدا تودههای فریبآمیز شناسایی میشود و سپس امتیاز منفی آنها در کل گراف انتشار مییابد. برای بررسی صحت عملکرد الگوریتم ارائه شده، این روش بر روی دادههای موتور جستجوی فارسی پارسیجو پیادهسازی شده است و نتایج ارزیابیهای صورت گرفته بهبودی برابر با 21.2% را در فاکتور دقت نشان میدهد.

کلیدواژه‌ها

مراجع

[1] M. Luckner, M. Gad and P. Sobkowiak, "Stable web spam detection using features based on lexical items", Computers & Security, vol. 46, pp. 79–93, 2014.

[2] A.M. ZarehBidoki, M.A. Golshani, and E. Mousakazemi-Mohammadi ", Design and Implementation of Persian document crawling/ranking system and Implementation of a Persian Search Engine", Itre,Tehran, Iran, 2012.(in persian)

[3] G.-R. Xue, Q. Yang, H.-J. Zeng, Y. Yu, and Z. Chen, "Exploiting the hierarchical structure for link analysis", Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, 2005.

[4] L. Page, S. Brin, R. Motwani, and T. Winograd, "The pagerank citation algorithm: bringing order to the web," Technical Report, Standford Univ.,1998.

[5] B. Wu and B. D. Davison, "Identifying link farm spam pages", Special interest tracks and posters of the 14th international conference on World Wide Web,pp. 820-829, 2005.

شکل 9: مقایسه نتایج قبل از اعمال الگوریتم شناسایی صفحات فریبآمیز و پس از اعمال الگوریتم شناسایی صفحات فریبآمیز

[6] L. Becchetti, C. Castillo, D. Donato, S. Leonardi and R. Baeza-Yate,", Link-Based Characterization and Detection of Web Spam", Proceeding of the 6th International Workshop

on Adversarial Information Retrival on the Web (AIRWEB), 2006.

[7] Z. Gyongyi, H. Garcia-Molina and J. Peddersen, "Combating web spam with trustrank", Proceedings of the Thirtieth international conference on Very large data bases volume 30.VLDB Endowment, Torento, Canada, pp. 576-587, 2004.

[8] V. Krishnan, R. Raj, "Web spam detection with anti-TrustRank" , Proceeding of the 2nd International Workshop

on Adversarial Information Retrival on the Web (AIRWEB),pp. 37-40, 2006.

[9] www.parsijoo.ir

دوره 5، شماره 3 - شماره پیاپی 3
89
مهر 1395
صفحه 16-54

تعداد مشاهده مقاله: 2,688
تعداد دریافت فایل اصل مقاله: 2,557

ارائه روشی بر مبنای پیوند جهت بهبود تشخیص صفحات فریب‌آمیز در گراف وب فارسی

مراجع

دوره 5، شماره 3 - شماره پیاپی 3
89
مهر 1395
صفحه 16-54

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

ارائه روشی بر مبنای پیوند جهت بهبود تشخیص صفحات فریب‌آمیز در گراف وب فارسی

مراجع

دوره 5، شماره 3 - شماره پیاپی 389مهر 1395صفحه 16-54

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 5، شماره 3 - شماره پیاپی 3
89
مهر 1395
صفحه 16-54