ارائه الگوریتم جدید جهت کشف داده های پرت محلی در جریان داده ها

نویسندگان

Shiraz University

چکیده

افزایش روزافزون داده­ها در پایگاه داده­ها، نیاز به روش­های بهینه برای آنالیز داده­ها را افزایش داده است. بیشتر مطالعات، بر روی پیداکردن الگوهای کاربردی در پایگاه داده­ها متمرکز شده­اند. این مطالعات برای کاربردهای تشخیص فعالیت مجرمین در تجارت الکترونیک و تشخیص انحرافات نسبت به کاربردهای دیگر مفیدتر واقع شده است. الگوریتم­های زیادی برای تشخیص داده­های پرت ارائه شده است، اما اکثر این الگوریتم­ها بر روی داده­های ایستا کارایی دارند. داده­های جریانی، داده­های پیوسته و نامحدودی هستند که در طول زمان، تغییر توزیع خواهند داشت. این تغییر توزیع، باعث افزایش نرخ مثبت- کاذب و عدم کارایی الگوریتم­های موجود می­شود. در این مقاله، الگوریتمی جهت شناسایی داده های پرت، با استفاده از روش تقسیم جریان داده­ها به قطعه­های مساوی و محاسبه ضریب ناهنجاری محلی برای داده­ها و استفاده از لیستی برای داده­های پرت کاندید ارائه داده ایم تا علاوه بر شناسایی داده­های پرت، نرخ مثبت-کاذب پایینی داشته باشد. نتایج بدست آمده بر روی مجموعه داده­های مصنوعی و حقیقی، نشان می­دهد که الگوریتم ارائه شده، باعث کاهش قابل توجه نرخ مثبت-کاذب و افزایش دقت شده و نسبت به الگوریتم های دیگر کارایی بهتری دارد.