ارائه فرایندی جهت یکپارچه‌سازی و تشخیص تکرار برای بهبود کیفیت داده‌ها

نوع مقاله : مقاله پژوهشی فارسی

نویسندگان

1 دانشکده مهندسی برق و فناوری اطلاعات، واحد قزوین، دانشگاه آزاد اسلامی،قزوین، ایران.

2 دانشکده مهندسی کامپیوتر، دانشگاه تربیت دبیر شهید رجایی، تهران، ایران.

چکیده

اطلاعات در محیط‌ های کاری امروزی و تصمیم گیری‌ ها نقشی اساسی دارند. با توجه به اهمیت تصمیم گیری، اطمینان از کیفیت داده‌ های موجود ضروری است. با استفاده از روش‌ های پاک‌سازی داده می‌توان کیفیت داده‌ ها را بهبود بخشید. در این مقاله فرایندی در جهت کشف انواع رکورد های تکراری و متناقض، یکپارچه‌سازی و تشخیص تکرار برای بهبود کیفیت داده‌ها ارائه می‌شود. فرایند پیشنهادی شامل بخش‌هایی ازجمله کد کردن داده‌ها و خوشه‌بندی با استفاده از الگوریتم امید ریاضی- بیشینه‌سازی، ساخت نشانه برای رکوردها، ادغام روش‌های کدکردن داده‌ها و ساخت نشانه و ایجاد قوانین انجمنی با استفاده از الگوریتم Fp-growth است. نتایج آزمایش‌ها نشان می دهد در فرایند پیشنهادی به‌طور متوسط معیار فراخوانی 96%، صحت 99%، دقت 95% و امتیاز- اف 95% شده است. روش پیشنهادی با یک روش شناسایی تکرار و خطا، مقایسه شده است که نتایج حاصل نشان‌دهنده‌ی افزایش 13% فراخوانی، 1% صحت و 6% امتیاز- اف است.

کلیدواژه‌ها