تشخیص دادههای پرت در اکسل
یکی از مراحل پروژه های داده کاوی و علم داده پیش پردازش داده ها می باشد. تشخیص دادههای پرت در اکسل مهمترین بخش از پیش پردازش داده هاست.
وجود داده های پرت دلایل گوناگونی دارد. گاهی در وارد کردن دادهها اشتباهی صورت می گیرد و مقادیری بزرگتر و یا کوچکتر از حد معمول وارد می شوند که به آنها دادههای پرت (دورافتاده) گفته میشود. نام دیگری داده های پرت Outlier است و به عمل جداسازی داده های پرت Outlier Detection گفته می شود. گاهی نیز در وارد کردن دادهها اشتباهی صورت نگرفته است و ایراد از دادههای اصلی است مثلاً حقوق یک نفر خیلی کمتر و دورتر از میانگین حقوق های دریافتی کلیه پرسنل شرکت است.
چرا داده های پرت باید حذف شوند؟
وجود داده های پرت باعث می شود تا ارتباط بین دو متغیر از بین برود. همچنین برای انتخاب روش های آماری و داده کاوی باید ابتدا نرمال بودن؛ همسان بودن و واریانس داد ها محاسبه شوند.
روش حذف دادههای پرت در اکسل
روش های گوناگونی برای تشخیص دادههای پرت در اکسل وجود دارد، ما در این آموزش با کمک محاسبه چارک اول و چارک سوم به داده های پرت می رسیم و با کمک Conditional Formatting آن ها را مشخص می کنیم.
با کمک فرمول Quartile می توانید با دادن ورودی آخر چارک مورد نظر یعنی چارک های اول و سوم را محاسبه کنید:
سپس آن ها را از هم کم کنید تا 50% داده ها مشخص شود. در نهایت اختلاف چارک اول و سوم از حد وسط حد بالا و پایین داده ها را مشخص می کند. هرداده ای که از حد بالا و پایین خارج باشد داده پرت خواهد بود.
از این قسمت می توانید فایل اکسل آموزش فوق را دانلود کنید:
دانلود فایل اکسلدرباره پوریا بغدادی
یادگیری و آموزش برای من فراتر از یک حرفه است. بدون ترس از این مسیر لذت می برم. بقیهاش مهم نیست. 💛
نوشته های بیشتر از پوریا بغدادی
اقا ممنون جالب بود
سلامت باشید.
عالی بود چقدر مسلط و با حوصله و با کلامی شیوا توضیح دادید ممنونم
خواهش می کنم.
با سلام و عرض ادب . اسم آکادمیک این روش به چه نامی است؟؟؟
سلام
تشخیص داده های پَرت
Outlier Detection
روشهای مختلفی برای محاسبه داده های پرت داریم ولی عموماً سه روش زیر بیشتر مورد تایید و استفاده هستند
Dixon
Grubbs
Hampel
که این روش اصلا شبیه به هیچکدوم از این سه روش نیست
با توجه به تک متغیره و یا چند متغیره بودن داده ها روش های مختلفی برای تشخیص داده های پَرت وجود دارد. نام این روش که معمولا با رسم نمودار Boxplot نمایش داده می شود Tukey می باشد.
عالی بود ممنون
خواهش می کنم.
عالی👌
ممنون
عالی بود
وقتی این عبارت “فرمول محاسبه داده های پرت” رو گوگل کنی و اولین یافته سایت مهندس بغدادی باشه، مهر تایید دیگه ای بر کاردرست بودن ایشون و سیستم کاریشون هست
فقط خواستم بگم خیلی مخلصیم استاد عزیر عرض دیگه ای نداشتم