Data Profiling در Power BI
یکی از قابلیت های بسیار مهم Power BI که ممکن است کاربران به آن توجه نکنند قابلیت Data Profiling است. در واقع با این ویژگی می توانید تصویری از داده های خود را قبل از شروع کار با آن ها مشاهده کنید. در واقع Power BI با این ویژگی، کار کاربران خود را بسیار راحت کرده و نیاز کاربران را به انجام یکی از مهمترین مراحل کار با داده بدون نیاز به داشتن دانش خاصی مرتفع ساخته است.
Data Profiling چیست؟
Data Profiling یکی از اعمالیست که دانشمندان داده معمولا با آن سر و کار دارند. این عمل یک نگاه کلی به شکل و ساختار داده است. Data Profiling شبیه نگاه کلی به جنگل به جای بررسی تک تک درختان است.
فعال سازی ویژگی Data Profiling
برای فعال سازی این ویژگی از منوی File به Option and Setting رفته و گزینه Option را انتخاب نمایید. از بخش Global گزینه Preview Feature را انتخاب نموده و گزینه Enable Column Profiling را فعال کنید. یک بار Power BI را ببندید و باز کنید تا این ویژگی برای شما فعال شود. در صورتی که از ورژن های جدید تر استفاده می کنید نیازی به فعال سازی این گزینه نخواهید داشت.
بارگذاری داده
برای بررسی این ویژگی از داده های Adventure Works استفاده می کنیم. جدول مشتریان از میان جداول Adventure Works انتخاب نموده و پس از بارگذاری به قسمت Edit Queries می رویم.
اولین مورد در Data Profiling که شاید خیلی محسوس نباشد را با نگاه به نوار رنگی در زیر نام هر ستون خواهید یافت. همان طور که در تصویر مشاهده می نمایید، نواری در زیر هر ستون نمایش داده شده که در برخی از ستون ها سبز رنگ کامل و برخی نصف سبز و نصف خاکستری می باشد. در واقع اگر ستون بدون Error و بدون مقادیر NULL باشد، کاملا سبز رنگ و در صورتی که دارای Error باشد نوار قرمز رنگ خواهد بود. در صورتی که ستون دارای مقادیر NULL باشد به میزان درصد مقادیر NULL نوار خاکستری رنگ خواهد بود.
به طور مثال ستون CustomerID که کلید اصلی جدول مشتریان است و نمی تواند دارای مقادیر خالی باشد کاملا سبز رنگ است. اما ستون PersonID که دارای 70 درصد مقادیر خالی (Null) می باشد به اندازه 70 درصد خاکستری رنگ نمایش داده می شود. با نیم نگاهی به این نوار می توانید از وضعیت داده های خود آگاه شوید.
حال به منوی View بروید و گزینه Column Quality را فعال کنید. همان طور که در تصویر قابل ملاحظه است اطلاعات بسیار مهمی از داده های خود را مشاهده می کنید. با فعال کردن گزینه Column Quality کیفیت داده های شما به نمایش در می آید. در واقع این گزینه به ما می گوید چند درصد داده های ما بدون مشکل، چند درصد دارای مقدار NULL و چند درصد دارای Error می باشد. به طور مثال ستون PersonID دارای 70 درصد مقدار خالی و 30 درصد مقدار بدون مشکل است.
قابل ذکر است Data Profiling تصویر کلی از 1000 ردیف اول داده های شما را به نمایش در می آورد. در حاضر Data Profiling تنها اطلاعات 1000 ردیف اول را به شما نمایش می دهد که ممکن است این ویژگی در آینده به کل داده ها نیز تعمیم یابد.
حال از منوی View گزینه Column Distribution را فعال نمایید. همان طور که ملاحظه می نمایید نمودار هیستوگرام داده ها نمایش داده می شود. در واقع این نمودار میزان پراکندگی داده ها را به ما نشان می دهد. در زیر نمودار نیز اطلاعاتی از قبیل تعداد مقادیر Distinct و Unique نمایش داده شده است.
به طور مثال ستون ProductID که کلید اصلی بوده و دارای مقادیر منحصر به فرد می باشد، دارای 504 مقدار که تمامی آن ها منحصر به فرد می باشند. طبیعیست وقتی تمامی مقادیر منحصر به فرد هستند نمودار هیستوگرام دارای میله های برابر باشد چرا که از هر مقدار تنها یک بار در داده ها وجود دارد.
یا در مثال دیگر ستون MakeFlag دارای 2 مقدار TRUE و FALSE است پس دو مقدار Distinct دارد و چون هر دوی این مقادیر بارها تکرار شده اند دارای 0 مقدار Unique است. نمودار هیستوگرام این ستون نیز تنها دو میله دارد که یکی تعداد تکرار TRUE و دیگری تعداد تکرار FALSE است.
همچنین با کلیک راست بر روی هر کدام از ستون ها می توانید اعمال مختلفی را بر روی داده های خود انجام دهید. به طور مثال می توانید مقادیر تکراری، دارای Error یا خالی را حذف نمایید یا مقادیر دارای Error را با مقادیر مورد نظر جایگزین کنید.
در صورتی که گزینه Column Profile را نیز فعال کنید اطلاعات بیشتری را مشاهده خواهید کرد. همان طور که در تصویر مشاهده می کنید، علاوه بر هیستوگرام داده ها که توزیع داده ها را به شما نمایش می دهد می توانید اطلاعات آماری در مورد ستون ها را مشاهده نمایید.
به طور مثال تعداد ردیف ها، تعداد خطاها، تعداد ردیف های بدون مقدار، تعداد مقادیر موجود در ستون و همچنین تعداد مقادیر منحصر به فرد هر ستون، کمترین و بیشترین مقدار موجود در هر ستون و همچنین میانگین، انحراف از معیار و تعداد مقادیر زوج و فرد در ستون ها نمایش داده می شود.
به طور مثال به اطلاعات ستون درآمد سالیانه توجه نمایید. علاوه بر نمودار هیستوگرام که توزیع در آمد را نشان می دهد و با نگه داشتن نشانگر ماوس بر روی هر یک از میله ها می توانید درصد تکرار آن مقدار را مشاهده نمایید متوجه می شوید. به طور مثال متوجه می شوید که 15 درصد از مشتریان دارای در آمد 70000 دلار در سال می باشند.
این ستون عاری از Error و NULL است و همچنین این ستون 16 مقدار منحصر به فرد دارد و هیچ کدام از این مقادیر unique نیستند (هر 16 مقدار تکرار شده اند). این ستون مقادیر صفر و NaN ندارد و میانگین درآمد 59400 دلار، کمترین درآمد ثبت شده 10000 دلار و بیشترین مقدار ثبت شده 170000 دلار می باشد و همچنین انحراف از معیار درآمد ها 29737 می باشد.
فراموش نکنید این اطلاعات تنها بر اساس 1000 ردیف اول نمایش داده می شود.
درباره حسین وثوقی
دانش آموخته مهندسی صنایع و مدیریت فناوری اطلاعات دانشگاه تهران، علاقه مند به تحلیل و ارائه راه حل برای مسائل و بهینه سازی راه حل ها هستم ...
نوشته های بیشتر از حسین وثوقیمطالب زیر را حتما بخوانید
-
داده های نمونه و تمرینی برای یادگیری پاور بی آی | Power BI
434 بازدید
-
تنظیم مقدار پیش فرض اسلایسر تاریخ در Power BI
248 بازدید
-
دومین مسابقه بزرگ Power BI ایران
471 بازدید
-
نمونه پروژه داده های اقتصادی با Power BI
824 بازدید
-
نمونه پروژه قند مواد غذایی با Power BI
892 بازدید
-
اولین مسابقه طراحی داشبورد با Power BI
1.59k بازدید
[…] Data Profiling در Power BI […]