خوشه بندی داده ها در Power BI
راه های پیشرفته زیادی برای خوشه بندی وجود دارد، اما قصد ما این است که با یک روش بسیار ساده عمل خوشه بندی در Power BI را انجام دهیم. هدف این مطلب آموزش خوشه بندی ساده با استفاده از Scatter Chart در Power BI، است.
مجموعه داده
برای پیاده سازی مثال خوشه بندی در Power BI، از پایگاه داده AdventureWorksDW (نسخه انبار داده) استفاده می کنیم. از جدول های موجود در این پایگاه داده، جدول DimProduct که حاوی اطلاعات کالاهاست را انتخاب می نماییم. همچنین 2 جدول FactInternetSales که حاوی اطلاعات فروش اینترنتی است و جدول FactResellerSales که حاوی اطلاعات فروش غیر اینترنتی است را در مدل بارگذاری می کنیم. دو جدول Fact از طریق ستون productKey با یکدیگر ارتباط دارند. مدل ایجاد شده را در تصویر مشاهده می نمایید.
اگر مطالب قبلی منتشر شده در سایت را مرور کرده باشید با مفهوم Shared Dimension، آشنایی دارید. در غیر این صورت مطالب زیر را مطالعه نمایید تا بتوانید مدلی بسیار بهتر طراحی کنید. Shared Dimension، به یک Dimension اشاره دارد که بین دو fact به اشتراک گذاشته می شود. در تصویر بالا، جدول کالا بین دو Fact، به اشتراک گذاشته شده است.
مطالب پیش نیاز:مدل سازی داده، پیش به سوی مدل ستاره ای
ایجاد Shared Dimension در power BI
انبار داده (دیتاورهاوس – Data Warehouse) چیست؟
Scatter Chart
Scatter Chart، یکی از مهمترین نمودارهای موجود در Power BI است. این نمودار کاربرد های بسیاری دارد اما مهمترین آن زمانی است که 2 Measure داریم. یکی از مهمترین قابلیت های این نمودار استفاده از یک Measure در محور X و استفاده از Measure دیگر در محور Y است. همچنین این نمودار برا نمایش همبستگی (Correlation) دو متغیر بسیار مفید است. همچنین پیاده سازی خوشه بندی در Power BI، با استفده از این نمودار قابل انجام است.
اگر با پایگاه داده AdventureWorks، آشنایی داشته باشید حتما می دانید که جدول فروش اینترنتی و همچنین فروش غیر اینترنتی، هر کدام دارای یک ستون به نام SalesAmount، هستند که در آن اطلاعات فروش هر سطر فاکتور نمایش داده می شود و از ضرب تعداد فروش در مبلغ فروش هر واحد کالا به دست آمده است. به دلیل تشابه اسمی این دو فیلد، نام آن ها را به InternetSales و ResellerSales تغییر داده ایم.
حال کافیست، ستون InternetSales را در محور X و ستون ResellerSales را در محور Y قرار دهیم. همچنین نام کالا (English Product Name) را در قسمت Detail قرار می دهیم.
توجه کنید که اگر هنگام پیاده سازی نمودار با خطا مواجه شدید مطابق تصویر عمل نموده و aggregation ها را بر روی SUM، قرار دهید.
در تصویر زیر نتیجه را مشاهده می کنید.
هر دایره در نمودار یکی از کالا ها را نمایش می دهد و مکان قرار گرفتن آن، میزان فروش از کانال های اینترنتی و غیر اینترنتی را نشان می دهد.
به طور مثال در تصویر زیر دایره علامت زده شده در تصویر کالای Road-150 Red را نمایش می دهد که فروش اینترنتی آن با حدود 1 میلیون دلار در وضعیت خوبی نسبت به سایر کالا ها قرار دارد، در مقابل فروش غیر اینترنتی آن با فروش حدود 790 هزار دلار در وضعیت متوسطی نسبت به سایر کالا ها قرار دارد.
با نگاه کردن به این نمودار مفاهیم زیر استخراج می شود.
- کالاهایی در گوشه بالا و سمت راست نمودار قرار دارند، دارای فروش بسیار خوبی می باشند.
- کالاهایی که در پایین و سمت راست نمودار قرار دارند در فروش اینترنتی قوی و در فروش غیر اینترنتی ضعیف هستند.
- کالاهایی که متمایل به بالا و سمت چپ نمودار هستند، دارای فروش غیر اینترنتی قوی و فروش اینترنتی ضعیف هستند.
- کالاهایی که در پایین و سمت چپ تصویر قرار گرفته اند دارای فروش ضعیف در هر دو کانال می باشند.
- کالاهایی که در مرکز نمودار جای گرفته اند دارای فروش متوسط در هر دو کانال می باشند.
همان طور که در تصویر زیر مشاهده می نمایید، کالاها دسته های مشخص شده طبقه بندی شود که قطعا دقیق نیست و با خطا همراه است چرا که این خوشه ها با دید انسان استخراج شده اند.
آیا Power BI قادر به تشخیص اتوماتیک این خوشه ها می باشد؟ خوشبختانه بله!
خوشه بندی
اگر با مفاهیم داده کاوی و خصوصا خوشه بندی آشنایی ندارید مطلب زیر را مطالعه نمایید. اما به طور کلی خوشه بندی روشی است که در آن اعضای موجود در یک خوشه بیشترین شباهت را با یکدیگر و بیشترین تفاوت را با اعضای خوشه های دیگر دارد. قصد ما پیاده سازی خوشه بندی در Power BI با استفاده از نمودار Scatter Chart است.
خوشه بندی با Scatter Chart
حال وقت آن رسیده که با نحوه خوشه بندی در Power BI آشنا شویم. اگر (…) More Option را در نمودار انتخاب نمایید با گزینه Automatically find clusters، مواجه خواهید شد. همان طور که از اسم این ویژگی بر می آید، قابلیت یافتن خوشه ها به طور اتوماتیک را داراست.
شما می توانید مطابق تصویر تعداد خوشه ها را به صورت دستی تعیین کنید یا تعداد آن را به عهده Power BI بگذارید. ما به صورت دستی آن را بر روی 5 خوشه قرار می دهیم.
همان طور که مشاهده می نمایید خوشه بندی زیر به ما ارائه می شود. به طور شگفت انگیزی با چند کلیک ساده به نتیجه زیر دست یافتیم. اگر بر روی هر یک از دایره ها توقف کنید، درخواهید یافت که کالا متعلق به کدام خوشه است.
همان طور که مشاهده می کنید این خوشه بندی حالا به یکی از اجزای مدل تبدیل می شود و با عنوان EnglishProductName (Cluster) به فیلد های جدول اضافه می شود.
استفاده از خوشه ها در سایر گزارش ها
حال نحوه ی خوشه بندی در Power BI را فرا گرفته اید. فرض کنید می خواهید گزارشی ایجاد کنید و در آن تنها از کالا های متعلق به خوشه 2 استفاده نمایید. در واقع شما می توانید از این فیلد ایجاد به عنوان خوشه در اسلایسر استفاده نموده و آن را فیلتر نمایید.
به طور مثال در تصویر زیر مشاهده می نمایید که از 2 نمودار Card به منظور نمایش فروش اینترنتی و فروش غیر اینترنتی استفاده شده است. همچنین از فیلد Cluster در اسلایسر استفاده نموده ایم. حال با فیلتر Cluster2 تنها فروش کالاهای متعلق به این خوشه نمایش داده می شود.
جمع بندی
عمل خوشه بندی در Power BI به وسیله نمودار Scatter Chart، قابل پیاده سازی است. هر چند که این نوع خوشه بندی بسیار ساده و با چند کلیک قابل پیاده سازی است اما برخی از نیاز های کاربران را پوشش می دهد. اگر نیاز به سطح بالاتری از خوشه بندی دارید باید با ابزار های و زبان های دیگری به پیاده سازی آن اقدام کنید.
درباره حسین وثوقی
دانش آموخته مهندسی صنایع و مدیریت فناوری اطلاعات دانشگاه تهران، علاقه مند به تحلیل و ارائه راه حل برای مسائل و بهینه سازی راه حل ها هستم ...
نوشته های بیشتر از حسین وثوقیمطالب زیر را حتما بخوانید
-
نمونه پروژه داده های اقتصادی با Power BI
387 بازدید
-
نمونه پروژه قند مواد غذایی با Power BI
505 بازدید
-
اولین مسابقه طراحی داشبورد با Power BI
988 بازدید
-
همه چیز در باره اسلایسر Slicer در Power BI
576 بازدید
-
دوره رایگان آموزش Power BI پاوربی آی
2.06k بازدید
-
پروژه مدیریت مواد اولیه و تولید با Power BI
5.71k بازدید