نسبت رشد دارایی:
نسبت رشد فروش:(بریکلی و همکاران، ۱۹۸۳)
نرخ رشد سود خالص: درجه تغییر در سود خالص شرکت در طی دوره زمانی مشخص(ادریسینگ و همکاران،۲۰۰۸).
۲-۳-۷- معیارهای خوشه بازار:
نسبت ارزش بازار به دفتری (MV/BV): فاما و همکاران نشان دادند که این نسبت می تواند تشریح کننده پراکندگی مقطعی بازده سهام باشد.
نسبت قیمت به سود هرسهم (P/E) : این نسبت نشان می دهد که سهامدران انتظار دارند طی چند سال آتی (با فرض حفظ شرایط) ارزش سرمایه گذاری امروز خود را بازیافت نمایند (شهدایی،۱۳۸۵).
۲-۴- داده کاوی
داده کاوی یک اصطلاح است که برای توصیف استخراج ارزش از یک پایگاه داده استفاده می شود. پایگاه داده محلی برای نگهداری اطلاعات ذخیره شده می باشد که در آن نوع داده ذخیره شده بستگی زیادی به نوع صنعت و شرکت دارد، به عنوان مثال: استخراج اطلاعات مبنی بر پیشگویی پنهان از بانک های اطلاعاتی بزرگ، یک فناوری جدید و نیرومند با پتانسیل بالا برای کمک به صنعت پزشکی می باشد.
ابزارهای داده کاوی روشها و رفتارهای آینده و امکان ایجاد کسب وکار فعال و تصمیمات دانش محور را پیشبینی می کنند. تکنیک های دادهکاوی می توانند به سرعت روی پلت فرم های نرم افزار و سخت افزار موجود به منظور افزایش ارزش منابع اطلاعاتی موجود، اجرا شوند.
همچنین در صنعت آموزش که استخراج داده های آموزشی خوانده می شود، در رابطه با شیوه های در حال توسعهای است که به کشف اطلاعات بدست آمده از محیط های آموزشی می پردازد و از تکنیک هایی مانند درخت تصمیمگیری، شبکه های عصبی، نزدیک ترین نود مجاور و غیره استفاده میکند. در حوزه ورزش نیز داده کاوی برای کاربردهایی از جمله ارزیابی استراتژی های بازی، پیش بینی نتایج آموزش، آسیب دیدگی، عملکرد تیمی و فردی، همچنین شناسایی استعدادهای مختلف در رشته های ورزشی مختلف استفاده می شود. داده کاوی در شکلدهی تجارت ها و ارتباطات مشتریان به ابزار مهمی تبدیل شده است. استخراج داده ها و کشف آن ها به منظور تصمیم گیری بهتر می باشد و به عنوان یک مولفه ضروری در سازمان های مختلف در آمده است. این تکنیک ها نیازمند زمینه های جدید علمی،آماری و قابلیت های محاسباتی مناسب می باشد.
داده کاوی به عنوان مهمترین کاربرد انبارهای داده [۱۲]شناخته می شود. داده های موجود به وسیله داده کاوی مورد تحلیل قرار می گیرند تا روندهای احتمالی، ارتباط های غیر محسوس و الگو های مخفی از بین انبوه داده ها شناسایی شوند. در این فرایند از الگوریتم های پیچیده ریاضی و آماری استفاده می شود تا داده ها تبدیل به دانش سازمان شوند. شکل (۱) نمای شماتیکی از مراحل داده کاوی را نشان می دهد(بریجشکومار، ۲۰۰۱).
شکل ۲-۱: مراحل داده کاوی
امروزه، بیشترین کاربرد داده کاوی در بانک ها، مراکز صنعتی، کارخانجات بزرگ، مراکز درمانی، بیمارستان ها، مراکز آموزشی، مراکز تحقیقاتی، بازاریابی هوشمند و بسیاری از موارد دیگر می باشد.
داده کاوی پل ارتباطی میان علم آمار، علم کامپیوتر، هوش مصنوعی، الگوشناسی، فراگیری ماشین و بازنمایی بصری داده می باشد. داده کاوی فرآیندی پیچیده جهت شناسایی الگوها و مدل های صحیح، جدید و به صورت بالقوه مفید در حجم وسیعی از داده می باشد، به طریقی که این الگوها و مدل ها برای انسان ها قابل درک باشند. داده کاوی به صورت یک محصول قابل خریداری نمی باشد، بلکه یک رشته علمی و فرآیندی است که بایستی به صورت یک پروژه پیاده سازی شود. هدف اصلی داده کاوی پیش بینی است، و به صورت دقیق تر می توان گفت: “کاوش داده ها شناسایی الگوهای صحیح، بدیع، سودمند و قابل درک از داده های موجود در یک پایگاه داده است که با بهره گرفتن از پردازش های معمول قابل دستیابی نیستند”
الگوریتم و تکنیک های متفاوتی جهت داده کاوی وجود دارد، مانند دسته بندی، خوشه بندی، رگرسیون گیری، هوش مصنوعی، درخت تصمیم گیری و الگوریتم ژنتیک که برای کشف اطلاعات به کار می روند. این تکنیکها برای درک بهتر به طور مختصر بیان شده اند(بریجشکومار، ۲۰۰۱).
۲-۴-۱- مفاهیم اساسی در داده کاوی
Bagging: این مفهوم برای ترکیب رده بندی های پیش بینی شده از چند مدل به کار می رود. فرض کنید که قصد دارید مدلی برای رده بندی پیش بینی بسازید و مجموعه داده های مورد نظرتان کوچک است. شما می توانید نمونههایی(با جایگزینی) را از مجموعه داده ها انتخاب و برای نمونه های حاصل از درخت رده بندی (مثلا C&RT وCHAID) استفاده نمایید. به طورکلی برای نمونه های مختلف به درخت های متفاوتی خواهید رسید. سپس برای پیش بینی با کمک درخت های متفاوت به دست آمده از نمونه ها، یک رای گیری ساده انجام دهید. ردهبندی نهایی، رده بندی ای خواهد بود که درخت های مختلف آن را پیش بینی کرده اند.
Boosting: این مفهوم برای تولید مدلهای چندگانه (برای پیش بینی یا رده بندی) به کار میرود و از روش C&RT یا CHAID استفاده وتعدادی از دسته ها را تولید خواهد کرد.
Meta-Learning : این مفهوم برای ترکیب پیش بینیهای حاصل از چند مدل به کار میرود و هنگامی که انواع مدلهای موجود در پروژه خیلی متفاوت هستند، کاربرد دارد. فرض کنید که پروژه داده کاوی شما شامل چند گروه نظیر C&RT و CHAID، تحلیل خطی و شبکه های عصبی است. هر یک از کامپیوترها، رده بندیهایی را برای نمونهها پیش بینی کرده اند. تجربه نشان میدهد که ترکیب پیش بینی های چند روش دقیق تر از پیش بینیهای هر یک از روش هاست. پیش بینی های حاصل از چند گروه را می توان به عنوان ورودی meta-linear مورد استفاده قرار داد. meta-linear پیش بینی ها را ترکیب می کند تا بهترین رده بندی پیش بینی شده حاصل شود.
۲-۴-۲- تکنیک های داده کاوی
۲-۴-۲-۱- دسته بندی
متداول ترین تکنیک است و یک سری نمونه های از پیش تعیین شده را شامل می شود که برای توسعه مدل به کار می رود که بتواند انواعی از موارد ثبت شده را دسته بندی نماید. این شیوه غالباً از درخت تصمیم گیری یا الگوریتمهای دسته بندی شبکه استفاده می کند، فرایند شامل یادگیری و رده بندی است.
در یادگیری اطلاعات آموزشی با الگوریتم دسته بندی تحلیل می شود و اطلاعات برای برآورد دقیق قواعد به کار می رود، اگر دقت آن در حد مناسبی باشد می توان از آن برای موارد جدید استفاده نمود. الگوریتم دسته بندیکننده موارد آموزشی از نمونه های از پیش دسته بندی شده برای تعیین مجموعه ای از پارامترهای مورد نیاز برای تفکیک صحیح استفاده می کند، سپس الگوریتم این پارامترها را به مدلی به نام دسته بندی تبدیل میکند(بریجشکومار،۲۰۰۱).
۲-۴-۲-۲- خوشه بندی
داده ها ممکن است حاوی ساختارهای پیچیده ای باشند که حتی بهترین تکنیک های داده کاوی هم قادر به استخراج الگوهای معنی دار از آن ها نباشند. خوشه بندی راهی را برای یافتن ساختار داده های پیچیده فراهم می آورد و سیگنال های رقابتی ناهماهنگ را به اجزایشان تفکیک می کند. خوشه بندی به عمل تقسیم جمعیت ناهمگن به تعدادی از زیرمجموعه ها یا خوشه های همگن گفته می شود.
نقطه تمایز خوشه بندی از دسته بندی:
در دسته بندی براساس یک مدل هر کدام از داده ها به دسته های از پیش تعیین شده اختصاص می یابد. این دسته ها از طریق پژوهش های پیشین تعیین گردیده اند.
لیکن در روش خوشه بندی هیچ دسته ی از پیش تعیین شده ای وجود ندارد و داده ها صرفاً بر اساس تشابه، گروهبندی می شوند و عناوین هر گروه نیز توسط کاربر تعیین می گردد(بریجشکومار، ۲۰۰۱).
۲-۴-۲-۳- رگرسیون گیری
تکنیک رگرسیون گیری را می توان برای پیش بینی پذیرفت. از تحلیل رگرسیون می توان برای مدل سازی روابط یک یا چند متغیر مستقل و وابسته استفاده نمود.
در استخراج اطلاعات متغیر های مستقل ویژگی هایی هستند که قبلاً شناخته شده و متغیرهای وابسته مربوط به چیزی هستند که می خواهیم پیش بینی کنیم. متاسفانه، خیلی از مسائل واقعی به راحتی پیش بینی نمی شوند بنابراین، تفکیک های پیچیده تر ممکن است برای پیش بینی مقادیر آینده ضروری باشد، انواعی از مدل ها غالباً برای رگرسیون گیری و دسته بندی به کار می روند. برای نمونه C&RT (دسته بندی و درخت رگرسیون گیری) الگوریتم درخت تصمیم گیری را می توان برای ایجاد درخت دسته بندی و درخت رگرسیون گیری استفاده نمود. شبکه های عصبی می توانند مدل های رگرسیون گیری و دسته بندی را ایجاد کنند(بریجشکومار، ۲۰۰۱).
۲-۴-۲-۴- تجمع و همبستگی
تجمع و همبستگی معمولاً برای یافتن یک آیتم تکراری به کار می رود و یافته ها را در میان مجموعه اطلاعات و سیستم تنظیم می کند. این مورد به تاجران کمک می کند تا تصمیمات مشخصی بگیرند مانند طراحی کاتالوگ، بازاریابی و تحلیل رفتار مشتری. این الگوریتم لازم است بتواند قوانینی را ایجاد نماید که مقدار اعتباری کمتر از ۱ را داشته باشد. به هر حال تعداد قوانین انجمنی احتمالی برای مجموعه داده های مشخص خیلی بزرگ است و نسبت بالای قوانین با مقدار کم همراه است(بریجشکومار، ۲۰۰۱).
۲-۴-۲-۵- الگوریتم ژنتیک
الگوریتم ژنتیک (GA)[13] یک جستجوی اکتشافی است که فرایند تکامل طبیعی را پیروی می کند، این اکتشاف برای ایجاد راه حل های مفید در بهینه سازی و جستجوی مسائل به طور مدارم استفاده شده است. الگوریتم های ژنتیک متعلق به کلاس بزرگتری از الگوریتم های تکاملی (EA)[14] هستند، که برای ایجاد راه حل های بهینه سازی مسائل از روش های الهام گرفته از تکامل طبیعی، مانند وراثت، جهش، گزینش و تقاطع استفاده می کنند، و به این صورت است که طبیعت، افراد قوی تر (شایسته تر) را برای زندگی برمی گزیند(اینا کاپور شارما، ۲۰۱۲).
۲-۴-۲-۶- شبکه های عصبی مصنوعی
در یادگیری ماشین، دو رهیافت برای یادگیری وجود دارد: یادگیری نمادی و یادگیری زیر نمادی. درخت تصمیم یک روش نمادی است که داری تفسیرپذیری و قابلیت فهم بالایی می باشد. شبکه عصبی یک روش زیر نمادی است که دارای پایداری و انعطاف پذیری بالایی می باشد. درخت شبکه عصبی یک مدل یادگیری ترکیبی است که ساختار اصلی آن درخت تصمیم و هر گره داخلی آن، یک شبکه عصبی خبره خواهد بود و سعی دارد تا مزیتهای درخت تصمیم و شبکه عصبی را با هم ترکیب کند. نتایج آزمایشات نشان می دهد که در حالت کلی، درخت شبکه عصبی بهتر از درخت تصمیم معمولی عمل خواهد کرد، زیرا شبکه عصبی جداکنندگی بهتری نسبت به یک ویژگی خواهد داشت(پریجایی مقدم و موسوی، ۲۰۱۲).
شبکه های عصبی مصنوعی (ANN)[15] که معمولاً به عنوان” شبکه های عصبی” نام برده می شوند یک الگوی ریاضی مبنی بر سیستم زیستی است. سیستم های عصبی یک الگوریتم برای بهینه سازی و یادگیری آزادانه بر اساس مفاهیم الهام گرفته از تحقیق در ماهیت مغز می باشند. مغز با بهره گرفتن از قابلیتی شناخته شده به عنوان نورون اجزا ی ساختاری خود را سازمان دهی می کند، در نتیجه محاسبات معینی را بسیار سریع تر از کامپیوتر دیجیتال انجام میدهد. در حالت کلی شبکه عصبی ماشینی است که طراحی شده تا روشی مشابه با کاری که مغز برای انجام وظایف خاص یا عملکرد قابل توجه بر اساس مطالعات دکتر سایمون هاسکین[۱۶] انجام می دهد را مدل سازی کند. این شبکه یک پردازنده توزیع شده موازی بزرگ است که از واحد های پردازش ساده ساخته شده است، و دارای یک تمایل طبیعی برای ذخیره سازی دانش تجربی و ایجاد دسترسی به آن برای استفاده می باشد(اینا کاپور شارما، ۲۰۱۲).
۲-۴-۲-۷- تحلیل عاملی[۱۷]
معمولاً در تحقیقات به دلایل مختلف با حجم زیادی از متغیرها روبرو هستیم. برای تحلیل دقیق تر داده ها و رسیدن به نتایج علمی تر و در عین حال عملیاتی تر، پژوهشگران به دنبال کاهش حجم متغیرها و تشکیل ساختار جدیدی برای آن ها می باشند و بدین منظور از روش تحلیل عاملی استفاده می کنند. تحلیل عاملی یکی از روش های آماری برای تجزیه اطلاعات موجود در مجموعه داده ها است. این روش توسط کارل پیرسون [۱۸] (۱۹۰۱) و چارلز اسپیرمن[۱۹] (۱۹۰۴) برای اولین بار هنگام اندازه گیری هوش مطرح شد و برای تعیین تأثیرگذارترین متغیرها در زمانی که تعداد متغیرهای مورد بررسی زیاد و روابط بین آنها ناشناخته باشد، استفاده می شود. در این روش متغیرها در عامل هایی قرار می گیرند، به طوری که از عامل اول به عامل های بعدی درصد واریانس کاهش می یابد، از این رو متغیرهایی که در عامل های اولی قرار می گیرند، تأثیرگذارترین هستند. تجزیه عاملی در واقع گسترش تجزیه مؤلفه های اصلی است و سعی در شناسایی متغیرهای اساسی یا عامل ها به منظور تبیین الگوی همبستگی بین متغیرهای مشاهده شده دارد. تحلیل عاملی نقش بسیار مهمی در شناسایی متغیرهای مکنون[۲۰] یا همان عامل ها از طریق متغیرهای مشاهده شده دارد. عامل، متغیر جدیدی است که از طریق ترکیب خطی مقادیر اصلی متغیرهای مشاهده شده برآورد می شود. تحلیل عاملی دارای کاربردهای متعددی است که عبارتند از:
-
- کاهش داده ها[۲۱]
-
- شناسایی ساختار[۲۲]
-
- سنجش اعتبار(روایی) پرسشنامه یا یک مقیاس
به طور کلی هدف از تجزیه عامل ها به شرح زیر خلاصه می شود:
الف) تفسیر وجود همبستگی درونی بین تعدادی صفت قابل مشاهده از طریق عواملی که قابل مشاهده نیستند و آنها را عامل گویند. در واقع این عوامل غیرقابل مشاهده دلیل مشترک همبستگی بین متغیرهای اصلی هستند؛