برق. قدرت. کنترل. الکترونیک. مخابرات. تاسیسات.

دایره المعارف تاسیسات برق (اطلاعات عمومی برق)

اتوماتا یك ماشین یا مكانیزم كنترلی طراحی شده برای انجام خودكار یكسری اعمال مشخص یا پاسخ به مجموعه‌ای از دستورالعملها می‌باشد. اتوماتایی كه در اینجا توصیف شده است از قوانین ازقبل مشخص شده‌ای پیروی نمی‌كند، بلكه خود را با تغییرات محیط تطبیق می‌دهد. این تطبیق‌پذیری نتیجه فرایند یادگیری1 است كه در این فصل توضیح داده خواهد شد.

1-1 یادگیری

در تئوری كنترل كلاسیك، كنترل یك فرایند بر مبنای دانشی كامل از سیستم مورد نظر است. مدل ریاضی سیستم مورد نظر شناخته شده و ورودیهای سیستم نیز بصورت توابعی قطعی از زمان می‌باشد. با پیشرفتهای انجام شده در تئوری كنترل، عدم قطعیت سیستمهای واقعی نیز در این تئوری در نظر گرفته شدند. در تئوری كنترل تصادفی2 فرض می‌شود كه بعضی از ویژگیهای غیر‌قطعی یك سیستم شناخته شده هستند. با این حال ممكن است این فرضیات نیز برای كنترل موفقیت آمیز یك سیستم، در زمانیكه سیستم تغییر می‌كند، كافی نباشند3. بنابراین لازم است كه سیستم مورد نظر را در حین عمل تحت نظر قرار داد و دانش بیشتری از سیستم را بدین طریق كسب نمود. بعبارت دیگر از آنجاییكه فرضیات اولیه كافی نمی‌باشند، اطلاعات اضافی را باید بصورت همزمان4 كسب نمود. یك رویكرد بررسی اینگونه سیستمها، در نظر گرفتن آنها بعنوان مسائلی در یادگیری است. ایده طراحی یك سیستم یادگیر، تضمین ارائه رفتاری مستحكم5، بدون دانشی كامل درباره سیستم یا محیط مورد نظر می‌باشد. فرآیند یادگیری موجودات زنده یكی از موضوعات تحقیقاتی جدید بشمار می‌آید. این تحقیقات به دودسته كلی تقسیم می‌شوند. دسته نخست به شناخت اصول یادگیری موجودات زنده و مراحل آن می‌پردازند و دسته دوم بدنبال ارائه یك متدولوژی برای قرار دادن این اصول در یك ماشین می‌باشند. یادگیری بصورت تغییرات ایجادشده در كارایی یك سیستم بر اساس تجربه‌های گذشته تعریف می‌شود ‎[26]. یك ویژگی مهم سیستمهای یادگیر، توانایی بهبود كارایی خود با گذشت زمان است. به بیان ریاضی می‌توان اینطور عنوان كرد كه هدف یك سیستم یادگیر بهینه‌سازی وظیفه‌ای است كه كاملا شناخته شده نیست ‎[25]. بنابراین یك رویكرد به این مساله، كاهش اهداف سیستم یادگیر به یك مساله بهینه‌سازی است كه بر روی مجموعه‌ای از پارامترها تعریف می‌شود و سعی در رسیدن به مجموعه بهینه پارامتر‌ها دارد.

یادگیری تقویتی6 رویكردی به هوش ماشین بشمار می‌رود كه از تركیب دو روش موفق حل مساله ایجاد شده است. برنامه‌نویسی پویا7 كه یكی از شاخه‌های ریاضیات محسوب می‌شود، در حل مسائل بهینه‌سازی و كنترل استفاده می‌شود8. یادگیری نظارتی9 روشی عمومی برای آموزش Parameterized function approximator (مانند شبكه‌های عصبی مصنوعی) بمنظور بازنمایی یك تابع وظیفه است. یادگیری نظارتی برای یادگیری به مجموعه‌ای از ورودی‌ها و خروجیهای تابع مورد نظر نیاز دارد. به عبارت دیگر به مجموعه از سوالها و پاسخها صحیح آنها برای یادگیری نیازمند است. در بسیاری از مسائل مطرح شده، اطلاعی از پاسخهای صحیح مساله ( كه یادگیری نظارتی به آنها نیاز دارد) در دست نیست. بهمین علت استفاده از روش یادگیری جدید بنام یادگیری تقویتی مورد توجه قرار گرفته است. یادگیری تقویتی نه زیر مجموعه شبكه‌های عصبی است و نه انتخابی بجای آنها محسوب می‌شود. بلكه رویكردی متعامد10 برای حل مسائل متفاوت و مشكلتر بشمار می‌رود. یادگیری تقویتی، از تركیب برنامه‌نویسی پویا و یادگیری نظارتی برای دستیابی به یك سیستم قدرتمند یادگیری ماشین استفاده می‌كند. در یادگیری تقویتی هدفی برای عامل یادگیر مشخص می‌شود تا به آن دست یابد. آنگاه عامل مذكور یاد می‌گیرد كه چگونه با آزمایشهای صحیح و خطا با محیط خود، به هدف تعیین شده برسد‎[12].

مزیت اصلی یادگیری تقویتی نسبت به سایر روشهای یادگیری عدم نیاز به هیچگونه اطلاعاتی از محیط (بجز سیگنال تقویتی) است ‎[20]‎[26]. یكی از روشهای یادگیری تقویتی، اتوماتای یادگیر تصادفی11 است كه در این مقدمه از آن بعنوان مكانیزم یادگیری استفاده شده است.اتوماتای تصادفی بدون هیچگونه اطلاعاتی درباره اقدام بهینه (یعنی با در نظر گرفتن احتمال یكسان برای تمامی اقدامهای خود در آغاز كار) سعی در یافتن پاسخ مساله دارد. یك اقدام اتوماتا بصورت تصادفی انتخاب می‌شود، بر محیط اٍعمال می‌گردد. سپس پاسخ محیط دریافت شده و احتمال اقدامها بر اساس آن بٍروز می‌شوند و روال فوق تكرار می‌گردد. اتوماتای تصادفی كه بصورت فوق در جهت افزایش كارایی خود عمل كند، یك اتوماتای یادگیر تصادفی گفته می‌شود. در ادامه این فصل به معرفی اتوماتای یادگیر تصادفی می‌پردازیم.

1-2 تاریخچه اتوماتای یادگیر

در دهه 1960 میلادی Y.Z. Tsypkin12 روشی برای ساده كردن مسائل فوق به مساله‌ای برای تشخیص پارامترهای بهینه و بكاربردن روشهای Hill Climbing برای حل آن معرفی كرد‎[36]. Tsetlin و همكارانش در همان زمان كار بر روی اتوماتای یادگیر را آغاز كردند. مفهوم اتوماتای یادگیر نخستین بار توسط وی مطرح شد ‎[34]. Tsetlin به مدلسازی رفتارهای سیستمهای بیولوژیكی علاقمند بود و یك اتوماتای قطعی كه در محیطی تصادفی فعالیت می‌كرد را بعنوان مدلی برای یادگیری معرفی نمود13. رویكرد دیگری كه توسط Narendra و Viswanatan ارائه شد‎[27]، در نظر گرفتن مساله بصورت پیدا كردن اقدام بهینه از میان مجموعه‌ای از اقدامهای مجاز یك اتوماتای تصادفی بود14. پس از آن اكثر كارهای انجام شده در تئوری اتوماتای یادگیر، در ادامه مسیر معرفی شده توسط Tsetlin انجام شدند. Varshavski و Vorontsova اتوماتای تصادفی را مطرح كردند كه احتمالات اقدامهای خود را بٍروز می‌كرد و درنتیجه باعث كاهش تعداد حالات نسبت به اتوماتای قطعی می‌شد ‎[37]. نخستین تلاشها برای استفاده از اتوماتای تصادفی در كاربردهای كنترلی توسط Fu و همكارانش انجام شد. از جمله این كارها می‌توان به كاربردهایی از اتوماتای تصادفی در تخمین پارمترها15، تشخیص الگو16 و تئوری بازی17 اشاره كرد ‎[7]‎[8]‎[5]‎[9]‎[10]‎[6]. McLaren روشهای بِروزرسانی خطی و ویژگیهای آنهارا بررسی نمود‎[22]. و پس از آن Chandrasekar و Shen روشهای بِروزرسانی غیر خطی را بررسی كردند ‎[2]‎[3]. Narendra و Thathachar نیز تئوری و كاربردهای اتوماتا و شبیه‌سازیهایی در این راستا را در كتاب خود جمع‌آروی نمودند‎[26]18. نتایج این تحقیقات به استفاده از اتوماتا بعنوان مدلی از یادگیری با كاربردهایی در مسیریابی شبكه‌های تلفن، تشخیص الگو و كنترل تطبیق‌پذیر منجر شد ‎[4]‎[17]‎[25]‎[28]. علاوه بر این از كاربردهای اخیر اتوماتای یادگیر در مسائل واقعی می‌توان به تشخیص الگو19 ‎[29]، جداسازی گراف20 ‎[30]، برنامه‌ریزی مسیر21 ‎[35] نیز اشاره كرد (دیگر كاربردهای اتوماتای یادگیر در ‎[23]‎[11]‎[32]‎[20]‎[19]‎[13]‎[1] ارائه شده‌‌اند). یك اتوماتای یادگیر را می‌توان بصورت یك شئ مجرد كه دارای تعدادی اقدام متناهی است، در نظر گرفت. اتوماتای یادگیر با انتخاب یك اقدام از مجموعه اقدامهای خود و اِعمال آن بر محیط، عمل می‌كند. اقدام مذكور توسط یك محیط تصادفی ارزیابی می‌شود و اتوماتا از پاسخ محیط برای انتخاب اقدام بعدی خود استفاده می‌كند. در طی این فرآیند اتوماتا یاد می‌گیرد كه اقدام بهینه را انتخاب نماید. نحوه استفاده از پاسخ محیط به اقدام انتخابی اتوماتا كه در جهت انتخاب اقدام بعدی اتوماتا استفاده می‌شود، توسط الگوریتم یادگیری اتوماتا مشخص می‌گردد. در بخش بعد جزئیات قسمتهای یك اتوماتای ساختار متغیر22 معرفی می‌شود.

1-3 اتوماتای یادگیر تصادفی

یك اتوماتای یادگیر تصادفی23 از دو قسمت اصلی تشكیل شده است.

i. یك اتوماتای تصادفی24 با تعداد محدودی اقدام و یك محیط تصادفی كه اتوماتا با آن در ارتباط است.

ii. الگوریتم یادگیری25 كه اتوماتا با استفاده از آن اقدام بهینه را یاد می‌گیرد.


http://farzin2.blogfa.com/post-50.aspx

صفحات جانبی

نظرسنجی

    لطفاً نظرات خود را درمورد وبلاگ با اینجانب در میان بگذارید.(iman.sariri@yahoo.com)نتایج تاکنون15000مفید و 125غیرمفید. با سپاس


  • آخرین پستها

آمار وبلاگ

  • کل بازدید :
  • تعداد نویسندگان :
  • تعداد کل پست ها :
  • آخرین بازدید :
  • آخرین بروز رسانی :