ماشین هایی که زبان را بیشتر شبیه بچه ها می کنند

sakhtevacum 
  بازدید : 685
سه شنبه 20 خرداد 1399 زمان : 11:51 


1
2
3
4
5

کودکان با مشاهده محیط خود ، گوش دادن به افراد اطراف خود و اتصال نقاط بین آنچه می بینند و می شنوند زبان را یاد می گیرند. از جمله موارد دیگر ، این به کودکان کمک می کند تا ترتیب کلمات زبان خود را برقرار کنند ، مانند جایی که موضوعات و افعال در یک جمله قرار می گیرند.

در محاسبات ، یادگیری زبان وظیفه تحلیلگرهای نحوی و معنایی است. این سیستم ها به جملاتی آموزش داده می شوند که توسط انسان حاشیه نویسی می شوند و ساختار و معنای کلمات را توصیف می کنند. تجزیه گرها برای جستجوی وب ، جستجوی پایگاه داده به زبان طبیعی و سیستمهای تشخیص صدا مانند الکسا و سیری اهمیت فزاینده ای پیدا می کنند. به زودی ، ممکن است از آنها برای رباتیک خانگی نیز استفاده شود.

اما جمع آوری داده های حاشیه نویسی برای زبان های کمتر رایج می تواند بسیار زمان بر و مشکل باشد. علاوه بر این ، انسانها همیشه در مورد حاشیه نویسی ها به توافق نمی رسند ، و خود حاشیه نویسی ممکن است دقیقاً بیانگر چگونگی صحبت کردن افراد به طور طبیعی نباشد.

در مقاله ای که در کنفرانس این هفته روشهای تجربی در کنفرانس پردازش زبان طبیعی ارائه شده است ، محققان MIT پارسویی را توصیف می کنند که از طریق مشاهده یاد می گیرد تا از نزدیک فرایند دستیابی به زبان کودک را تقلید کند ، که می تواند قابلیتهای تجزیه کننده را تا حد زیادی گسترش دهد. برای یادگیری ساختار زبان ، تجزیه کننده فیلم های زیرنویس را مشاهده می کند ، بدون اطلاعات دیگر ، و کلمات را با اشیاء و اعمال ضبط شده مرتبط می کند. با توجه به یک جمله جدید ، تجزیه کننده می تواند از آنچه در مورد ساختار زبان آموخته است برای پیش بینی دقیق معنی یک جمله ، بدون فیلم استفاده کند .

این رویکرد "نظارت شده ضعیف" - به این معنی که به داده های آموزشی محدود نیاز دارد - از اینکه چگونه کودکان می توانند دنیای اطراف خود را مشاهده کنند و زبان یاد بگیرند ، تقلید می کند ، بدون اینکه کسی زمینه مستقیمی داشته باشد. به گفته محققان ، این رویکرد می تواند انواع داده ها را گسترش داده و تلاش مورد نیاز برای آموزش تجزیه تحلیلگر را کاهش دهد. به عنوان مثال ، چند جمله به طور مستقیم حاشیه نویسی برای بهبود عملکرد می تواند با بسیاری از فیلم های زیرنویس ، که دستیابی به آنها آسان تر است ، ترکیب شود.

در آینده ، تجزیه کننده می تواند برای بهبود تعامل طبیعی بین انسان و روبات های شخصی مورد استفاده قرار گیرد. به عنوان مثال ، یک روبات مجهز به تجزیه کننده می تواند محیط خود را برای تقویت درک خود از دستورات گفتاری ، از جمله وقتی که جملات گفتاری کاملاً دستوری یا واضح نیست ، رعایت کند. "مردم با جملات جزئی ، افکار در حال اجرا و زبان جنجالی با یکدیگر صحبت می کنند. شما می خواهید یک روبات در خانه خود داشته باشید که با شیوه خاص صحبت کردن آنها سازگار باشد ... و هنوز هم می فهمید که منظور آنها چیست." آندری باربو ، محقق آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و مرکز مغز ، ذهن و ماشین آلات (CBMM) در موسسه مک گاورن MIT.

تجزیه کننده همچنین می تواند محققان را در درک بهتر نحوه یادگیری زبان های خردسال به دانشمندان یاری کند. همکار می گوید: "كودك به اطلاعات اضافی و مكمل اضافی از روشهای مختلف ، از جمله شنیدن صحبت والدین و خواهر و برادران در مورد جهان و همچنین اطلاعات لمسی و اطلاعات بصری ، [كه به او كمك می كنند تا جهان را بفهمد ، دسترسی دارد." بوریس کاتز ، دانشمند اصلی پژوهش و رئیس گروه InfoLab در CSAIL. "این یک معمای شگفت انگیز است ، تا پردازش همه این ورودی حسی همزمان را انجام دهد. این اثر بخشی از بزرگتر برای درک چگونگی وقوع این نوع یادگیری در جهان است."

نویسندگان همکار روی این مقاله عبارتند از: نویسنده اول کاندیس راس ، دانشجوی فارغ التحصیل گروه مهندسی برق و علوم کامپیوتر و CSAIL ، و یک محقق در CBMM. دکتری یوژنی برزاک '17 ، یک پست دکتری در گروه روانشناسی زبان محاسباتی در گروه علوم مغز و شناختی؛ و دانشجو فارغ التحصیل CSAIL Battushig Myanganbayar.

یادگیرنده بصری

محققان برای کار خود ، یک تحلیلگر معنایی را با یک مؤلفه بینایی رایانه آموزش داده شده در تشخیص شیء ، انسان و فعالیت در ویدیو ترکیب کردند. تجزیه گر معنایی به طور کلی در جملات حاشیه نویسی با کد آموزش داده می شود که معنی هر کلمه و روابط بین کلمات را نشان می دهد. برخی در مورد تصاویر ثابت یا شبیه سازی رایانه آموزش دیده اند.

راس می گوید ، تجزیه کننده جدید اولین کسی است که با استفاده از فیلم آموزش دیده است. در بخشی ، فیلم ها در کاهش ابهام مفیدتر هستند. اگر تجزیه کننده درباره یک عمل یا شیء در یک جمله مطمئن نیست ، می تواند برای پاک کردن موارد به این ویدئو ارجاع دهد. راس می گوید: "مؤلفه های زمانی وجود دارد - اشیاء متقابل با یکدیگر و با مردم و ویژگی های سطح بالا که نمی توانید آنها را در یک تصویر ثابت یا فقط به زبان مشاهده کنید."

محققان مجموعه ای از مجموعه داده ها در حدود 400 فیلم را به تصویر کشیدند که افراد در حال انجام تعدادی اقدامات هستند از جمله چیدن یک شی یا قرار دادن آن و راه رفتن به سمت یک شی. شرکت کنندگان در سکوی شلوغی مکانیک تورک سپس 1200 عنوان را برای آن فیلم ها تهیه کردند. آنها 840 مثال زیرنویس ویدیویی را برای آموزش و تنظیم تنظیم کردند و برای آزمایش از 360 استفاده کردند. یکی از مزایای استفاده از تجزیه و تحلیل مبتنی بر بینایی این است که "شما تقریباً به اندازه داده نیاز ندارید ، اگرچه اگر [داده] دارید ، می توانید از مجموعه داده های عظیم استفاده کنید."

محققان در آموزش ، این هدف را برای تعیین اینکه آیا یک جمله به طور دقیق یک فیلم معین را توصیف می کند ، به تجزیه و تحلیل داده است. آنها به تجزیه و تحلیل یک فیلم و زیرنویس تطبیق دادند. تجزیه کننده معانی احتمالی عنوان را به عنوان عبارات ریاضی منطقی استخراج می کند. جمله ، "زن سیب را برداشت می کند" ، به عنوان مثال ممکن است اینگونه بیان شود: λxy. زن x ، pick_up xy ، apple y.

این عبارات و فیلم به الگوریتم دید رایانه ای موسوم به "ردیاب احکام" وارد شده توسط باربو و سایر محققان وارد شده است. این الگوریتم برای ردیابی نحوه تغییر اشیاء و افراد با گذشت زمان ، به هر قاب ویدیویی نگاه می کند تا تعیین کند که عملکردها مطابق آنچه گفته شد بازی می کنند. به این ترتیب ، تعیین می کند که آیا معنای آن احتمالاً در مورد ویدیو صادق است یا خیر.

اتصال نقاط

این عبارت با نزدیکترین تظاهرات برای اشیاء ، انسانها و اعمال به محتمل ترین معنی تبدیل می شود این عبارت در ابتدا ممکن است به بسیاری از اشیاء و اقدامات مختلف در ویدیو اشاره داشته باشد ، اما مجموعه ای از معانی ممکن به عنوان یک سیگنال آموزشی است که به تجزیه کننده کمک می کند تا به طور مداوم از امکانات پایین بکشد. باربو می گوید: "با این فرض كه همه جملات باید از همان قوانین پیروی كنند ، كه همه آنها از یك زبان به دست بیایند ، و با دیدن بسیاری از فیلم های زیرنویس ، می توانید معانی را بیشتر كاهش دهید."

به طور خلاصه ، تجزیه گر از طریق مشاهده منفعل می آموزد: برای تعیین اینکه آیا یک عنوان در مورد یک فیلم صحیح است ، تجزیه کننده به صورت ضروری باید بالاترین معنای احتمال را برای عنوان شرح دهد. "تنها راه برای فهمیدن این که آیا جمله در مورد فیلم صحیح است" این است که از این مرحله میانی استفاده کنید ، "جمله به چه معنی است؟" در غیر این صورت ، شما هیچ ایده ای برای اتصال این دو ندارید. " "ما به سیستم معنی این جمله را نمی دهیم. ما می گوییم ،" جمله و یك فیلم وجود دارد. این جمله باید در مورد فیلم صحیح باشد.

این آموزش برای کلماتی که آموخته شده است یک دستور زبان نحوی و معنایی ایجاد می کند. با توجه به یک جمله جدید ، تجزیه کننده دیگر نیازی به فیلم ندارد ، اما برای تعیین ساختار و معنی جملات ، گرامر و واژگان خود را به کار می برد.

در نهایت ، این روند در حال یادگیری است "انگار شما بچه هستید" ، باربو می گوید. "شما دنیای اطراف خود را مشاهده می کنید و افرادی را می شنوید که در حال یادگیری معنا هستند. روزی می توانم جمله ای را برای شما بیان کنم و بپرسم منظورش چیست و حتی بدون تصویری ، شما معنی را می دانید."

در کارهای بعدی ، محققان علاقه مند به مدل سازی تعاملات هستند ، نه فقط مشاهدات منفعل. راس می گوید: "كودكان هنگام یادگیری با محیط ارتباط برقرار می كنند. ایده ما این است كه یك الگویی داشته باشیم كه برای یادگیری نیز از ادراك استفاده كند."

این کار ، تا حدودی توسط CBMM ، بنیاد ملی علوم ، یک بورس تحصیلی فارغ التحصیل فارغ التحصیل بنیاد ، بنیاد تحقیقاتی تویوتا و پروژه درک مطلب چندرسانه ای با الهام از مغز MIT-IBM پشتیبانی شد.

http://bookmark-template.com/story6994851/پمپ-وکیوم-آبی

یادگیرنده بصری

اتصال نقاط

http://bookmark-template.com/story6994851/پمپ-وکیوم-آبی

نام کاربری :
رمز عبور :
تکرار رمز عبور :
ایمیل :
نام و نام خانوادگی :
کد امنیتی :