loading...

sakhtevacum

بازدید : 297
سه شنبه 20 خرداد 1399 زمان : 11:52

محققان MIT مدل ترجمه زبان "بدون نظارت" را تولید کرده اند ، یعنی این امر بدون نیاز به حاشیه نویسی و راهنمایی انسان انجام می شود - که می تواند منجر به ترجمه های سریعتر و کارآمدتر مبتنی بر رایانه از زبانهای بسیار بیشتری شود.


سیستم های ترجمه از گوگل ، فیس بوک و آمازون نیاز به مدل های آموزش دارند تا به دنبال الگوهای در میلیون ها سند - مانند اسناد قانونی و سیاسی یا مقالات خبری - که توسط انسان ها به زبان های مختلف ترجمه شده اند ، باشند. با توجه به کلمات جدید در یک زبان ، آنها می توانند کلمات و عبارات مطابق را به زبان دیگر پیدا کنند.

اما این داده های ترجمه ای زمان گیر و جمع آوری دشوار است ، و به سادگی ممکن است برای بسیاری از 7000 زبانی که در سراسر جهان صحبت می شوند ، وجود نداشته باشد. اخیراً ، محققان در حال تهیه مدلهای "یک زبانه" هستند که ترجمه ها را بین متون به دو زبان انجام می دهند ، اما بدون اطلاعات مستقیم ترجمه بین این دو.

در مقاله ای که این هفته در کنفرانس روشهای تجربی در پردازش زبان طبیعی ارائه شده است ، محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) مدلی را توصیف می کنند که سریعتر و کارآمدتر از این مدل های چند زبانه است.

این مدل از یک آماری به نام فاصله Gromov-Wasserstein استفاده می کند ، که اساساً مسافت بین نقاط را در یک فضای محاسباتی اندازه گیری می کند و آنها را با نقاط مشابه فاصله در فضای دیگر مطابقت می دهد. آنها از این تکنیک برای "تعبیه واژه ها" به دو زبان استفاده می کنند ، که کلماتی هستند که به عنوان بردار نشان داده می شوند - اساساً آرایه اعداد - با کلمات معانی مشابه که به هم نزدیک تر هستند. با انجام این کار ، این مدل به سرعت کلمات یا بردارها را در هر دو جاسوسی که با فاصله های نسبی نزدیکترین همبستگی هستند ، تراز می کند ، به این معنی که احتمالاً آنها ترجمه های مستقیم هستند.

در آزمایشات ، مدل محققان دقیقاً مانند مدلهای یکپارچه ترین و البته دقیق تر - اما بسیار سریعتر و فقط با استفاده از کسری از توان محاسباتی ، دقیق تر عمل می کند.

Tommi Jaakkola ، نویسنده مقاله ، محقق CSAIL و استاد توماس سیبل می گوید: "این مدل کلمات موجود در دو زبان را به عنوان مجموعه ای از بردارها می بیند ، و نقشه ها را از یک مجموعه به حالت دیگر می بخشد." در گروه مهندسی برق و علوم کامپیوتر و انستیتوی داده ها ، سیستم ها و جامعه. "این رویکرد می تواند به ترجمه زبان ها یا گویش های کم منبع کمک کند ، مادامی که از محتوای یک زبانه کافی برخوردار باشند."



دیوید آلوارز-ملیس ، نویسنده اول ، دکتری CSAIL می گوید ، این مدل گامی به سوی یکی از اهداف اصلی ترجمه ماشینی است که کاملاً تراز کلمه بدون نظارت است. دانش آموز: "اگر داده ای ندارید که با دو زبان مطابقت داشته باشد ... می توانید دو زبان را نقشه برداری کنید و با استفاده از این اندازه گیری های فاصله ، آنها را تراز کنید."

روابط بیشتر مهم است

تراز کردن تعبیرهای کلمه ای برای ترجمه ماشین بدون نظارت مفهومی جدید نیست. کار اخیر شبکه های عصبی را آموزش می دهد تا بردارها به طور مستقیم در تعبیه کلمات یا ماتریس ها از دو زبان با هم هماهنگ باشند. اما این روشها برای رسیدن به تراز وسایل دقیقاً صحیح به تركیبات زیادی نیاز دارند كه این كار ناكارآمد و وقت گیر است.

از طرف دیگر اندازه گیری و برآورد بردارها بر اساس مسافت های رابطه ای ، روشی بسیار کارآمد تر است که نیازی به تنظیم دقیق ندارد. مهم نیست که بردارهای کلمه در یک ماتریس مشخص قرار می گیرند ، رابطه بین کلمات ، به معنی فاصله آنها ، یکسان خواهد بود. به عنوان مثال ، بردار "پدر" ممکن است در مناطق کاملاً متفاوت در دو ماتریس سقوط کند. اما بردارهای "پدر" و "مادر" به احتمال زیاد همیشه در کنار هم خواهند بود.

آلوارز ملیس می گوید: "این مسافت ها ثابت هستند." وی ادامه داد: "با نگاه کردن به فاصله و نه موقعیت مطلق بردارها ، می توانید تراز را کنار بگذارید و مستقیماً به مطابقت مکاتبات بین بردارها بروید."

در اینجا Gromov-Wasserstein مفید است. برای مثال ، از این تکنیک برای کمک به تراز پیکسل های تصویر در طراحی گرافیک ، در علم کامپیوتر استفاده شده است. اما متریک به نظر می رسد "متناسب با کلمات" ، Alvarez-Melis می گوید: "اگر نقاط یا کلماتی وجود داشته باشد که در یک فضا به هم نزدیک باشند ، Gromov-Wasserstein به طور خودکار قصد دارد تا خوشه مربوط به نقاط را پیدا کند. فضای دیگر

برای آموزش و آزمایش ، محققان از یک مجموعه داده از جاسازی های کلمه در دسترس عموم به نام FASTTEXT با 110 زوج زبانی استفاده کردند. در این تعبیه ها و سایر موارد ، کلماتی که هر روز بیشتر در زمینه های مشابه ظاهر می شوند ، بردارهای نزدیک به هم دارند. "مادر" و "پدر" معمولاً در كنار هم خواهند بود اما هر دو دورتر از گفتن "خانه" هستند.

ارائه "ترجمه نرم"

این مدل بردارهایی را نشان می دهد که از نزدیک با یکدیگر متفاوت هستند و این احتمال را نشان می دهد که بردارهای مشابه فاصله در جاسازی دیگر مطابقت دارند. آلوارز ملیس می گوید ، این نوعی شبیه به یک "ترجمه نرم" است ، زیرا به جای این که فقط یک ترجمه کلمه را برگردانید ، به شما می گوید 'این وکتور یا کلمه ، با این کلمه یا کلمات دارای حرف دیگری است. زبان. ""

نمونه آن در ماه های سال است که در بسیاری از زبان ها از نزدیک با هم ظاهر می شوند. این مدل خوشه ای از 12 بردار را مشاهده می کند که در یک جاسازی و یک خوشه قابل ملاحظه مشابه در تعبیه دیگر خوشه بندی شده است. آلوارز ملیس می گوید: "مدل نمی داند که اینها ماه ها هستند." وی گفت: "این فقط می داند که یک خوشه 12 نقطه ای وجود دارد که با یک خوشه 12 نقطه با زبان دیگر هم ترازی می کند ، اما آنها با سایر کلمات متفاوت هستند ، بنابراین احتمالاً آنها به خوبی کنار هم می روند. با پیدا کردن این مکاتبات برای هر کلمه ، سپس کل فضای را به طور همزمان تراز می کند. "

محققان امیدوارند كه این كار به عنوان یك "بررسی امکان سنجی" باشد ، تا بتواند از روش Gromov-Wasserstein در سیستم های ترجمه ماشینی برای اجرای سریع تر ، كارآمدتر و دستیابی به زبان های دیگر استفاده كند.

علاوه بر این ، احتمال احتمالی مدل این است که به طور خودکار مقداری را تولید می کند که می تواند به صورت کمیت ، در مقیاس عددی ، شباهت بین زبانها را تفسیر کند. محققان می گویند این ممکن است برای مطالعات زبانشناسی مفید باشد. این مدل محاسبه می کند که همه بردارها از دو فاصله در کنار یکدیگر از یکدیگر فاصله دارند که این امر به ساختار جمله و عوامل دیگر بستگی دارد. اگر بردارها واقعاً نزدیک باشند ، به صفر نزدیک می شوند و هرچه از هم دورتر باشند ، امتیاز بالاتر می رود. به عنوان مثال ، زبانهای عاشقانه مانند فرانسوی و ایتالیایی نزدیک به 1 نمره می گیرند ، در حالی که نمرات کلاسیک چینی بین 6 تا 9 با سایر زبانهای اصلی امتیاز دارد.

آلوارز ملیس می گوید: "این یک شماره ساده و ساده برای چگونگی زبانهای مشابه به شما می دهد ... و می توان از آنها برای جلب بینش درباره روابط بین زبانها استفاده کرد."

http://prbookmarkingwebsites.com/story5101186/پمپ-وکیوم-آبی

محققان MIT مدل ترجمه زبان "بدون نظارت" را تولید کرده اند ، یعنی این امر بدون نیاز به حاشیه نویسی و راهنمایی انسان انجام می شود - که می تواند منجر به ترجمه های سریعتر و کارآمدتر مبتنی بر رایانه از زبانهای بسیار بیشتری شود.


سیستم های ترجمه از گوگل ، فیس بوک و آمازون نیاز به مدل های آموزش دارند تا به دنبال الگوهای در میلیون ها سند - مانند اسناد قانونی و سیاسی یا مقالات خبری - که توسط انسان ها به زبان های مختلف ترجمه شده اند ، باشند. با توجه به کلمات جدید در یک زبان ، آنها می توانند کلمات و عبارات مطابق را به زبان دیگر پیدا کنند.

اما این داده های ترجمه ای زمان گیر و جمع آوری دشوار است ، و به سادگی ممکن است برای بسیاری از 7000 زبانی که در سراسر جهان صحبت می شوند ، وجود نداشته باشد. اخیراً ، محققان در حال تهیه مدلهای "یک زبانه" هستند که ترجمه ها را بین متون به دو زبان انجام می دهند ، اما بدون اطلاعات مستقیم ترجمه بین این دو.

در مقاله ای که این هفته در کنفرانس روشهای تجربی در پردازش زبان طبیعی ارائه شده است ، محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) مدلی را توصیف می کنند که سریعتر و کارآمدتر از این مدل های چند زبانه است.

این مدل از یک آماری به نام فاصله Gromov-Wasserstein استفاده می کند ، که اساساً مسافت بین نقاط را در یک فضای محاسباتی اندازه گیری می کند و آنها را با نقاط مشابه فاصله در فضای دیگر مطابقت می دهد. آنها از این تکنیک برای "تعبیه واژه ها" به دو زبان استفاده می کنند ، که کلماتی هستند که به عنوان بردار نشان داده می شوند - اساساً آرایه اعداد - با کلمات معانی مشابه که به هم نزدیک تر هستند. با انجام این کار ، این مدل به سرعت کلمات یا بردارها را در هر دو جاسوسی که با فاصله های نسبی نزدیکترین همبستگی هستند ، تراز می کند ، به این معنی که احتمالاً آنها ترجمه های مستقیم هستند.

در آزمایشات ، مدل محققان دقیقاً مانند مدلهای یکپارچه ترین و البته دقیق تر - اما بسیار سریعتر و فقط با استفاده از کسری از توان محاسباتی ، دقیق تر عمل می کند.

Tommi Jaakkola ، نویسنده مقاله ، محقق CSAIL و استاد توماس سیبل می گوید: "این مدل کلمات موجود در دو زبان را به عنوان مجموعه ای از بردارها می بیند ، و نقشه ها را از یک مجموعه به حالت دیگر می بخشد." در گروه مهندسی برق و علوم کامپیوتر و انستیتوی داده ها ، سیستم ها و جامعه. "این رویکرد می تواند به ترجمه زبان ها یا گویش های کم منبع کمک کند ، مادامی که از محتوای یک زبانه کافی برخوردار باشند."



دیوید آلوارز-ملیس ، نویسنده اول ، دکتری CSAIL می گوید ، این مدل گامی به سوی یکی از اهداف اصلی ترجمه ماشینی است که کاملاً تراز کلمه بدون نظارت است. دانش آموز: "اگر داده ای ندارید که با دو زبان مطابقت داشته باشد ... می توانید دو زبان را نقشه برداری کنید و با استفاده از این اندازه گیری های فاصله ، آنها را تراز کنید."

روابط بیشتر مهم است

تراز کردن تعبیرهای کلمه ای برای ترجمه ماشین بدون نظارت مفهومی جدید نیست. کار اخیر شبکه های عصبی را آموزش می دهد تا بردارها به طور مستقیم در تعبیه کلمات یا ماتریس ها از دو زبان با هم هماهنگ باشند. اما این روشها برای رسیدن به تراز وسایل دقیقاً صحیح به تركیبات زیادی نیاز دارند كه این كار ناكارآمد و وقت گیر است.

از طرف دیگر اندازه گیری و برآورد بردارها بر اساس مسافت های رابطه ای ، روشی بسیار کارآمد تر است که نیازی به تنظیم دقیق ندارد. مهم نیست که بردارهای کلمه در یک ماتریس مشخص قرار می گیرند ، رابطه بین کلمات ، به معنی فاصله آنها ، یکسان خواهد بود. به عنوان مثال ، بردار "پدر" ممکن است در مناطق کاملاً متفاوت در دو ماتریس سقوط کند. اما بردارهای "پدر" و "مادر" به احتمال زیاد همیشه در کنار هم خواهند بود.

آلوارز ملیس می گوید: "این مسافت ها ثابت هستند." وی ادامه داد: "با نگاه کردن به فاصله و نه موقعیت مطلق بردارها ، می توانید تراز را کنار بگذارید و مستقیماً به مطابقت مکاتبات بین بردارها بروید."

در اینجا Gromov-Wasserstein مفید است. برای مثال ، از این تکنیک برای کمک به تراز پیکسل های تصویر در طراحی گرافیک ، در علم کامپیوتر استفاده شده است. اما متریک به نظر می رسد "متناسب با کلمات" ، Alvarez-Melis می گوید: "اگر نقاط یا کلماتی وجود داشته باشد که در یک فضا به هم نزدیک باشند ، Gromov-Wasserstein به طور خودکار قصد دارد تا خوشه مربوط به نقاط را پیدا کند. فضای دیگر

برای آموزش و آزمایش ، محققان از یک مجموعه داده از جاسازی های کلمه در دسترس عموم به نام FASTTEXT با 110 زوج زبانی استفاده کردند. در این تعبیه ها و سایر موارد ، کلماتی که هر روز بیشتر در زمینه های مشابه ظاهر می شوند ، بردارهای نزدیک به هم دارند. "مادر" و "پدر" معمولاً در كنار هم خواهند بود اما هر دو دورتر از گفتن "خانه" هستند.

ارائه "ترجمه نرم"

این مدل بردارهایی را نشان می دهد که از نزدیک با یکدیگر متفاوت هستند و این احتمال را نشان می دهد که بردارهای مشابه فاصله در جاسازی دیگر مطابقت دارند. آلوارز ملیس می گوید ، این نوعی شبیه به یک "ترجمه نرم" است ، زیرا به جای این که فقط یک ترجمه کلمه را برگردانید ، به شما می گوید 'این وکتور یا کلمه ، با این کلمه یا کلمات دارای حرف دیگری است. زبان. ""

نمونه آن در ماه های سال است که در بسیاری از زبان ها از نزدیک با هم ظاهر می شوند. این مدل خوشه ای از 12 بردار را مشاهده می کند که در یک جاسازی و یک خوشه قابل ملاحظه مشابه در تعبیه دیگر خوشه بندی شده است. آلوارز ملیس می گوید: "مدل نمی داند که اینها ماه ها هستند." وی گفت: "این فقط می داند که یک خوشه 12 نقطه ای وجود دارد که با یک خوشه 12 نقطه با زبان دیگر هم ترازی می کند ، اما آنها با سایر کلمات متفاوت هستند ، بنابراین احتمالاً آنها به خوبی کنار هم می روند. با پیدا کردن این مکاتبات برای هر کلمه ، سپس کل فضای را به طور همزمان تراز می کند. "

محققان امیدوارند كه این كار به عنوان یك "بررسی امکان سنجی" باشد ، تا بتواند از روش Gromov-Wasserstein در سیستم های ترجمه ماشینی برای اجرای سریع تر ، كارآمدتر و دستیابی به زبان های دیگر استفاده كند.

علاوه بر این ، احتمال احتمالی مدل این است که به طور خودکار مقداری را تولید می کند که می تواند به صورت کمیت ، در مقیاس عددی ، شباهت بین زبانها را تفسیر کند. محققان می گویند این ممکن است برای مطالعات زبانشناسی مفید باشد. این مدل محاسبه می کند که همه بردارها از دو فاصله در کنار یکدیگر از یکدیگر فاصله دارند که این امر به ساختار جمله و عوامل دیگر بستگی دارد. اگر بردارها واقعاً نزدیک باشند ، به صفر نزدیک می شوند و هرچه از هم دورتر باشند ، امتیاز بالاتر می رود. به عنوان مثال ، زبانهای عاشقانه مانند فرانسوی و ایتالیایی نزدیک به 1 نمره می گیرند ، در حالی که نمرات کلاسیک چینی بین 6 تا 9 با سایر زبانهای اصلی امتیاز دارد.

آلوارز ملیس می گوید: "این یک شماره ساده و ساده برای چگونگی زبانهای مشابه به شما می دهد ... و می توان از آنها برای جلب بینش درباره روابط بین زبانها استفاده کرد."

http://prbookmarkingwebsites.com/story5101186/پمپ-وکیوم-آبی

نظرات این مطلب

تعداد صفحات : 0

درباره ما
موضوعات
آمار سایت
  • کل مطالب : 14
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 0
  • بازدید امروز : 3
  • بازدید کننده امروز : 1
  • باردید دیروز : 0
  • بازدید کننده دیروز : 0
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 6
  • بازدید ماه : 8
  • بازدید سال : 17
  • بازدید کلی : 6201
  • <
    پیوندهای روزانه
    آرشیو
    اطلاعات کاربری
    نام کاربری :
    رمز عبور :
  • فراموشی رمز عبور؟
  • خبر نامه


    معرفی وبلاگ به یک دوست


    ایمیل شما :

    ایمیل دوست شما :



    کدهای اختصاصی