سفارش تبلیغ
صبا ویژن

تبدیل گفتار به نوشتار چیست؟

تا بحال بارها راجع به فناوری تبدیل گفتار به نوشتار و کاربردهای آن در مقالات مختلف صحبت کرده ایم و در مورد دستیارهای صوتی که از فناوری تبدیل گفتار به نوشتار نیز در آن ها استفاده می شوند و لزوم استفاده از آن ها در اپلیکیشن ها نیز صحبت کردیم. اما امروز به طور اختصاصی  می خواهیم به این مسئله بپردازیم که فناوری تبدیل گفتار به نوشتار چگونه کار می کند و چطور یک ماشین می تواند صوت گفتاری را به نوشتار آن تبدیل کند.

تبدیل گفتار به نوشتار چیست؟

فناوری تبدیل گفتار به نوشتار در حقیقت زیر مجموعه ای از فناوری پردازش یا بازشناسی گفتار یا speech recognition  می باشد که می تواند صوتی که وجود دارد را (اعم از صحبت های افراد، صوت ضبط شده، صدای یک فیلم و…) به نوشتار تبدیل کند یا به عبارتی گفتار را تبدیل به نوشتار نماید.

فناوری تبدیل گفتار به نوشتار در حقیقت نوعی برنامه، اپلیکیشن، نرم افزار و… می باشد که محتوای صوتی را گرفته و با پردازش محتوای آن صوت، آن را به کلمات مکتوب تبدیل می نماید. فناوری تبدیل گفتار به نوشتار، همان طور که گفته شد یک فناوری بر پایه هوش مصنوعی می باشد که قادر است از یک گفت و گوی شفاهی و محتوای صوتی موجود، محتوای متنی تهیه کند و یا اینکه به صورت تایپ در لحظه به کار رود.

تبدیل گفتار به نوشتار چگونه کار می کند؟

تبدیل گفتار به نوشتار بخشی از فناوری بازشناسی گفتار می باشد که به سادگی میتوان مسئله بازشناسی گفتار را در این فرمول احتمالاتی شرطی خلاصه کرد:

فرمول احتمال شرطی برای تبدیل گفتار به نوشتار

به این معنی که ما به دنبال رشته‌ای از کلمات خروجی هستیم که با توجه به سیگنال ورودی موجود، محتمل‌ترین رشته کلمات خروجی را به ما نشان دهند. مسئله را می توان بر اساس این فرمول باز کرد و گفت که احتمال سیگنال، نسبت به رشته کلمات مورد نظر ضرب در احتمال کلمات. زمانی که این دو را باز کنیم، در واقع دو پایه اساسی یک سیستم بازشناسی گفتار به دست می آید که عبارتند از:
1.مدل آکوستیکی
2.مدل زبانی
کار مدل آکوستیکی آن است که تشخیص می دهد با توجه به سیگنال ورودی محتمل ترین آواهای خروجی چه چیزهایی هستند. کار مدل زبانی هم آن است که تشخیص دهد پس از ترکیب آواها، محتمل ترین کلماتی که در آن زبان می توانیم پشت سرهم داشته باشیم، چه هستند. این فرمول شاید ساده ترین و پایه‌ای ترین فرمول بازشناسایی گفتار باشد. در ساختار کلی یک سیستم بازشناسایی گفتار همه چیز از سیگنال صوتی شروع می شود.

سیگنال صوتی وارد یک سری پیش پردازش ها می شود. به عنوان مثال در زمانهایی که سکوت داریم، سیگنال صوتی را می بُریم یا نویز را کاهش می دهیم، استخراج ویژگی ها نیز بخشی از پیش پردازش می باشد. پس از اتمام پیش پردازش، سیگنال صوتی با یک سری ویژگی های کلی بدست می‌آید. در نهایت با ترکیب دو مدل زبانی و آکوستیکی، سیگنال یا ویژگی ها را به کلمات نهایی رمز گشایی (Decode) می کنیم.

ساختار سیستم های بازشناسایی گفتار

روش های بازشناسایی گفتار

به صورت کلی تلاشها یا روشهایی که در زمینه پردازش گفتار شده را میتوان به 3 مقطع زمانی تقسیم کرد:

3 مدل بازشناسی گفتار

مدل گاوسین-مدل مخفی مارکف

مدلهای مخلوط گاوسین-مدل مخفی مارکف که به Gmm-Hmm نیز معروف می باشند،تا حدود 25 سال پیش بدون هیچ رقیب دیگری برای بازشنایایی گفتار استفاده می شدند تا زمانی که در مقاله معروف  سال 2006 که توسط یکی از افراد یسیار مهم در زمینه deep learning یعنی دکتر هینگتون ارائه شد، شبکه های عصبی باور عمیق یا DBN ها جایگزین مدل مخلوط گاوسین شدند. اما با این حال باز هم از مدل مخفی مارکف برای شبیه سازی زمانی استفاده می‌کردیم. در نهایت، طی سالهای اخیر مدل سرتاسری شبکه‌های عمیق بازگشتی معرفی شدند که دو مدل قبلی را باهم ترکیب کرده و در یک شبکه عمیق به کار می بردند.

شماتیک کلی این مدل ها را در می توانیم در تصویر زیر مشاهده کنیم. برای توضیح مختصر تصویر می توانیم بگوییم که ما در این مدل از سیگنال های صوتی که داریم یکسری ویژگی استخراج می کنیم. این ویژگی ها میتوانند expectogram یا nfcc باشند. با کمک مدل مخلوط گاوسین، یک آکوستیک مدلی را درست می کنیم و سپس از خروجی همان آکوستیک مدل، یا در واقع از آواهایی که بدست آمده در یک شبکه HMM، از آواهایی که وجود داشتندمدلسازی زمانی انجام می دهیم و در نهایت به متن می‌رسیم.

مدل مخلوط گاوسین-مارکف در بازشناسی گفتار

ساختار مدل شبکه عصبی باور عمیق-مدل مخفی مارکف

در شبکه های باور عمیق نیز همان اتفاق می افتد. ما میتوانیم expectogram و یا حتی ورودی خام سیگنال صوتی و MCC را داشته باشیم.تنها تفاوت آن با مدل قبلی آن است که بجای مدل گاوسین، از یک شبکه باور عمیق استفاده می کنیم.
تا قبل 2006 امکان اموزش شبکه های بزرگ وجود نداشت، در آن زمان همه ی افراد فعال در حوزه هوش مصنوعی می دانستند که با افزایش تعداد لایه‌ها قاعدتا می توانیم نتایج بهتری بگیریم و به اصطلاح به درک بالاتری از آن ورودی می رسیم. یعنی هرچه تعداد لایه ها زیادتر و عمیق تر باشد ما میتوانیم در عمق بیشتر درک بهتری از ورودی پیدا کنیم. اما امکان اموزش این شبکه ها به دو دلیل وجود نداشته‌است: اولین دلیل اینکه برای انجام این کار الگوریتمی وجود نداشته است و تا آن زمان ما تنها می توانستیم شبکه های 2 تا 3 لایه را آموزش دهیم.زمانی که عمق شبکه ها بیشتر می شد نیز از روش نشر بازگشتی استفاده می کردیم که توانایی انجام درست این کار را نداشت.
با این حال در سال 2006 الگوریتمی درست شد که با کمک آن می توانستند لایه ها را تک تک آموزش بدهند و سپس این لایه ها را بر روی هم سوار کردند و در نهایت به شبکه یک آموزش کلی داده شد. بعد از این اتفاق امکان آن به وجود آمد که به عنوان مثال بتوانیم 6 تا 7 لایه از شبکه های عصبی را با دقت خوبی آموزش دهیم. با آمدن این الگوریتم جای مدل مخلوط گاوسین یا GMM ها با شبکه های باور عمیق یا DBM تغییر کرد، اما ما همچنان از HMM ها یا مدل مارکف برای شبیه سازی مدل های زمانی استفاده می کردیم.

مدل شبکه عمیق-مارکف در پردازش گفتار

ساختار سرتا سری شبکه های عمیق بازگشتی

یکی از ساختارهای معروف شبکه های عمیق بازگشتی ساختاری همانند تصویر زیر دارد که متعلق به مقاله معروفی است که چند سال پیش توسط “بایدو” منتشر کرد. باتوجه به تصویری که در زیر مشاهده می کنید مرزهای قبلی را بین دو مدل مختلف قبلی نداریم و تمام این اتفاقات در شبکه سرتاسری می افتند، باز هم در اینجا ما expectogram یا ورودی و سپس یک شبکه عمیق بازگشتی را داریم. در واقع هم آواها (مدل آگوستیکی) را داریم و در واقع مدل آکوستیکی را آموزش میبینم و همزمان شبیه سازی زمانی را نیز انجام میدهیم.

شبکه سرتاسری عمیق در پردازش گفتار

بازشناسایی گفتار با روش های یادگیری عمیق

در این روش ما در واقع می خواهیم تمام مراحل قبلی که گفته شد را با یک شبکه جایگزین کنیم، یعنی سیگنال ورودی داخل یک شبکه ای شود و در نهایت خروجی آن سیگنال را به صورت متن داشته باشیم، بدون اینکه نیاز باشد آن سیگنال را به مدل های مختلف بشکانیم و استخراج ویژگی کنیم و… و در واقع می خواهیم یک شبکه سرتاسری در میانه داشته باشیم.

یادگیری عمیق در پردازش گفتار

فارس آوا، نرم افزاری که گفتار را به نوشتار تبدیل می کند

در حال حاضر در کشور نرم افزاری برای تبدیل گفتار به نوشتار وجود دارد که به کمک روش هایی که در بالا گفته شد،گفتار را به متن تبدیل می کند. فارس آوا دارای بزرگترین دیتاست فارسی در داخل کشور می باشد که شامل 10 هزار ساعت دیتای زبان فارسی می باشد.  فارس آوا عملیات بازشناسایی گفتار را به کمک روش های یادگیری عمیق انجام می دهد و این نرم افزار تبدیل گفتار به متن در زبان فارسی امکان ارتباط کلامی انسان با کامپیوتر و یا موبایل را فراهم می کند. این نرم افزار با تکیه بر دانش متخصصان هوش مصنوعی ایرانی و با بهره گیری از آخرین تکنولوژی های روز دنیا تولید شده است و به دلیل جمع آوری بزرگ ترین دیتاست موجود در زبان فارسی و تمرکز ویژه روی این زبان، ضمن بهره مندی از تنوع گفتاری بسیار وسیع موفق شده تا در رقابت با شرکت های بزرگی چون گوگل ضریب دقت بالایی داشته باشد.

تبدیل گفتار به نوشتار فارس آوا

ویژگی ها و قابلیت های فارس آوا عبارتند از:

  • تبدیل گفتار به متن فارسی با دقت و سرعت بالا
  • بهره مندی از آخرین تکنولوژیهای یادگیری عمیق
  • تبدیل گفتار به متن بصورت همزمان (Real-Time)
  • تشخیص گفتار و صوت در محیط های نویزی
  • پشتیبانی از انواع لهجه ها و گویش ها
  • قابلیت تبدیل گفتار محاوره ای به متن
  • پشتیبانی از انواع فرمتهای صوتی و ویدیویی
  • تبدیل گفتار انگلیسی به متن انگلیسی
  • غیر وابسته به گوینده و عدم نیاز به آموزش برای هر فرد
  • توسعه و تولید بصورت کاملاً بومی در داخل کشور
  • ارائه API و SDK تبدیل گفتار به متن در قالب وب سرویس
  • ارائه پنل تحت وب برای آپلود کردن فایلها جهت پردازش
  • قابل نصب روی سرور مشتری و عدم نیاز اتصال به اینترنت
  • بهره مندی از دایره واژگان (فرهنگ لغت) بسیار وسیع

همه ی مواردی که گفته شد باعث شده تا فارس آوا به یکی از کاربردی ترین و با کیفیت ترین محصولات موجود در بازار امروز ایران، تبدیل شود. فارس آوا نرم افزاری است که به صورت اختصاصی برای زبان فارسی تولید شده است و واژگان زبان فارسی را به خوبی درک و پردازش می کند. شما می توانید با خیالی آسوده از نرم افزار فارس آوا استفاده کنید و راندمان و بهره وری کار خود و یا کارمندان در سازمان و یا کسب و کارتان را افزایش دهید. علاوه بر این ها فارس آوا از رابط کاربری بسیار ساده ای برخوردار است که این امر استفاده همه ی افراد از این نرم افزار را بسیار ساده می کند.

برای خرید محصول فارس آوا و یا درخواست دمو محصول به اینجا مراجعه کنید.

 

 

http://mediajx.com/story9389651/گفتار-به-نوشتار


http://bookmark-dofollow.com/story8349854/گفتار-به-نوشتار


http://bookmark-template.com/story8351110/گفتار-به-نوشتار


http://prbookmarkingwebsites.com/story6435669/گفتار-به-نوشتار


http://socialmediainuk.com/story6922078/گفتار-به-نوشتار


http://gorillasocialwork.com/story7160798/گفتار-به-نوشتار


http://ztndz.com/story8688685/گفتار-به-نوشتار


http://opensocialfactory.com/story6015080/گفتار-به-نوشتار


http://socialrus.com/story6493100/گفتار-به-نوشتار


http://dirstop.com/story7177830/گفتار-به-نوشتار


http://bookmarkport.com/story7022496/گفتار-به-نوشتار


http://socialmediastore.net/story6994976/گفتار-به-نوشتار


http://bookmarkbirth.com/story6866075/گفتار-به-نوشتار


http://socialnetworkadsinfo.com/story7078524/گفتار-به-نوشتار


http://bookmarkloves.com/story7083500/گفتار-به-نوشتار


http://bookmarkstumble.com/story2388744/گفتار-به-نوشتار


http://bookmarkstime.com/story7956629/گفتار-به-نوشتار


http://gatherbookmarks.com/story8064592/گفتار-به-نوشتار


http://getsocialpr.com/story7117082/گفتار-به-نوشتار


http://bookmarkswing.com/story8971685/گفتار-به-نوشتار


http://bookmarkextent.com/story8992987/گفتار-به-نوشتار


http://bookmarksknot.com/story9021872/گفتار-به-نوشتار


http://bookmarkspring.com/story2431536/گفتار-به-نوشتار


http://bookmarkja.com/story8998342/گفتار-به-نوشتار


http://altbookmark.com/story9011171/گفتار-به-نوشتار


http://letusbookmark.com/story8835387/گفتار-به-نوشتار


http://trackbookmark.com/story8802889/گفتار-به-نوشتار


http://nybookmark.com/story8074500/گفتار-به-نوشتار


http://hindibookmark.com/story8900001/گفتار-به-نوشتار


http://bookmarkshq.com/story8857750/گفتار-به-نوشتار


http://bookmarketmaven.com/story8064038/گفتار-به-نوشتار

 

http://bookmarkrange.com/story8862445/گفتار-به-نوشتار


مزایای استفاده از هوش مصنوعی (AI) برای خودکارسازی روتوش تصاویر

مزایای استفاده از هوش مصنوعی (AI) برای خودکارسازی روتوش تصاویر

یک تکنیک کمی معمولی می‌تواند چهره انسان و یا هر سوژه دیگری را در صحنه تغییر دهد. در نرم‌افزار ویرایش عکس یکی از سخت‌ترین بخش‌ها روتوش آن‌ها است. یک ویژگی هوش مصنوعی به نام “انتخاب شیء (subject)” در حال حاضر در Adobe included گنجانده شده ‌است. استفاده از این روتوش برای افراد بی تجربه هم بسیار ساده است. هوش مصنوعی امکان “انتخاب ناحیه و پوشش شیء” را فراهم می‌کند. به کمک این فناوری شما می‌توانید هر جای تصویر را که می‌خواهید انتخاب کنید و با کلیک کردن بر روی آن ناحیه، عملیات روتوش را انجام دهید.

هوش مصنوعی در همه زمینه‌ها بهترین است

در سال 2018، Photoshop CC نسخه 19.1 به روز شده Adobe Photoshop را برای استفاده در سیستم عامل‌های Windows و Mac معرفی کرد. در این نسخه هوش مصنوعی این امکان را فراهم کرده است تا تنها با یک کلیک بتوانید تمام ناحیه مورد نظر خود را انتخاب کنید.

برای کاربران ویندوز، این ویژگی شامل اضافه کردن یک اسلایدر Decontamination به فضای کاری select & Mask و به روز رسانی‌های سازگار قابل‌توجهی است. در نوامبر گذشته اولین دمو این ابزار توسط شرکت Adobe Sensei Al منتشر شد. توجه تیم فتوشاپ را به خود جلب کرد. با این ابزار، کاربران تنها با یک کلیک می‌توانند شی مورد نظر را انتخاب کنند.

انتخاب بخشی از یک تصویر امری معمول است. در طی این سال ها بر بهبود آن کار شده است. انتخاب یک ناحیه در فتوشاپ بخش مهمی از ویرایش تصویر است. این ویژگی به شما کمک می‌کند که سریعتر از قبل کار خود را شروع کنید. یادگیری ماشین و هوش مصنوعی به تشخیص اشیا و ناحیه‌ها در تصویر کمک می‌کند.

مزایای هوش مصنوعی

برای مانیتورهای با قدرت پردازش بالا در تصویر، کاربران ویندوز تلاش می‌کنند که بین تصاویر با رزولوشن‌های متفاوت و اندازه‌های متفاوت سوئیچ کنند. در تیم فتوشاپ یکی از دانشمند به نام جری هریس، سهم بسزایی در روند نوظهور علوم شناختی دارد. در نرم‌افزار فتوشاپ اندازه و زیبایی مظرح نیست. تراکم در صفحه مانتیور هم مهم نیست. در هر صورت این نسخه مفید است. این نسخه از فتوشاپ رابطه کاری تنگاتنگی با مایکروسافت دارد و فاکتورها را منطبق با استانداردهای مایکروسافت تنظیم می‌کند.

سخن آخر

به طور خلاصه، هوش مصنوعی در نرم‌افزارهایی مانند فوتوشاپ ساده‌ترین راه را برای کاربرانی که به روتوش تصویر تسلط چندانی ندارند، فراهم کرده است. هوش مصنوعی در این عرصه بسیار خوب عمل کرده، اما توجه داشته باشید که هنوز به کیفیت انجام دستی این کار نرسیده است و قابل رقابت با آن نمی‌باشد.


مامایکروسافت: انگلیس باید مهارت های هوش مصنوعی خود را افزایش داد

مایکروسافت: انگلیس باید مهارت های هوش مصنوعی خود را افزایش داده یا خطر سقوط را بپذیرد!

این روزها گزارشی از مایکروسافت منتشر شده‌است که به انگلیس هشدار می‌دهد که با شکاف‌های بزرگ و حساسی در زمینه هوش مصنوعی (AI) روبرو است و اگر نتواند این چالش را به خوبی مدیریت کند، احتمالاً باید هزینه آسیب‌های حاصل از این بی‌توجهی را بپردازد! این تحقیقات که توسط شرکت Microsoft تحت عنوان هوش مصنوعی در انگلیس انجام شده‌است، این موضوع را از چند جنبه بررسی می‌کند.

مایکروسافت برای تهیه گزارش خود به صورت کامل، آن را از چند جهت و جنبه با کمک داده‌های 12 هزار نفر از 20 کشور جهان بررسی کرده‌است. این داده‌ها، کمک می‌کنند که عملکرد کشور انگلیس در حوزه هوش مصنوعی به راحتی بررسی شود و قابل مقایسه با سایر کشورها باشد. طبق این گزارش، میزان خرابی و نقص در پروژه‌های هوش مصنوعی انگلیس، نسبت به سایر کشورها بیشتر بوده‌است و این موضوع به حیثیت این کشور لطمه بزرگی خواهد زد. در این زمینه شاید برای شما هم جالب باشد که بدانید، 29 درصد شغل‌های ایجاد شده بواسطه پروژه‌هایی که توسط دولت انگلیس سرمایه‌گذاری شده‌اند، در واقع بدون هیچ ارزش تجاری بوده‌اند، در حالی که میانگین جهانی چنین پروژه‌هایی تنها 19 درصد است.

شکاف و بحران هوش مصنوعی در انگلیس، موضوعی ثابت شده!

در مورد این مشکل و معضل نکته جالب تری وجود دارد که آن، نظرات رهبران مشاغل هوش مصنوعی در این کشور است که از دو سال پیش، چنین وضعیتی را پیش‌بینی می کرند و معتقد  بودند که بحران در صورتی که حل نشود، جدی تر خواهد شد. طبق نظرات متخصصان در این زمینه، مشکل اصلی این است که دولت انگلیس، آماده‌سازی مهارتی، تخصصی و علمی لازم برای این موضوع را جدی تصور نمی‌کند و برای آن سرمایه‌گذاری انجام نمی‌دهد! طبق داده‌های جمع‌آوری شده، فقط 17 درصد از کارمندان انگلیسی فعال در این حوزه، اطلاعات لازم و کامل را در این زمینه دارا بوده‌اند.

این روزها که فناوری‌هایی مانند هوش مصنوعی و ابری در حال ادغام هستند و فرآیندهایی مانند پردازش کلمه و … را انجام می‌دهند، یاد دادن مهارت‌های استفاده از چنین فناوری‌هایی برای شرکت‌هایی که کارمندان آن‌ها اطلاعات و مهارت‌های کافی ندارند، کاملاً ضروری به نظر می‌رسد. این موضوع می‌تواند به کارمندان هر بخش کمک کند که بهترین تصمیم‌گیری‌های لازم برای کار با این فناوری‌ها را اتخاذ کنند و فرآیندهای مربوط به هدفگذاری توسط مدیران به خوبی مسیر را طی نماید.

هرچقدر که بازار هوش مصنوعی در جهان و انگلستان گسترده‌تر می‌شود، جنگی که میان استعدادها و مهندسین این شرکت‌ها درمی‌گیرد، شدیدتر خواهد بود و تاوان بالاتری خواهد داشت. در این جنگ تنها تسلیهاتی که به درد شما می‌خورد، علم و دانشی است که دارید و غیر از این موضوع هیچ چیز دیگری برای شما کاربرد نخواهد داشت.

نظرات کارمندان شرکت‌های فعال در انگلیس چیست؟

در حال حاضر تنها حدود یک سوم کارمندان انگلیسی بر این باورند که محل کار و شرکتشان قادر است که به اندازه کافی آن‌ها را برای آینده ای که در انتظار AI است، آماده کند. (میانگین جهانی در این زمینه 42 درصد کارمندان است!) در این زمینه سیمون لامبرت، مدیر ارشد یادگیری مایکروسافت انگلستان اظهار داشته‌است که موفق‌ترین سازمان‌ها و موسسات در این زمینه، آن‌هایی خواهند بود که دارای مهارت‌های فنی، فعالیت‌های فرهنگی و … هستند. نبوغ انسانی که با کمک علم و دانش رشد می‌کند، همان چیزی است که باعث ایجاد تفاوت‌های اساسی در زمینه هوش مصنوعی و بازار افراد فعال در این زمینه می‌شود.

فرار مغزها و استعدادهای هوش مصنوعی از انگلستان

فرار مغزها و استعدادهای هوش مصنوعی از انگلستان، مشکل دیگری است که کشور انگلیس از آن رنج می‌برد! در این زمینه دانشگاه‌های معروفی مانند آکسفور و کمبریج (که جزو بهترین دانشگاه‌های این کشور محسوب می‌شوند)، آمار اسفناک و وحشتناکی از این موضوع منتشر کرده‌اند که نشان می‌دهد، استعدادهای این کشور در حال مهاجرت به آمریکا و دره سیلیکون ولی هستند! جایی که در آن احساس می‌کنند، توانایی پیشرفت و دریافت حقوق بسیار بالاتری نسبت به شرکت‌های انگلیسی دارند.

به عنوان مثال همین چندی پیش یکی از اساتید ارشد امپریال کالج لندن موضوع جالبی را بیان کرد که در آن همیشه تعجب می‌کرد که چرا یکی از دانشجویان او هیچ وقت  در کلاس حاضر نمی‌شود، اما سالانه مبلغی در حدود 9 هزار و 250 پوند برای شرکت در کلاس‌ها پرداخت می‌کند. پس از آن که استاد، دانشجوی خود را فراخواند این موضوع را درک کرد که دانشجوی او به دلیل کار در شرکت اپل (Apple) در کلاس‌ها شرکت نمی‌کرده‌است و این شرکت به او حقوق 6 رقمی پرداخت می‌کند.

در این زمینه برخی از شرکت‌های آمریکایی مانند مایکروسافت در حال بررسی و ارائه راهکارهایی به انگلیس هستند که جلوی این معضل و بحران را بگیرند. همان‌طور که احتمالاً خودتان هم حدس می‌زنید، اگر بحران و مشکل فرار مغزهای هوش مصنوعی به درستی حل نشود، می‌تواند باعث ایجاد بحرانی در آینده ای نزدیک برای UK (انگلستان) شود.

مایکروسافت در حال حاضر چه برنامه ای برای حل این مشکل دارد؟

دکتر کریس بیشوپ، مدیر آزمایشگاه تحقیقات مایکروسافت در کمبریج در این زمینه گفته‌است که ما در چند سال گذشته موضوع فرار مغزها و مشکلاتی که ممکن است، توسط این صنعت ایجاد شود را بررسی کرده‌ایم و متوجه شده‌ایم که تنها استعدادهای برتر دانشگاهی نیستند که اقدام به فرار می‌کنند، بلکه اساتید دانشگاهی که در حال کار بر روی پروژه‌های AI هستند با شرایطی روبرو شده‌اند که در آن هیج دانشجوی جوان و با استعدادی وجود ندارد که پذیرای دانش آن‌ها برای آماده‌سازی باشد.

این مسئله باعث بوجود آمدن نگرانی‌هایی شده‌است که طبق تحقیقات باعث ایجاد یک نسل از مهندسین بدون استعداد شده‌است. طبق فعالیت‌های مایکروسافت در این زمینه از سال 2018 برنامه ای برای آموزش مهندسین نسل بعدی که دارای قابلیت‌های لازم باشند، شروع شده‌است که این موضوع به معنای این است که دانشگاه کمبریج باید اقدام به پرداخت هزینه‌هایی به این شرکت آمریکایی کند.

شرکت مایکروسافت در این زمینه به دانشگاه کمبریج اطمینان داده‌است که هیچ استعدادی توسط این شرکت جذب نمی‌شود و آن‌ها به راحتی قادر هستند که پس از گذراندن دوره‌های آموزشی عملی خود در این شرکت، وارد بازار کاری شوند که علاقه دارند. این موضوع هم به نفع دانشگاه کمبریج، شرکت مایکروسافت و دانشجویانی است که در این دانشگاه تحصیل می‌کنند. در این زمینه شما چه نظری دارید؟ آیا راهکاری هم وجود دارد که باعث شود، دانشجویان و استعدادهای ایرانی از کشور نروند؟ به نظر شما چه کاری می‌توان انجام داد. شما در این زمینه می‌توانید نظرات، سوالات و تجربیات خود را با ما و دیگر کسانی که این خبر را مطالعه می‌کنند به اشتراک بگذارید.


کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت رباتها

کاربرد تکنولوژی پردازش گفتار در رباتیک و ساخت ربات‌ها

 

کاربرد پردازش گفتار در ربات‌ها با الگوبرداری از پردازش شنیداری انسان

ما جسته گریخته در باره آواهایی که می‌شنویم، می‌اندیشیم. ولی پیچیدگی بسیار زیادی در جداسازی و فهم آواها در مکان‌های شلوغی مانند میدان‌های پر رفت‌وآمد شهری یا فروشگاه‌های شلوغ وجود دارد. ما انسان‌ها توانایی آن را داریم که در ترازهای پایین مسیرهای شنوایی، پیش از شناسایی محتوا، سرچشمه‌های آوایی مشخصی را از دیگر آواهای پس‌زمینه جدا ‌سازیم، آن‌ها را در فضا بومی‌سازی کرده و الگوهای جنبشی و حرکتی آن‌ها را شناسایی می‌کنیم. با عامر اندیش  همراه باشید تا با جستار بیشتر آشنا شوید.

کاربرد پردازش گفتار در ربات‌ها

با الهام از نوروفیزیولوژی، تیمی از پژوهشگران، یک مقاله از پیش چاپ شده در Arxiv.org را با عنوان شناسایی گفتار پیشرفته ربات با استفاده از بومی‌سازی سرچشمه صدای بیومتریک شنیداری” بمنتشر کردند. در این مقاله یک طراحی نوآورانه برای آزمایش تأثیر فیزیوگونومی (به معنای ویژگی‌های چهره) بر مولفه‌های بازشناسایی آوا مانند بومی‌سازی سرچشمه صدا (SSL) و تشخیص خودکار صدا (ASR) ایجاد شده است.

کاربرد پردازش گفتار در ربات‌ها بر پایه پردازش شنیداری در انسان‌ها است. بدین‌وسیله، برپایه گفته‌های پژوهشگران، تنه بدن، سر و لایه بیرونی گوش، موج‌های صوتی (آوایی) را که بدان‌ها برخورد می‌کنند، جذب کرده یا انعکاس می‌دهند و همچنین بسته به موقعیت سرچشمه صدا، فرکانس آن را تغییر می‌دهند. سپس این امواج به داخل حلزون گوش (اندام مارپیچی گوش‌ها) و ارگان کرتی (Corti)، جایی که در پاسخ به ارتعاش‌های آوایی تکانه‌های عصبی تولید می‌شوند، حرکت می‌کنند. این تکانه‌ها از طریق سامانه‌های عصبی شنوایی به هسته حلزونی می‌رسند که کارآیی شبیه نوعی ایستگاه رله (رله نوعی کلید الکترونیکی است که با هدایت مدار الکتریکی باز و بسته می‌شود) دارند. بدین ترتیب کاربرد پردازش گفتار در ربات‌ها در این سامانه عصبی و انتقال داده‌ها و اطلاعات به دو ساختار ناوابسته می‌باشد: MSO (medial superior olive) و LSO (lateral superior olive). (MSO که MSO به منظور تشخیص جایگاه دقیق آوا، موقعیت زاویه چپ یا راست را تنظیم می‌کند؛ درحالیکه LSO از شدت صدا برای بومی‌سازی آن استفاده می‌کند. سرانجام آن‌ها در کوکلیکول (colliculus) تحتانی مغز (IC) بایکدیگر یکی می‌شوند.

"<yoastmark

نحوه کاربرد پردازش گفتار در ربات‌ها

پژوهشگران در تلاش برای افزایش ساختار الگوریتمی، یک فریم ورک یادگیری ماشینی (iCub و Soundman ) را طراحی کرده‌اند که صدای ضبط شده توسط میکروفون‌های تعبیه شده در سر روبات‌های ساخته انسان را پردازش می‌کند. این چهارچوب شامل چهار بخش است: SSL، مولفه‌ای که آواها را به مجموعه‌ای از فرکانس‌ها تجزیه کرده و از موج‌های فرکانس برای تولید سنبله‌های تقلید کننده پالس‌های عصبی کورتی (Corti) استفاده می‌کند. مدل MSO حساس به صداهای تولید شده در زاویه‌های خاص است؛ و در نهایت LSO مدلی است که نسبت به دیگر زاویه‌ها حساس است. IC همان لایه‌ای است که با الهام از مغز انسان ایجاد شده و در این لایه سیگنال‌های MSO و LSO با یکدیگر ترکیب می‌شود. در حقیقت این لایه، شبکه عصبی اضافی است که باعث کاهش بازتاب صدا و صدای خود ربات می‌شود. صدای ربات به دلیل اتصالات ربات‌ و موتور آن است. موارد گفته شده در بالا، به صورت خلاصه، کاربرد پردازش گفتار در ربات‌ها را توضیح می‌دهد.

برای آزمایش کارآیی سامانه، پژوهشگران از سامانه‌ای به نام Soundman برای تولید خطوط پایه SSL و ASR و سر iCub (مجهز به موتورهایی که امکان چرخش آن را می‌دهند) استفاده کرده‌اند تا اثر رزونانس (پیچش صدا) در میان جمجمه و مولفه‌های داخلی ربات را کنترل کنند. 13 بلندگو با فاصله‌های مساوی در پیکربندی نیمه استوانه‌ای طوری توزیع شده که آواهای پخش شده در سر این استوانه را شناسایی و پردازش می‌کند.

"<yoastmark

کاربرد پردازش گفتار در ربات‌ها با بهره بردن از داده‌های بدست آمده از SSL می‌تواند به صورت چشم‌گیری بهبود یابد. این پیشرفت در تشخیص آواها تا دو برابر موردهای پیشین در سطح جمله قابل ملاحظه بود. دقت بالای تشخیص گفتار در ربات‌ها، با تشخیص اینکه سر ربات در چه موقعیتی قرار می‌گیرد و از چه کانال مناسبی برای داده‌های ورودی به سیستم ASR استفاده کند، امکان‌پذیر است.

سخن آخر

نویسندگان مقاله این‌گونه ادامه داده‌اند که: “این رویکرد درست برخلاف سایر رویکردهای مرتبط است. پیش از ASR، سیگنال‌های هر دو کانال به طور متوسط ??اندازه گیری می‌شد. نتایج آزمایش SSL پویا نشان می‌دهد که این سامانه قادر به انجام انواع مختلفی از طنین‌های صوتی است. این نتیجه‌ها یک بسط مهم از کارهای قبلی ما در SSL استاتیک است و از استحکام سامانه به پویایی صدا در محیط‌های دنیای واقعی پشتیبانی می‌کند. علاوه بر این، کاربرد پردازش گفتار در ربات‌ها می‌تواند به راحتی با روش‌های اخیر به منظور افزایش ASR در محیط‌های پرانعکاس بدون اضافه کردن هزینه‌های محاسباتی یکپارچه گردد. “


فورد در کارخانههای خود از سگهای رباتیک استفاده میکند

فورد در کارخانه‌های خود از سگ‌های رباتیک استفاده می‌کند

کارخانه فورد در میشیگان به سمت استفاده از سگ‌های رباتیک رفته است. جانوران چهار پا رباتیک در دوره جدیدی از طراحی رایانه و راندمان اقتصادی برای این کمپانی سازنده خودرو، طلیعه جدیدی هستند.

Fluffy and Spot

دو سگ به نام Fluffy و Spot که توسط شرکت Boston Dynamics ساخته شده اند. این شرکت در ساخت ربات رتبه برتر را دارد. وظایف این سگ‌های پیمایش کارخانه Van Dyke Transmission در استرلینگ هایتز، میشیگان و اسکن طرح‌ها به منظور کمک به مهندسان در تهیه طرح‌های کارآمدتر برای به روزرسانی پروژه‌ها و اتمام دوره پروژه خواهد بود.

امکانات سگ‌ها

هر سگ مجهز به پنج دوربین است که قابلیت اسکن 360 درجه را دارند. آن‌ها می‌توانند با سرعت حداکثر 3 مایل در ساعت حرکت کنند و از پله‌ها تا زاویه 30 درجه حرکت کنند. باتری آن‌ها تا حدودی کمتر از دو ساعت شارژ نگه می‌دارد.

Scouter

یک ربات قوی تر به نام، Scouter ، به عنوان راننده در کل کارخانه فعالیت می‌کند. این ربات اسکنر بزرگتر و حجیم‌تری دارد و به بسیاری از مناطقی که  Fluffy و Spot نمی‌توانند دسترسی داشته باشند، دسترسی دارد. بر اساس نتایج اولیه این دو حیوان-ربات مورد استقبال قرار گرفته‌اند. مارک گودریس، مدیر مهندسی دیجیتال در فورد، توضیح می‌دهد که چگونه سگ‌های رباتیک در مورد آنچه که سابقا یک کار اسکن طولانی و پرهزینه بود، پیشرفت کردند.

گودریس گفت: “ما قبلاً از سه پایه استفاده می‌کردیم و در محل کار در مکان‌های مختلف سه پایه را مستقر می‌کردیم. هر بار پنج دقیقه برای انجام عملیات صبر می‌کردیم”. اسکن یک کارخانه می‌تواند دو هفته طول بکشد. با کمک Fluffy، ما می‌توانیم این کار را در یک هفته انجام دهیم.”

گودریس گفت: این کارخانه تولیدی طی این سال‌ها دستخوش تغییرات و تعدیلاتی شده است که بسیاری از آن‌ها ثبت نشده اند.

مزایا

“با داشتن ربات اسکن کننده تجهیزات، می‌توانیم دقیق تر کارخانه را زیر نظر داشته باشیم. و یک مدل مهندسی جدید بسازیم. این مدل دیجیتالی هنگام استفاده مجدد کارخانه برای محصولات جدید استفاده می‌شود.” پروژه‌های اسکن معمولاً حدود 300000 دلار هزینه می‌خواهند. انتظار می رود Fluffy و Spot به کاهش قابل توجهی این رقم کمک کنند.

ربات‌ها را می توان مسافت‌هایی تا فاصله 164 فوت دورتر را اداره کنند. سرانجام، برنامه‌های کنترل از راه دور ایجاد شده که امکان کنترل از هر نقطه جهان را فراهم می‌کنند. سگ‌های رباتیک واقعاً نژاد نادری هستند! هزینه آن‌ها 75000 دلار بود فورد در حال حاضر این دو سگ را اجاره کرده است. Boston Dynamics  پسرخاله‌های Spot را به سایر نقاط جهان اعزام کرده است.

دیگر کاربردهای سگ‌های رباتیک

شرکت اکتشاف و توسعه نفت نروژی Aker BP ASA در نظر دارد از ظرفیت اسکن استریو Spot، برای سیستم‌های جلوگیری از مانع و حسگرهای پردازنده برای ردیابی نشت گاز و انتقال شرایط آب و هوایی از دریا استفاده کند. این عملیات می‌تواند در مکان‌هایی غیرقابل دستیابی توسط کارگران و در کارهایی که برای انسان بسیار خطرناک هستند انجام شود.

در مزرعه ای در نیوزیلند، از این ربات‌ها برای نظارت بر رشد محصولات زراعی و همچنین گوسفندان گله استفاده می شود. در بیمارستان بریگام و بیمارستان زنان در بوستون، یک سگ روباتیک با iPads ساخته شده است تا به پزشکان اجازه دهد از راه دور با بیماران مبتلا به COVID-19 ارتباط برقرار کنند و آن‌ها را معاینه کند.

“مارک رایبرت” بنیانگذار بوستون داینامیک در مصاحبه CNBC گفت: “در ابتدا، ما فقط از طریق این سگ‌ها با آن‌ها صحبت می‌کردیم بدون آنکه نیاز به وجود یک کارگر بهداشتی در آنجا باشیم. حالا ما اندازه گیری‌های علائم حیاتی مانند میزان تنفس، درجه حرارت بدن را به کمک این سگ‌ها انجام می‌دهیم. ما روی اکسیژن رسانی و ضربان قلب کار می‌کنیم. همه این کارها را به کمک این ربات انجام می‌دهیم.”

و در سنگاپور، از ربات‌ها برای نظارت بر شیوه‌های کنترل از راه دور اجتماعی در پارک‌های عمومی استفاده می‌شود. این باعث می‌شود پرسنل انسانی از قرار گرفتن در معرض خطر و در معرض ابتلا به بیماری از افراد آلوده حفظ شوند. این سگ‌ها همچنین می‌توانند پیام‌ها و هشدارهایی را به افراد یادآوری کنند تا آن‌ها بیشتر احتیاط کنند.