ایمپلنت مغزی جدید، افکار را در لحظه به گفتار تبدیل می‌کند

کد خبر : 1163
۱۹ فروردین ۱۴۰۴ - ۱۶:۵۸

زنی در ایالات متحده تقریباً دو دهه پس از آنکه در ۳۰ سالگی دچار سکته در ساقه‌ی مغز شد و توانایی گفتار خود را از دست داد، به‌واسطه‌ی فرایندی نوآورانه در واسط مغز و رایانه (BCI) توانسته بار دیگر افکارش را به‌صورت آنی به کلمات تبدیل کند. روش ابتکاری محققان آمریکایی با تحلیل فعالیت مغزی […]

روش ابتکاری محققان آمریکایی با تحلیل فعالیت مغزی او در بازه‌های زمانی ۸۰ میلی‌ثانیه‌ای و تبدیل آن به نسخه‌ای مصنوعی از صدای خودش، موفق شد تأخیر آزاردهنده‌ای را که در نسخه‌های پیشین این فناوری وجود داشت، از میان بردارد.

توانایی بدن ما برای انتقال صداها به همان شکلی که به آن‌ها فکر می‌کنیم، عملکردی است که اغلب بدیهی می‌دانیم. تنها در لحظاتی نادر مانند زمانی که نیاز به مترجم داریم یا صدای خود را با تأخیر از بلندگو می‌شنویم، به سرعت شگفت‌انگیز گفتار طبیعی خود پی می‌بریم.

برای افرادی که به دلیل بیماری‌هایی مانند اسکلروز جانبی آمیوتروفیک (ALS) یا ضایعات در بخش‌های حیاتی دستگاه عصبی، ارتباط بین مغز و مرکز گفتارشان از بین رفته است، ایمپلنت‌های مغزی همراه با نرم‌افزارهای ویژه، نویدبخش بازگشت دوباره به توانایی برقراری ارتباط بوده‌اند.

تعدادی از پروژه‌های ترجمه‌ی گفتار BCI اخیراً پیشرفت‌های چشمگیری داشته‌اند که هدف هرکدام کاهش زمان صرف شده برای تبدیل گفتار از افکار است. بیشتر روش‌های موجود نیاز دارند تا ابتدا یک بخش کامل از متن را دریافت کنند تا نرم‌افزار بتواند معنای آن را تحلیل کند؛ این امر به تأخیرهای قابل‌توجهی میان آغاز فکر و تولید گفتار منجر می‌شود. تاخیر زیاد نه تنها غیرطبیعی است، بلکه می‌تواند برای کسانی که از چنین سیستم‌هایی استفاده می‌کنند خسته‌کننده و ناراحت‌کننده باشد.

محققان دانشگاه کالیفرنیا در برکلی و سانفرانسیسکو در گزارش خود می‌نویسند: «بهبود زمان تأخیر در ساخت گفتار و افزایش سرعت رمزگشایی برای داشتن مکالمه‌ای پویا و ارتباطی روان، امری ضروری است.» تیم پژوهشی به رهبری کیلو لیتل‌جان، مهندس علوم رایانه از دانشگاه کالیفرنیا، برکلی، توضیح می‌دهد این مسئله زمانی پیچیده‌تر می‌شود که در نظر بگیریم پخش صدای ساخته‌شده و درک آن از سوی کاربر و شنونده، به زمان بیشتری نیاز دارد.

بیشتر روش‌های فعلی در حوزه‌ی BCI مبتنی بر این هستند که کاربر به‌طور آشکار باید حرکات گفتاری را شبیه‌سازی کند تا سیستم، آموزش ببیند، حتی اگر صدایی تولید نشود. این فرایند برای افرادی که مدت‌هاست از مهارت گفتاری بی‌بهره یا از ابتدا با مشکلات گفتاری مواجه بوده‌اند، چالش‌برانگیز است؛ چرا که تأمین داده‌های کافی برای آموزش نرم‌افزارِ رمزگشای افکار به گفتار در این شرایط، دشوار و گاه غیرممکن است.

محققان برای غلبه بر چالش‌ها، نوعی شبکه‌ی عصبی عمیق و انعطاف‌پذیر را بر اساس فعالیت قشر حسی‌حرکتی مغز شرکت‌کننده ۴۷ ساله آموزش دادند. در این فرآیند، شرکت‌کننده به‌طور بی‌صدا ۱۰۰ جمله‌ی منحصر‌به‌فرد شامل هزار کلمه را در ذهن خود تولید کرد. هدف از این کار این بود که شبکه‌ی عصبی بدون نیاز به تولید صدای واقعی یا تلاش فیزیکی برای بیان کلمات، قادر باشد فعالیت‌های مغزی فرد را تحلیل و آن‌ها را به گفتار قابل‌فهم تبدیل کند.

همچنین لیتل‌جان و همکارانش از نوعی روش ارتباطی کمکی نیز استفاده کردند که بر پایه‌ی ۵۰ عبارت طراحی شده بود و کلمات کمتری داشت. برخلاف روش‌های قبلی، این فرآیند شامل تلاش برای ادای کلمات به‌صورت فیزیکی نبود و فقط برای بیان‌کردن بی‌صدا توسط شرکت‌کننده بود. سیستم توانست هر دو نوع روش ارتباطی ۱۰۰ جمله‌ای و ۵۰ عبارت ساده‌تر را با موفقیت رمزگشایی کند و میانگین تعداد کلمات تبدیل‌شده در دقیقه نزدیک به دو برابر روش‌های قبلی بود.

لینک کوتاه : https://vefaghemeli.com/?p=1163