نرم‌افزار تشخیص گفتار فارسی به بازار می‌آید

نرم‌افزار تشخیص گفتار فارسی به بازار می‌آید<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

آیا با پیشرفت فناوری‌های نوین بالاخره زمانی خواهد رسید که دیگر نیازی به تایپ کردن با نوشتن متن نباشد و تنها با خواندن متن، بتوان آن را تایپ کرد؟ به‌نظر می‌آید که چنین پیشرفتی در آینده نزدیک محقق خواهد شد.

امروزه نرم‌افزارهای تشخیص فرمان‌های صوتی به صورتی محدود در انواع کامپیوترها و به‌خصوص روی گوشی‌های موبایل نصب شده است.

با کمک این تکنولوژی ارتباط انسان با کامپیوتر بسیار راحت‌تر و سریع‌تر شده‌است و به‌زودی آرزوی بشر در برقراری ارتباط گفتاری با ماشین‌ها تحقق خواهد یافت.

تایپ کامپیوتری هم از جمله کارهای متداول و وقت‌گیر برای کاربرهای عادی و پیشرفته کامپیوتر است؛ به ویژه که این مسئله برای کاربرانی که به هر دلیل مایل به استفاده از صفحه کلید نیستند، کاری خسته‌کننده است و استفاده از قابلیت تشخیص خودکار گفتار توسط کامپیوتر باعث سهولت و صرفه‌جویی در زمان تایپ می‌شود.

تلاش گروه‌های تحقیقاتی و شرکت‌های خارجی برای دستیابی به تکنولوژی تشخیص گفتار به عنوان یکی از تکنولوژی‌های سطح اول دنیا، به چندین دهه می‌رسد، ولی به دلیل پیچیدگی موجود در گفتار انسان هنوز رسیدن به دقت صددرصد امکان‌پذیر نشده است.

نخستین نرم‌افزار فارسی

در کشورمان نیز فعالیت‌هایی در زمینه طراحی و ساخت نرم‌افزارهای تشخیص گفتار به زبان فارسی آغاز شده‌است.

در این راستا گروهی از فارغ‌التحصیلان دانشگاه صنعتی شریف از سال 82 اقدام به تهیه موتور تشخیص گفتار پیوسته فارسی کرده‌اند.  برای بالا بردن دقت این نرم‌افزار در تشخیص گفتار فارسی، از مدل‌های آماری و همچنین مدل‌های دستوری زبان استفاده شده است.

ارایی این سامانه که «نویسا» نام دارد، در شرایط آزمایشگاهی و محیط آرام و بدون نویز قابل قبول است، اما زمانی که از آن در عمل و در شرایط عادی مانند داخل اداره، استفاده می‌شود، کارایی سامانه افت شدیدی دارد.

برای جبران این مسئله از راه‌حل‌هایی جهت مقاوم‌سازی سامانه به تغییرات موجود در شرایط آکوستیکی محیط و تغییرات موجود بین گوینده‌های مختلف استفاده شده است، به گونه‌ای که سامانه موجود که مستقل از گوینده و با واژگان بزرگ است، با بهره‌گیری از بهترین روش‌های مقاوم‌سازی می‌تواند خود را با شرایط محیطی جدید و صدای گوینده تطبیق دهد. 

این مسئله سامانه جاری را به نمونه‌ای موفق و کاربردی در مقایسه با انواع خارجی مشابه کرده است.

به‌این ترتیب، نسخه جاری این سامانه دارای دقت تشخیص 95درصد در محیط اداری، قابلیت استفاده در همه ویرایشگرها یا قسمت‌هایی که امکان تایپ فارسی دارند، نظیر word و notepad، دایره واژگان 20 هزار کلمه‌ای و همچنین قابلیت تغییر آن برای کاربری‌های خاص (پزشکان، وکلا و ....) است. این نرم‌افزار در عین حال می‌تواند با شرایط محیطی و صدای گوینده نیز انطباق پیدا کند.

سامانه تایپ گفتاری (دیکته) نویسا بر مبنای موتور شناسایی گفتار پیوسته عصر گویش طراحی شده است. این سامانه، اولین سامانه تشخیص گفتار تجاری زبان فارسی است که قادر به تشخیص گفتار پیوسته با واژگان بزرگ و به صورت مستقل از گوینده است.

کاربران می‌تواند از این نرم‌افزار در هر ویرایشگری در محیط ویندوز استفاده کند. این نرم‌افزار سرعت تایپ متون را افزایش می‌دهد و برای کاربران، معلولان نابینا و ناشنوا امکان کاربری راحت‌تر از کامپیوتر و تجهیزات الکترونیکی را فراهم می‌کند.

مزیت‌های تایپ گفتاری

مزیت‌های استفاده از این نوع سامانه‌های تایپ گفتاری عبارتند از: صرفه‌جویی در زمان، کاهش هزینه، افزایش سرعت تایپ و ورود اطلاعات، حفظ امنیت اطلاعات در هنگام ورود داده‌ها، قابلیت استفاده در بسیاری از سامانه‌ها (مستندسازی، ترجمه گفتاری و ...) و جلوگیری از اشتباهات تایپی.

3روش از تکنیکهای به کار گرفته شده در این سامانه تشخیص گفتار، به عنوان اختراع در اداره ثبت ایران شناخته شده است:

1 - مدل گرامری همه منظوره برای زبان فارسی بر پایه مدل GPSG(با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا)
2 - ارائه روشی جدید برای تشخیص کلمات خارج از واژگان (با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا)
 3 - روش
PC-PMC برای مقاوم سازی سامانه‌های بازشناسی گفتار به نویز (با کاربرد در موتور بازشناسی گفتار پیوسته مستقل از گوینده با دادگان بزرگ زبان فارسی نویسا).

عمده تلاش این گروه روی مدل‌سازی آکوستیگی گفتار برای تشخیص خودکار آن، بهبود کارایی سامانه‌های تشخیص خودکار گفتار در شرایط محیط واقعی و در حضور نویز، استخراج و بکارگیری اطلاعات زبانی در سامانه‌های موجود و بکارگیری روش‌های پردازشی موجود، به‌ویژه روش‌های تشخیص خودکار روی کامپیوترهای با توان و مصرف محدود مانند موبایل ها و PDAهاست.

 

فرمان صوتی فارسی

ارتباط کلامی با کامپیوتر تنها محدود به تایپ یا کارهایی از این قبیل نمی‌شود. یکی از مهم‌ترین کاربردهای چنین سامانه‌هایی، همان فرمان‌های صوتی هستند که به صورت محدود در کامپیوترها و موبایل‌ها به‌کار می‌روند.

در این زمینه نیزمحققان ایرانی  دستاورهایی موفق  داشته‌اند که حاصل آن محصول نرم‌‌افزاری «نیوشا» است که با قابلیت تشخیص اعداد و فرامین صوتی از پشت تلفن، سامانه IVR مبتنی بر گفتار بانک‌ها، اطلاع‌رسانی برای سازمان‌ها، کارآیی بالای 96 درصد و مستقل از گوینده و همچنین قابلیت اضافه‌شدن به عنوان یک واحد مجزا به سامانه‌های تلفنی موجود عرضه شده است.

نویسا و نیوشا قابلیت ترکیب نیز دارند که با استفاده از این کارآیی جدید می‌توان به شماره‌گیری و SMS صوتی، مترجم صوتی گفتار به گفتار، اجرای برنامه‌های کاربردی با گفتار و ... دست یافت.

با استفاده از این نرم‌افزارها و ترکیب آن در سامانه‌های مخابراتی، کاربر با ساده‌ترین وسیله ارتباطی یعنی «گفتار» نیاز خود را مطرح کرده و اپراتور به صورت هوشمند با استفاده از تشخیص گفتار تلفنی و پردازش این گفتار، ارتباط وی را با دستگاه، سرویس یا فرد پاسخگو برقرار می‌کند.

این در حالی است که در شرایط فعلی تکنولوژی مورد استفاده در سامانه مخابراتی کشور به گونه‌ای است که یک اپراتور از کاربر می‌خواهد برای دسترسی به یک فرد یا سرویس خاص، کلیدی مشخص را فشار دهد که این کار بدون توجه به وقت، حقوق، اضطرار و ابهام ذهنی کاربر انجام می‌شود؛ یعنی شخص مجبور است برای انجام یک کار ساده چندین دستور متوالی را انجام دهد.

اما یکی از دغدغه‌های طراحان این سامانه‌های نرم‌افزاری «کپی‌رایت» است. به‌رغم اینکه طراحی نرم‌افزاری که بتواند صحبت افراد را در لحظه تایپ کند، یکی از آرزوهای دیرین و نیاز همیشگی کاربران کامپیوتر بوده است، و از سوی دیگر ارایه این نرم‌افزارها نیز مستلزم صرف هزینه، وقت و انرژی فراوان است، اما همچنان حقوق معنوی این نرم‌افزارها تضمین نشده و به راحتی حاصل تلاش یک گروه توسط سودجویان به تاراج می‌رود.

تیم مجری این نرم‌افزارها از فارغ‌التحصیلان دوره کارشناسی ارشد و دکترای هوش مصنوعی دانشگاه صنعتی شریف هستند و از این‌رو بیش‌تر تمرکز گروه بر کار پژوهشی و علمی است. با این حال، محققان نمی‌توانند هزینه‌ها را از جیب خود بپردازند.

اغلب سودجویان گرانی محصول را بهانه می‌کنند و این در حالی است که اگر تولیدکنندگان محتوای دیجیتال مورد حمایت واقع شوند قطعا قیمت تمام شده این محصولات پایین‌تر خواهد بود.

این فناوری در سومین نشست بین المللی تبادل فناوری در حوزه مخابرات در پارک فناوری پردیس با حضور وزیر ارتباطات از میان طرح های ارائه شده به مقام سومی فناوری برتر سال دست یافت.

منبع : بخش علمی و فن آوری سایت صدا و سیما www.iribnews.ir


مطالب مشابه :


1507. بررسی و ارزیابی چند روش تشخیص جنسیت گوینده از روی گفتار

گروه فني مهندسي شکیبا - 1507. بررسی و ارزیابی چند روش تشخیص جنسیت گوینده از روی گفتار - شبیه




ترجمه مقاله تعیین هویت گوینده مستقل از متن، توسط مدل های مخلوط گاوس

تحقیقات بر روی تشخیص گوینده که شامل تعیین هویت و تطبیق موارد می باشد به عنوان یک مورد فعال




دانلود کد تشخیص گوینده در متلب

برنامه Open source تشخیص گوینده در نرم افزار متلب : برای دانلود کلیک کنید اعمال جبر در سمبلیک




سیگنال

سیستمهای تشخیص گوینده از یک پیمانه‌ی انتخاب خصیصه نیز در چارچوب تشخیص الگو استفاده می‌کنند.




مروری بر سیستم تشخیص گفتار و کاربرد آن

عصر پیشرفت - مروری بر سیستم تشخیص گفتار و کاربرد آن - وبگاه علمی پژوهشی




نرم‌افزار تشخیص گفتار فارسی به بازار می‌آید

نرم‌افزار تشخیص به تغییرات موجود در شرایط آکوستیکی محیط و تغییرات موجود بین گوینده




لب خوانی چیست؟

مشاهده گوینده نه تنها درک گفتار شنیده تفاوت معنا داری بین درصد تشخیص واج ها مورد آزمایش




نرم افزار تایپ گفتار فارسی طراحی شد

رایانه ، نسخه جدید این نرم افزار با قابلیت های قرائت متون مختلف و تشخیص خودکار گوینده




صدای خود را جایگزین رمز عبور ایمیل‌ و کلید ساختمان‌ها کنید!

نرم‌افزار تایپ گفتار فارسی که براساس فناوری تشخیص گفتار پیوسته مستقل از گوینده فارسی




روش‌های تشخیص هویت بیومتریک (Biometric Methods)

مغزهای حقوق - روش‌های تشخیص هویت بیومتریک رفتاری است و در تشخیص گوینده به ما کمک می کند؟




برچسب :