Page 5 - بررسی تکنیک‌های بهبود عملکرد روش های بسامدشماری پیکره بنیاد بر استخراج واژگان (پایه علوم پزشکی)
P. 5

‫تابستان ‪ | 1399‬دورة ‪ | 35‬شمارة ‪4‬‬

 ‫زبا ‌نشــناختی آن زبــان متفــاوت اســت‪ .‬از ایــن رو‪ ،‬بایــد مطابــق بــا ویژگ ‌یهــای هــر زبــان در ایــن‬
 ‫رو ‌شهـا تغییراتـی اعمـال کـرد تـا در نهایـت‪ ،‬بتـوان بـ ‌ه روشـی جهت اسـتخراج خـودکار واژگان دسـت‬
 ‫یافـت‪ .‬جهـت نیـل بـه ایـن هـدف در زبـان فارسـی‪ ،‬از خانـوادة مد ‌لهـای بسامدشـماری بـا رویکردهـای‬
 ‫بسامدشـماری پیکـرة عمومـی‪ ،‬بسامدشـماری پیکـرة اختصاصـی و روش‌هـای بهبودیافتـة آ ‌نهـا اسـتفاده‬
 ‫شــده اســت‪ .‬بسامدشــماری ب ‌هکاررفتــه در پژوهــش‪ ،‬برپایــة پــردازش اطلاعــات واژگان در دو پیکــرة‬
 ‫اصلـی و اختصاصـی‪ ،‬کـه محقـق آن را ایجـاد کـرده اسـت و از ایـن پـس آن را پیکـرة محق ‌قسـاخته‬
 ‫م ‌ینامیـم‪ ،‬صـورت گرفتـه اسـت‪ .‬پیکـرة محق ‌قسـاخته شـامل متـون درس زیس ‌تشناسـی دورة اول تـا‬
 ‫چهـارم دبیرسـتان‪ ،‬متـون درس علـوم دوم و سـوم راهنمایـی‪ ،‬متـون تدری ‌سشـده در «مرکـز آمـوزش‬
 ‫زبــان فارســی امــام خمینــی قزویــن»‪ ،‬مجــات و مقــالات حــوزة پزشــکی عمومــی و پیکــرة عمومــی‬
 ‫مــورد اســتفاده‪ ،‬پیکــرة روزنامــة همشــهری (نســخة دوم) اســت‪ .‬نتایــج ب ‌هدســت‌آمده نشــان م ‌یدهــد‬
 ‫کـه قابلیـت اسـتفاده از رو ‌شهـای بسامدشـماری پیکر‌هبنیـاد در زبـان فارسـی بـرای دسـت یافتـن بـه‬
 ‫شــیو‌های واحــد در اســتخراج خــودکار واژگا ‌ن وجــود دارد‪ .‬شــیوة ب ‌هکا ‌رگیــری رو ‌شهــای آمــاری‬
 ‫کلاســیک و مــدرن و رو ‌شهــای بهبودیافتــة آن‌هــا ب ‌هیقیــن م ‌یتوانــد گامــی مؤثــر در تهیــه و تدویــن‬
 ‫متـون آموزشـی زبـان فارسـی و گسـترش آمـوزش ایـن زبـان بـه شـمار آیـد‪ .‬از عمد‌هتریـن مشـکلات‬
 ‫اسـتفاده از روش‌هـای سـاده‪ ،‬م ‌یتـوان جداسـازی واژگان پرتکـرار‪ ،‬همچـون حـروف ربـط را نـام بـرد‪.‬‬
 ‫بنابرایـن‪ ،‬جهـت بالابـردن تـوان ایـن مـدل بـا اعمـال رو ‌شهایـی م ‌یتـوان رو ‌شهـای اولیـه را بهبـود‬
 ‫بخشـید‪ .‬مشـاهده م ‌یشـود کـه روش بسامدشـماری بهبودیافتـه در پیکـرة اختصاصـی از سـایر رو ‌شهـا‬
 ‫عملکـرد بهتـری داشـته و تـا ‪ ۶۰‬درصـد واژگان تخصصـی را در ‪ ۵۰‬واژة پربسـامد شناسـایی م ‌یکنـد‪ .‬از‬
 ‫سـوی دیگـر‪ ،‬مشـاهده م ‌یشـود کـه بـا افزایـش دامنـة واژگان مـورد بررسـی در پژوهـش از ‪ ۵۰‬بـه ‪،۱۰۰‬‬
 ‫‪ ۱۵۰‬و ‪ ،۲۰۰‬دقــت مد ‌لهــا افزایــش یافتــه و درصــد واژگان تخصصــی انتخا ‌بشــده بــه ثبــات می‌رســد‪.‬‬

 ‫كليدواژه‌هــا‪ :‬اســتخراج خــودکار‪ ،‬واژگان علــوم پزشــکی‪ ،‬پیکــره‪ ،‬روش‌هــای ترکیبــی اســتخراج‪،‬‬
                                                     ‫آمــوزش زبــان فارســی‪ ،‬بازیابــی اطلاعــات‬

                                                                                             ‫‪ .1‬مقدمه‬

‫طــی چنــد دهــة اخیــر اســتخراج خــودکار واژگان‪ 1‬از پیکر ‌ههــا‪ 2‬مــورد توجــه بســیاری از‬
‫پژوهشـگران بـوده اسـت‪ .‬در اوایـل دهـة ‪ ۹۰‬میـادی‪ ،‬پیکره‌هـای متنـی بـزرگ رایانـ ‌های سـاخته‬
‫شـدند کـه منجـر بـه ایجـاد نخسـتین برنام ‌ههـای اسـتخراج واژگان‪ 3‬گردیـد‪ .‬زبا ‌نشناسـان رایانـ ‌های‬
‫و کاربـردی‪ ،‬مترجمـان‪ ،‬مفسـران‪ ،‬مهندسـان علـوم رایانـه و نرم‌افـزار و دسـت‌اندرکاران آمـوزش‬

‫‪1. automatic term extraction‬‬

‫‪ 	.2‬پیکـره بـه مجموعـه‌ای از متـون گفتـه م ‌یشـود؛ مجموعـ ‌های خـام از داد‌ههـای زبانـ ِی نوشـتاری یـا گفتـاری کـه‬
                                                ‫م ‌یتــوان در توصیــف و تحلیــل زبــان از آن بهــره گرفــت‪.‬‬

‫‪3. term extractors‬‬

                                                                                                                                  ‫‪1020‬‬
   1   2   3   4   5   6   7   8   9   10