Page 5 - بررسی تکنیکهای بهبود عملکرد روش های بسامدشماری پیکره بنیاد بر استخراج واژگان (پایه علوم پزشکی)
P. 5
تابستان | 1399دورة | 35شمارة 4
زبا نشــناختی آن زبــان متفــاوت اســت .از ایــن رو ،بایــد مطابــق بــا ویژگ یهــای هــر زبــان در ایــن
رو شهـا تغییراتـی اعمـال کـرد تـا در نهایـت ،بتـوان بـ ه روشـی جهت اسـتخراج خـودکار واژگان دسـت
یافـت .جهـت نیـل بـه ایـن هـدف در زبـان فارسـی ،از خانـوادة مد لهـای بسامدشـماری بـا رویکردهـای
بسامدشـماری پیکـرة عمومـی ،بسامدشـماری پیکـرة اختصاصـی و روشهـای بهبودیافتـة آ نهـا اسـتفاده
شــده اســت .بسامدشــماری ب هکاررفتــه در پژوهــش ،برپایــة پــردازش اطلاعــات واژگان در دو پیکــرة
اصلـی و اختصاصـی ،کـه محقـق آن را ایجـاد کـرده اسـت و از ایـن پـس آن را پیکـرة محق قسـاخته
م ینامیـم ،صـورت گرفتـه اسـت .پیکـرة محق قسـاخته شـامل متـون درس زیس تشناسـی دورة اول تـا
چهـارم دبیرسـتان ،متـون درس علـوم دوم و سـوم راهنمایـی ،متـون تدری سشـده در «مرکـز آمـوزش
زبــان فارســی امــام خمینــی قزویــن» ،مجــات و مقــالات حــوزة پزشــکی عمومــی و پیکــرة عمومــی
مــورد اســتفاده ،پیکــرة روزنامــة همشــهری (نســخة دوم) اســت .نتایــج ب هدســتآمده نشــان م یدهــد
کـه قابلیـت اسـتفاده از رو شهـای بسامدشـماری پیکرهبنیـاد در زبـان فارسـی بـرای دسـت یافتـن بـه
شــیوهای واحــد در اســتخراج خــودکار واژگا ن وجــود دارد .شــیوة ب هکا رگیــری رو شهــای آمــاری
کلاســیک و مــدرن و رو شهــای بهبودیافتــة آنهــا ب هیقیــن م یتوانــد گامــی مؤثــر در تهیــه و تدویــن
متـون آموزشـی زبـان فارسـی و گسـترش آمـوزش ایـن زبـان بـه شـمار آیـد .از عمدهتریـن مشـکلات
اسـتفاده از روشهـای سـاده ،م یتـوان جداسـازی واژگان پرتکـرار ،همچـون حـروف ربـط را نـام بـرد.
بنابرایـن ،جهـت بالابـردن تـوان ایـن مـدل بـا اعمـال رو شهایـی م یتـوان رو شهـای اولیـه را بهبـود
بخشـید .مشـاهده م یشـود کـه روش بسامدشـماری بهبودیافتـه در پیکـرة اختصاصـی از سـایر رو شهـا
عملکـرد بهتـری داشـته و تـا ۶۰درصـد واژگان تخصصـی را در ۵۰واژة پربسـامد شناسـایی م یکنـد .از
سـوی دیگـر ،مشـاهده م یشـود کـه بـا افزایـش دامنـة واژگان مـورد بررسـی در پژوهـش از ۵۰بـه ،۱۰۰
۱۵۰و ،۲۰۰دقــت مد لهــا افزایــش یافتــه و درصــد واژگان تخصصــی انتخا بشــده بــه ثبــات میرســد.
كليدواژههــا :اســتخراج خــودکار ،واژگان علــوم پزشــکی ،پیکــره ،روشهــای ترکیبــی اســتخراج،
آمــوزش زبــان فارســی ،بازیابــی اطلاعــات
.1مقدمه
طــی چنــد دهــة اخیــر اســتخراج خــودکار واژگان 1از پیکر ههــا 2مــورد توجــه بســیاری از
پژوهشـگران بـوده اسـت .در اوایـل دهـة ۹۰میـادی ،پیکرههـای متنـی بـزرگ رایانـ های سـاخته
شـدند کـه منجـر بـه ایجـاد نخسـتین برنام ههـای اسـتخراج واژگان 3گردیـد .زبا نشناسـان رایانـ های
و کاربـردی ،مترجمـان ،مفسـران ،مهندسـان علـوم رایانـه و نرمافـزار و دسـتاندرکاران آمـوزش
1. automatic term extraction
.2پیکـره بـه مجموعـهای از متـون گفتـه م یشـود؛ مجموعـ های خـام از دادههـای زبانـ ِی نوشـتاری یـا گفتـاری کـه
م یتــوان در توصیــف و تحلیــل زبــان از آن بهــره گرفــت.
3. term extractors
1020