Page 8 - بررسی تکنیکهای بهبود عملکرد روش های بسامدشماری پیکره بنیاد بر استخراج واژگان (پایه علوم پزشکی)
P. 8
بررسی تکنیکهای بهبود عملکرد روشهای بسامدشماری پیکرهبنیاد در استخراج خودکار واژگان | ...ذوالفقار و دیگران
ضع فهــای هــر یــک از ایــن روشهــا در مســائل واقعــی و کاربــردی آشــکار میگــردد و نیــاز
اسـت تـا اصلاحاتـی در روشهـای اولیـه اعمـال گـردد.
.2پیشینة پژوهش
زبا نشناســی پیکــرهای را م یتــوان شــاخهای نویــن در زبا نشناســی کاربــردی بــه حســاب
آورد کــه در آن ابعــاد متنــوع تولیــدات زبانــی مــورد بررســی قــرار م یگیــرد .زبا نشناســی
پیکـرهای در واقـع ،اسـتفاده از متـن زبانـی دیجیتال یشـده بـرای تحلی لهـای زبانشـناختی اسـت .از
نظـر «مکانـری و ویلسـون» پیکـره را م یتـوان مجموع ههـای نسـبتاً بزرگـی از متـون الکترونیکـی
دانســت کــه حاشی هنویســی ،برچســبگذاری و نیــز دســت هبندی ســنجیدهای دارنــد و از همیــن
رو ،امــکان بررســ یهای زبانشــناختی را بــرای کاربــر فراهــم م یآورنــد ،امــا جهــت بالابــردن
دقــت پــردازش پیکرههــا و نتایــج حاصــل از آنهــا لازم اســت تــا پیکــرة مــورد اســتفاده ،ابتــدا
اصـاح و ویرایـش شـود .بـرای مثـال ،جهـت خوانـش و شـمارش پارامترهـای مـورد نیـاز ماننـد
جملههــا ،عبــارات و واژههــا توســط کامپیوتــر لازم اســت تــا پیکرههــا فاقــد هــر نــوع عیــب و
نقصــی باشــند ( .)McEnery and Wilson 2001یکــی از اســتفاد ههایی کــه از پیکرههــا بــه عمــل
آمـده ،ب هکارگیـری آ نهـا در اسـتخراج واژه یـا اصطـاح اسـت .پژوهشـگران مختلفـی اقـدام بـه
اســتخراج خــودکار واژگان ،ب هویــژه پــس از ظهــور زبا نشناســی رایانــ های و پیکــرهای کردهانــد
و در زبا نهـای گوناگونـی همچـون فرانسـه ،انگلیسـی و ب هویـژه ژاپنـی مقـالات و پایاننام ههـای
متعـددی در ایـن حـوزه تحریـر شـده اسـت .در دسـتهای از ایـن آثـار ،پژوهشـگران در صـدد ایجاد
سیســتمی بــرای اســتخراج خــودکار واژگان برآمدهانــد و ایــن کار را بــ ه کمــک الگوریت مهایــی
معیــن و بــا ب هکارگیــری نظا مهــای ترکیبــی انجــام داد هانــد .بــرای مثــالEnguehard & Pantera ،
) (1995بـا اسـتفاده از شـاخص اطلاعـات متقابـل در زبـان انگلیسـی و )Nakagawa & Mori (2002
بــا کمــک سیســتم رتب هدهــی موفــق بــه اســتخراج واژگان از پیکرههــای زبــان ژاپنــی شــدهاند.
«دایلـی» از ترکیـب دانسـت ههای زبانـی و روشهـای آمـاری بـه اسـتخراج الگوهـای نحـوی واژگان
در زبـان انگلیسـی پرداختـه اسـت ( .)Daille 1994مبنـای اصلـی محاسـبات در مدلهـای مذکـور
بــرای اســتخراج واژگان اغلــب کاندیــد واژههــای گــروه اســمی اســت و از یــک روش آمــاری
بــرای تعییــن بســامد آن اســتفاده میگــردد.
«گرینجـرگیلکوییـن» بیـان م یدارنـد کـه چنیـن پیکرههایـی ایـن امـکان را بـه پژوهشـگران
م یدهـد کـه بـه بررسـی دقیـق نـوع و میـزان اسـتفاده از واژگان و سـاختارهای دسـتوری توسـط
1023