Page 8 - بررسی تکنیک‌های بهبود عملکرد روش های بسامدشماری پیکره بنیاد بر استخراج واژگان (پایه علوم پزشکی)
P. 8

‫بررسی تکنیک‌های بهبود عملکرد روش‌های بسامدشماری پیکره‌بنیاد در استخراج خودکار واژگان ‪ | ...‬ذوالفقار و دیگران‬

    ‫ضع ‌فهــای هــر یــک از ایــن روش‌هــا در مســائل واقعــی و کاربــردی آشــکار می‌گــردد و نیــاز‬
                                       ‫اسـت تـا اصلاحاتـی در روش‌هـای اولیـه اعمـال گـردد‪.‬‬

                                                                                           ‫‪ .2‬پیشینة پژوهش‬

    ‫زبا ‌نشناســی پیکــره‌ای را م ‌یتــوان شــاخه‌ای نویــن در زبا ‌نشناســی کاربــردی بــه حســاب‬
    ‫آورد کــه در آن ابعــاد متنــوع تولیــدات زبانــی مــورد بررســی قــرار م ‌یگیــرد‪ .‬زبا ‌نشناســی‬
    ‫پیکـره‌ای در واقـع‪ ،‬اسـتفاده از متـن زبانـی دیجیتال ‌یشـده بـرای تحلی ‌لهـای زبانشـناختی اسـت‪ .‬از‬
    ‫نظـر «مک‌انـری و ویلسـون» پیکـره را م ‌یتـوان مجموع ‌ههـای نسـبتاً بزرگـی از متـون الکترونیکـی‬
    ‫دانســت کــه حاشی ‌هنویســی‪ ،‬برچســب‌گذاری و نیــز دســت ‌هبندی ســنجیده‌ای دارنــد و از همیــن‬
    ‫رو‪ ،‬امــکان بررســ ‌یهای زبانشــناختی را بــرای کاربــر فراهــم م ‌یآورنــد‪ ،‬امــا جهــت بالابــردن‬
    ‫دقــت پــردازش پیکر‌ههــا و نتایــج حاصــل از آنهــا‌ لازم اســت تــا پیکــرة مــورد اســتفاده‪ ،‬ابتــدا‬
    ‫اصـاح و ویرایـش شـود‪ .‬بـرای مثـال‪ ،‬جهـت خوانـش و شـمارش پارامترهـای مـورد نیـاز ماننـد‬
    ‫جمله‌هــا‪ ،‬عبــارات و واژ‌ههــا توســط کامپیوتــر لازم اســت تــا پیکر‌ههــا فاقــد هــر نــوع عیــب و‬
    ‫نقصــی باشــند (‪ .)McEnery and Wilson 2001‬یکــی از اســتفاد ‌ههایی کــه از پیکره‌هــا بــه عمــل‬
    ‫آمـده‪ ،‬ب ‌هکارگیـری آ ‌نهـا در اسـتخراج واژه یـا اصطـاح اسـت‪ .‬پژوهشـگران مختلفـی اقـدام بـه‬
    ‫اســتخراج خــودکار واژگان‪ ،‬ب ‌هویــژه پــس از ظهــور زبا ‌نشناســی رایانــ ‌های و پیکــره‌ای کرد‌هانــد‬
    ‫و در زبا ‌نهـای گوناگونـی همچـون فرانسـه‪ ،‬انگلیسـی و ب ‌هویـژه ژاپنـی مقـالات و پایان‌نام ‌ههـای‬
    ‫متعـددی در ایـن حـوزه تحریـر شـده اسـت‪ .‬در دسـته‌ای از ایـن آثـار‪ ،‬پژوهشـگران در صـدد ایجاد‬
    ‫سیســتمی بــرای اســتخراج خــودکار واژگان برآمده‌انــد و ایــن کار را بــ ‌ه کمــک الگوریت ‌مهایــی‬
    ‫معیــن و بــا ب ‌هکارگیــری نظا ‌مهــای ترکیبــی انجــام داد ‌هانــد‪ .‬بــرای مثــال‪Enguehard & Pantera ،‬‬
    ‫)‪ (1995‬بـا اسـتفاده از شـاخص اطلاعـات متقابـل در زبـان انگلیسـی و )‪Nakagawa & Mori (2002‬‬
    ‫بــا کمــک سیســتم رتب ‌هدهــی موفــق بــه اســتخراج واژگان از پیکر‌ههــای زبــان ژاپنــی شــده‌اند‪.‬‬
    ‫«دایلـی» از ترکیـب دانسـت ‌ههای زبانـی و روش‌هـای آمـاری بـه اسـتخراج الگوهـای نحـوی واژگان‬
    ‫در زبـان انگلیسـی پرداختـه اسـت (‪ .)Daille 1994‬مبنـای اصلـی محاسـبات در مدل‌هـای مذکـور‬
    ‫بــرای اســتخراج واژگان اغلــب کاندیــد واژ‌ههــای گــروه اســمی اســت و از یــک روش آمــاری‬

                                                    ‫بــرای تعییــن بســامد آن اســتفاده می‌گــردد‪.‬‬
    ‫«گرینجـر‌گیلکوییـن» بیـان م ‌یدارنـد کـه چنیـن پیکر‌ههایـی ایـن امـکان را بـه پژوهشـگران‬
    ‫م ‌یدهـد کـه بـه بررسـی دقیـق نـوع و میـزان اسـتفاده از واژگان و سـاختارهای دسـتوری توسـط‬

‫‪1023‬‬
   3   4   5   6   7   8   9   10   11   12   13