جست‌وجو در سایت

برای بستن، دکمه Esc یا ضربدر را فشار دهید.

8 آبان 1404

|

5

|

0 نظر

|

کدخبر: 10139

|

ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST

در دانشگاه علوم و فناوری هنگ‌کنگ (HKUST)، پروژه‌ای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامه‌ای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد. … ادامه مطلب

ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST

در دانشگاه علوم و فناوری هنگ‌کنگ (HKUST)، پروژه‌ای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامه‌ای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد.

اهمیت پروژه: از نیاز تا هدف

در بسیاری از حوزه‌های پژوهشی، به ویژه در علوم انسانی دیجیتال، محققان با حجم عظیمی از متن روبه‌رو هستند. تشخیص موجودیت‌های نامدار (افراد، سازمان‌ها، مکان‌ها، تاریخ‌ها و غیره) در متن، یکی از کارهای پایه‌ای در تحلیل متن است که می‌تواند ساختار معنادار به داده‌های خام ببخشد.

با این حال، ابزارهای موجود برای تشخیص موجودیت در زبان چینی اغلب نیاز به دانش فنی بالا دارند؛ یعنی کاربر باید با نصب مدل، تنظیمات پیچیده و مدیریت داده‌ها آشنا باشد. این پیچیدگی می‌تواند سد راه پژوهشگرانی باشد که تخصص آن‌ها بیشتر در حوزه متنی یا انسانی است.

پروژه HKUST بر آن شد که این مانع فنی را برطرف کند: ابزاری بسازد که کاربر عادی بتواند به سادگی متن را وارد کند، موجودیت‌ها شناسایی شوند و نتایج قابل استفاده و بصری دریافت کند — بدون نیاز به تنظیمات فنی پیچیده.

تیم و چارچوب پروژه

دو دانشجوی رشته علم داده — یکی در سال سوم و دیگری در سال دوم — به همراه راهنماهایی از تیم کتابخانه و تخصص دیجیتال، مسئول توسعه این ابزار شدند. آن‌ها در طی ترم بهار، از فوریه تا مِی، پروژه را از فاز تحقیق و بررسی ابزارهای موجود تا طراحی و کدنویسی و تست نهایی پیش بردند.

در این مسیر، کتابخانه دانشگاه نقش پشتیبان و تسهیل‌کننده داشت؛ برنامه DS CoLab منتخبی از پروژه‌ها را برای کمک به ارتقای توانایی دیجیتال دانشجویان و همزمان تسهیل خدمات کتابخانه ارائه می‌دهد.

ویژگی‌های شاخص ابزار نهایی

محصولی که در پایان ترم تولید شد، ترکیبی از امکانات پایه و کاربردی است. در ادامه برخی از مهم‌ترین ویژگی‌ها را فهرست می‌کنم:

  • تشخیص خودکار موجودیت (Auto Annotation): ابزار از مدل CKIP استفاده می‌کند تا موجودیت‌ها را در متن چینی به‌صورت خودکار تشخیص دهد.

  • ویرایش دستی موجودیت‌ها: هر جا که مدل نتواند کامل تشخیص دهد، کاربر امکان اضافه یا حذف موجودیت را به صورت دستی دارد.

  • گروه‌بندی و نام مستعار (alias): موجودیت‌های تشخیص داده‌شده می‌توانند در گروه‌های دلخواه دسته‌بندی شوند یا برای گروه‌های معانی یکسان، نام مستعار تعیین کرد.

  • نمایش بصری و نمودارها: ابزار نمودارهایی ارائه می‌کند که فراوانی موجودیت‌ها، پراکندگی آن‌ها در متن، روند بین اسناد و مقایسه‌ها را نمایش می‌دهند.

  • بارگذاری چند فایل هم‌زمان: کاربر می‌تواند چند فایل متنی را آپلود کند و موجودیت‌ها را در آن‌ها هم‌زمان شناسایی و مقایسه کند.

  • خروجی CSV: داده‌های استخراج‌شده شامل موجودیت‌ها، گروه‌ها، نام مستعارها و فراوانی‌ها به‌صورت فایل CSV قابل دانلود هستند.

ابزار همچنین مفاهیمی چون «instance»، «class»، «group» و «alias» را به کاربر معرفی می‌کند تا موجودیت‌ها را به روش‌های منعطف‌تری سازمان دهد.

چالش‌ها و درس‌های آموخته شده

در مسیر توسعه، تیم با چالش‌هایی مواجه شد که نه‌تنها پروژه را متوقف نمی‌کرد بلکه به تجربه‌ای آموزشی تبدیل می‌شد:

  1. انتخاب مدل مناسب و تعیین ویژگی‌ها:
    تیم ابتدا بررسی ابزارهای موجود مانند پلتفرم‌های دانشگاه پکن (Wu Yu Dian)، CKIP و CORPRO را انجام دادند و با تحلیل مزایا و محدودیت‌ها لیستی از ویژگی‌های مطلوب را استخراج کردند.

  2. هماهنگی تیمی و مدیریت کد:
    در مراحل اولیه، اختلاف در تعریف متغیرها و همگام‌سازی کدها دردسرساز بود. با تعیین مجموعه‌ای از متغیرهای مشترک و استفاده از سیستم کنترل نسخه، مشکلات کاهش یافت.

  3. انسجام محیط توسعه و استقرار:
    هنگام انتقال ابزار از محیط محلی به سرور، ناسازگاری‌هایی ظاهر شد. تجربه نشان داد که داشتن محیط مشترک یا بستر استقرار استاندارد به ثبات بیشتر کمک می‌کند.

  4. مدیریت محدوده پروژه:
    با محدودیت زمانی ترم، اولویت‌بندی ویژگی‌ها بسیار حیاتی بود. همچنین بازخورد کاربران در طول مسیر باعث اصلاحات و بهینه‌سازی رابط کاربری گردید.

  5. مقیاس‌پذیری و بهینه‌سازی عملکرد:
    برای متون بزرگ یا مجموعه چند فایلی، مسائل عملکردی و مصرف منابع چالش‌آفرین بود. تیم راه‌حل‌هایی برای بهبود آینده پیشنهاد داده است.

دستاوردها و افق آینده

پروژه با موفقیت به پایان رسید. ابزار و کد منبع آن تحت مجوز باز عرضه شد. همچنین داده‌های پروژه با نسخه‌ای استاندارد منتشر شده‌اند. نتایج پروژه در کنفرانس‌های تخصصی ارائه شد و تیم پروژه مقاله‌ای تهیه کرد که مسیر کامل پروژه از ایده تا محصول را تشریح می‌کند.

در گزارش پایانی پروژه پیشنهاداتی برای توسعه آتی مطرح شده است: پشتیبانی از زبان‌های دیگر، تحلیل روابط بین موجودیت‌ها، بهینه‌سازی بیشتر عملکرد برای متون حجیم و ارتقای تجربه کاربری.

برچسب ها :

تحلیل متون ، ابزار NER ،

نظر خود را وارد کنید

آدرس ایمیل شما در دسترس عموم قرار نمیگیرد.

پربحث ترین ها
پیشنهادی: