در دانشگاه علوم و فناوری هنگکنگ (HKUST)، پروژهای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامهای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد. … ادامه مطلب
- برگه نخست
- نوشته ها
- ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST
ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST
در دانشگاه علوم و فناوری هنگکنگ (HKUST)، پروژهای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامهای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد.
اهمیت پروژه: از نیاز تا هدف
در بسیاری از حوزههای پژوهشی، به ویژه در علوم انسانی دیجیتال، محققان با حجم عظیمی از متن روبهرو هستند. تشخیص موجودیتهای نامدار (افراد، سازمانها، مکانها، تاریخها و غیره) در متن، یکی از کارهای پایهای در تحلیل متن است که میتواند ساختار معنادار به دادههای خام ببخشد.
با این حال، ابزارهای موجود برای تشخیص موجودیت در زبان چینی اغلب نیاز به دانش فنی بالا دارند؛ یعنی کاربر باید با نصب مدل، تنظیمات پیچیده و مدیریت دادهها آشنا باشد. این پیچیدگی میتواند سد راه پژوهشگرانی باشد که تخصص آنها بیشتر در حوزه متنی یا انسانی است.
پروژه HKUST بر آن شد که این مانع فنی را برطرف کند: ابزاری بسازد که کاربر عادی بتواند به سادگی متن را وارد کند، موجودیتها شناسایی شوند و نتایج قابل استفاده و بصری دریافت کند — بدون نیاز به تنظیمات فنی پیچیده.
تیم و چارچوب پروژه
دو دانشجوی رشته علم داده — یکی در سال سوم و دیگری در سال دوم — به همراه راهنماهایی از تیم کتابخانه و تخصص دیجیتال، مسئول توسعه این ابزار شدند. آنها در طی ترم بهار، از فوریه تا مِی، پروژه را از فاز تحقیق و بررسی ابزارهای موجود تا طراحی و کدنویسی و تست نهایی پیش بردند.
در این مسیر، کتابخانه دانشگاه نقش پشتیبان و تسهیلکننده داشت؛ برنامه DS CoLab منتخبی از پروژهها را برای کمک به ارتقای توانایی دیجیتال دانشجویان و همزمان تسهیل خدمات کتابخانه ارائه میدهد.
ویژگیهای شاخص ابزار نهایی
محصولی که در پایان ترم تولید شد، ترکیبی از امکانات پایه و کاربردی است. در ادامه برخی از مهمترین ویژگیها را فهرست میکنم:
-
تشخیص خودکار موجودیت (Auto Annotation): ابزار از مدل CKIP استفاده میکند تا موجودیتها را در متن چینی بهصورت خودکار تشخیص دهد.
-
ویرایش دستی موجودیتها: هر جا که مدل نتواند کامل تشخیص دهد، کاربر امکان اضافه یا حذف موجودیت را به صورت دستی دارد.
-
گروهبندی و نام مستعار (alias): موجودیتهای تشخیص دادهشده میتوانند در گروههای دلخواه دستهبندی شوند یا برای گروههای معانی یکسان، نام مستعار تعیین کرد.
-
نمایش بصری و نمودارها: ابزار نمودارهایی ارائه میکند که فراوانی موجودیتها، پراکندگی آنها در متن، روند بین اسناد و مقایسهها را نمایش میدهند.
-
بارگذاری چند فایل همزمان: کاربر میتواند چند فایل متنی را آپلود کند و موجودیتها را در آنها همزمان شناسایی و مقایسه کند.
-
خروجی CSV: دادههای استخراجشده شامل موجودیتها، گروهها، نام مستعارها و فراوانیها بهصورت فایل CSV قابل دانلود هستند.
ابزار همچنین مفاهیمی چون «instance»، «class»، «group» و «alias» را به کاربر معرفی میکند تا موجودیتها را به روشهای منعطفتری سازمان دهد.
چالشها و درسهای آموخته شده
در مسیر توسعه، تیم با چالشهایی مواجه شد که نهتنها پروژه را متوقف نمیکرد بلکه به تجربهای آموزشی تبدیل میشد:
-
انتخاب مدل مناسب و تعیین ویژگیها:
تیم ابتدا بررسی ابزارهای موجود مانند پلتفرمهای دانشگاه پکن (Wu Yu Dian)، CKIP و CORPRO را انجام دادند و با تحلیل مزایا و محدودیتها لیستی از ویژگیهای مطلوب را استخراج کردند. -
هماهنگی تیمی و مدیریت کد:
در مراحل اولیه، اختلاف در تعریف متغیرها و همگامسازی کدها دردسرساز بود. با تعیین مجموعهای از متغیرهای مشترک و استفاده از سیستم کنترل نسخه، مشکلات کاهش یافت. -
انسجام محیط توسعه و استقرار:
هنگام انتقال ابزار از محیط محلی به سرور، ناسازگاریهایی ظاهر شد. تجربه نشان داد که داشتن محیط مشترک یا بستر استقرار استاندارد به ثبات بیشتر کمک میکند. -
مدیریت محدوده پروژه:
با محدودیت زمانی ترم، اولویتبندی ویژگیها بسیار حیاتی بود. همچنین بازخورد کاربران در طول مسیر باعث اصلاحات و بهینهسازی رابط کاربری گردید. -
مقیاسپذیری و بهینهسازی عملکرد:
برای متون بزرگ یا مجموعه چند فایلی، مسائل عملکردی و مصرف منابع چالشآفرین بود. تیم راهحلهایی برای بهبود آینده پیشنهاد داده است.
دستاوردها و افق آینده
پروژه با موفقیت به پایان رسید. ابزار و کد منبع آن تحت مجوز باز عرضه شد. همچنین دادههای پروژه با نسخهای استاندارد منتشر شدهاند. نتایج پروژه در کنفرانسهای تخصصی ارائه شد و تیم پروژه مقالهای تهیه کرد که مسیر کامل پروژه از ایده تا محصول را تشریح میکند.
در گزارش پایانی پروژه پیشنهاداتی برای توسعه آتی مطرح شده است: پشتیبانی از زبانهای دیگر، تحلیل روابط بین موجودیتها، بهینهسازی بیشتر عملکرد برای متون حجیم و ارتقای تجربه کاربری.
- مهدی خسروی: تحول نمایشگاههای ایران با هوش مصنوعی؛ از ثبتنام هوشمند تا تجربه دیجیتال
- راهاندازی نخستین اپراتور هوش مصنوعی و داده در کشور تا پایان سال
- رونمایی Ideagen از Mazlan؛ ورود نسل تازه Agentic AI به مدیریت انطباق با قوانین
- OpenAI وضعیت «Code Red» اعلام کرد؛ رقابت شدید با Google Gemini اوج گرفت
- Fujitsu از فناوری نوین پیشبینی رفتار انسان و اشیاء برای ارتقای ایمنی همکاری انسان و ربات رونمایی کرد
- کسب رتبه سوم بریکس توسط تیم دانشگاه تهران با طرح ترکیبی انسان–ماشین در مدلسازی احتراق
- ایران در آستانه جهش دیجیتال؛ عارف: کشور میتواند هاب منطقهای فناوری اطلاعات شود
- آغاز صدور پروانه اپراتور هوش مصنوعی در کشور گام جدید دولت در توسعه اقتصاد دیجیتال
- علیبابا با عینک هوش مصنوعی Quark وارد بازار گجتهای پوشیدنی شد
- هشدار نسبت به عقبماندگی ایران در هوش مصنوعی تأکید بر ضرورت سرمایهگذاری فوری
- برگزاری نخستین نمایشگاه تخصصی هوش مصنوعی ایران در دیماه ۱۴۰۴
- توسعه توپ هوشمند نشتیاب ایرانی با دقت ±۱۰ متر و صرفهجویی ۱۰ میلیون دلاری
- تأخیر یکساله در اجرای قوانین «هوش مصنوعی پرخطر» اتحادیه اروپا
- تحلیل دادههای زیستی و تصاویر پاتولوژی با هوش مصنوعی در دانشگاه تهران
- تقویت همکاریهای منطقهای در فیبر نوری و زیرساختهای هوش مصنوعی در اجلاس باکو
- عرضه دستیار صوتی هوش مصنوعی ByteDance برای گوشیهای چینی با مدل Doubao LLM
- هوش مصنوعی در کلاسها و آینده آموزش؛ تمرکز کمیته پارلمانی هند بر سال تحصیلی ۲۰۲۵–۲۰۲۶
- هشدار جدی درباره ایمنی شرکتهای هوش مصنوعی
- موری: پروژه نوآورانه هوش مصنوعی در خرید آنلاین
- جریمه ۱۲۰ میلیون یورویی برای X؛ اروپا جدی شد
- معاملات رمزارز با هوش مصنوعی؛ پیشتازی DeepSeek و Qwen چین
- سازمان جهانی هوش مصنوعی؛ ابتکار چین برای قواعد نوین فناوری
- Google DeepMind آزمایشگاه هوش مصنوعی علم مواد در بریتانیا راهاندازی میکند
- Google for Education در ۲۰۲۵: تحول هوش مصنوعی در آموزش ۱۰ میلیون دانشجو
- یادگیری هوش مصنوعی: راهنمای کامل برای دانشجویان و علاقهمندان در سال ۲۰۲۵
- توقف موقت احتمالی اجرای بخشی از قانون هوش مصنوعی اروپا
- حمایت معاونت علمی از برگزیدگان مسابقه بینالمللی برنامهنویسی رایان ۲۰۲۵
- انقلاب Agentic AI در خرید و تأمین: آغاز عصر تصمیمگیری خودکار در زنجیره تأمین
- Anthropic و Deloitte در پروژه هوش مصنوعی Claude همکاری کردند
- نوآوری یک پژوهشگر جوان برای نجات سیاره با کمک هوش مصنوعی
نظر خود را وارد کنید
آدرس ایمیل شما در دسترس عموم قرار نمیگیرد.