در دانشگاه علوم و فناوری هنگکنگ (HKUST)، پروژهای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامهای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد. … ادامه مطلب
- برگه نخست
- نوشته ها
- ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST
ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST
در دانشگاه علوم و فناوری هنگکنگ (HKUST)، پروژهای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامهای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد.
اهمیت پروژه: از نیاز تا هدف
در بسیاری از حوزههای پژوهشی، به ویژه در علوم انسانی دیجیتال، محققان با حجم عظیمی از متن روبهرو هستند. تشخیص موجودیتهای نامدار (افراد، سازمانها، مکانها، تاریخها و غیره) در متن، یکی از کارهای پایهای در تحلیل متن است که میتواند ساختار معنادار به دادههای خام ببخشد.
با این حال، ابزارهای موجود برای تشخیص موجودیت در زبان چینی اغلب نیاز به دانش فنی بالا دارند؛ یعنی کاربر باید با نصب مدل، تنظیمات پیچیده و مدیریت دادهها آشنا باشد. این پیچیدگی میتواند سد راه پژوهشگرانی باشد که تخصص آنها بیشتر در حوزه متنی یا انسانی است.
پروژه HKUST بر آن شد که این مانع فنی را برطرف کند: ابزاری بسازد که کاربر عادی بتواند به سادگی متن را وارد کند، موجودیتها شناسایی شوند و نتایج قابل استفاده و بصری دریافت کند — بدون نیاز به تنظیمات فنی پیچیده.
تیم و چارچوب پروژه
دو دانشجوی رشته علم داده — یکی در سال سوم و دیگری در سال دوم — به همراه راهنماهایی از تیم کتابخانه و تخصص دیجیتال، مسئول توسعه این ابزار شدند. آنها در طی ترم بهار، از فوریه تا مِی، پروژه را از فاز تحقیق و بررسی ابزارهای موجود تا طراحی و کدنویسی و تست نهایی پیش بردند.
در این مسیر، کتابخانه دانشگاه نقش پشتیبان و تسهیلکننده داشت؛ برنامه DS CoLab منتخبی از پروژهها را برای کمک به ارتقای توانایی دیجیتال دانشجویان و همزمان تسهیل خدمات کتابخانه ارائه میدهد.
ویژگیهای شاخص ابزار نهایی
محصولی که در پایان ترم تولید شد، ترکیبی از امکانات پایه و کاربردی است. در ادامه برخی از مهمترین ویژگیها را فهرست میکنم:
-
تشخیص خودکار موجودیت (Auto Annotation): ابزار از مدل CKIP استفاده میکند تا موجودیتها را در متن چینی بهصورت خودکار تشخیص دهد.
-
ویرایش دستی موجودیتها: هر جا که مدل نتواند کامل تشخیص دهد، کاربر امکان اضافه یا حذف موجودیت را به صورت دستی دارد.
-
گروهبندی و نام مستعار (alias): موجودیتهای تشخیص دادهشده میتوانند در گروههای دلخواه دستهبندی شوند یا برای گروههای معانی یکسان، نام مستعار تعیین کرد.
-
نمایش بصری و نمودارها: ابزار نمودارهایی ارائه میکند که فراوانی موجودیتها، پراکندگی آنها در متن، روند بین اسناد و مقایسهها را نمایش میدهند.
-
بارگذاری چند فایل همزمان: کاربر میتواند چند فایل متنی را آپلود کند و موجودیتها را در آنها همزمان شناسایی و مقایسه کند.
-
خروجی CSV: دادههای استخراجشده شامل موجودیتها، گروهها، نام مستعارها و فراوانیها بهصورت فایل CSV قابل دانلود هستند.
ابزار همچنین مفاهیمی چون «instance»، «class»، «group» و «alias» را به کاربر معرفی میکند تا موجودیتها را به روشهای منعطفتری سازمان دهد.
چالشها و درسهای آموخته شده
در مسیر توسعه، تیم با چالشهایی مواجه شد که نهتنها پروژه را متوقف نمیکرد بلکه به تجربهای آموزشی تبدیل میشد:
-
انتخاب مدل مناسب و تعیین ویژگیها:
تیم ابتدا بررسی ابزارهای موجود مانند پلتفرمهای دانشگاه پکن (Wu Yu Dian)، CKIP و CORPRO را انجام دادند و با تحلیل مزایا و محدودیتها لیستی از ویژگیهای مطلوب را استخراج کردند. -
هماهنگی تیمی و مدیریت کد:
در مراحل اولیه، اختلاف در تعریف متغیرها و همگامسازی کدها دردسرساز بود. با تعیین مجموعهای از متغیرهای مشترک و استفاده از سیستم کنترل نسخه، مشکلات کاهش یافت. -
انسجام محیط توسعه و استقرار:
هنگام انتقال ابزار از محیط محلی به سرور، ناسازگاریهایی ظاهر شد. تجربه نشان داد که داشتن محیط مشترک یا بستر استقرار استاندارد به ثبات بیشتر کمک میکند. -
مدیریت محدوده پروژه:
با محدودیت زمانی ترم، اولویتبندی ویژگیها بسیار حیاتی بود. همچنین بازخورد کاربران در طول مسیر باعث اصلاحات و بهینهسازی رابط کاربری گردید. -
مقیاسپذیری و بهینهسازی عملکرد:
برای متون بزرگ یا مجموعه چند فایلی، مسائل عملکردی و مصرف منابع چالشآفرین بود. تیم راهحلهایی برای بهبود آینده پیشنهاد داده است.
دستاوردها و افق آینده
پروژه با موفقیت به پایان رسید. ابزار و کد منبع آن تحت مجوز باز عرضه شد. همچنین دادههای پروژه با نسخهای استاندارد منتشر شدهاند. نتایج پروژه در کنفرانسهای تخصصی ارائه شد و تیم پروژه مقالهای تهیه کرد که مسیر کامل پروژه از ایده تا محصول را تشریح میکند.
در گزارش پایانی پروژه پیشنهاداتی برای توسعه آتی مطرح شده است: پشتیبانی از زبانهای دیگر، تحلیل روابط بین موجودیتها، بهینهسازی بیشتر عملکرد برای متون حجیم و ارتقای تجربه کاربری.
- صدور مجوز اپراتورهای هوش مصنوعی؛ گام جدید دولت برای توسعه اقتصاد دیجیتال
- هوش مصنوعی، موتور محرک افزایش بهرهوری در زنجیره حملونقل کشور
- رونمایی از دستیار هوشمند صنعت حملونقل در کشور با محوریت هوش مصنوعی
- افتتاح نهمین نمایشگاه حملونقل با تمرکز بر هوش مصنوعی و تقویت جایگاه لجستیکی ایران
- رصدخانه نخبگان با هوش مصنوعی وارد فاز عملیاتی شد
- مهدی خسروی: تحول نمایشگاههای ایران با هوش مصنوعی؛ از ثبتنام هوشمند تا تجربه دیجیتال
- راهاندازی نخستین اپراتور هوش مصنوعی و داده در کشور تا پایان سال
- رونمایی Ideagen از Mazlan؛ ورود نسل تازه Agentic AI به مدیریت انطباق با قوانین
- OpenAI وضعیت «Code Red» اعلام کرد؛ رقابت شدید با Google Gemini اوج گرفت
- Fujitsu از فناوری نوین پیشبینی رفتار انسان و اشیاء برای ارتقای ایمنی همکاری انسان و ربات رونمایی کرد
- کسب رتبه سوم بریکس توسط تیم دانشگاه تهران با طرح ترکیبی انسان–ماشین در مدلسازی احتراق
- ایران در آستانه جهش دیجیتال؛ عارف: کشور میتواند هاب منطقهای فناوری اطلاعات شود
- آغاز صدور پروانه اپراتور هوش مصنوعی در کشور گام جدید دولت در توسعه اقتصاد دیجیتال
- علیبابا با عینک هوش مصنوعی Quark وارد بازار گجتهای پوشیدنی شد
- هشدار نسبت به عقبماندگی ایران در هوش مصنوعی تأکید بر ضرورت سرمایهگذاری فوری
- NeurIPS 2025: تازهترین دستاوردهای هوش مصنوعی و یادگیری ماشین
- هوش مصنوعی و تحلیل داده؛ مسیر تازه صادرات هوشمند در صنعت چاپ و بستهبندی
- تأسیس صندوق ملی توسعه هوش مصنوعی با سرمایه اولیه ده همت تصویب شد
- ورود رباتهای انساننما به قلب صنعت باتری؛ CATL تاریخساز شد
- هشدار جدی در لندن؛ نمایندگان بریتانیا خواستار مقررات سختگیرانه برای قدرتمندترین سیستمهای هوش مصنوعی شدند
- وزیر ارتباطات: بسیج موتور محرک جهاد علمی و فناوری
- غولهای کرهجنوبی در CES 2026 از آینده هوش مصنوعی فیزیکی رونمایی کردند
- امنیت و تهدیدات نوظهور در عصر هوش مصنوعی مولد
- Anthropic و Deloitte در پروژه هوش مصنوعی Claude همکاری کردند
- پدرخوانده هوش مصنوعی هشدار داد: موج گسترده حذف مشاغل در سال ۲۰۲۶
- OpenAI وارد دنیای موسیقی هوش مصنوعی میشود
- ناتو به اَبَر-ابر ابرادری مبتنی بر هوش مصنوعی مهاجرت میکند
- آمازون در آستانه سرمایهگذاری بیش از ۱۰ میلیارد دلار در OpenAI
- ۲۰ میلیارد دلار سرمایهگذاری برای ساخت زیرساخت هوش مصنوعی: قطر و Brookfield مسیر خاورمیانه را تغییر میدهند
- آیبیام با «هوش مصنوعی عاملمحور» نسل تازهای از شبکههای هوشمند را معرفی کرد
نظر خود را وارد کنید
آدرس ایمیل شما در دسترس عموم قرار نمیگیرد.