در دانشگاه علوم و فناوری هنگکنگ (HKUST)، پروژهای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامهای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد. … ادامه مطلب
- برگه نخست
- نوشته ها
- ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST
ساخت ابزار تشخیص موجودیت در زبان چینی: روایت پروژه HKUST
در دانشگاه علوم و فناوری هنگکنگ (HKUST)، پروژهای دانشجویی با عنوان «ابزار تشخیص موجودیت نامدار چینی» در قالب برنامهای به نام DS CoLab اجرا شد. این پروژه، طی یک ترم دانشگاهی، از مرحله تحقیق و ایده تا محصول نهایی پیش رفت و فرصتی پویا برای یادگیری عملی در حوزه پردازش زبان طبیعی (NLP) فراهم آورد.
اهمیت پروژه: از نیاز تا هدف
در بسیاری از حوزههای پژوهشی، به ویژه در علوم انسانی دیجیتال، محققان با حجم عظیمی از متن روبهرو هستند. تشخیص موجودیتهای نامدار (افراد، سازمانها، مکانها، تاریخها و غیره) در متن، یکی از کارهای پایهای در تحلیل متن است که میتواند ساختار معنادار به دادههای خام ببخشد.
با این حال، ابزارهای موجود برای تشخیص موجودیت در زبان چینی اغلب نیاز به دانش فنی بالا دارند؛ یعنی کاربر باید با نصب مدل، تنظیمات پیچیده و مدیریت دادهها آشنا باشد. این پیچیدگی میتواند سد راه پژوهشگرانی باشد که تخصص آنها بیشتر در حوزه متنی یا انسانی است.
پروژه HKUST بر آن شد که این مانع فنی را برطرف کند: ابزاری بسازد که کاربر عادی بتواند به سادگی متن را وارد کند، موجودیتها شناسایی شوند و نتایج قابل استفاده و بصری دریافت کند — بدون نیاز به تنظیمات فنی پیچیده.
تیم و چارچوب پروژه
دو دانشجوی رشته علم داده — یکی در سال سوم و دیگری در سال دوم — به همراه راهنماهایی از تیم کتابخانه و تخصص دیجیتال، مسئول توسعه این ابزار شدند. آنها در طی ترم بهار، از فوریه تا مِی، پروژه را از فاز تحقیق و بررسی ابزارهای موجود تا طراحی و کدنویسی و تست نهایی پیش بردند.
در این مسیر، کتابخانه دانشگاه نقش پشتیبان و تسهیلکننده داشت؛ برنامه DS CoLab منتخبی از پروژهها را برای کمک به ارتقای توانایی دیجیتال دانشجویان و همزمان تسهیل خدمات کتابخانه ارائه میدهد.
ویژگیهای شاخص ابزار نهایی
محصولی که در پایان ترم تولید شد، ترکیبی از امکانات پایه و کاربردی است. در ادامه برخی از مهمترین ویژگیها را فهرست میکنم:
-
تشخیص خودکار موجودیت (Auto Annotation): ابزار از مدل CKIP استفاده میکند تا موجودیتها را در متن چینی بهصورت خودکار تشخیص دهد.
-
ویرایش دستی موجودیتها: هر جا که مدل نتواند کامل تشخیص دهد، کاربر امکان اضافه یا حذف موجودیت را به صورت دستی دارد.
-
گروهبندی و نام مستعار (alias): موجودیتهای تشخیص دادهشده میتوانند در گروههای دلخواه دستهبندی شوند یا برای گروههای معانی یکسان، نام مستعار تعیین کرد.
-
نمایش بصری و نمودارها: ابزار نمودارهایی ارائه میکند که فراوانی موجودیتها، پراکندگی آنها در متن، روند بین اسناد و مقایسهها را نمایش میدهند.
-
بارگذاری چند فایل همزمان: کاربر میتواند چند فایل متنی را آپلود کند و موجودیتها را در آنها همزمان شناسایی و مقایسه کند.
-
خروجی CSV: دادههای استخراجشده شامل موجودیتها، گروهها، نام مستعارها و فراوانیها بهصورت فایل CSV قابل دانلود هستند.
ابزار همچنین مفاهیمی چون «instance»، «class»، «group» و «alias» را به کاربر معرفی میکند تا موجودیتها را به روشهای منعطفتری سازمان دهد.
چالشها و درسهای آموخته شده
در مسیر توسعه، تیم با چالشهایی مواجه شد که نهتنها پروژه را متوقف نمیکرد بلکه به تجربهای آموزشی تبدیل میشد:
-
انتخاب مدل مناسب و تعیین ویژگیها:
تیم ابتدا بررسی ابزارهای موجود مانند پلتفرمهای دانشگاه پکن (Wu Yu Dian)، CKIP و CORPRO را انجام دادند و با تحلیل مزایا و محدودیتها لیستی از ویژگیهای مطلوب را استخراج کردند. -
هماهنگی تیمی و مدیریت کد:
در مراحل اولیه، اختلاف در تعریف متغیرها و همگامسازی کدها دردسرساز بود. با تعیین مجموعهای از متغیرهای مشترک و استفاده از سیستم کنترل نسخه، مشکلات کاهش یافت. -
انسجام محیط توسعه و استقرار:
هنگام انتقال ابزار از محیط محلی به سرور، ناسازگاریهایی ظاهر شد. تجربه نشان داد که داشتن محیط مشترک یا بستر استقرار استاندارد به ثبات بیشتر کمک میکند. -
مدیریت محدوده پروژه:
با محدودیت زمانی ترم، اولویتبندی ویژگیها بسیار حیاتی بود. همچنین بازخورد کاربران در طول مسیر باعث اصلاحات و بهینهسازی رابط کاربری گردید. -
مقیاسپذیری و بهینهسازی عملکرد:
برای متون بزرگ یا مجموعه چند فایلی، مسائل عملکردی و مصرف منابع چالشآفرین بود. تیم راهحلهایی برای بهبود آینده پیشنهاد داده است.
دستاوردها و افق آینده
پروژه با موفقیت به پایان رسید. ابزار و کد منبع آن تحت مجوز باز عرضه شد. همچنین دادههای پروژه با نسخهای استاندارد منتشر شدهاند. نتایج پروژه در کنفرانسهای تخصصی ارائه شد و تیم پروژه مقالهای تهیه کرد که مسیر کامل پروژه از ایده تا محصول را تشریح میکند.
در گزارش پایانی پروژه پیشنهاداتی برای توسعه آتی مطرح شده است: پشتیبانی از زبانهای دیگر، تحلیل روابط بین موجودیتها، بهینهسازی بیشتر عملکرد برای متون حجیم و ارتقای تجربه کاربری.
- مهدی خسروی: تحول نمایشگاههای ایران با هوش مصنوعی؛ از ثبتنام هوشمند تا تجربه دیجیتال
- راهاندازی نخستین اپراتور هوش مصنوعی و داده در کشور تا پایان سال
- رونمایی Ideagen از Mazlan؛ ورود نسل تازه Agentic AI به مدیریت انطباق با قوانین
- OpenAI وضعیت «Code Red» اعلام کرد؛ رقابت شدید با Google Gemini اوج گرفت
- Fujitsu از فناوری نوین پیشبینی رفتار انسان و اشیاء برای ارتقای ایمنی همکاری انسان و ربات رونمایی کرد
- کسب رتبه سوم بریکس توسط تیم دانشگاه تهران با طرح ترکیبی انسان–ماشین در مدلسازی احتراق
- ایران در آستانه جهش دیجیتال؛ عارف: کشور میتواند هاب منطقهای فناوری اطلاعات شود
- آغاز صدور پروانه اپراتور هوش مصنوعی در کشور گام جدید دولت در توسعه اقتصاد دیجیتال
- علیبابا با عینک هوش مصنوعی Quark وارد بازار گجتهای پوشیدنی شد
- هشدار نسبت به عقبماندگی ایران در هوش مصنوعی تأکید بر ضرورت سرمایهگذاری فوری
- برگزاری نخستین نمایشگاه تخصصی هوش مصنوعی ایران در دیماه ۱۴۰۴
- توسعه توپ هوشمند نشتیاب ایرانی با دقت ±۱۰ متر و صرفهجویی ۱۰ میلیون دلاری
- تأخیر یکساله در اجرای قوانین «هوش مصنوعی پرخطر» اتحادیه اروپا
- تحلیل دادههای زیستی و تصاویر پاتولوژی با هوش مصنوعی در دانشگاه تهران
- تقویت همکاریهای منطقهای در فیبر نوری و زیرساختهای هوش مصنوعی در اجلاس باکو
- Agent Lightning؛ فریمورک متنباز جدید مایکروسافت برای RL
- هشدار قضات هند درباره خطر «استنادهای خیالی» هوش مصنوعی در دادگاهها
- پژوهش «غیراخلاقی» دربارهی هوش مصنوعی در ردیت زیر آتش انتقادها
- Quantum + AI شتابدهنده نوآوری کوانتومی در سنگاپور
- هوش مصنوعی در کشف داروهای نوین پزشکی
- انقلاب تازه هولوژیک در تشخیص سرطان پستان؛ هوش مصنوعی وارد مرحله بلوغ شد
- آغاز صدور پروانه اپراتور هوش مصنوعی در کشور گام جدید دولت در توسعه اقتصاد دیجیتال
- استارتاپ Flex با جذب ۶۰ میلیون دلار، مسیر رشد فینتک + AI را هموارتر کرد
- Coursera، Udemy، EdX؛ بهترین مسیر یادگیری چیست؟
- سازمان جهانی هوش مصنوعی؛ ابتکار چین برای قواعد نوین فناوری
- هوش مصنوعی و آموزش؛ تکالیف جدید مجلس برای دستگاههای آموزشی
- مدل هوش مصنوعی MAI-Image-1 مایکروسافت؛ رقیب جدید DALL·E
- مصرف برق مراکز داده هوش مصنوعی تا سال ۲۰۳۰ جهش ۱۶۰٪درصد دارد
- سیسکو ایجنتهای هوش مصنوعی را معرفی کرد
- انقلاب در درمان اختلالات عصبی با همکاری INBRAIN و Microsoft
نظر خود را وارد کنید
آدرس ایمیل شما در دسترس عموم قرار نمیگیرد.