جست‌وجو در سایت

برای بستن، دکمه Esc یا ضربدر را فشار دهید.

1 دی 1404

|

9

|

0 نظر

|

کدخبر: 10615

|

انتشار QVAC Genesis II توسط تتر؛ بزرگ‌ترین دیتاست آموزشی هوش مصنوعی جهان به ۱۴۸ میلیارد توکن رسید

بخش تحقیقاتی هوش مصنوعی Tether Data با نام QVAC از انتشار نسخه دوم دیتاست آموزشی مصنوعی QVAC Genesis خبر داد. با این به‌روزرسانی، حجم این دیتاست متن‌باز به ۱۴۸ میلیارد توکن در ۱۹ حوزه علمی رسید؛ اقدامی که تمرکز آن بر تقویت استدلال، درک مفهومی و آموزش ساختارمند مدل‌های هوش مصنوعی است.

انتشار QVAC Genesis II توسط تتر؛ بزرگ‌ترین دیتاست آموزشی هوش مصنوعی جهان به ۱۴۸ میلیارد توکن رسید

انتشار QVAC Genesis II توسط تتر؛ بزرگ‌ترین دیتاست آموزشی مصنوعی جهان به ۱۴۸ میلیارد توکن رسید

در تاریخ ۲۲ دسامبر ۲۰۲۵، بخش تحقیقاتی هوش مصنوعی شرکت Tether Data با نام QVAC از انتشار QVAC Genesis II خبر داد. این نسخه، یک گسترش بزرگ برای بزرگ‌ترین دیتاست آموزشی مصنوعیِ عمومی در جهان محسوب می‌شود که برای پیش‌آموزش (Pre-training) مدل‌های هوش مصنوعی طراحی شده است.

با اضافه شدن ۱۰۷ میلیارد توکن جدید، حجم کل دیتاست QVAC Genesis اکنون به ۱۴۸ میلیارد توکن در ۱۹ حوزه آموزشی رسیده است؛ رشدی چشمگیر که باعث افزایش مقیاس، عمق مفهومی و کیفیت استدلالی داده‌های آموزشی متن‌باز می‌شود.


گسترش دامنه‌های علمی؛ از یادگیری ماشین تا مهندسی برق

نسخه دوم QVAC Genesis بر پایه نسخه اول ساخته شده است؛ نسخه‌ای که پیش‌تر دیتاستی آموزشی و دقیق در حوزه‌های اصلی STEM ارائه کرده بود.
در QVAC Genesis II، پوشش علمی به ۱۰ حوزه جدید گسترش یافته است، از جمله:

  • شیمی

  • علوم کامپیوتر

  • آمار و اقتصادسنجی

  • یادگیری ماشین

  • نجوم و جغرافیا

  • مهندسی برق

همچنین محتوای فیزیک دانشگاهی با استفاده از روش‌شناسی بهبودیافته بازتولید شده است. در مجموع، نسخه‌های Genesis I و II جامع‌ترین دیتاست آموزشی مصنوعی منتشرشده برای عموم را شکل می‌دهند.


نوآوری کلیدی: استدلال در سطح گزینه (Option-Level Reasoning)

هسته اصلی این انتشار، معرفی یک روش نوین تولید داده با نام Option-Level Reasoning است. این رویکرد، برخلاف روش‌های مرسوم، فقط به پاسخ‌های اشتباه توجه نمی‌کند؛ بلکه پاسخ‌های درست را نیز به‌صورت تحلیلی بررسی می‌کند.

در این روش:

  • تمام گزینه‌های یک سؤال چندگزینه‌ای تحلیل می‌شوند

  • منطق پاسخ صحیح تقویت می‌شود

  • سوءبرداشت‌ها و خطاهای رایج به‌صورت شفاف توضیح داده می‌شوند

نتیجه، داده‌هایی است که بر درک علت‌ها، رابطه‌های منطقی و تصمیم‌گیری آگاهانه تأکید دارند، نه صرفاً درست یا غلط بودن پاسخ.


بهبود چشمگیر دقت استدلال مدل‌های هوش مصنوعی

روش جدید Option-Level Reasoning در کنار روش Failure Analysis (تحلیل خطا) که در Genesis I معرفی شده بود، یک پایپ‌لاین دوگانه آموزشی ایجاد کرده است.
ارزیابی‌های مستقل نشان می‌دهد مدل‌هایی که با داده‌های Genesis II آموزش دیده‌اند:

  • دقت استدلال بالاتری دارند

  • پاسخ‌های شفاف‌تر و بدون ابهام تولید می‌کنند

  • عملکرد پایدارتری نسبت به دیتاست‌های مصنوعی قبلی نشان می‌دهند


تمرکز بر «فهمیدن» به‌جای تقلید متن

این انتشار صرفاً افزایش حجم داده نیست، بلکه تغییری بنیادین در فلسفه ساخت داده آموزشی برای AI به شمار می‌آید.
در حالی که بسیاری از پروژه‌ها بر جمع‌آوری انبوه متن تمرکز دارند، QVAC تلاش کرده به مدل‌ها نحوه فکر کردن، استدلال کردن و توضیح دادن را آموزش دهد.


دیدگاه مدیرعامل تتر درباره آینده هوش مصنوعی

پائولو آردوینو، مدیرعامل تتر، در این‌باره گفت:

«بیشتر آموزش‌های هوش مصنوعی امروز روی روان بودن متن تمرکز دارند، نه درک واقعی. ما می‌خواهیم هوش مصنوعی بداند چرا چیزی درست است، نه اینکه فقط حدس بزند چه چیزی شبیه پاسخ درست به نظر می‌رسد.»

او تأکید کرد که متن‌باز بودن این دیتاست، به پژوهشگران و توسعه‌دهندگان کمک می‌کند هوش مصنوعی قابل‌اعتمادتر، قابل‌توضیح‌تر و مفیدتر برای جامعه بسازند.


انتشار متن‌باز با مجوز Creative Commons

دیتاست QVAC Genesis II مانند نسخه اول، به‌صورت کاملاً آزاد و تحت مجوز CC-BY-NC 4.0 منتشر شده است. این اقدام در راستای حمایت از:

  • پژوهشگران دانشگاهی

  • توسعه‌دهندگان مستقل

  • پروژه‌های خارج از اکوسیستم‌های بسته و انحصاری

انجام شده است.


حرکت به‌سوی هوش مصنوعی محلی و غیرمتمرکز

این انتشار بخشی از مأموریت بزرگ‌تر QVAC برای توسعه هوش مصنوعی محلی و غیرمتمرکز است؛ جایی که مدل‌ها بدون وابستگی به پلتفرم‌های ابری متمرکز، آموزش و اجرا می‌شوند.
هدف نهایی تتر دیتا، کاهش موانع ساختاری نوآوری و در دسترس نگه داشتن هوش مصنوعی باکیفیت برای جامعه جهانی است.


دسترسی به دیتاست و جزئیات فنی

گزارش فنی کامل با عنوان
“QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”
در وبلاگ تحقیقاتی QVAC منتشر شده و دیتاست و مدل‌ها از طریق Hugging Face در دسترس هستند. همچنین بخش FAQ کامل در وب‌سایت QVAC قرار دارد.


برای مشاهده جدیدترین اخبار، به پایگاه خبری هوش مصنوعی ایران مراجعه کنید.


نظر خود را وارد کنید

آدرس ایمیل شما در دسترس عموم قرار نمیگیرد.

پربحث ترین ها
پیشنهادی: