بخش تحقیقاتی هوش مصنوعی Tether Data با نام QVAC از انتشار نسخه دوم دیتاست آموزشی مصنوعی QVAC Genesis خبر داد. با این بهروزرسانی، حجم این دیتاست متنباز به ۱۴۸ میلیارد توکن در ۱۹ حوزه علمی رسید؛ اقدامی که تمرکز آن بر تقویت استدلال، درک مفهومی و آموزش ساختارمند مدلهای هوش مصنوعی است.
- برگه نخست
- نوشته ها
- انتشار QVAC Genesis II توسط تتر؛ بزرگترین دیتاست آموزشی هوش مصنوعی جهان به ۱۴۸ میلیارد توکن رسید
انتشار QVAC Genesis II توسط تتر؛ بزرگترین دیتاست آموزشی هوش مصنوعی جهان به ۱۴۸ میلیارد توکن رسید
انتشار QVAC Genesis II توسط تتر؛ بزرگترین دیتاست آموزشی مصنوعی جهان به ۱۴۸ میلیارد توکن رسید
در تاریخ ۲۲ دسامبر ۲۰۲۵، بخش تحقیقاتی هوش مصنوعی شرکت Tether Data با نام QVAC از انتشار QVAC Genesis II خبر داد. این نسخه، یک گسترش بزرگ برای بزرگترین دیتاست آموزشی مصنوعیِ عمومی در جهان محسوب میشود که برای پیشآموزش (Pre-training) مدلهای هوش مصنوعی طراحی شده است.
با اضافه شدن ۱۰۷ میلیارد توکن جدید، حجم کل دیتاست QVAC Genesis اکنون به ۱۴۸ میلیارد توکن در ۱۹ حوزه آموزشی رسیده است؛ رشدی چشمگیر که باعث افزایش مقیاس، عمق مفهومی و کیفیت استدلالی دادههای آموزشی متنباز میشود.
گسترش دامنههای علمی؛ از یادگیری ماشین تا مهندسی برق
نسخه دوم QVAC Genesis بر پایه نسخه اول ساخته شده است؛ نسخهای که پیشتر دیتاستی آموزشی و دقیق در حوزههای اصلی STEM ارائه کرده بود.
در QVAC Genesis II، پوشش علمی به ۱۰ حوزه جدید گسترش یافته است، از جمله:
-
شیمی
-
علوم کامپیوتر
-
آمار و اقتصادسنجی
-
یادگیری ماشین
-
نجوم و جغرافیا
-
مهندسی برق
همچنین محتوای فیزیک دانشگاهی با استفاده از روششناسی بهبودیافته بازتولید شده است. در مجموع، نسخههای Genesis I و II جامعترین دیتاست آموزشی مصنوعی منتشرشده برای عموم را شکل میدهند.
نوآوری کلیدی: استدلال در سطح گزینه (Option-Level Reasoning)
هسته اصلی این انتشار، معرفی یک روش نوین تولید داده با نام Option-Level Reasoning است. این رویکرد، برخلاف روشهای مرسوم، فقط به پاسخهای اشتباه توجه نمیکند؛ بلکه پاسخهای درست را نیز بهصورت تحلیلی بررسی میکند.
در این روش:
-
تمام گزینههای یک سؤال چندگزینهای تحلیل میشوند
-
منطق پاسخ صحیح تقویت میشود
-
سوءبرداشتها و خطاهای رایج بهصورت شفاف توضیح داده میشوند
نتیجه، دادههایی است که بر درک علتها، رابطههای منطقی و تصمیمگیری آگاهانه تأکید دارند، نه صرفاً درست یا غلط بودن پاسخ.
بهبود چشمگیر دقت استدلال مدلهای هوش مصنوعی
روش جدید Option-Level Reasoning در کنار روش Failure Analysis (تحلیل خطا) که در Genesis I معرفی شده بود، یک پایپلاین دوگانه آموزشی ایجاد کرده است.
ارزیابیهای مستقل نشان میدهد مدلهایی که با دادههای Genesis II آموزش دیدهاند:
-
دقت استدلال بالاتری دارند
-
پاسخهای شفافتر و بدون ابهام تولید میکنند
-
عملکرد پایدارتری نسبت به دیتاستهای مصنوعی قبلی نشان میدهند
تمرکز بر «فهمیدن» بهجای تقلید متن
این انتشار صرفاً افزایش حجم داده نیست، بلکه تغییری بنیادین در فلسفه ساخت داده آموزشی برای AI به شمار میآید.
در حالی که بسیاری از پروژهها بر جمعآوری انبوه متن تمرکز دارند، QVAC تلاش کرده به مدلها نحوه فکر کردن، استدلال کردن و توضیح دادن را آموزش دهد.
دیدگاه مدیرعامل تتر درباره آینده هوش مصنوعی
پائولو آردوینو، مدیرعامل تتر، در اینباره گفت:
«بیشتر آموزشهای هوش مصنوعی امروز روی روان بودن متن تمرکز دارند، نه درک واقعی. ما میخواهیم هوش مصنوعی بداند چرا چیزی درست است، نه اینکه فقط حدس بزند چه چیزی شبیه پاسخ درست به نظر میرسد.»
او تأکید کرد که متنباز بودن این دیتاست، به پژوهشگران و توسعهدهندگان کمک میکند هوش مصنوعی قابلاعتمادتر، قابلتوضیحتر و مفیدتر برای جامعه بسازند.
انتشار متنباز با مجوز Creative Commons
دیتاست QVAC Genesis II مانند نسخه اول، بهصورت کاملاً آزاد و تحت مجوز CC-BY-NC 4.0 منتشر شده است. این اقدام در راستای حمایت از:
-
پژوهشگران دانشگاهی
-
توسعهدهندگان مستقل
-
پروژههای خارج از اکوسیستمهای بسته و انحصاری
انجام شده است.
حرکت بهسوی هوش مصنوعی محلی و غیرمتمرکز
این انتشار بخشی از مأموریت بزرگتر QVAC برای توسعه هوش مصنوعی محلی و غیرمتمرکز است؛ جایی که مدلها بدون وابستگی به پلتفرمهای ابری متمرکز، آموزش و اجرا میشوند.
هدف نهایی تتر دیتا، کاهش موانع ساختاری نوآوری و در دسترس نگه داشتن هوش مصنوعی باکیفیت برای جامعه جهانی است.
دسترسی به دیتاست و جزئیات فنی
گزارش فنی کامل با عنوان
“QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”
در وبلاگ تحقیقاتی QVAC منتشر شده و دیتاست و مدلها از طریق Hugging Face در دسترس هستند. همچنین بخش FAQ کامل در وبسایت QVAC قرار دارد.
برای مشاهده جدیدترین اخبار، به پایگاه خبری هوش مصنوعی ایران مراجعه کنید.
- صدور مجوز اپراتورهای هوش مصنوعی؛ گام جدید دولت برای توسعه اقتصاد دیجیتال
- هوش مصنوعی، موتور محرک افزایش بهرهوری در زنجیره حملونقل کشور
- رونمایی از دستیار هوشمند صنعت حملونقل در کشور با محوریت هوش مصنوعی
- افتتاح نهمین نمایشگاه حملونقل با تمرکز بر هوش مصنوعی و تقویت جایگاه لجستیکی ایران
- رصدخانه نخبگان با هوش مصنوعی وارد فاز عملیاتی شد
- مهدی خسروی: تحول نمایشگاههای ایران با هوش مصنوعی؛ از ثبتنام هوشمند تا تجربه دیجیتال
- راهاندازی نخستین اپراتور هوش مصنوعی و داده در کشور تا پایان سال
- رونمایی Ideagen از Mazlan؛ ورود نسل تازه Agentic AI به مدیریت انطباق با قوانین
- OpenAI وضعیت «Code Red» اعلام کرد؛ رقابت شدید با Google Gemini اوج گرفت
- Fujitsu از فناوری نوین پیشبینی رفتار انسان و اشیاء برای ارتقای ایمنی همکاری انسان و ربات رونمایی کرد
- کسب رتبه سوم بریکس توسط تیم دانشگاه تهران با طرح ترکیبی انسان–ماشین در مدلسازی احتراق
- ایران در آستانه جهش دیجیتال؛ عارف: کشور میتواند هاب منطقهای فناوری اطلاعات شود
- آغاز صدور پروانه اپراتور هوش مصنوعی در کشور گام جدید دولت در توسعه اقتصاد دیجیتال
- علیبابا با عینک هوش مصنوعی Quark وارد بازار گجتهای پوشیدنی شد
- هشدار نسبت به عقبماندگی ایران در هوش مصنوعی تأکید بر ضرورت سرمایهگذاری فوری
- سرمایهگذاری SoftBank و گسترش فعالیت Sierra در ژاپن
- محاسبات کوانتومی گوگل مرز توان سوپرکامپیوترها را شکست
- آنتروپیک و گوگل در آستانه قرارداد چنددهمیلیارددلاری ابری
- شش استارتاپ پیش از کریسمس بیش از ۵۶۸ میلیون دلار سرمایه جذب کردند
- گوگل اعلام کرد ابزارهای هوش مصنوعی آموزشی این شرکت تا سال ۲۰۲۵ به ۱۰ میلیون دانشآموز رسید
- ایلان ماسک: xAI ممکن است تا سال ۲۰۲۶ به هوش مصنوعی عمومی (AGI) دست یابد
- ۵۰۰ میلیون دلار برای هوش مصنوعی انسانیتر
- تحول مدیریت FX با هوش مصنوعی: راهکار مشترک Citi و Ant International
- Dazzle AI موفق به جذب ۸ میلیون دلار سرمایه شد؛ تمرکز بر سادهسازی استفاده از هوش مصنوعی
- ظهور DeAI؛ چگونه هوش مصنوعی غیرمتمرکز انحصار GPU شرکتهای بزرگ را میشکند؟
- فیلم کوتاه لکه دو جایزه جشنواره هوش مصنوعی هالیوود را از آن خود کرد
- افزایش نگرانکننده کلاهبرداریهای مبتنی بر هوش مصنوعی در جهان
- لنوو با سرورهای بهینهشده برای AI Inference هزینه هوش مصنوعی سازمانها را هدف گرفت
- سرمایهگذاری در هوش مصنوعی برای کاهش اتکا به فناوری خارجی
- اپراتور ملی هوش مصنوعی ایران در آستانهی تأیید و صدور مجوز
نظر خود را وارد کنید
آدرس ایمیل شما در دسترس عموم قرار نمیگیرد.