Vahid IBM Süni İntellekt (AI) tədqiqatı proqramlaşdırma tapşırıqlarında kömək edə biləcək maşın öyrənmə modellərini inkişaf etdirmək üçün 14 milyon nümunədən ibarət məlumat dəstini təqdim etdi. adlı verilənlər toplusu Layihə CodeNet, adını kompüterlə görmə və dərin öyrənmədə inqilab edən məşhur şəkil anbarı olan ImageNet-dən götürür.
Proqramçılar şüurlu və şüuraltı düşüncənin bir çox mexanizmlərindən istifadə edərək yeni problemlər kəşf edir və müxtəlif həll yollarını araşdırırlar. Əksər maşın öyrənmə alqoritmləri eyni problemləri həll edə biləcək modelləri inkişaf etdirmək üçün dəqiq müəyyən edilmiş tapşırıqlar və böyük həcmdə şərhli məlumat tələb edir.
Ekspert icması tərəfindən AI-for-kod sistemlərinin inkişafı və qiymətləndirilməsi üçün verilənlər bazası və etalonların yaradılmasına çoxlu səy sərf edilmişdir. Lakin, proqram təminatının inkişafının yaradıcı və açıq mahiyyətini nəzərə alsaq, proqramlaşdırma üçün mükəmməl məlumat dəstini yaratmaq çox çətindir. Project CodeNet ilə IBM tədqiqatçıları müxtəlif tapşırıqlar üzrə maşın öyrənmə modellərini öyrətmək üçün istifadə oluna bilən çoxməqsədli verilənlər toplusu yaratmağa cəhd etdilər. CodeNet-in yaradıcıları onu "kod üçün AI-də alqoritmik irəliləyişləri sürətləndirmək üçün çox genişmiqyaslı, müxtəlif və yüksək keyfiyyətli verilənlər toplusu" kimi təsvir edirlər.
Verilənlər dəsti 14 müxtəlif proqramlaşdırma dilində yazılmış 500 milyon sətir koddan ibarət 55 milyon nümunədən ibarətdir. Kod nümunələri AIZU və AtCoder onlayn kodlaşdırma platformalarında yerləşdirilən 4000-ə yaxın təqdim edilmiş tapşırıqdan əldə edilib. Kod nümunələri verilmiş tapşırıqlara həm düzgün, həm də yanlış cavabları ehtiva edir.
Həmçinin maraqlıdır:
- Hubble bort kompüterindəki proqram xətası səbəbindən təhlükəsiz rejimə keçdi
- CD Projekt üçün daha bir problem: Hakerlər oyunların mənbə kodlarını şəbəkəyə sızdırmaqla hədələyirlər
CodeNet-in əsas xüsusiyyətlərindən biri nümunələrə əlavə edilən annotasiyaların miqdarıdır. Verilənlər dəstinə daxil olan kodlaşdırma tapşırıqlarının hər birinin mətn təsviri, həmçinin CPU vaxtı və yaddaş məhdudiyyətləri var. Hər bir kod təqdimatı dil, təqdimetmə tarixi, ölçüsü, icra vaxtı, qəbul və səhv növləri daxil olmaqla onlarla məlumatdan ibarətdir. IBM tədqiqatçıları həmçinin proqramlaşdırma dili, məqbulluq və səhv növləri də daxil olmaqla, verilənlər toplusunun müxtəlif parametrlər üzrə balanslaşdırılmış olmasını təmin etmək üçün çox səy göstərdilər.
CodeNet proqramlaşdırma tapşırıqları üzrə maşın öyrənmə modellərini öyrətmək üçün yeganə verilənlər toplusu deyil. Ancaq onu fərqləndirən bir neçə xüsusiyyət var. Birincisi, nümunələrin sayı və dillərin müxtəlifliyi daxil olmaqla, verilənlər toplusunun böyük ölçüsüdür. Ancaq bəlkə də daha vacib olan kod nümunələri ilə gələn metadatadır. CodeNet-ə əlavə edilən zəngin annotasiyalar onu xüsusi proqramlaşdırma tapşırıqlarında ixtisaslaşan digər kodlaşdırma məlumat dəstlərindən fərqli olaraq müxtəlif tapşırıqlar toplusu üçün uyğun edir.
Bu ağıl əsir.
GPT-3 ilə istədiyiniz düzəni təsvir etdiyiniz bir layout generatoru qurdum və sizin üçün JSX kodu yaradır.
NƏ şəkiltwitter.com/w8JkrZO4lk
- Şərif Şameem (@sharifshameem) İyul 13, 2020
CodeNet-dən istifadə etməyin bir neçə yolu var. Bunlardan biri də dil tərcüməsidir. Verilənlər dəstindəki hər bir kodlaşdırma tapşırığı müxtəlif proqramlaşdırma dillərinin təsvirlərini ehtiva etdiyinə görə, məlumat alimləri kodu bir dildən digərinə tərcümə edən maşın öyrənmə modellərini qurmaq üçün ondan istifadə edə bilərlər. Bu, köhnə kodu yeni dillərə köçürmək və onları yeni nəsil proqramçılar üçün əlçatan etmək istəyən təşkilatlar üçün əlverişli ola bilər.
Həmçinin oxuyun:
- IBM dünyanın ilk 2nm çip istehsal texnologiyasını təqdim etdi
- IBM yeni antibiotiklər icad etmək üçün süni intellekt inkişaf etdirir
Ənənələr və irsiyyət müxtəlif düşüncə ilə, ən gənc nəsil neyron alqoritmləri və problemlərin qoyulması, bir-birini qarşılıqlı təkmilləşdirən ML-metodları ilə birlikdə oynamalıdır.
Zamanla proqramçıların səviyyəsi daha da aşağı düşəcək (indi ilə müqayisədə). Yəni, “bok dili” ilə əyri, əyri kod yazmaq mümkün olacaq. Və sonra maşın optimallaşdıracaq və peşəkar assembler proqramçısının (və ya daha yaxşı) optimallaşdırılmış kodunu əldə etmək mümkün olacaq.