הסיבה העיקרית שאני יכול לחשוב עליה היא שלניחוש שלך או למילה הסודית יש כמה משמעויות, והמשמעות שעלתה בדעתך פחות נפוצה מהאחרות. למשל, כשבדקתי את המשחק ניסיתי אותו עם המילה ״שלום״, ורוב ה1000 המילים הקרובות היו שמות משפחה - בגלל ש״שלום״ נפוץ בעיקר כשם משפחה בויקיפדיה העברית. חוץ מזה, הדאטה לא מושלם. בכל זאת, ויקיפדיה.
ככה.
אני בוחר את המילים, בדרך כלל שבוע־שבועיים מראש. ניסיתי להגריל מילים אבל יש עם זה שתי בעיו(1) המון מילים שנמצאות בDB הן מילים לא אמיתיות או מילים עם הטיה (״שולחנותיו״) ואני מעדיף לבחור מילים לא כאלה מסיבות ברורות (2) הרבה פעמים הקשרים שונים ממה שאינטואטיבי לנו, כמו הדוגמה של ״שלום״ למעלה. אני רוצה לבדוק שבאמת יש ב־1000 מילים הקרובות מילים שיעזרו להגיע לפתרון של החידה.
0:00 UTC, כלומר 2:00 בישראל (או 3:00 בשעון קיץ). הסיבה שזה לא ב0:00 בשעון ישראל כי אני לא רוצה שהחידה תתחלף באמצע למי שעדיין רוצה לשחק ב0:00.
ביצירת המודל הנוכחי של סמנטעל השתמשנו ב HebPipe בשביל לנקות את הדאטה לפני האימון של Word2Vec - מה שאומר שמילים כמו ״והשוקו״ הגיעו למודל כשהן מפורקות ל״ו+ה+שוקו״. בגלל זה יותר כיף לשחק עכשיו ממה שהיה בימים הראשונים של המשחק.
ברור שלא. למשל, החבילה שטוענת את הדאטה מויקיפדיה מנקה סימנים שאנחנו לא רוצים שהיא תנקה כמו למשל ', מה שאומר שמבחינת המודל מילים כמו ״גל״, ״ג'ל״ הן אותה מילה. אנחנו עובדים על זה.
איך שבא לך :)
אפשר לפתוח issue בקישור שבתשובה הקודמת. אם אני אוהב את הרעיון אפשר לממש אותו בעצמך או לחכות שמישהי אחרת תעשה את זה!
כן, אבל אני כנראה אתעלם ממך. זאת המדיניות של דיויד טרנר שיצר את המשחק המקורי ואני זורם איתו.
כן, עשיתי את דעגעל.