תכנית עסקית יזם, תכנית עסקית קרן, השקעות אוקראינהM&A partner in financial services

כריית נתונים (Data Mining) 
 

בשיתוף פעולה עם משרד ברלב ושות'

 

מבוא
ב – 15 השנים האחרונות, יחד עם מהפכת המחשבים והתקשורת, כמות המידע שהוצפה על האדם הולכת וגדלה. היקפי המידע שאנו מקבלים לצורך קבלת החלטות אינם ניתנים לעיבוד וניתוח על – ידי שימוש ביכולתנו הטבעיות בלבד. שימוש במאגרי מידע ובמסדי נתונים מהווה היום חלק אינטגראלי של כל תהליך ניהולי ועסקי. עלינו להתחשב בעבודתו בקריטריונים חדשים של כמות ואיכות הנתונים:

  • נפח המידע הוא בלתי מוגבל
  • סוגי המידע הינם מגוונים ובאים בפורמטים שונים
  • כלים לעיבוד המידע צריכים להיות פשוטים וקלים לשימוש
  • תוצאות הניתוח צריכות להיות חד משמעיות בכדי לשמש בסיס להחלטות ניהוליות.

ההנחה היא כי בידי המשתמש אין מידע מוקדם על קשר בין סוגי מידע שונים המצויים במאגר המידע,  ולא ניתן להגדיר מראש תוצאות החיפוש. עקב כך גובשה תפיסה חדשה בעיבוד וניתוח מידע, והיא  - כריית נתונים, שמטרתה חשיפת קשרים בין נתונים שונים במאגר המידע המנותח. 

  נמחיש את האמור לעיל בדוגמא של בדיקת נושא הענקת האשראי בסניף בנק מסוים. תוכנות ביקורת רגילות (כגוןACL ) אינן מאפשרות למבקר ניתוח המידע מעבר להרצת שאילתות על בסיס הנתונים. הרצת השאילתות דורשת אפיון מדויק של הפרמטרים הנבדקים. הפלט של השאילתות יש למיין או לסנן לפי קריטריונים נוספים, שגם אותם יש להגדיר מראש. כך ניתן לראות מהי התפלגות האשראי שאושרה על – ידי כל פקיד הבנק ולזהות אשראים חריגים וכדומה. תוכנה לכריית נתונים יכולה, בנוסף לאמור לעיל וללא צורך ב"תכנות" מראש, לחשוף קשר בין הענקת האשראי על – ידי פקיד מסוים, לבין עמלות מופחתות אשר ניתן לאותם הלקוחות על – ידי אותו פקיד הבנק.

שיטות כרית נתונים

  1. אסוציאציה (association) . המדובר בקישור בין אירועים מסוימים לפי מאפיין מסוים או קבוצת מאפיינים. בשלב זה ניתן לזהות התלות בין שדות שונים ברשומה (רשומה = אירוע). בביקורת האשראי ניתן לתאר הענקת האשראי כפונקציה של תקופת פעילות החשבון, סיווג הלקוח בבנק, בטחונות וכדומה. לאחר מכן ניתן לערוך השוואה בין הפונקציה המתקבלת לבין נוהלי הבנק. שיטה זו מיושמת בטכניקת עצי החלטה אשר תוסבר בהמשך.
  2.  עקביות (Sequencing ). המדובר בבדיקת עקביות של אירועים לפי מאפיין או קבוצת מאפיינים כגון זמן. ניתן לנתח פרקי הזמן בין הענקת האשראי לקוחות שונים על – די אותו פקיד הבנק, פרקי שמן בין הענקת האשראי לאותו לקוח על – ידי פקידים שונים, רצף פעולות בנקאיות של לקוח המקבל אשראי ועוד. 
  3. סיווג (classification)   - זאת קביעת כללים המאחדים אירועים שונים וחיפוש כללים חדשים. ניתן לזהות מאפיינים של אירוע חריג ולסווג אירועים אחרים לפי אותם המאפיינים.  כך ניתן לסווג באשראי לפי הפקיד המאשר, פי סניף הבנק, לפי אזור מגורים של הלקוחות ועוד.
  4. קיבוץ  (clustering) הינו איתור המשותף בין אירועים שונים.  
  5. ניבוי / חיזוי (prediction)  - זה חילול אירועים על סמך אירועים מהעבר. למשל, ניתן לחזות לאילו לקוחות סביר שיינתן אשראי חריג בעתיד הקרוב.  ניתן לבדוק התקפות של המודל עם חלוף הזמן, וכן לנתח תוצאות הניבוי, על – מנת להבין מה גרם למערכת לנבא אירועים אשר נראים לנו לא סבירים או אשר לא התממשו.

מודלים לכרית נתונים

1. רשתות נוירוניות (neural networks ).

  המדובר באחד המודלים המיושמים בתורת בינה מלאכותית (AI ), שבאה לחקות בנה טבעית. במוח האנושי, נוירון אוסף אותות מנוירונים אחרים. לאחר מכן פולט נוירון פלט חשמלי אשר מועבר לנוירונים אחרים באמצעות סינפסים (synapses )  המקשרים ביניהם. כלומר, מתרגם הסינפס פלט של נוירון אחד לקלט של נוירונים אחרים. התיאוריה גורסת כי הלמידה האנושית מתרחשת על – ידי ההשפעה על היעילות של הסינפס, כלומר, על טיב הקשר בין נוירונים שונים. 
רשתות נוירוניות מלאכותיות בנויות מ"יחידות" המחוברות אחת לשניה, המשמשות כנוירונים. תפקוד הסינפס ממודל על – ידי משקל משתנה, אשר משויך כל חיבור בין יחידות אלו. פלט וקלט של כל נוירון מיוצגים על – ידי מספרים. בכך התנהגותה של כל רשת נוירונית תלויה הן על המשקלות שיוחסו לחיבורים, והן על פונקצצית קלט – פלט שהוגדרה ליחידות המרכיבות את הרשת. בדרך כלל, משתמשים בפונקציות משלושה סוגים : פונקציות לינאריות, פונקציות הסף ( threshold ) ופונקציות סיגמא (sigmoid ) המתארות תלות רציפה אך לא לינארית בין הקלט והפלט. שלושת סוגי הפונקציות הינם קירובים גסים למתרחש בין נוירונים אמיתיים. 
רשת נוירונית מלאכותית בנויה, בדרך כלל, מ – 3 שכבות: שכבת יחידות הקלט, אשר  מחוברת לשכבת יחידות "סמויות", אשר מחוברת לשכבת יחידות הפלט. פעילות כל יחידה בשכבת הקלט מאופינת על – די הקלט הגולמי שהוזן למערכת. פעילות של שכבת יחידות סמויות ויחידות הפלט תלויה על פעילותן של יחידות בשכבה הקודמת ועל המשקלים המאפינים הקשרים בין היחידות. סוג זה של רשת נוירונית מעניין אותנו כי הוא יכול ללמוד בעצמו כיצד לפרש את הקלט.
ניתן ללמד רשת נוירונית תלת – שכבתית לבצע פעולה מסוימת באמצעות הטכניקה הבאה. תחילה יש להציג רשת דוגמא, שר תכלול תבנית פעילות רצויה ליחידות הקלט והפלט. לאחר מכן אנו נשווה בין הפלט האמיתי לבין הפלט הרצוי ונקרב האחד לשני על – ידי השינויים במשקל של כל חיבור ברשת. 
למשל, אנו רוצים ללמד רשת נוירונית לזהות מספרים שנכתבו בכתב יד. אנו נשתמש במערך של, למשל, 256 יחידות קלט, כל אחד ישקף נוכחות או היעדרות של דיו בשטח קטן מאוד של הנייר. לפלט אנו צריכים להשתמש ב – 10 יחידות  - כמספר הספרות. כמו כן, נצטרך מספר יחידות סמויות. הלימוד מתבצע בהצגה של ספרה כתובה לרשת, בבחינה של פעילות הפלט לעומת הפלט הרצוי, ובשינוי המשקולות בהתאם. חוזרים על התהליך עד שהרשת מתחילה לתפקד כנדרש.
ביישומים לכרית נתונים המשווקים כיום, רשתות נוירוניות ניתנות לאפיון של המשתמש לפי הפרמטרים שפורטו לעיל, במידה זו או אחרת. רבים מתייחסים לרשתות נוירוניות כאל "קופסא שחורה", אך הבנת התהליך חיונית ליישום יעיל של מודל זה.
שימוש ברשתות נוירונית לכריית נתונים הנו מיידי – הפלט של הרשת מבטא את "ההבנה" שלה למתרחש בקלט. על המשתמש להשוות בין הבנה זו להבנתו שלו ולכלים שאמורים לאפין את הקלט, במידה וקיימים.     

2.עצי החלטה (decision trees, induction rules).

זהו אחד הכלים הנוחים ביותר למשתמש העוסק בכריית נתונים. כלי זה מחולל מערכת כללים  מבוססי עקרוןif then או  what if . עץ החלטה בודק השפעתם של משתני הקלט על משתנה מטרה מסוים. למשל ניתוח מערכת משכורות על – ידי עץ החלטה אמור להסיק מה הן מדרגות מס, ערך נקודות הזיכוי, הטבות מיסוי שונות וכדומה. פלט של מודל זה קל להבנה בהרבה מאשר הפלט של רשתות נוירוניות. השימוש במודל בדרך כל לא דורש מהמשתמש הרבה מעבר להגדרת המשתנה אותו הוא מעוניין לנתח.

3. אלגוריתם גנטי (genetic algorithm)

זהו מודל לחיקוי התהליך האבולוציוני שלNA , המפתח קשרים המתאימים  ביותר בין אירועים שונים, בדומה לתהליך אבולוציוני בו הטבע "מפתח" צורות חיים שונות המתאימות לסביבתן המשתנה. המודל פועל על עקרון כרומוסומי כאשר לצורך המשך אבולוציוני על הכרומוסום לקבל החלטה הנכונה ביותר לגבי התפתחותו. המודל מיושם מועלה במקרים של אילוץ משאבים. בכרית נתונים אלגוריתם גנטי מיועד לאתר קשרים אופטימאליים בין גורמים שונים. דוגמא מופשטת לאלגורתם גנטי קבוע מראש – משחק החיים (Life ) של המתמטיקאיJohn Convey , בו כל יחידה שורדת או לא בהתאם למספר יחידות הסובבים אותה.

4. אלגוריתם התאמה מוגבלת (CORA algorithm)

אלגוריתם זה הומצא ע"י ד"ר בונגרד בשנות השישים ומיועד לאיתור קשרים עקביים ולוגיים בנתונים. האלגוריתם מחשב תדירות של אירועים לוגיים פשוטים בקבוצות ותת קבוצות של נתונים . לדוגמה :  X = a; X < a; X > a; a < X < b כאשרX הוא פרמטר ( מאפיין) ו - a,b   הינם  פרמטרים שנקבעים על – ידי המשתמש.

5.שיטת השכן הקרוב (nearest neighbor)

רעיון מערכות הוא הסקה על בסיס מקרים (case based reasoning ). מערכת מחפשת מקרים דומים או זהים לאלו שנבדקים על סמך אירועי העבר. לאחרונה לשיטה זו קוראיםmemory based reasoning היות וחיפושיה בנויים על זיכרונה הפנימי. חיסרון של השיטה הנו המוגבלות של כל מערכת ממוחשבת בזיכרון ובכמות האירועים שיכולים להיכלל בניתוח. מערכת לא בונה כללים ומודלים חדשים ומועילה רק בשלבים מתקדמים של הניתוח כאשר כבר נצבר ניסיון הראשוני.

7. מערכת מומחה Expert Systems)

יישום נוסף של מודל השכן הקרוב.  כלי זה כולל ידע מוקדם על מגוון סוגי אירועים האמורים להתרחש במערכת, אשר נקרא דעת מומחים. כאשר אירוע מסוים מתרחש, מצביע המודל על החלטה שהיה נותן המומחה בנסיבות דומות (כמובן, מודל זה תלוי על הגדרות מראש הקימות במערכת).  

מתודולוגיה של כריית נתונים
1 מבוא

עם התפתחות הענף של עיבוד מידע ממוחשב ב – 15 השנים האחרונות, חברות תוכנה רבות בעולם התחילו לייצר ולשווק חבילות תוכנה שנועדו לנושא. כעת השוק מוצף בתוכנות שונות ומגוונות – חיפוש ב –Google של צירוף המיליםData Mining Software נותן יותר מ – 1,000,000 אתרים שונים של חברות תוכנה למיניהן המשווקות את סחורתן. תוכנות אלה נבדלות זו מזו בבחינת יכולתן הטכנית, אך יש בהן משהו במשותף – רובן ככולן נועדו להיות ניתנות להפעלה על – ידי כל משתמש, גם זה שנטול כל כמעט רקע בנושא ניתוח המידע בפרט והמחשבים בכלל. כמו כן, עד לאחרונה לא תמכו התוכנות בתהליך קבלת ההחלטות של המשתמש בנושא "כיצד יש להתקדם בכדי לעבד ולנתח את המידע הזמין בצורה היעילה ביותר"?  הדבר גרם לכך שעיקר הניתוח בעף התבצע בשיטת "ניסוי וטעיה".
לאור המצב, בשנת 1996 קם גוף ששם למטרתו לקבוע מתודולוגיה ברורה ויעילה, אשר תבטיח שימוש משכיל בכלים העומדים לרשות מנתח המידע, יהיו הכלים אשר יהיו. גוף זה, שמייסדיו היוSPSS ,Daimler-Crysler ו-NCR , פרסם באוגוסט 2000 גרסא ראשונה שלCross-Industry Standard Process for Data Mining (CRISP-DM ). המדובר בפרסום ראשון בעולם בנושא מתודולוגיה לכריית מידע, מתודולוגיה אשר נועדה ליישום של כל משתמש בכל תעשיה בעולם. משרדנו החל ביישום מתודולוגיה זו החל ממחצית שנת 2000, לאחר שחתם על הסכם שיתוף פעולה עם חברתSPSS , אשר כאמור הינה אחת מהוגיה הראשונות שלCRISP-DM . בפרויקטים הקשורים בכריית מידע, משתמש משרדנו בתוכנתClementine מביתSPSS . תוכנה זו משלבת בתוכה תיבת דו – שיח לישוםCRISP-DM , ותומכת בהתקדמות בתהליך כריית המידע.

 2. הדגמת שלבי יישום המתודולוגיה

 

  מתודולוגיתCRISP-DM מגדירה 6 שלבים לפרויקט כריית מידע. באחת הפרויקטים שמטופלים כעת במשרדנו, נעשה שימוש בתוכנתClementine תוך יישוםCRISP-DM כדלקמן:

  • שלב ראשון שלCRISP-DM הינוBusiness Understanding – הבנת העסק. שלב זה הינו שלב מקדים לשימוש כלשהו בכלים ממוחשבים עצמם ונועד
    • להבין מטרות עסקיות של העסק
    • להעריך המצב בו שרוי העסק כעת
    • להגדיר מטרות לפרויקט כריית מידע
    • לקבוע תוכנית עבודה

במקרה שמטופל במשרדנו, המדובר בעסק הנמצא בשלבי פירוק, לאור מעילה שבוצעה בו על – ידי עובדיו. מטרות לפרויקט הוגדרו בהתאם והתמקדו באיתור שיטות בהן ביצעו החשודים את מעילתם.

  • השלב השני הינו השלב שלData Understanding – הבנת המידע. השלב הזה נועד ל –
  • איסוף מידע ראשוני
  • תיאור המידע
  • וידוא איכות המידע

עצם העובדה שהעסק הנידון נמצא כיום בפירוק הקשה מאוד בביצוע שלב זה. אומנם לא הייתה בעיה באיסוף המידע עצמו, אך היות ורב עובדי העסק פורטו, לא היו גורמים שיכלו להסביר את משמעות המידע שנמצא ברשותנו. להמחשה יאמר, כי רק אחד מקבצי המידע של העסק כלל יותר מ – 350 משתנים, והיה מורכב ממאות אלפי רשומות. כמו כן, היות והעסק חדל לפעול, לא היה באפשרותנו לעקוב אחר שינויים בבסיסי הנתונים המתרחשים כתוצאה מפעילות עסקית רגילה.   

  • השלב השלישי הינו שלב שלData Preparation – הכנת המידע. שלב זה כולל –
  • בחירת מידע שינותח
  • "ניקוי" המידע
  • הוספת מידע – הגדרת משתנים חדשים, לפי הצורך
  • הבאת מידע לפורמט המאפשר ניתוח

בשלב זה, נעזרנו בתוכנתClementine , תוכנת ביקורתACL ובכלים אחרים לבחינה וניתוח לכל משתנה בקבצים אותם החלטנו לנתח. במהלך העבודה, נטרלנו מהניתוח עשרות משתנים. חלקם לא היו בשימוש העסק, כגון משתנים שכללו תמיד רק ערך אחד או לא כללו ערכים בכלל. חלקם כללו נתונים אשר אינם ניתנים לניתוח, כגון שדות מלל חופשי. חלקם היו תלויים בצורה ישירה במשתנים אחרים – למשל, אם ערך משתנהX הואA , אזי ערך של משתנהY יהיה תמידconst*A . במקרה זה, שילוב של משתניםX ו –Y יחד בניתוח יהיה מיותר. כמו כן, הימרנו את כל השדות לפורמט אחיד, במיוחד שדות התאריכים.
לאחר מכן, לכל משתנה נקבע והוגדר בתוכנה הסוג שלו – נומרי, אלפאנומרי, קבוצה, תאריך וכדומה. קביעה זו הינה קריטית מבחינת תהליך ה –DM , שכן היא קובעת כיצד התוכנה תפרש את הנתונים. לדוגמא, מבחינתDM , השפעת הקביעה שמספר 6 לא גדול מ – 5 (כי אנו יודעים ששניהם מציגים מספרים אישיים של העובדים במערכת), שונה מהותית מהקביעה הטבעית ש – 6 גדול מ – 5 כי שניהם מספרים. 
לסיום, מיזגנו נתונים מקבצים שונים בכדי לקבל מעין "קובץ אחד גדול" המכיל כל המידע הדרוש לניתוח.   

  •   השלב הרביעי הינו שלב ה –Modeling – בניה והפעלת מודלים לכריית המידע. מבחינת השימוש בתוכנות לכריית מידע, זהו לכאורה השלב העיקרי, ועד לפרסוםCRISP-DM זה לעיתים קרובות היה השלב ממנו התחיל ניתוח המידע. חשוב לציין כי שלב זה, ללא כל 3 השלבים המקדימים, יבוצע בצורה לקויה ולא יביא להרבה תועלת. מבחינת חלוקת הזמן בין שלב זה ושלבים קודמים, נהוג לקבוע כי שלב זה עורך רק כ – 20% מהזמן, ואילו 75% מוקדש בשלבים המקדימים (5% הנותרים מחכים לנו בשלבי ההמשך). יש הגורסים ששלב זה יכול לקחת רק 5% ממשך הכולל של הפרויקט. בשלב זה, היה עלינו
  • לבחור טכניקה בה נבנה את המודל
  • לבנות מודל עצמו
  • להריץ טסטים לבחינת סבירות המודל
  • להריץ את המודל

    תוכנת Clementine כוללת מספר רב של טכניקות לעיבוד נתונים, החל משיטות סטטיסטיות פשוטות יחסית כגון רגרסיות וכלה ברשתות נירוניות. כשלב ראשון, בפרויקט הנדון, אנו בחרנו להשתמש באלגוריתםC5 , המאפשרת לבנות עץ החלטה או לקבל רשימת כללים למשתנה מסוים. יתרון טכניקה זו הינו בכך כי תוצריה הינם פשוטים להבנה. לבחינה ראשונית של המודל ובכדי לוודא כי בצענו עבודה עקבית לכל אורך הפרויקט, הגדרנו כמשתנה מוסבר קוד מוצר (המקביל לשם מוצר, אשר קיים לכל מוצר בחברה), ובתור משתנים מסבירים -  משתנים הכוללים מידע על כל גורמי הייצור של החברה. כתוצאה קיבלו מערכת כללים כגון אם המוצר הוא 3 (חולצה), אזי נדרשים 2 מטר כותנה ו – 5 שעות עבודה בשביל לייצרו. השוונו הכללים שנתקבלו עם המקובל בעסק. כבר בבדיקה זו התגלו חריגות בצריכת חומרי גלם לייצור חלק מהמוצרים לעומת הנקבע בחברה, אם כי בטרם הניתוח כלל לא חשבנו כי המעילה כללה שימוש-יתר בחומרי גלם.
בהתאם למטרות הפרויקט, כפי שהוגדרו בשלב 1, התמקדנו בניתוח מידע פיננסי של העסק. דהיינו, בתור משתנים מוסברים שימשו המשתנים שתיארו פעילות פיננסית של העסק, וכמשתנים מוסברים – כל השאר, לרבות נתוני העובדים של העסק.

  • בשלב זה יש לבצע Evaluation – הערכה של התוצאות. תוצר המודלים שיושמו הינה כאמור מערכת של חוקים, אותם יש צורך לבדוק אל מול הכללים הנהוגים והתקינים בעסק עצמו. כמו כן, הפעלת הכללים על המשתנה המוסבר תצביע על ערכים אשר חורגים מהכללים שנקבעו. יש לבדוק סיבות החריגה של המשתנים, שכן ייתכן והמדובר בחריגה מהכלל שבעצמו אינו תקין, ואז הנתון למעשה הינו נתון תקין.    
  • שלב זה הינו השלב הסופי של הפרויקט, ונועד לשילוב ממצעי הפרויקט בפעילות שוטפת של העסק. כאמור, העסק חדל מלתפקד, ומטרתנו בשלב זה הינה סיכום הראיות שנתגלו, איתור המסמכים הנלווים ומתן תמיכה לכתב האישום שהוגש כנגד המעורבים בפרשה.

מבקר כמשתמש בכריית נתונים

1. מבוא

  רואי חשבון רבים נדרשים בעבודתם לביצוע הביקורת תוך ניתוח בסיסי נתונים המכילים כמות אדירה של נתונים. מגבלות הזמן אינן מאפשרות לערוך ביקורת מקיפה של כל הנתונים הטעונים בדיקה.  בכך, נותר הסיכון כי נתונים מסוימים אשר התעוותו לאור ביצוע הונאות בארגון, לא התגלו. יש לציין כי לאחרונה פורסם התקן האמריקאי 99SAS , המחייב את רואי החשבון לערוך את הביקורת במטרה לוודא, ברמת סבירות גבוהה, כי הדוחות הכספים של הארגון המבוקר אינם כוללים הצגה מוטעה שנוצרה כתוצאה מהונאה.
למרות שטכנולוגיות הממוחשבות הוכיחו את עצמן בבדיקת הטעויות אין הן מסוגלות נכון להיום לחשוף הטעיות המכוונות. תוכנת מחשב אינה יודעת מזה טוב ומה זה רע  - פריבילגיה כזאת בקושי ניתנה לאדם. לכן אין לצפות ממחשב להיכנס לנעליים של המבקר ולבצע בדיקות הקשורות גם לבדיקת טעויות וגם לחשיפת הטעיות. כרית נתונים אינה תחליף לביקורת אלא כלי למיפוי מוקדי הסיכון. תוכנות כרית נתונים אינן מיועדות לגילוי כללי של הונאות למיניהם ללא ידע מוקדם מה זה הונאה.
2. שיטה ראשונה
בכדי לזהות ההונאה, על המבקר "להסביר" לתוכנה מהי היא הונאה, תוך הזרמה לתוכנה מודלים המוגדרים כהונאה.  למשל מבקר חשבונות ( מבקר פנים, מבקר חקירתי) חושש כי במחלקת גביה של החברה יש מקום לאי סדרים.  לדעתו, ההונאות יכולות להתרחש בתחום קיטינג (kiting ) ולפינג (lapping ). סימנים לביצוע הונאות אלו הינן העברות בין חשבונות של לקוחות שונים, תוך זיכוי חשבון לקוח אחד כאשר התקבל שיק מלקוח אחר. בכדי לזהות סימנים להונאה על המבקר להזרים לתוכנה בסיס נתונים חשבונאי הכולל תנועות בחשבונות לקוחות ולהתרכז באיתור קשרים בסוגי תנועות הבאים:

  • תנועות בחשבון לקוח כנגד חשבון לקוח אחר
  • זיכוי חשבון לקוח אחד בסכום זהה לסכום בו זוכה לקוח אחר

עץ החלטה מציג  מאפייני העברות בין יתרות הלקוחות כגון מועדן וסכומן . רשת עצבים מאפשרת
להציף קשרים בין נתונים המצביעים על קיום ההונאה.


 

3. שיטה שנייה
המבקר אינו מודיע לתוכנה מהי היא הונאה אלא מבקש ממנה לזהות קשרים שונים במידע המנותח. למשל, על המבקר לבדוק חשש הקיים על ניפוח עלויות שכר והנפקת תלושים פיקטיביים. שימוש בתוכנות ביקורת רגילות כגון ביצוע שאילתות לאיתור כפילות חשבונות בנק, כתובות טלפונים של עובדים לא הניב תוצאות, במידה ובחברה לא מעבירים משכורת לחשבון בנק אלא משלמים בשיק).  במקרה זה מומלץ להגדיר השכר כמשתנה מטרה ולהריץ עליו מודלים שונים, במטרה לקבל כללים המאפינים, לדעת המערכת, את השכר, ולהשוותם לכללים המקובלים בחברה.

4. שיטה שלישית
שיטה זו היא המוצלחת ביותר כעת בכרית נתונים, פועלת בתחומים מסוימים בלבד בהם הונאות וגניבות הפכו לחלק שגרתי של התהליך העסקי - בענפים כגון ביטוח, כרטיסי האשראי, מכירות באינטרנט. אם ההונאות מהוות אחוז ניכר בין כל העסקאות,  ניתן לבנות מודל (תוך שימוש ב –clustering ) שיאפיין עסקאות רגילות לעומת עסקאות "לא כשרות" , מה שיאשפר חשיפה מוקדמת ואף מניעה של ההונאות הנפוצות בענף.




 

* ברלב ושות' רואי חשבון
* * עופר וכסלר רו"ח

תכנית עסקית יזם, תכנית עסקית קרן, השקעות אוקראינה
כל הזכויות שמורות לעופר וכסלר רואה חשבון ©

Content on this page requires a newer version of Adobe Flash Player.

Get Adobe Flash player



מפת האתר
תכנית עסקית יזם, תכנית עסקית קרן, השקעות אוקראינה