RAG — Retrieval-Augmented Generation
דפוס אדריכלי בו LLM מקבל לא רק prompt, אלא גם מסמכים רלוונטיים ממקור חיצוני. פותר ידע מיושן והזיות. ראו ניתוח מפורט.
Vector DB
בסיס נתונים לאחסון embeddings עם חיפוש מהיר לפי קרבה סמנטית. Production: pgvector, Pinecone, Qdrant, Weaviate, Milvus.
Embedding
וקטור מספרי (384-3072 ממדים) המייצג משמעות טקסט. טקסטים דומים — וקטורים קרובים. מודלים: OpenAI text-embedding-3, Cohere embed-multilingual, BGE.
Reranker
מודל cross-encoder קטן המדרג מחדש top-k. משפר recall@5 בעשרות אחוזים. Cohere Rerank, BGE-reranker.
Prompt Injection
תקיפה בה תוקף משתיל הוראות ב-user input או בנתונים שמגיעים ל-context. ראו AI Security.
Agentic AI
אפליקציית LLM שבה המודל מתכנן רצף tool calls. Frameworks: LangGraph, AutoGen, CrewAI. מחיר: latency +5x, עלות +3-7x.
Multi-tenant
דפוס בו instance אחד משרת מספר tenants מבודדים. 3 רמות בידוד. ראו ניתוח מפורט.
Hallucination
תשובת LLM בטוחה אך שגויה עובדתית. סיבה: המודל מנסה לענות כשלא יודע. Mitigation: RAG עם citations, refusal threshold, output classifier.
Vertical AI
אפליקציית AI ממוקדת דומיין עם אונטולוגיה, RAG ספציפי, אינטגרציות דומיין. ראו ניתוח מפורט.
OpenTelemetry (OTel)
תקן observability פתוח. GenAI semantic conventions מגדירים attributes ל-LLM spans. ראו AI Observability.
HL7 FHIR — Fast Healthcare Interoperability Resources
סטנדרט אינטרופרביליות לנתונים רפואיים, מבוסס JSON/REST. FHIR R4 הוא הסטנדרט ב-2026.
Audit Trail
תיעוד מלא של כל החלטות AI עם יכולת reconstruction. חובה בענפים מפוקחים. Retention 7 שנים.
LLM — Large Language Model
רשת נוירונים גדולה מארכיטקטורת טרנספורמר. Production 2026: GPT-4o, Claude 3.5, Gemini 1.5, Llama 3, Mistral.
On-prem deployment
פריסת AI על תשתית הלקוח. נדרש ל-compliance (HIPAA strict). Open-weight: Llama 3 70B, Mistral 8x22B. GPU cost: $300-2000/month.
Rate Limiting
הגבלות תדירות per user / per tenant. ב-AI קריטי בגלל token cost ו-DoS risk.
PII
Personally Identifiable Information. חייב redaction לפני logging ולא להגיע ל-training data. Detection: Presidio (Microsoft).
P50/P95/P99 latency
Percentile של עיכוב. ב-LLM applications קריטי P99 — משתמשים זוכרים תשובות איטיות.
BM25
Keyword-based scoring algorithm קלאסי. בשימוש בהיברידי RAG. מימושים: Postgres FTS, Elasticsearch, OpenSearch.
Chunk / Chunking
חלוקת מסמך ארוך לקטעים לפני embedding. טיפוסי: 200-500 tokens עם overlap 50. איכות chunking משפיעה על איכות RAG.
Context Window
כמות tokens מקסימלית שה-LLM יכול לקבל. 2026: 8K (Llama base) עד 1M (Gemini 1.5 Pro, Claude 3.5 Sonnet 1M).
Lost-in-the-middle
אפקט בו LLM משתמש פחות במידע באמצע context גדול. Mitigation: מסמכים חשובים בהתחלה/בסוף, reranker.
ACL ב-RAG
Access Control List ברמת retrieval. חובה ב-multi-tenant — אחרת דליפה בין tenants.
Fine-tuning
אימון נוסף של pretrained model על dataset צר. ב-2026 לעיתים נדירות מוצדק — RAG + prompt engineering פותרים זול יותר.
152-ФЗ
חוק הגנת מידע אישי רוסי (אנלוג ל-GDPR). דורש ש-PII של אזרחי רוסיה תאוחסן ותעובד פיזית ברוסיה. שיקול קריטי ל-AI לשוק הרוסי.
HIPAA
Health Insurance Portability and Accountability Act — תקן אבטחת מידע רפואי אמריקאי. כל AI רפואי בארה"ב חייב HIPAA compliance, BAA חתום.
קריאה נוספת
מה לקרוא הלאה