Docs GitHub CROP Documentation

Tools

Shared

Projects

Frontend

Backend

PDF parsing service for extracting parts data from manufacturer catalogs

Getting Started

CROP PDF Parser Service - Documentation

API

API Query Format

Data

GCS PDF Links Generation

Architecture

System Architecture - Complete Guide

Reference

Agent Prompts and Purchasing Consultation Features Checklist

Data Preparation Service

Data Preparation Service Testing Data Preparation Pipeline

Clip Service

API Usage Example for Uploading Part Photos CLIP Image Vectorization Service CLIP Embeddings and Metadata Search - Complete Guide

Grafana Service

Grafana Service for Event Sourcing

Pdf Parser Service

PDF Parser Service Architecture PDF Parser Service

Gcs Service

Ai Service

McHale Vendor Agent Specialist - Personality & Role Definition Changelog - LLaMA 3.1 8B & BGE-Large Embeddings Embeddings Configuration MongoDB Integration for Training Data AI Service - McHale Parts Co-Pilot

Barcode Service

Barcode/QR Code Detection Service

Frontend

Weaviate Event Sourcing Dashboard

Linear Service

Linear Integration Service

Mlflow Service

Weaviate Service

Event Sourcing Guide for Weaviate Service Weaviate Service

ProjectsPDF Parser

Features Checklist

✅ Implemented Features

Features Checklist

✅ Implemented Features

Core Features

PDF Parsing Service
- PDF text extraction
- Table extraction
- Schema/diagram extraction
- Image extraction
- Coordinate mapping for parts
AI-Powered Search
- LLaMA 3.1 8B integration with vLLM
- RAG (Retrieval-Augmented Generation) pipeline
- Semantic text search
- Vector similarity search
- Hybrid search (vector + metadata filters)
Image Vectorization
- CLIP service for image embeddings
- Visual search capability
- Cross-modal search (text ↔ image)
- Support for OpenAI CLIP and Open CLIP/LAION models
Vector Database
- Weaviate integration
- Document storage with embeddings
- Part image storage with CLIP embeddings
- Metadata filtering
- Event sourcing for audit trail
Data Pipeline
- D1: Data collection from GCS
- D2: Data processing (parsing, embeddings)
- D3: Storage in Weaviate
- MLflow integration for tracking
Frontend Interface
- React-based chat interface
- PDF viewer with part coordinates
- Parts table display
- Interactive linking (click parts in PDF to search)
Barcode Detection (Optional)
- Barcode/QR code detection
- Extraction from images

Deployment & Infrastructure

GCP Deployment
- Cloud Run deployment for services
- GPU VM deployment for CLIP and Weaviate services
- GCS integration for document storage
- Automated build and deployment scripts
Monitoring & Tracking
- MLflow for pipeline tracking
- Event sourcing in Weaviate
- Health check endpoints
- Grafana integration (optional)

Testing

CLIP Service Tests
- Unit tests for model loading
- Local integration tests
- Remote integration tests
- Health check tests
- Embedding generation tests

🚧 Features to Implement

High Priority

Enhanced Search Filters
- Price range filtering
- Stock availability filtering
- Manufacturer/model filters with autocomplete
- Category-based filtering
- Part number exact match
User Authentication & Authorization
- User login/signup
- Role-based access control (admin, user)
- API key management
- Session management
Admin Panel Enhancements
- Bulk PDF upload
- Batch processing status dashboard
- Data quality metrics
- Part metadata editor
Recommendation System
- Frequently bought together
- Compatible parts suggestions
- Replacement parts recommendations
- Related parts discovery

Medium Priority

Advanced Analytics
- Search analytics dashboard
- Popular parts tracking
- Query performance metrics
- User behavior analytics
Multi-language Support
- Internationalization (i18n)
- Multi-language document processing
- Translation capabilities
Mobile Application
- iOS app
- Android app
- Mobile-optimized search
- Camera integration for part photos
Export Capabilities
- Export search results to CSV/Excel
- PDF report generation
- Email sharing
- Print-friendly views

Low Priority

Advanced AI Features
- Fine-tuned models for specific manufacturers
- Custom model training pipeline
- Model versioning and A/B testing
- Multi-modal reasoning
Integration Enhancements
- ERP system integration
- Inventory management integration
- E-commerce platform integration
- Linear.app enhanced integration
Performance Optimization
- Caching layer (Redis)
- CDN for static assets
- Database query optimization
- Image optimization and compression

📊 Model Information

Currently Used Models

LLaMA 3.1 8B
- Purpose: Natural language generation for chat responses
- Deployment: TPU (recommended) or GPU VM with vLLM
- Provider: Meta (via Hugging Face)
BGE-Large (BAAI/bge-large-en-v1.5)
- Purpose: Text embeddings for semantic search
- Dimension: 1024
- Provider: BAAI
CLIP (openai/clip-vit-base-patch32)
- Purpose: Image embeddings for visual search
- Dimension: 512
- Provider: OpenAI
CLIP-ViT-L-14 (laion/CLIP-ViT-L-14)
- Purpose: High-quality image embeddings
- Dimension: 768
- Provider: LAION/Open CLIP
Open CLIP Models
- Purpose: Alternative CLIP models for image embeddings
- Support for various model sizes and configurations

🎯 Marketing Features

Value Propositions

✅ 15-second parts search (vs 15 minutes traditional)
✅ AI-powered semantic search for natural language queries
✅ Visual search by uploading part photos
✅ Cross-modal search (text ↔ image)
✅ Accurate part identification with coordinates in PDFs
✅ Scalable infrastructure on GCP
✅ Real-time search with low latency

Competitive Advantages

✅ Multi-modal AI capabilities (text + image)
✅ Production-ready deployment on cloud
✅ Comprehensive pipeline from PDF to search
✅ Event sourcing for audit and compliance
✅ Extensible architecture for future enhancements

Agent Prompts and Purchasing Consultation

The McHale Parts Co-Pilot agent now has access to multiple data sources and provides purchasing consultations, including: - What to buy - Quantity needed -...

Data Preparation Service

MLflow-based pipeline service for preparing RAG data from GCS PDFs.

On this page

Features Checklist ✅ Implemented Features Core Features Deployment & Infrastructure Testing 🚧 Features to Implement High Priority Medium Priority Low Priority 📊 Model Information Currently Used Models 🎯 Marketing Features Value Propositions Competitive Advantages