🎯 研究概要
研究目的
画像処理における色情報変更システムの開発から始まり、YOLO・BLIP・CLIP・WordNetを組み合わせた高精度な意味カテゴリベース画像分類システムの構築
📋 開発プロセス
- 基盤技術: OpenCV + tkinter による画像処理システム
- 発展技術: YOLO物体検出 + CNN分類
- 最終システム: BLIP-CLIP-WordNet統合分類
- データセット: 10種類の特化型データセット自動選定
- デプロイ: Vercel クラウドホスティング
🎨 メイン機能
エクスプローラからの画像読み取り、ピクセル単位の色情報配列処理、リアルタイム画像変更、RGB/HSV対応
🔧 追加機能
YOLO物体検出、マウス選択による物体指定、BLIP自動キャプション生成、CLIP意味理解、WordNet階層分析
📊 信頼度機構
低信頼度検出時のBLIP再生成、確信度に基づく自動フィードバック
⚙️ 技術実装詳細
アーキテクチャ概要
基盤モデルCLIP (ViT-B/32)をベースにWordNet階層マッピングを特化層として統合した高精度画像分類システム
64
バッチサイズ
1e-4
学習率
9
主要ライブラリ
📦 主要ライブラリ
- CLIP: 画像-テキスト意味理解
- WordNet: 語彙階層分析
- YOLO: 物体検出システム
- BLIP: 画像キャプション自動生成
🔄 処理パイプライン
- Step 1: 画像選択・読み込み
- Step 2: YOLO物体検出
- Step 3: BLIPキャプション生成
- Step 4: CLIP意味理解
- Step 5: WordNet階層分析
- Step 6: 結果出力
⚙️ 開発情報
- 言語: Python
- 開発期間: 3ヶ月 (2025/3-6)
- GPU: Tesla V100
- 最適化: AdamW