入力画像を小さなパッチ(部分画像)に分割し、それぞれを「トークン」として扱うVision Transformer(ViT)を採用可能です。自己注意機構(Self-Attention)により画像全体の文脈を捉え、従来のCNNでは苦手だった長距離の関係性(離れた部品同士の組み合わせや全体構造)を高精度に学習します。画像分類・画像識別だけでなく、物体検出やセグメンテーション、マルチラベル分類への拡張も見据えた設計が可能です。


MyStoryの『画像・動画認識』サービスは、画像認識・動画認識・画像識別のAI技術を用いて、現場の目視チェックや映像レビューといった業務を自動化・高度化するデータ分析コンサルティングサービスです。
製造業の外観検査や不良品検知、建設・インフラのひび割れ/劣化箇所の検出、小売・物流の棚割・品出し状況の可視化、監視カメラ映像の異常検知、スポーツやエンタメ映像のプレー解析など、これまで人が目で確認していた作業をAIが支援し、品質向上とコスト削減を同時に実現します。
モデル面では、従来のCNNベースの画像分類モデルに加えて、Vision Transformer(ViT)をはじめとする最新の画像認識アーキテクチャを活用。画像認識まわりのデータ分析や機械学習モデルの設計・チューニングにおいて、大規模事前学習モデルの転移学習や自己教師あり学習を活かし、お客様のデータ量・精度要件・推論速度・運用環境(クラウド/エッジ)に応じて最適な構成を設計します。ビジネス課題の整理からPoC設計、モデル構築、評価、運用・内製化支援まで一気通貫で伴走します。
入力画像を小さなパッチ(部分画像)に分割し、それぞれを「トークン」として扱うVision Transformer(ViT)を採用可能です。自己注意機構(Self-Attention)により画像全体の文脈を捉え、従来のCNNでは苦手だった長距離の関係性(離れた部品同士の組み合わせや全体構造)を高精度に学習します。画像分類・画像識別だけでなく、物体検出やセグメンテーション、マルチラベル分類への拡張も見据えた設計が可能です。

ImageNetなどの大規模データセットで事前学習されたCNN/Vision Transformerモデルをベースに、お客様固有の画像データへ転移学習することで、教師データが限られているケースでも実務レベルの精度を狙えます。データの前処理・データ拡張・クラス不均衡への対処を組み合わせ、現場の撮影条件に近い環境でもロバストに動作するモデルを構築します。

静止画ベースの画像認識だけでなく、動画認識・行動認識にも対応可能です。フレーム単位の特徴量を時系列で扱う3D-CNNや、動画版のVision Transformer(TimeSformer等)といったモデルを用いて、「いつ・どこで・何が起きたか」を時系列で捉えます。さらに、画像・動画特徴量をセンサーデータやテキスト情報(作業ログ・検査レポートなど)と組み合わせるマルチモーダル解析により、よりリッチな異常検知・需要予測・安全管理につなげることができます。

| テーマ | 概要 |
|---|---|
| 製造業の外観検査・不良品検知 | 製品表面のキズ・汚れ・形状不良などを画像認識で自動検査し、検査工数の削減と検査品質の平準化を実現。人手検査のばらつきを抑えつつ、不良の見逃しや過検知をバランス良く抑制します。 |
| インフラ・建設物の劣化・異常検知 | 橋梁・トンネル・道路・建物などの画像やドローン映像から、ひび割れ・錆・剥離などの劣化箇所を自動抽出。点検記録と組み合わせることで、優先的に補修すべき箇所の可視化や、点検頻度の最適化に貢献します。 |
| 小売・物流における棚割・在庫可視化 | 店舗棚やバックヤードの画像から、商品の陳列状況・フェイス数・欠品箇所を自動認識。棚割遵守率や在庫状況を定量化し、店舗オペレーションの効率化や本部のリモートマネジメントを支援します。 |
| 監視カメラ映像の異常行動検知・安全管理 | 工場・物流倉庫・店舗・公共空間などのカメラ映像から、転倒・侵入・滞留などの異常行動を検知。危険エリアへの立ち入りや保安上のリスクを早期に把握し、アラート通知や記録映像の自動ピックアップに活用します。 |
| 顧客行動・接客品質の可視化 | 来店客の動線や滞在時間、売場ごとの視認・接触状況などを画像・動画認識で把握し、店舗レイアウト最適化や販促施策の改善に活用。対面接客の様子と顧客満足度データを紐づけることで、接客品質向上のPDCAも回しやすくなります。 |
| スポーツ・エンタメ映像のプレー解析・ハイライト自動生成 | 試合映像から選手・ボール・プレーシーンを自動抽出し、スタッツ生成やハイライトクリップの自動作成に活用。スポーツアナリティクスを専門とする自社メディア『Deep Sports』での知見も活かし、競技特性を踏まえたモデル設計が可能です。 |
入力された画像を、「正常/異常」「製品A/製品B/その他」「カテゴリラベル(例:車・人・建物・植物)」といったクラスに自動分類するタスクです。最も基本的な画像認識タスクであり、外観検査・商品判別・属性推定など多くの業務で利用されています。
MyStoryでは、ResNet・EfficientNetなどのCNNモデルと、Vision Transformerベースのモデルを比較し、精度・推論速度・モデルサイズのバランスを見ながら最適な構成を提案します。転移学習やデータ拡張を活用しつつ、クラス不均衡への対処や、誤判定リスクへの配慮も含めて設計します。

画像内の「どこに」対象物が存在するかを矩形で特定する物体検出と、ピクセル単位で領域を塗り分けるセグメンテーションタスクに対応します。ライン上の複数製品を同時にチェックしたい場合や、欠陥の位置・大きさまで把握したい場合に有効です。
YOLO系・Faster R-CNN系などの物体検出モデルや、U-Net・SegFormerといったセグメンテーションモデルに加え、Vision Transformerを組み込んだハイブリッド構成も選択肢に含めます。ラベリングコストを抑えるための半自動アノテーションや、アクティブラーニングによる効率的な教師データ整備もご提案可能です。

動画を対象とし、「どのタイミングで何が起きたか」を認識するタスクです。転倒・接触・侵入などの安全上の異常行動検知や、スポーツにおけるプレー種別の分類、作業手順の遵守状況のチェックなどに活用できます。
フレームごとの画像特徴量を時系列に処理する3D-CNNや、Transformerベースの動画モデルを用い、動きやコンテキストの変化を捉えます。カメラ位置・フレームレート・解像度など実際の撮影条件を考慮し、現実的な処理時間と精度のバランスを設計します。

帳票・伝票・レシート・検査票などの紙/PDFの画像から、文字情報やレイアウト構造を抽出するタスクです。既存のOCRエンジンの結果に対して、画像認識モデルで補正・フィルタリングを行うことで、読取精度向上やレイアウト理解の高度化を図ることも可能です。
画像認識と自然言語処理(NLP)を組み合わせることで、単なる文字起こしを超え、「どの項目にどの値が書かれているか」「どの欄が未記入か」といった構造化データへの変換を支援します。

本サービスでは、CNN・Vision Transformer・動画認識モデルなど複数のアーキテクチャを候補とし、ビジネス要件(精度・速度・コスト・運用環境)に応じて最適な組み合わせを設計します。単一のアルゴリズムありきではなく、「どのタスクにどのモデルが適しているか」を比較検証しながら進めます。
また、データ収集・アノテーション設計・評価指標・モデル更新方針を含めたMLOpsの観点から、実運用で継続的に価値を出すための仕組みづくりも重視しています。PoCで終わらない、現場に根付く画像認識・動画認識基盤の構築を目指します。

画像認識・動画認識・画像識別は、モデルを作るだけでは価値につながりません。「どの業務を置き換えるのか」「検査員や現場オペレーションとどう共存させるのか」「誤検知・見逃しのリスクとどう付き合うのか」といったビジネス設計まで含めて考える必要があります。
MyStoryの『画像・動画認識』サービスでは、ビジネス課題の整理から、PoC、本番運用に向けたシステム設計、現場への展開・内製化支援まで一気通貫でご支援します。スポーツアナリティクス・マーケティング・人事・価格最適化など、多様な領域で培ったデータ分析・機械学習のノウハウを活かし、「現場で本当に使われる」画像認識・動画認識の仕組みづくりを重視しています。
画像・動画認識プロジェクトの委託費用は、①対象となるタスクの種類(分類・検出・動画認識など)、②対象画像・動画の点数・解像度・撮影条件、③必要なアノテーション(教師データ)量、④求めるアウトプットの粒度(PoCレベルか本番運用レベルか)、⑤既存システムとの連携範囲によって変動します。
小規模なPoC(限定的なラインの外観検査を対象に、既存カメラの映像で精度検証を行うなど)であれば数百万円台から、複数拠点・複数ラインにまたがる本番導入や、動画認識・マルチモーダル解析を含む大型プロジェクトでは数百万円〜数千万円規模が一般的なレンジです。初回ヒアリング時に、現状の撮影環境・データ量・目標KPI・制約条件を整理し、スモールスタートも含めた段階的なお見積りをご提示します。
→ 業務プロセス(検査・点検・店舗運営・安全管理など)を一緒に棚卸しし、「人が目視で判断している箇所」「映像を見返して判断している箇所」を洗い出すところからご支援します。その上で、画像認識・動画認識がフィットしやすい箇所とそうでない箇所を整理し、優先度の高いユースケースから検討します。
→ 事前学習済みモデルの転移学習や、半自動アノテーション・アクティブラーニングなどを組み合わせることで、限られた教師データでも精度を出す工夫が可能です。PoC段階では、ラベリング対象を絞り込みながら、どの程度のデータ量でどのくらいの精度が出るかを検証します。
→ モデルの再学習手順や監視すべき指標、運用フローをドキュメント化し、社内メンバー向けのトレーニングや技術移管もセットでご提供可能です。必要に応じて、定期的なモデルヘルスチェックや改善提案といった伴走支援メニューもご提案します。