Google Cloud Vision APIを試してみた

Google Cloud Vision APIとは?

Cloud Vision API を使用すると、開発するアプリケーションの中で簡単に画像検出機能を統合できます。この機能の例としては、画像ラベリング、顔やランドマークの検出、光学式文字認識(OCR)、不適切なコンテンツへのタグ付けがあります

と、Googleでは説明しています。

要するにGoogle先生に画像をお渡しすると、この画像は「テキストですね」「数値ですね」「四角いですね」「並行ですね」「ゲームですね」「クロスワード」ですねといった具合に回答してくれます。(以下の画像をラベリングした結果です)

その他、ORCで文字列を認識して読み取らせたり、顔を認識させたりも出来るようです。

今回これを試してみる動機は、ナンプレをプログラムによって解を求めるために、設問をカメラで撮影し自動的に読み取る部分、すなわち数値の認識をさせるためで、どのくらい使えそうかなというのを確かめるというものです。(実際には採用を見送りましたが、その過程・記録を公開します)

もう少し詳しく説明すると

  1. カメラで問題を撮影
  2. 撮影した写真(画像)をVision APIにかけて数値を認識する
  3. 解答ロジック用のセルに読み取れた数値をセット
  4. 必要に応じて人が訂正し
  5. 自動で問題を解く

という部分の、#2が本稿の目的の元です。

Cloud Vision APIを試す

参考にするドキュメントは公式ドキュメントです。

ドキュメント:

https://cloud.google.com/vision/docs/quickstarts?hl=ja

以下の流れで検証します。

  1. APIを設定する
  2. API Explorerの使用
  3. クライアント・ライブラリの使用

つまり、#1でAPIを使用するための準備、セットアップをし、#2でAPIを体験し、その後#3で実際にプログラムから呼び出してみるという流れです。

Vision API を設定する

参考にするのは公式ドキュメントの以下のページ:

https://cloud.google.com/vision/docs/setup?hl=ja

プロジェクトを設定する

まずはGoogleのコンソールでプロジェクトを作成からです。

ドキュメントに設置されたプロジェクトセレクターのページに移動ボタンをクリック。

プロジェクトを作成をクリックします

適当なプロジェクト名を入力して作成をクリックします

出来上がると、以下のようなコンソールが表示されるはずです。支払いの設定が為されていることがAPI利用の前提なので赤枠内の請求の詳細を表示をクリックします

正確な確認方法はマニュアルに記載の内容を確認して欲しいのですが、おそらくこんな風にクレジットカードが登録されていたらOKかなと思います。

APIを有効にする

マニュアルに戻ります。APIを有効にするをクリックします。

Googleのコンソール表示されますので、さきほど作成したプロジェクトを選択して続行をクリックします

認証情報に進むをクリックします。

Cloud Vision APIが選択されているのを確認しいいえ、使用していませんを選択し、必要な認証情報をクリックします。(もしAppEngineやCompute Engineを使われる方はそれに応じて対応してください)

認証情報の追加を行いますが、ここではフル権限を与えます。(必要最低限権限を付与するという話は、ここでの目的と外れますので別途学習ください)

サービスアカウント名を入力し、ロールをProjectオーナーと選択することでフル権限を与えます。次へをクリック

jsonファイルがダウンロードされ、以下が表示される閉じるをクリックします。

これで、『API Explorerの使用』へ進む準備が完了しました。

Always Basics
ベテランコピペプログラマー。