AIに仕事をとられる前にAIを手下にしようとしてみる話その１

KASAです
めっちゃ久しぶりの投稿です

最近GoogleのNotebookLMという大規模言語モデル（LLM）を利用した一般的な生成系AIとはちょっと異なるものがあるのを知りました
プロジェクトのドキュメント作成や修正、コードレビュー、テストケースの作成など色々応用できそうで面白そうだったので
Geminiさんに色々聞きながら要点をまとめてみました

手下にするならまず相手の素養をしらなくては…

Geminiさん曰く（以下Gemini さんの出力を直接コピペ）

ーーーーー＞

NotebookLMの分類と特徴

NotebookLMは、ユーザーがアップロードした資料（ノート、ドキュメント、PDFなど）に基づき、高度な情報処理を行うツールです。

1. 基本は検索・整理・要約ツール

NotebookLMのコア機能は、ユーザーが提供したデータ（ソース）のみを参照し、以下のタスクを実行することです。

要約: ドキュメントの内容を簡潔にまとめる。
質問応答: ドキュメントの内容に基づいた質問に回答する。
整理: ドキュメントから関連するトピックやアイデアを抽出し、新しいノートを作成する。

これらの機能は、背後にある大規模言語モデル（LLM）の推論能力を活用していますが、主要な目的は新しいコンテンツをゼロから創造することではありません。

2. 生成系AI技術の活用

NotebookLMが「生成系AI」の範疇に含まれるのは、その出力がテキストの生成に依存しているためです。

テキスト生成: 質問への回答、要約、ブレインストーミングの提案などは、すべてLLMが新しい文章を生成することで成り立っています。
基盤技術: NotebookLMは、GoogleのGeminiモデルなど、強力な生成AIモデルをバックエンドとして利用しています。

3. ️ 独自の制約（グラウンディング）

純粋な生成AIとの最大の違いは、NotebookLMの**「グラウンディング（根拠づけ）」**にあります。

NotebookLMは、アップロードされた特定のソースドキュメントに回答の根拠を限定します。これにより、AIが事実とは異なる情報（ハルシネーション）を生成するリスクを減らし、情報の信頼性と**トレーサビリティ（追跡可能性）**を確保しています。

したがって、NotebookLMは、**「情報を整理・統合する」**というユーザーの生産性向上に特化し、そのために生成AI技術を応用したツールと言えます。

＜ーーーーー

だそうです

何が気になるかといえば、「ハルシネーション」もそうですが、
「アップロードされた特定のソースドキュメントに回答の根拠を限定します」という点です
プロジェクトを進めるとき、AIの回答としてほしいもののほとんどがそのプロジェクトに関して書かれたドキュメントから得られる情報であって
外部の見も知らないサイトの情報ではないということ
その点においてNotebookLMは他の生成系AIとは一線を画している感じです。
たとえばNotebookLMに
「辺の長さが5cmと10cmの長方形の面積は？」と聞いても

NotebookLMさん曰く

ーーーーー＞

ご質問ありがとうございます。

ご提示いただいた資料には、長方形の面積の計算に関する情報は含まれておりませんでした。

一般的に、長方形の面積は「縦 × 横」の公式で計算できます。この情報に基づいて計算すると、辺の長さが5cmと10cmの長方形の面積は以下のようになります。

5cm × 10cm = 50cm²

50平方センチメートルです。

なお、この回答はご提示いただいた資料に基づいたものではなく、一般的な数学の知識によるものですので、その点ご承知おきください。

＜ーーーーー

と回答できないと言ってきます
まあ一般論をあとから述べてくれますが…
なので、質問の意味を推論を行うための知識として長方形の公式は知っている（利用する）が、与えられた資料にはその辺のことは書かれていないので回答できない
ということが理解できます。
これはプロジェクトの作成済の資料から新たな資料を作成するときにはありがたいことです（他からの情報が混ざらない）
新たに追加したいことは、別途Geminiさんと相談して自分で追加していけば良いので使い分けが重要ですね
ではどんなファイル形式に対応しているか聞いてみましょうGeminiさん曰く

ーーーーー＞
NotebookLMでアップロード可能なファイル形式とソースタイプは多岐にわたります。これは、ユーザーが持つ多様な資料を「単一の知識ベース」として統合できるように設計されているためです。主な対応フォーマットとソースタイプは以下の通りです。

対応する主要なファイルフォーマット

NotebookLMは、ローカルファイルをアップロードしたり、Googleサービスから直接インポートしたり、ウェブ上のコンテンツを参照したりできます。

ドキュメント・テキスト系

Google ドキュメント (Google Driveから直接インポート)
PDFファイル
テキストファイル (.txt)
マークダウンファイル (.md)
Google スライド (Google Driveから直接インポート)
画像 (.png, .jpg, .jpeg) – 最大10MBまで
コピー＆ペーストしたテキスト（直接入力）

ウェブ・メディア系

ウェブサイトのURL: ページからテキストコンテンツのみをインポートします。（画像、埋め込み動画、ペイウォールのあるページは対象外）
公開されているYouTube動画のURL: 動画のテキスト文字起こし（トランスクリプト）のみをインポートします。
音声ファイル: ローカルの音声ファイル（MP3、WAV、M4Aなど）をアップロードすると、自動的に文字起こしされ、そのテキストがソースとして使用されます。

＜ーーーーー

と大層な数を上げてくれますが、肝心のExcelやWordなどがありません
そこはExcelなどのPDF出力かGoogleドキュメントを使えばなんとかなりそうです

ここでGeminiさんの回答では直接ふれていませんが注意が必要なことがあります
回答用のデータは「プレーンテキスト化したものを利用する」という点です
ここは結構重要で、アップロードしたデータのどこまでが理解されて、回答用のデータとして取り込まれているかがわかりにくい点です
図などテキストではない部分はOCRで文字化されるのですが、OCRの対象にされないこともあり、
どういった場合に対象からはずれるのかGeminiさんに訪ねましたが明確な回答は得られませんでした（問い方の問題かもですが）
とりあえず、不安な部分に記載されていることをNotebookLMに問い合わせてその部分の回答が得られるかである程度確認はできます

また「テキスト」といっても「プレーンテキスト」というのも重要で、色やサイズはそれがどういった意味を示そうとしているかの判断としては利用されますが
こちらからの問い合わせには利用できません。
なので「赤字を抜き出して」といった指示は有効ではありません（Geminiはいけます）
なお文字列が日時を表すものと思われた場合、「日曜日は赤色」と知識として判断しその部分を抜き出す可能性はあります（その場合はその旨通知してくれます）
上記の様な場合はGeminiを使って赤文字にマークをつけて識別できるようにするなど前処理を考える必要があります
「見出し（と思われる部分）だけ出力して」は有効ですが、「見出し」の定義を行わないままの場合だとNotebookLMの解釈と一致するかは不明です
ExcelなどをGemini でテキスト化してアップロードする場合はなるだけ元の情報を残すためにマークダウンを利用するなどして、情報の欠落を減らすことも考えましょう
情報のテキスト化は見た目の情報が欠落していくので、落としたくない情報はテキスト化するときに指示（プロンプト）の工夫が必要です

ここまでGeminiさんに頼ってNotebookLMの特徴と基本的な注意点をかいてみました
まだまだ注意点はあるのですが本日はここまで
本来ならGeminiさんに投稿の体裁を整えてもらうと良いのでしょうが面倒なのでしていません　f(^^;

次回は結構イケてるOCRの機能についてGeminiさんに教えてもらうつもりです
そのうち簡単な処理の例もアップしたいと思います（なんかノーコードツールより簡単かも）

▼この記事がいいね！と思ったらブックマークお願いします