「動画で情報収集するのは面倒だ・・・」
「長い動画を見る時間がない・・・」
このような場合には、この記事の内容が参考になります。
この記事では、VoxScriptによってYouTubeの動画を要約する方法を解説しています。
本記事の内容
- VoxScriptとは?
- VoxScriptのインストール
- VoxScriptによるYouTube動画の要約
それでは、上記に沿って解説していきます。
VoxScriptとは?
VoxScriptとは、ChatGPTからさまざまなデータソースにアクセスできるプラグインになります。
リアルタイムにデータソースにアクセスが可能です。
データソースとしては、主に以下が対象となります。
- Google検索結果
- DuckDuckGo検索結果
- 現在の時間
- Pastebin, Github Gists, Github, REntry.coのテキストコンテンツ
- 株式や暗号通貨のニュース
- 株式の財務情報(米国)
- 株式や暗号通貨の歴史的価格データ
- ウェブサイトのコンテンツ
- YouTubeのビデオデータ
- YouTubeのビデオ検索
Google検索については、注意が必要です。
Googleで実際に検索した結果とは、若干異なっています。
ChatGPTは、デフォルトでは時間を特定することはできません。
現在時間を問うと、デフォルトだと次のように返答します。

VoxScriptを有効にすると、次のように結果を返します。

このことにより、ChatGPTに現在日時を認識させることができるのです。
そのままの流れで、次のようなプロンプトを入力するとします。

2023年は、あと何日ですか?
その結果として、ChatGPTは次のような計算を行うことが可能になります。

地味に便利です。
この日時も結局は、公開NTPなどの時間を観測できるデータソースにアクセスしているのでしょう。
このように、リアルタイムに各種データソースにアクセスできるのがVoxScriptの特徴となります。
いろいろなデータソースがありますが、個人的にはYouTubeへのアクセスが最も便利だと感じます。
YouTubeへのアクセスにより、動画の要約をChatGPTが実行可能になります。
ただし、勘違いはしないようにしてください。
VoxScriptは、動画を裏で再生などはしていません。
あくまで、テキストデータを取得しているだけです。
動画については、文字起こしのテキストをすべて取得しています。
そのテキストデータをもとに、ChatGPTが要約をしているのです。
例えば、次の動画の内容を知りたいとします。
23分なら見れないこともありませんが、まずは内容を把握しておきたいです。
このような場合に、VoxScriptを使ってChatGPTに要約をさせましょう。

この要約を見て、動画を見るか見ないかを決めても遅くはありません。
もしくは、要約だけを見て終わらせてもOK。
動画は、情報収集に利用しにくいところがありました。
しかし、VoxScriptを使えば動画も情報収集に利用可能です。
よって、VoxScriptはYouTube動画の要約のためだけでも十分に使えます。
以上、VoxScriptについて説明しました。
次は、VoxScriptのインストールを説明します。
VoxScriptのインストール
インストールの詳細は、次の記事を参考にしてください。
プラグイン名が異なるだけで、同じ要領で対応できます。
現時点では、プラグイン検索が可能になっています。
「VoxScript」と入力すれば、次のように候補が出てきます。

チャット起動時、次のようにVoxScriptを選択できればインストール成功です。

以上、VoxScriptのインストールを説明しました。
次は、VoxScriptによるYouTube動画の要約を説明します。
VoxScriptによるYouTube動画の要約
VoxScriptを有効にした状態でチャットを開きます。

まずは、検索から行います。
VoxScriptには、「YouTubeのビデオ検索」が機能として存在していましたね。

YouTubeで「ChatGPT 効率化」を検索してください。
そうすると、次のような結果をVoxScriptは表示します。

この結果も、Google検索の結果と同様にVoxScriptが独自で決めているようです。
この時のChatGPTとVoxScriptの応答は、「Used VoxScript」をクリックして確認できます。

では、検索結果から一つ選択します。
タイトルでもURLでも、どちらでもVoxScriptは対応可能です。

次の動画を要約してください。
「実際どうなの!? マーケティング部が本気でChatGPTを業務効率化に取り入れてみた。」
少しだけ待たされて、以下が表示されます。

このとき、VoxScriptが5回起動していることが確認できます。
これの意味は、中身を見た方がわかりやすいです。

まずは、1個目の「Used VoxScript」における「transcriptChunk」部分。

「文字起こし」のデータと同じですね。

「文字起こし」は、次のリンク(PC版)から確認できます。

そして、5個目の「Used VoxScript」における「transcriptChunk」部分。

「文字起こし」の最後は、以下となります。

VoxScriptが5回起動しているのは、テキストデータがそれだけ長いからです。
ChatGPTでは、1度のやり取りで渡せるデータ(トークン)が決まっています。
このことより、次の推測が成り立ちます。
VoxScript自体は、1度の処理でYouTubeからすべての「transcriptChunk」を取得できている。 しかし、ChatGPTに対して1度で渡せるデータ量ではなかった。 だから、それを5分割にしてVoxScriptからChatGPTに渡している。 その結果、VoxScriptが5回起動している。
この推測が正しいなら、ChatGPTは全データを元に要約をしていることになります。
これって、何気にスゴイことだと思いませんか?
大量のテキストをChatGPTに読み込ませているのですから。
同じことをVoxScriptを使わずにやろうとしたら、結構手間になりそうです。
そもそも、5回入力分のプロンプトをChatGPTは記憶(保存)できるのでしょうかね?
できたところで、面倒そうです・・・
それなら、VoxScriptを使った方が簡単で確実と言えます。
以上、VoxScriptによるYouTube動画の要約を説明しました。