AI(人工知能)& IoT

AI(人口知能)とIoT(モノのインターネット)について、少しずつ紹介していきます。

AIとIoTについて、ともに学びましょう。

FramePackは、スタンフォード大学の研究チームが開発した最新のオープンソース動画生成AIです。これまで数秒程度しか作れなかったAI動画を、数分単位で生成できるようにする画期的なツールです。

この記事では、FramePackの仕組みや性能、実際に作成したミュージックビデオの例を、画像・動画付きで紹介します。

FramePackの仕組み:AIによる次フレーム生成

FramePackは、最初の画像(またはAIが作った初期フレーム)とテキスト指示から、次のフレームを予測して1枚1枚積み上げていくAIです。

単なるフレーム補間ではなく、ゼロから新しいフレームを生み出すのが大きな特徴です。これを支えるのはディフュージョンモデルというAI技術。過去のフレームの情報を参照しつつ、ノイズから段階的に映像を生成します。

最大の革新は、動画が長くなってもメモリ使用量が増えない点です。古いフレームの情報は圧縮され、重要な最新フレームのみが高解像度で保持されます。結果、6GB以上のVRAMを持つGPUなら、1分以上の長さの動画生成が可能になりました。

性能比較:RTX 4090デスクトップ vs RTX 4070 Superラップトップ

以下は実際のベンチマーク結果です。

  • デスクトップPC(NVIDIA RTX 4090, 24GB VRAM)
    120秒(2分)の動画生成にかかった時間は約2時間。1フレーム約2〜2.5秒。
  • ノートPC(NVIDIA RTX 4070 Super ラップトップ, 12GB VRAM)
    動画1秒の生成に約5分。単純計算で、2分動画なら約10時間。

ノートPCでも動作するのは大きな魅力です。速度は落ちますが、個人でも長尺AI動画を作れる時代が来ています。

実例:YouTubeショート「光の中の奇跡」

ChatGPT Image 2025年5月7日 16_52_32
       ChatGPTで生成した元画像

以下の動画は、上記の画像からFramePackとRTX 4090を使って生成した120秒のAI動画です。

テーマは教会で賛美する少女の物語。音楽は別途編集で加えています。

動画の説明欄では:

  • この動画はすべてAI生成。
  • 作詞:ChatGPT、作曲・歌唱:Suno.AI、映像生成:FramePack。
  • 高性能GPUを使って個人環境で長尺生成を実現。

映像は少女の動き、光の演出、カメラのズームやパンが自然に組み合わさり、音楽と視覚が見事に調和しています。

まとめ:AI動画生成の未来

FramePackは、家庭用GPUでも長尺のAI動画生成を可能にした革新的なツールです。RTX 4090のようなハイエンド環境なら2時間程度、RTX 4070 Superノートでも時間をかければ実現可能です。

今後、最適化が進めばさらに長尺・高画質のAI動画が一般ユーザーの手に届く日も近いでしょう。個人がAIで映画のような映像を作れる時代が、すぐそこまで来ています。

近年、AI(人工知能)の進化は私たちの想像を超えるスピードで進んでいます。2025年の今、AIは単なる流行語ではなく、私たちの生活やビジネス、社会を変革する存在となっています。

🚀 1. 生成AIの進化と新モデルの登場

2024年末から2025年にかけて、生成AIはさらに進化を遂げました。
OpenAIは最新モデル「GPT-4.1」を公開し、APIの利用コストも大幅に引き下げ。これにより、スタートアップから個人開発者まで、より多くの人々が高性能AIを活用できる時代が到来しています。

さらにGoogleの「Gemini 2.5 Flash」やAnthropicの「Claude Research」など、各社から続々と新モデルが登場し、文章生成、画像生成、音声合成などの精度・応用範囲が飛躍的に拡大しています。

■注目ポイント

* GPT-4.1:自然な会話と高度な推論能力
* Gemini 2.5 Flash:マルチモーダル(テキスト・画像・音声)対応
* Claude Research:安全性と倫理性を強化

🤖 2. エージェント型AIの台頭

AIは今、「話すだけの存在」から「行動する存在」へと進化しています。
エージェント型AIは、ユーザーの代わりにタスクを実行し、自律的に意思決定するAIです。
たとえば、

* スケジュール調整や旅行の予約
* リサーチや要約作業の自動化
* ECサイトでの最適商品提案

OpenAIの「o3」モデルやGoogleの「Gemini 2.0」は、この分野のリーダーで、私たちの生活をさらに効率化・快適化するポテンシャルがあります。

🌍 3. AIと国家戦略:国際的な協力と競争

2025年2月の「AIアクションサミット」では、各国がAIの活用と規制について協議しました。
AIは安全保障、経済成長、環境問題、医療、教育など、あらゆる分野に影響を与えるため、国際的なルール作りが急務となっています。

特に注目すべきは、

* AIの倫理と透明性
* 環境負荷の低減
* 労働市場への影響と雇用創出

です。

● 4. 日本のAI政策:AI振興法案の可決

日本でも2025年、AIの研究開発や人材育成を支援する「AI関連技術の研究開発・活用推進法案」が成立しました。

この法案には、

* 研究開発資金の拡充
* 学校教育・社会人教育へのAI導入
* 倫理的ガイドラインの策定

といった施策が盛り込まれ、AI先進国としての地位を強化する狙いがあります。

🔮 5. AIの未来と私たち

AIは、私たちの暮らしを豊かにし、ビジネスを革新し、社会課題を解決する鍵を握っています。ただし、便利さの裏には「使い方の責任」も伴います。

私たち一人ひとりがAIを正しく理解し、賢く付き合うことが、これからの時代を生きる上での大切なテーマです。

近年、AI(人工知能)の技術は急速に進化し、私たちの生活やビジネスに大きな影響を与えています。しかし、その進化に伴い、AIがもたらすリスクや課題も顕在化しています。本記事では、生成AIを中心に、AI技術がもたらすリスクと、その対策について解説します。

生成AIのリスク

生成AIは、膨大なデータから学習し、テキストや画像、音声を生成する能力を持っていますが、その一方でいくつかのリスクも抱えています。

1. バイアスと差別的な出力
AIが学習に使用するデータが偏っている場合、生成される結果にもバイアスが含まれる可能性があります。これにより、特定のグループや性別に対する差別的な結果が生じることが懸念されています。

2. ハルシネーション
生成AIは、事実に基づかない情報をもっともらしく生成することがあり、これを「ハルシネーション」と呼びます。このリスクは、特に生成AIを利用して情報を取得する際に、誤った情報が拡散される可能性を高めます。

3. 個人情報の漏洩
生成AIの利用において、ユーザーがプロンプトとして入力した個人情報や機密情報が、AIからの出力を通じて漏洩するリスクも指摘されています。

社会・経済的リスク

生成AIの普及は、社会や経済にもさまざまな影響を及ぼします。

1. 偽情報・誤情報の拡散
生成AIを悪用して作られたディープフェイクや偽情報が、SNSやメディアを通じて拡散される事例が増えています。例えば、政治的なプロパガンダや選挙への影響、株価操作などが問題視されています。

2. 著作権侵害のリスク
生成AIは、既存のデータを学習して新たなコンテンツを生成しますが、この過程で著作権や知的財産権の侵害が懸念されています。特に、生成された画像やテキストが既存の作品と類似している場合、法的な問題が発生する可能性があります。

対策と今後の展望

これらのリスクに対して、政府や企業はさまざまな対策を講じています。

1. 技術的対策
生成AIによる偽情報の拡散を防ぐために、電子透かし技術やAI生成物の判定ツールが開発されています。これにより、生成AIによるコンテンツがどのように作られたかを確認しやすくすることが目指されています。

2. 法規制とガイドライン
欧州連合(EU)は「デジタルサービス法(DSA)」や「AI法」を通じて、AI技術の安全性や透明性の確保を進めています。また、米国や日本でも、生成AIに関する法規制やガイドラインの整備が進められています。

結論

生成AIは、私たちの生活を大きく変える可能性を秘めた技術ですが、その利用には慎重な姿勢が求められます。技術の進化とともに、社会全体でのリスク対策が重要となるでしょう。今後、AI技術がどのように進化し、どのように社会に影響を与えるかを注視していく必要があります。

引用:令和6年版 情報通信白書

近年、AI(人工知能)の進化が加速しており、その影響は私たちの生活やビジネスのあり方に大きな変革をもたらしています。特に2022年以降、急速に普及した「生成AI」は、その革新性と実用性から多くの注目を集めています。この記事では、生成AIの進化の経緯とそのインパクトについて解説します。

AIの進化の歴史

AIの歴史は1950年代に遡ります。当初は「推論」と「探索」の技術に焦点が当てられ、コンピュータが人間のように問題を解決することを目指していました。しかし、当時のコンピュータの計算能力には限界があり、実用化には至りませんでした。

その後、1980年代にはコンピュータの性能向上に伴い、「エキスパートシステム」と呼ばれる技術が登場し、AIの研究が再び活発化しました。しかし、この時期も処理能力の不足やデータの取り扱いの難しさから、AIの普及は限定的でした。

2000年代に入り、第3次AIブームが到来しました。このブームは、インターネットの普及とビッグデータの活用が後押しし、ディープラーニング(深層学習)などの新技術の登場により、AIが実社会で広く使われるようになりました。AIは画像認識や自然言語処理など多くの分野で飛躍的に進化し、その可能性が大いに広がりました。

生成AIの登場とその影響

2022年からは「第4次AIブーム」とも言われる時代が到来しました。この時期に登場した生成AIは、ディープラーニング技術を基盤に、テキストや画像、音声などの多様なコンテンツを自律的に生成する能力を持っています。生成AIは、特別なスキルを持たないユーザーでも簡単に利用できる点が特徴です。

生成AIの代表例としては、OpenAIの「ChatGPT」が挙げられます。ChatGPTは、公開からわずか5日で100万人のユーザーを獲得し、その後2か月で1億人を突破するという驚異的な普及スピードを記録しました。この技術は、広告やマーケティング、コンテンツ制作など、幅広いビジネス分野での応用が期待されています。

生成AIがもたらす経済効果

生成AIの普及により、これまでAIが適用しづらかった領域でも、業務の効率化や新たなビジネスチャンスが生まれています。例えば、カスタマーサポートや建設分野では、生成AIが業務の自動化や効率化を推進し、さらなる生産性向上が期待されています。

ボストンコンサルティンググループの予測によると、生成AIの市場規模は2027年までに1,200億ドルに達すると見込まれています。特に、金融・銀行・保険、ヘルスケア、コンシューマー分野で大きな影響を与えるとされており、今後の経済成長を牽引する技術として注目されています。

生成AIの可能性とリスク

生成AIの発展は、私たちの生活やビジネスに多くのメリットをもたらす一方で、プライバシーの侵害や偽情報の拡散など、いくつかのリスクも伴います。そのため、生成AIの活用にあたっては、適切な規制とルールの整備が求められています。技術の進化を最大限に活かしつつ、そのリスクにも十分に対処することが、今後の社会において重要な課題となるでしょう。

結論

生成AIは、これからの社会や経済を大きく変える可能性を秘めた技術です。その急速な進化と普及は、私たちの生活やビジネスのあり方を大きく変えることが期待されています。しかし、その一方で、リスクへの対応も必要であり、技術の発展と共に社会全体での取り組みが求められます。今後、生成AIがどのように社会に浸透し、私たちの未来をどのように形作るのか、その行方に注目が集まっています。

引用:令和6年版 情報通信白書

■画像生成AI『SeaArt.AI』のサイト下記をクリックすると、画像生成AISeaArt.AI』のサイトが表示される



20240211ScreenShot00001
創作ボタンをクリックすると、次のような画面に移る。
20240211ScreenShot00002

■画像の生成

1.モデルの選択
20240211ScreenShot00003

赤で囲んだ部分をクリックすると、リストが表示される。
20240211ScreenShot00004
今回は「DreamShaper」を選択する。

2.プロンプトを入力する。

「ふり向いてイエス様を見つけ、うれしそうに微笑んだあどけない少女、リアル」
3.生成
20240211ScreenShot00011
画面上の上記のマークをクリックすると、画像の生成が開始される。
しばらくすると画像が生成される。
20240211ScreenShot00007

※生成される画像は、同じプロンプト、同じモデルでも毎回異なる。

今回は、左の画像をクリックすると、拡大表示される。

20240211ScreenShot00008
画面の右には、生成された画像の情報が表示されている。

ダウンロードをクリックすると、自分のPCに画像がダウンロードされる。

■動画の生成
20240211ScreenShot00009

右上の「動画生成」をクリックすると、次のような画面に移る。

20240211ScreenShot00010
「創作」ボタンをクリックすると、動画生成が始まる。
32cfa129502e756494ee22b8ae464718029ec7bc
ダウンロードすると、自分のPCにMP4形式で保存される。
生成された動画は、元の静止画とは趣が若干異なる。
※動画生成のプロンプトは入れられないので、どのような動画になるかは、生成されてみないとわからない。

前回投稿と同じことを、画像生成AI『DALL・E 2』を使ってやってみた。
『DALL・E 2』では、文はダメな場合が多い。単語で区切った方がいいようだ。

【マルコの福音書3章8節】
エルサレムから、イドマヤから、ヨルダンの川向こうやツロ、シドンのあたりから、大ぜいの人々が、イエスの行っておられることを聞いて、みもとにやって来た。
And many people came to Him from Jerusalem, from Idumaya, from across the Jordan, from Tullo, and from Sidon, when they heard what Jesus was doing.
20230302SS00001

「many people  Jerusalem Idumaya Jordan Tullo Sidon Jesus」
20230302SS00007

【マタイの福音書3章16節】
天が開け、神の御霊が鳩のように下って、自分の上に来られるのをご覧になった。
He saw the heavens open and the Spirit of God descending like a dove and coming upon him.
20230302SS00002

【ルカの福音書1章47節】
わが霊は、わが救い主なる神を喜びたたえます。
My spirit rejoices in God my Savior.
20230302SS00003

「spirit rejoices God」
20230302SS00004

英訳は前回同様に『DeepL』を使用した。

聖書の聖句を英訳して、話題の画像生成AI『Midjourney』にインプットして、画像を作ってみた。

【マルコの福音書3章8節】
エルサレムから、イドマヤから、ヨルダンの川向こうやツロ、シドンのあたりから、大ぜいの人々が、イエスの行っておられることを聞いて、みもとにやって来た。
And many people came to Him from Jerusalem, from Idumaya, from across the Jordan, from Tullo, and from Sidon, when they heard what Jesus was doing.

many


【マタイの福音書3章16節】
天が開け、神の御霊が鳩のように下って、自分の上に来られるのをご覧になった。
He saw the heavens open and the Spirit of God descending like a dove and coming upon him.

heavens_open


【ルカの福音書1章47節】
わが霊は、わが救い主なる神を喜びたたえます。
My spirit rejoices in God my Savior.


spirit_rejoices

ちなみに英訳には、『DeepL』を使っている。

 GPUの高性能化の恩恵もあり、俗に「ゲーミングパソコン」と呼ばれるものでも、AIの学習をさせることはできるが、AWS(Amazon Web Services)、Microsoft Azure、Google Cloud(GCP)、IBM Cloudなど、クラウド上のAIサービス用いることが多い。

【クラウドAI】
 クラウドサーバー側でデータの学習と予測を行い、末端のエッジデバイスとの間で通信を行うという仕組みで、クラウド側で処理を行う仕組みから、「クラウドAI」と呼ばれる。
cloud-ai

 この仕組みにおいては、クラウドサーバーの豊富なコンピュータリソースを用いることができるが、AIによる予測を行った後のプロセスで通信が発生するため、この際の通信遅れが致命的な問題になるようなリアルタイム性が求められる場面、例えば最近注目されている自動運転などでは使うことができない。

 とはいえクラウドであれば大量のデータ処理が可能であるため、通信が遅れても問題が生じない用途においては、非常に表現力の高いAIアルゴリズムであるディープラーニングなどは適している。

【エッジAI】
 クラウド側で行っていた予測をエッジデバイス側で行うようにしたAIを、「エッジAI」と呼ぶ。
edge-ai

 この仕組みにおいては、クラウド側のAIで学習した結果として生成される学習モデルをエッジ側に置くことにより、予測のみをエッジ側で処理する。

 予測をエッジ側で行うことにより、従来のAIにおける通信遅れなどの問題を解消することができる。例えばAIを機械の制御に用いるケースにおいては、予測をエッジ側で行うことができれば、予測から制御のプロセスにおいては通信が介在しないため、通信遅れが問題になることがない。

 より末端の機器(エンドポイント)側でデータ処理を行い、産業用機械や自動運転車などに必要とされるリアルタイム性を確保することができるが、クラウド側でデータの学習を行うため、セキュリティ上の問題でクラウドにデータを上げたくないといったニーズに対しては課題が残る。

 またデータの学習を行ってから学習モデルをエッジ側に生成する際には通信が必要とされるため、学習から予測までを完結してリアルタイムに行うことはできない。

【学習も予測も行うエッジAI】
 更なるハードとソフトの進展により、エッジデバイス側で予測だけではなく学習まで行うことができるエッジAIが出てくるであろう。
aising-edge-ai


出典(引用)
AISing:"エッジAI"とは?https://aising.jp/what-is-edge-ai/

 「半教師あり学習(Semi-Supervised Learning)」とは、「教師あり学習(Supervised Learning)」「教師なし学習(Unsupervised Learning)」の中間的な学習方法。

教師あり学習(Supervised Learning)
 「教師あり学習」は、学習データにおいてすべてラベルが付いている状態。

教師あり学習


 「教師あり学習」ではラベル付きデータのみを用いて学習を行うが、ラベル付きデータは大量に用意するのは困難であるとされる。一方でラベルなしデータは比較的簡単に手に入れることができる。学習データにおいてラベルが付いていない状態で学習をすることを「教師なし学習」いう。

半教師あり学習(Semi-Supervised Learning)
 「半教師あり学習」は、学習データにおいてラベルが付いているものと付いていないものが混在している状態で学習をすること。

半教師あり学習


 「半教師あり学習」では、少数のラベル付きデータと多数のラベルなしデータを用いることで、よい分類器を比較的簡単に作ることができる。

半教師あり学習の分類
 「半教師あり学習」は大きく分けて

・半教師あり分類学習
・半教師ありクラスタリング

 の2種類がある。

 「半教師あり分類学習」は、教師あり学習を拡張したもので学習データに必要となるラベルが一部にのみ付加されたもので学習をし、アノテーションにかかるコスト削減を目指す。

 対して「半教師ありクラスタリング」は、一部のデータ間にそれらが同じクラスタに属するかどうかの情報が付加されたもので学習をし、精度向上を目指す。

半教師あり分類学習の手法を実現する方法
また、「半教師あり分類学習の手法を実現する方法」として、下記のような手法が存在する。

・自己訓練 (Self-Training)
・半教師あり混合ガウスモデル (semi-supervised Gaussian mixture models)
・共訓練 (Co-Training)
・グラフベース半教師あり学習 (Graph-based Semi-Supervised Learning)
・S3VM(Semi-Supervised Support Vector Machine)
・PNU Learning

 「PNU Learning」を除いてはそれぞれ「モデル仮定」と呼ばれる仮定が必要。
 「モデル仮定」とはラベル無しデータを学習に利用するためのデータに対する仮定であり、生成される分類器に対して大きな影響を与えて、真の仮定と大きく異なる仮定を採用した場合、理想とは大きく異なる学習をすることが考えられる。「PNU Learning」は、「モデル仮定を必要としない半教師あり分類学習の手法」として注目を集めている。


[出典]
画像処理語らいブログ:半教師学習と弱教師学習の違い

The 16th Game Programming Workshop 2011:自己対戦棋譜を利用した半教師あり学習による将棋の評価関数の学習/林 伸也、浦 晃、三輪誠、田浦 健次朗、近山隆

Qiita:半教師あり学習のこれまでとこれから

 ニュースサイト・CyberNewsのセキュリティ研究者であるMantas Sasnauskas氏と研究者のJames Clee氏・Roni Carta氏の共同研究により、中国製の安価なルーターに不審なバックドアが存在していることが判明した。

バックドアルーター


 バックドアの存在が指摘されているのは、ウォルマートが独占販売している「Jetstream」ブランドのルーター、およびAmazonやeBayで販売されている「Wavlink」ブランドのルーター。

 Amazonで「Wavlink」ブランドのルーターを購入したところバックドアが存在したため、同じファームウェアを使っているルーターには同様の穴が存在するのではないかと疑って調査範囲を広げたところ、「Jetstream」ブランドのルーターでバックドアが見つかったとのこと。

 最大で年間1200万台から2400万台のバックドアつきルーターが世界に出回っているとのこと。

 もしJetstreamおよびWavlinkのルーターを使用している場合、ただちに使用を中止し、評判のいいメーカーのルーターに交換するのが最善である。また、該当するルーターを使い続けるかどうかに関わらず、ネット接続を一時的に切断した上で、接続していた端末に対してウイルススキャンを行うなどして、ログイン用パスワードやネットサービスに利用しているパスワードなどを変更した方がいいと助言している。


【バックドア(backdoor)】
  バックドアとは、悪意あるハッカーがセキュリティホールを見つけ侵入し、次回から容易に侵入することができるように設置する裏口のこと。


【出典】
中国製の安価なルーターに不審なバックドアが存在、積極的に悪用しようとする試みも - GIGAZINE

↑このページのトップヘ