AI(人工知能)& IoT

AI(人口知能)とIoT(モノのインターネット)について、少しずつ紹介していきます。

2018年10月


「Watson」は特に自然言語処理が得意な「AI」ですが、下記のページで音声からテキストへの変換を体験できます(英語のページですが、言語は日本語を選択し、ファイルをアップロードすると認識が始まります)。


まず、聖書から

「いつも喜んでいなさい。絶えず祈りなさい。すべての事について、感謝しなさい。これが、キリスト・イエスにあって神があなたがたに望んでおられることです。」(テサロニケ人への手紙第一5章16~18節)

を、「音読のプロ」という、エーアイ社による人の声で音声化する技術「コーパスベース音声合成方式」を採用したテキスト読み上げソフトで、テキストから音声に変換してみました。


「音読のプロ」は、2千円しないソフトなのですが、音声合成の完成度はほぼ完全と言えます。

この音声を、「Speech to Text」でテキスト化した結果を示します。
--------------------------------------------------
Speaker 0: いつも喜んでいなさい。
Speaker 0: 大豆祈りなさい。
Speaker 1: 全てのことについて。
Speaker 0: 感謝しなさい。
Speaker 2: これが。
Speaker 1: キリストイエスにあって。
Speaker 0: 神があなた方に望んでおられることです。
--------------------------------------------------
若干おかしなところがあるのですが、人間が書記をしても聞き間違い、書き間違いがあるので、実用レベルにあると言っても良いのでないでしょうか。

次に、

「恐れるな。わたしはあなたとともにいる。たじろぐな。わたしがあなたの神だから。わたしはあなたを強め、あなたを助け、わたしの義の右の手で、あなたを守る。」(イザヤ書41章10節)

を同様に、音声化しました。

【イザヤ書41章10節】(←クリックで音声再生)

それを、更にテキスト化した結果を示します。
--------------------------------------------------
Speaker 0: 恐れるな。
Speaker 1: 私はあなたとともにいる。
Speaker 0: たじろぐな。
Speaker 2: 私があなたのだから。
Speaker 2: 私はあなたを強めあなたを助け。
Speaker 0: 私のの右の手で。
Speaker 1: あなたを守る。
--------------------------------------------------
AIは、「6歳の子供には劣る」との説もあるのですが、「人間を超える日がくる」と言われているのも頷けます。

 10月10日グーグルは、AI機能を強化したスマートフォン「Google Pixel 3」(5.5インチ)と「Google Pixel 3 XL」(6.3インチ)を、11月1日に日本で発売することを発表しました。

イメージ 1

 特にAI機能が強化されており、端末の側面を握ると「Google Assistant」が起動。また「Pixel Stand」に乗せた状態で話しかけると、スマートスピーカのように使うこともでき、店内などのBGMを検出すると、その楽曲名を表示する「Now Playing」機能も搭載しています。

 人間のように会話できる音声AI技術「Google Duplex」をベースとした「Call Screen」機能を実装。電話着信時にCall Screen機能を選択すると、AIに応対させながら、ユーザーが引き継ぐか定型文で返答させるかを選択できます。「あなたは誰か」「後ほど掛け直します」といった選択肢から必要に応じてAIに喋らせることができるほか、迷惑電話であれば着信拒否にすることもできます。なお、会話はスクリーン上に表示され、ユーザー側で逐次確認できます。

 カメラは、AIによる補正を強化。被写体が遠くにある場合は、火星探査の技術を応用した「超解像ズーム」を使って、鮮明な望遠写真を撮影できるといいます。これは、写真を複数枚合成して実現しているとのこと。また、機械学習を用いた「夜景モード」機能を搭載。
 「トップショット」機能では、写真を撮るとAIがシャッターを押す前後の画像を解析して、写っている人たちが目を開いて笑顔でカメラを向いた瞬間をレコメンドしてくれ、シャッターを押すタイミングがズレてしまっても、複数の写真から最適な1枚を選んでくれます。
 「フォトブースモード」を選ぶと、笑顔などをAIが検出して自撮り写真を撮影できるため、シャッターボタンに指を伸ばす必要がありません。
 「ポートレートモード」では、iPhone XSなどと同様に、撮影後に背景をぼかしたり焦点をズラしたりできます。さらに、被写体だけに色を残して、背景を白黒にするといった加工も可能です。このほか、動き回る仔犬や子どもなどを動画で撮影する際も、「モーションオートフォーカス」によって、ピントを自動で合わせてくれるということです。

 カメラで撮影した被写体を識別し、似た商品を検索できる機能「Google Lens」も日本語で利用でき、目の前のものを調べたい時に、Pixel 3のカメラを向けて画面を長押しすることで、レストランのメニューを翻訳したり、よく似た洋服を探したり、植物について調べたりすることができます。名刺やメールアドレスにカメラを向けて、「連絡先の追加」をするといったことも可能です。

 高精度なAR技術「Playground」では、3Dキャラクターとカメラが撮影している実際の風景をリアルタイムで合成します。例えば、スクリーン内で動き回るマーベルのキャラクターと一緒に自撮りすることもできます。

 AIが得意とするところは、画像認識と自然言語処理ですが、その両方をうまく利用していると思います。手で打ち込む時代は過ぎ去ろうとしているのかもしれません。


参考
CNET Japan:グーグルの「Pixel 3」がついに日本発売へ--カメラが大幅進化、ドコモらも取扱い
https://japan.cnet.com/article/35126768/?tag=rightMain
CNET Japan:グーグル、新型スマホ「Pixel 3」とタブレット「Pixel Slate」発表--「Home Hub」も
https://japan.cnet.com/article/35126750/

AIで何が出来るかを知るために、富士通のAI[Zinrai]の機能をwebページよりまとめてみました。主だったものは網羅していると思います。参考にして、AIで何がしたいか、何ができるか、考えてみてはどうでしょうか。

◆文書翻訳
ビジネス文書の翻訳もAIにおまかせ
入力したテキストをZinraiが翻訳。ニューラル機械翻訳により瞬時に自然な翻訳を実現。
イメージ 1

【特徴】
・プロの翻訳家レベルの訳質が得られるニューラル機械翻訳
・ユーザー辞書、翻訳メモリにより翻訳結果をカスタマイズ
・ビジネスの効率化を支援
・テキスト翻訳にだけでなく、Outlook、Skypeへの組み込み、Office、PDFファイルの丸ごと翻訳で、ビジネスの効率化を支援。
・翻訳データは保持せず削除
・対応言語:日本語と英語に対応。
・様々な端末に対応:PC、スマートフォン、タブレットなど。

【活用イメージ】
・社内ビジネス文書の翻訳
・コミュニケーションの活性化

◆手書文字列認識
高精度な手書き文字認識により業務高度化を実現
フリーピッチの手書き文字列を認識。
イメージ 2

【特長】
・異種深層学習モデルで文字の区切りを正しく判別
・言語モデルの活用による認識精度の向上

【活用イメージ】
・宛て名の読み取り

◆FAQ検索
入力した質問文に対して、FAQデータと学習済みモデルから適切な回答を検索
質問文に対して、あらかじめ学習した対応履歴から適切な回答を検索し、確度の高い順に表示。
イメージ 3

【特長】
・自然文入力
・確度付き回答
・継続学習による精度向上

【活用イメージ】
・コールセンター
・公開FAQ

◆対話型Bot for FAQ
対話を繰り返して引き出した情報から、適切な回答を導き出す
普通の言葉で対話していくなかで、問い合わせに対して適切な回答を見つける。
イメージ 4

【特長】
・自然文による対話
・継続学習による回答精度向上
・様々な端末に対応

活用イメージ
・コールセンター・ヘルプデスク

◆画像認識
事前に学習させたモデルを使用した優れた画像認識
画像から物体やシーンなどの情報を認識。画像分類、シーン分類、物体認識の3種類がある。
イメージ 5

web上で体験デモを試せます。デモを試した結果。
イメージ 6
任意の画像も試せます。

【特長】
・リアルタイム
・すぐに利用可能
■画像分類
物体が写った画像から何が写っているかを推定。
■シーン分類
風景が写った画像からどのような情景が写っているかを推定。
■物体認識
複数の物体が写った画像から、それぞれ何が写っているかを推定。
・様々な端末に対応

【活用イメージ】
・写真管理

◆手書文字認識
ディープラーニング技術により、高水準の認識精度を実現
手書き文字が書かれた画像から、文字を認識。
イメージ 7

【特長】
・リアルタイム
・クセのある文字を推定
・様々な端末に対応

【活用イメージ】
・申し込み書類
・アンケート
・領収書の宛名
・宅配便の宛名

◆音声テキスト化
音声を高い精度で文字に変換
認識した音声を文字(テキストデータ)に変換。
イメージ 8

【特長】
・高速かつ高精度
・多数の新語や固有名詞を含む業務にも適用可能
・雑音のある環境でも変換
・対応言語:日本語と英語
・長い音声も変換可能
・様々な端末に対応

【活用イメージ】
・コールセンター
・店舗や病院
・自動応答システム
・プレゼン・スピーチの文字起こし
・会議録
・アプリ操作

◆音声合成
人間らしい自然な合成音声
入力した文字を音声に変換。また、音声変換時に参照する単語辞書に専門用語などを登録することで、特殊な言葉をより正確に発音。
イメージ 9

【特長】
・リアルタイム
・対応言語、声の種類
 日本語と英語
 日本語は男声2種、女声2種
 英語は女声1種
・表音文字列生成機能
・辞書管理機能
・様々な端末に対応

【活用イメージ】
・構内放送
・音声ガイダンス
・自動応答システム

◆感情認識
話している人の声から満足度を定量化
入力された音声データを解析、声の高さとその変化パターンから満足度を推定。推定結果は満足度を数値化。満足度スコアは1秒単位で推定。また、満足・不満足の音声区間(時間)を推定、いつ満足していたか、いつ不満足だったかを検証。
イメージ 10

【特長】
・声の高さとその変化パターンから推定した満足度を数値化
・満足度スコアにより、満足/不満足の切り分けが容易
・1秒ごとに満足度スコアを推定
・様々な端末に対応

【活用イメージ】
・コールセンター

◆自然文解析
自然文から必要な情報を取得
自然文を解析し、文章から人名や地名などの固有名を抽出。また、文章の文脈を解析し、その文章に書かれている内容を分類。 固有名抽出、文章分類、地名・座標推定の3つの機能がある。
イメージ 11

【特長】
・同じ単語でも文脈から人名・地名などを区別して抜き出す固有名抽出
・使われている単語が同じであっても、異なる文章として区別する文章分類
・話題になっている地名・座標を確度の高い順に推定
・学習機能を用いたルール作成や精度向上
・様々な端末に対応

【活用イメージ】
・お問い合わせの分類
・特定施設や住所、利用時間などの抽出
・事故・災害情報
・個人情報の自動削除
・迷惑メールのフィルタリング

◆知識情報構造化
専門家の見方で大量文書を構造化
文書を特徴づけるキーワードを抽出し、それらのキーワードを元に文書間の関係を構造化。あらかじめ専門家の知見を学習することで、専門家視点での知識情報構造化が可能。
イメージ 12

特長】
・専門家の見方で構造化
・様々な端末に対応

【活用イメージ】
・製品/商品情報の構造化

◆知識情報検索
検索キーワードの「意味」まで加味した文書検索
知識構造化データを使い、入力されたキーワードと意味の近い文書を検索。
イメージ 13

【特長】
・リアルタイム
・専門家の見方で情報検索
・様々な端末に対応

【活用イメージ】
・企業内文書検索
・特許検索

◆予測
さまざまなデータを学習して構築した予測モデルが未来を予測
予測したい情報と予測に影響を与える情報の過去データを学習させ、予測モデルを作成。作成した予測モデルを使って、将来の状態を予測。
イメージ 14

【特長】
・リアルタイム
・継続学習による予測精度向上
・学習用データ管理機能
・予測モデル作成機能
・予測機能
・様々な端末に対応

【活用イメージ】
・需要予測


出典
FUJITSU Human Centric AI Zinrai(ジンライ)-富士通のAI(人工知能)
http://www.fujitsu.com/jp/solutions/business-technology/ai/ai-zinrai/index.html

 10月2日JR東日本は、AI技術を応用した「スーパーワンダーレジ」を導入した店舗の実証実験を赤羽駅の5・6番ホームで17日から行うと発表しました。

 次世代の店舗(コンビニ)、省人化、無人化に向けたAIの実用化としては、注目すべきものですね。日本では「Suica」などの活用が進んでいますので、「amazon GO」よりも進展の可能性は高いように思います。

 AIの得意なものは大きくは二つ、画像認識と自然言語処理(音声認識など)ですが、どちらもディープラーニング技術が大きく関係しています。ビッグデータを用いて再学習を行うことで認識精度が向上する可能性もありますが、過学習により認識率の低下の可能性もあり、対象に応じた試行錯誤が必要と思いますので、AI技術者の不足は大きな問題となっていくと思われます。

◆「Wonder Resister」(ワンダーレジ)
イメージ 1

 ワンダーレジは独自開発の人工知能「SPAI」と画像認識技術を活用した設置型AI搭載レジ。買物客はワンダーレジに商品を並べて簡単な操作をするだけで、レジが自動で商品を識別して支払金額の計算から決済まで行う。買物客のレジの待ち時間を大幅に短縮するとともに、レジに関する業務の軽減によって、店舗運営の効率化と人手不足等の課題解決に貢献する。たばこや酒類に対する年齢確認は、レジ背面画像やリモート操作端末で行えるため、店員が迅速に対応できる。さらに、買物客の画像から年齢や性別をAIが推定、測定結果はPOSシステムと連動するので、マーケティングにも活用できる。また、ワンダーレジでは、AIが正しく商品認識をすると、それを示すために本体の外枠が緑色に点灯するが、万一読み取れなかった場合、外枠は赤色に点灯する。
イメージ 2

◆「Super Wonder Register」(スーパーワンダーレジ)
    (https://youtu.be/a7kKxQ5TawU)
イメージ 3

 「SPAI」と画像認識技術、物体追跡技術を活用した無人レジシステム。AIが入店した買物客を追跡して手に取った商品を認識、購入金額の計算から決済まで一貫して自動で行う。買い物客にはレジを通らないシンプルでスピーディーな買物を体験、小売店においては無人店舗を実現する。決済手段は電子マネー、クレジットカード、現金、何でもOK。店内各所に設置されたカメラが買物客の行動を映し、その画像からAIがあらかじめ登録された商品情報と紐付け、その場でその都度、瞬時に計算する。これにより、レジでの会計待ちをすることなく、短時間に決済できるうえ、レジ要員を配置しなくて済む。店側にとっては、人手不足解消、コスト削減が期待でき、利用者にとっては、並ぶストレスが解消。双方にとってメリットがある。

※SPAI=SP(サインポスト)AI:サインポスト株式会社が、ディープラーニング技術を応用して独自開発したAI(電気通信大学との共同研究)

イメージ 4
イメージ 6

◆amazon GO
   (https://youtu.be/NrmMk1Myrxc)
イメージ 5

 amazon GOは、「レジに人がいない無人コンビニ」。2018年1月22日にamazon GOの1号店がアメリカ・シアトルにオープンし、2018年夏、シアトルにamazon GOの2店舗目、3店舗目がオープンした。

 amazon GOの店舗入り口にはスマホの情報を読み取る機器があるので、Qコードを表示させたあと、スマホを機器にかざす。認証が終わると、あとは自由に商品を手に取っていく。好きなものを手に携えるか買い物袋に入れて店舗を出るだけで自動的に会計がおこなわれる。amazon GOではこれを「Just Walk Out Technology」と名付けている。

 Amazon GOの”Just Walk Out”技術を可能にしているのは、店舗内に複数設置されているカメラとマイク、棚に設置されたセンサーの組み合わせ。ディープラーニング・アルゴリズムにより人の動きをトラッキングし、一度手に取った商品をキャンセルして棚に戻したりする動作なども正確に捉える。店内の天井にはいくつものカメラが取り付けられており、これにより全ての来店客の動きを把握する。

 Amazon GO のメリットは、レジで会計を待たなくて良い点と決済のスムーズさ。何人もレジに並んでいるのを、イライラしながら待つ必要がない。また、レジにチェッカーを配置する必要がないため、人件費を確保する必要がない。人がおこなうのは、商品の在庫・鮮度チェックと品出し程度。これらのメリットは、コンビニを経営している企業にとって願ってもないこと。当然、日本のコンビニもAmazon GOの技術に注目している。


参考
DIAMONDonline:AI(人工知能)搭載レジの認識スピードに驚嘆
https://diamond.jp/articles/-/120922

サインポスト株式会社webサイト
http://www.signpost1.com/

S-cubism:Amazon GO1号店がついにシアトルにオープン!レジがないAIコンビニの全貌とは
https://orange-operation.jp/posrejihikaku/self-checkout/10331.html

↑このページのトップヘ