技術

生成AIによるメディア学部オープンキャンパス紹介ツール

2025年9月 5日 (金) 投稿者: メディア技術コース

メディア学部の藤澤です。

今回、今年度のオープンキャンパス向けに作成したGPTsOpenCampus Guide 2025@TUT.MSを紹介します。GPTsとは、OpenAIChatGPTをベースに、ユーザー自身がカスタマイズして作成できる「特化型AIアシスタント」のことを指します。知識や応答スタイル、利用目的に合わせて設定できるため、教育や研究支援、イベント案内など幅広い用途に活用することが可能です。

その一環として、昨年度に引き続き改良を重ねて開発しているGPTsの一つ OpenCampus Guide 2025 を、今年6月と8月に開催されたオープンキャンパスにて紹介しました。本記事では、その概要と活用方法、さらに利用上の注意点についてご紹介します。なお、本ツールは、学部や大学の公式ツールではなく、藤澤研で勝手に作ったものですので、大学や学部への問い合わせはご遠慮ください。

実際のGPTは以下から利用できます。

2025年9月 5日 (金)

人工知能学会全国大会で研究発表を行いました

2025年9月 3日 (水) 投稿者: メディア技術コース

2025年5月27日〜30日に大阪国際会議場にて2025年度 人工知能学会全国大会(第39回大会)が開催されましたので、研究発表をしに参加してきました。

大阪国際会議場は、大阪市の市役所のすぐ近くにあります。この時は市役所の前に大きなミャクミャクの像がありましたが、この像は7月30日に万博会場内に移転されたようです。

Pxl_20250529_040204469

大阪市は水の都であり、大阪国際会議場は2本の川の中に建っています。写真の高い建物がこの会議場です。

Pxl_20250529_044623764 Pxl_20250528_083719261

今回は、当研究室に在籍する大学院修士課程2年生の林さんにポスター発表してもらいました。研究タイトルは以下のとおりです。リンクをクリックすると、誰でも自由に論文を読むことができます。

林さんは香港からの留学生です。大学4年間を東京工科大学メディア学部で過ごし、研究を続けるため、大学院に進学しました。林さんは広東語のネイティブスピーカーです。広東語は中国語の方言の1つですが、中国語の標準語である普通話や北京語とはかなり異なる言語です。北京語のネイティブスピーカーと広東語のネイティブスピーカーが話し合っても、お互いに何を言っているか全く分からないほど、語彙や発音や文法が異なっています。(広東語のネイティブスピーカーは、普通話や北京語について知っていることが多いので、お互いに普通話や北京語で話せば、話が通じます。念のため) 広東語は、主に、中国広東省や香港、マカオ、マレーシア、シンガポール、ブルネイなどで公用語として使用されています。ですので、これらの場所に旅行した時に聞こえてくる中国語は広東語ということが多いです。

林さんの研究テーマは、日本人が楽しく広東語を学習できる教材アプリを作ることです。これを実現するために教材に以下の要素を取り入れました。

  • ゲーム、VR (開発にUnreal Engine 5を使用。Meta Quest 3でプレイできる)
  • AI対話エージェント。広東語について日本語で説明してくれる (開発にConvaiを使用)
  • プレイヤーが発音した広東語の音声認識
  • AIがお手本として話す広東語の音声合成
  • 香港の中学校をVR空間内に3Dモデルとして再現。中を自由に歩ける (開発にBlenderを使用)

メディア学部での4年間と大学院で学んだことを活かして、上記を開発してくれました。(メディア学部では上記に関連するような授業が多く開講されています。) プレイヤーは、お手本となるAIの広東語を文字で見てその音声を聞き、実際に広東語の単語や文を発音します。正しく発音できたかどうかをAIが判断してくれます。OKならば次の単元に進み、ちょっと間違っていたら、もう一度発音の練習をします。ゲーム形式で広東語や香港の文化について楽しく学ぶことができます。

__20250828172901 Pxl_20250528_063635847mp

ポスター発表当日は、この研究に興味を持ってくれた方々と研究についてたくさん議論しました。

東京工科大学メディア学部では、メディアを活かした教育に関する研究や、ゲーム (ゲーミフィケーション)を活用した研究もできます。研究成果の外部発表も積極的に行っています。本学部に興味をもった方は、ぜひ本学部のホームページを訪れてみてください。

(文責: 松吉俊)

2025年9月 3日 (水)

そもそも、オーラキャストって何?

2025年8月 1日 (金) 投稿者: メディア社会コース

オーラキャストは、Bluetoothの新しい機能で、音声や音楽を多くの人に同時に届けることができる技術です。これまでのBluetoothは1対1の通信が基本でしたが、オーラキャストではペアリングなしで、複数の人が同じ音をスマートフォンや補聴器、ワイヤレスイヤホンで受け取ることができます。たとえば、駅のアナウンスや学校の授業、映画館などで使われ、聞こえにくい人や騒がしい場所でもはっきりと音を聞くことができます。公共の場での情報伝達がより便利で、誰にとってもやさしい社会の実現に役立つ技術です。

[画像:Voicesforall_20250531005]

前回のブログで書いた通り、このオーラキャストとWi-Fiを用いた音声配信システムを導入し、聴覚障害者にもアナウンスなどの声や音が届く社会基盤の実現を目指します。最新の補聴器や人工内耳にはオーラキャストが搭載されていますが、まだ社会で実装されていないのでその機能はオンになっていません。今後、鉄道・空港・公共施設・ホール・スタジアム・映画館・学校・病院などに導入が進むことで、その威力を発揮することになるでしょう。

実は、この仕組みにより聞こえる人々も便利になります。

・雑音の多い場所でも、ワイヤレスイヤフォンなどでアナウンスの声が聞こえる

・多言語放送により、日本語以外の言語の観光客などに放送を流すことができる

・大きな音が出せない場所でも、ワイヤレス送信することで音楽イベントを開催することができる

・そのエリアだけの小さなラジオ局を運営できる(避難所などでも使える)

すでにオーラキャストを搭載したヘッドフォンやイヤフォンが販売されていますが、まだ価格が高いので普及はしていません。しかし、今後スマートフォンに搭載される可能性も示唆されているので、例えばiPhoneに搭載されると一気に普及するでしょう。「オーラキャスト」という言葉を覚えておきましょう。


メディア学部 吉岡 英樹

001_20220613213101
略歴:バークリー音楽院ミュージックシンセシス科卒業後、(有)ウーロン舎に入社しMr.ChildrenやMy Little Loverなどのレコーディングスタッフや小林武史プロデューサーのマネージャーをつとめる。退社後CM音楽の作曲家やモバイルコンテンツのサウンドクリエイターなどを経て現職。1年次科目「音楽産業入門」を担当。現在は聴覚障害支援を専門としており、メディア専門演習「サイレント・コミュニケーション」、3年次科目「音声情報アクセシビリティ」、聴覚障害支援メディア研究室 を担当している。


2025年8月 1日 (金)

アナウンスの声を聴覚障害者にも届ける「Voices for All」始動。

2025年7月30日 (水) 投稿者: メディア社会コース

WHOは2050年までに25億人近くが何らかの聴覚障害を持つと予測していますが、日常生活の中で「聞こえにくさ」を抱える人々の困難については十分に理解されていません。多くの人にとって館内・校内・車内・機内・緊急の各放送による情報提供は当たり前のものですが、聴覚障害者はこれらの情報を得ることが困難です。私が立ち上げたプロジェクト「Voices for All」では、補聴器や人工内耳を使用している人々に向けてBluetoothの次世代規格である「Auracast(オーラキャスト)」とWi-Fiによるハイブリッド配信を活用して、音声情報を直接補聴器に届ける実証実験を実施します。また、リアルタイム字幕による情報提供も行い、聞こえない方への情報を補完します。音声情報のアクセシビリティ向上により、「誰一人取り残さない社会」を実現したいと考えています。

[画像:Voicesforall_20250531004]

先日、Bettear社製の配信機材が届きました。実は、私の研究室への導入が「日本初!」となります。後日、プレスリリースを行う予定です。

[画像:Img_3323]

8月には大阪で聴覚障害当事者の方々にデモを行う予定で、11月には函館で開催される全国大会で当事者や支援者の方々に説明とデモを行う予定です。これまで聴覚障害者が諦めていたアナウンスの声が聞き取れないという課題を解決する一つの案として期待されています。またブログでもご報告いたします。


メディア学部 吉岡 英樹

001_20220613213101
略歴:バークリー音楽院ミュージックシンセシス科卒業後、(有)ウーロン舎に入社しMr.ChildrenやMy Little Loverなどのレコーディングスタッフや小林武史プロデューサーのマネージャーをつとめる。退社後CM音楽の作曲家やモバイルコンテンツのサウンドクリエイターなどを経て現職。1年次科目「音楽産業入門」を担当。現在は聴覚障害支援を専門としており、メディア専門演習「サイレント・コミュニケーション」、3年次科目「音声情報アクセシビリティ」、聴覚障害支援メディア研究室 を担当している。


2025年7月30日 (水)

生成AIは音楽をどこまで作れるのか? ー 伊藤謙一郎先生に聞く、Suno AIの実力とは

2025年6月11日 (水) 投稿者: メディア技術コース

メディア学部の藤澤です。普段は、機械学習の様々な応用について研究をしていますが、今回は音楽生成AIの話です。私自身は音楽からは縁遠い生活なのですが、昨今の生成AIを用いた楽曲生成を使ってみて、素人目には非常に素晴らしいものができていました。これが専門家から見るとどうなるのかを知りたくなり、同じメディア学部で作曲を専門とする伊藤謙一郎先生にお話を伺いました。


近年、生成AIの進化が目覚ましく、文章生成AIや画像生成AIをはじめ、さまざまな分野でその活用が進んでいます。中でも、ここ1年ほどで急速に注目を集めているのが音楽生成AIです。Suno AIやUdio AIといったサービスの登場により、誰でも簡単に楽曲を生成できる時代が到来しつつあります。

音楽生成AIとは?

音楽生成AIとは、人工知能を用いて楽曲を自動で作成する技術です。与えられたテキストやスタイル、ジャンルなどの条件に基づき、メロディ、和音、リズム、さらには歌詞や音声までも自動的に生成することが可能です。従来、音楽制作には専門知識と時間を要しましたが、これらのAIによって、より多くの人が音楽制作にアクセスできるようになってきました。


伊藤先生が見たSuno AIの実力

伊藤先生ご自身は、現在のところSuno AIなどの音楽生成AIを積極的に使用しているわけではありません。しかし、学生が話題にすることも多く、実際に生成された楽曲を耳にする機会は増えているそうです。

その上で、Suno AIの技術的完成度について、以下のような評価をされていました。

  • ジャンルに合わせた作曲が秀逸
    単に指定された楽器を使うだけでなく、スタイルに即した曲調や構成が的確に模倣されている。

  • 作詞の精度も高い
    適切な韻を踏んでおり、自然なリリックとして成立している。

  • リズム感のある裏打ち
    曲中に効果的な裏打ち(バックビート)が挿入されており、音楽的にも説得力がある。

  • 歌詞と旋律の整合性
    単語を1音に凝縮したり、語尾を引き伸ばすなど、メロディに合わせた処理が自然で、感情表現も豊かである。

  • 音質の向上
    バージョンを重ねるごとにミックスや音質が向上しており、商用レベルに近づいている印象がある。


人間とAIの創作の関係

伊藤先生は、Suno AIのようなツールが「音楽制作を身近にする」という点で大きな可能性を感じつつも、今後の創作活動における人間の役割についても慎重な考察が必要だと語ります。

「AIが生み出す音楽は確かに魅力的です。ただ、創作の本質には"なぜそれを作るのか"という意図が必要です。AIが補完できる部分と、人間にしか担えない部分の境界を、今まさに私たちは探っているのだと思います。」

また伊藤先生は、AIが作った音楽には、明確な違和感とまでは言えないものの、「人が作ったものとは異なる何か」を感じることがあるとおっしゃっています。この話題から、画像生成AIの分野でも見られたように、今後は人間の作曲家がAIのスタイルに寄せて作るという現象が起きる可能性についての話もあがりました。そうなると、「人が作ったもの」と「AIが作ったもの」の境目は次第に曖昧になっていくのかもしれません。


おわりに

音楽生成AIは、テクノロジーの力で音楽表現の地平を押し広げようとしています。Suno AIはその最前線にある存在であり、メディア学部としてもこの分野の動向を注視していく価値があるでしょう。

2025年6月11日 (水)

インタラクション2025参加

2025年5月19日 (月) 投稿者: メディア技術コース

メディア学部の加藤です。

少し前のことなのですが、2025年 3月2日〜4日に開催されたインタラクション2025に参加しました。
インタラクションは、Human-Computer Interaction(HCI)分野の国内学会のひとつで、毎年 3月に都内で開催されています。

査読付きの口頭発表のほか、ポスター・インタラクティブ(デモ)セッションなどがあり、多くの研究者・学生が発表を行っています。
東京工科大学からも毎年多くの発表があり、メディア学部からは太田研、三上研、羽田研など複数の研究室が参加をしています(他にもCS学部からも参加あり)。

今回、4件の研究を発表してきました。
(口頭発表 1件、ポスター発表 1件、インタラクティブ発表 2件)

インタラクティブ発表の内、1件は太田・加藤研究室の学生(B4劉天鑑くん)の発表でした。

劉 天鑑, 加藤 邦拓, 太田 高志. 思い出を再び体験するVR日記. インタラクション 2025 論文集, 3B-26, pp.1117–1122, (2025). [Link] [PDF] [Video]
Img_20250304_095952414_hdr_ae

インタラクティブセッションではもう1件、陶磁器上に回路を作成する手法のデモ発表を行いました。
この研究は、アーティストの方たちとの共同研究として発表をしており、インタラクティブセッションのプレミアム発表として採択されました。
またこの研究は、当日の参加者による投票の結果、インタラクティブ発表賞を受賞しました。

坂田 亮一, 吉松 駿平, 星川 あすか, 加藤 邦拓. 金彩技法を用いた陶磁器表面への回路作成. インタラクション 2025 論文集, 3B-48★, pp.1221–1225, (2025). 【プレミアム発表】【インタラクティブ発表賞 (一般投票)】 [Link] [PDF] [Video] Img_20250304_100446639_hdr_ae

口頭・ポスターセッションでは、慶應義塾大学・杉浦研究室、LINEヤフー研究所との共同研究を発表しました。

一居 和毅, 池松 香, 礒本 俊弥, 加藤 邦拓, 杉浦 裕太. ユーザの自然なインタラクションに基づく操作ミス推測. インタラクション 2025 論文集, pp.60–69, (2025). [Link] [PDF] [Presentation Video]

田島 孔明, 池松 香, 礒本 俊弥, 加藤 邦拓, 杉浦 裕太. スマートフォン利用時の手の疲労度推定. インタラクション 2025 論文集, 2P-70, pp.886–890, (2025).[Link] [PDF]

それぞれの研究の詳細については、上記リンクから、論文や動画を御覧ください。

2025年5月19日 (月)

ACM CHI2025参加

2025年5月 2日 (金) 投稿者: メディア技術コース

メディア学部の加藤です。

2025年4月28日〜5月1日に横浜で開催された国際会議、ACM CHI 2025に参加してきました。
CHIは Human-Computer Interaction (HCI)の研究分野における、トップカンファレンスのひとつなのですが、
今年は 5,500人以上もの研究者が参加し、発表された論文(Full paper)も 1,249件と、過去最大の規模の会議となっていました。
20250502-164557

今回、太田・加藤研究室からは 1件のポスター発表をしました。
詳細はこちら
20250502-164912

来年、CHI 2026はスペイン・バルセロナで開催されるようです。
メディア学部からも引き続き、発表ができるよう、準備をしていこうと思います。
Img_20250501_121937

2025年5月 2日 (金)

CHI 2025 LBW発表

2025年4月30日 (水) 投稿者: メディア技術コース

メディア学部の加藤です。

4月28日より、横浜で開催されている CHI2025に参加しています。
今年は、太田・加藤研究室からは Late breaking workセッションにて 1件の発表があります(発表は 29日 (火))。
この研究は、昨年度 (2024年度)に太田・加藤研究室を卒業した、劉天鑑くんの卒業研究であり、VR空間内で日記を閲覧できるシステムを提案したものです。

スマートフォン上で日記の本文と、思い出の写真をアップロードすると、その写真に紐づけられたメタデータ(撮影日時、GPS情報など) をもとに、過去に訪れた環境(写真を撮影した場所)の VR空間が自動で生成されます。
ユーザは Meta Questなどの VRゴーグルを用いて、生成されたVR空間を閲覧することができます。
これにより、過去に訪れた環境を思い出しながら、日記を閲覧する体験を提供します。

提案システムでは、アップロードした写真の GPS情報から、Google Street Viewのパノラマ画像を取得します。
また、写真の撮影日時の情報をもとに、GAN (Generative Adversarial Network)によって、当時の環境(明るさ・天気など)を再現します。

論文は下記 URLから閲覧可能です。
https://dl.acm.org/doi/10.1145/3706599.3720170

[フレーム]

2025年4月30日 (水)

2024年度3月のイベント報告2

2025年4月 4日 (金) 投稿者: メディアコンテンツコース

メディア学部助教の栗原です。

本日は入学式ですね。改めまして、新入生のみなさまご入学おめでとうございます。

今回は前回に引き続き2024年度3月に行われたイベントについてです。

3.インタラクティブ作品展示会「応えるモノ、響くモノ」開催

こちらは3/16~3/19に八王子学園都市センターのギャラリーホールにて行われたインタラクティブ作品の展示になります(写真を撮り損ねてしまったため画像はありません)。

大学からの告知は以下になります。

https://www.teu.ac.jp/information/2025.html?id=66

夏にも行われた本展示会ではプロジェクト演習「デジタルコンテンツ表現<インスタレーション>」における成果を展示しています。

インタラクティブやインスタレーションという言葉はあまり聞かないかもしれません。

とても簡単にいうならば、何か(ヒトやモノ)に反応して何か(映像やモノ)が動くような作品になります。

それだけだとさらにわからないかもしれませんが、チームラボさんの展示を見たことがある方はそれを想像してもらえるとわかりやすいかもしれません。

本演習ではArduinoやセンサを用いた電子工作や主にProcessingを用いた映像制作の両方を自分たちで行い、自分たちが面白い、楽しいと思う作品を制作します。

学生によってはそれだけでなく3Dプリンタやレーザーカッターも使いながら思い思いのオリジナルな作品を制作していきます。

電子工作、3Dプリンタ、インタラクティブアートといったキーワードに興味のある新入生はぜひ履修してみてください(ちなみに多くの1年生が作品を制作し、展示することができました)。

メディア学部ではあまり目立たない分野かもしれませんが、実は色々な大学でこのような作品を制作する演習があります。

機械やコンピュータ技術を利用したコンテンツもメディア学部の目玉となってもらいたいと思ってます。

ちなみに、この分野についてメディア学部内でいくつかのプロジェクトが計画・進行中です。

まだまだお知らせできないのですが、決まり次第このブログでもお知らせしますので、どうぞお楽しみに。

本日はここまでにしたいと思います。またお会いしましょう。

2025年4月 4日 (金)

AI時代での情報検索 (2) 英語

2024年12月 6日 (金) 投稿者: メディア技術コース

技術コースの盧です.

前回はRAGのお話をしましたが,今回はその続き的な内容をお話します.

結論を先に書くと,真剣な情報検索には英語を使いましょう,とのことです.そもそも,情報の量と質,何れも日本語は英語に比べ物にならないからです.その典型的で良い比較になる例が一つあるので紹介します.

ここで例として挙げた Geri's game (Pixar, 1997) は,3Dアニメーションの歴史でかなり重要なアニメーション作品の一つです.アニメーションとしての面白さも勿論ありますが,この作品に先駆的な技術を導入した試作品としての意味が込められているから歴史的に重要な作品として扱われるわけです.

英語版の方は,全体の分量も長く,直接リンクを張っている技術(Technology)の部分だけで1ページ近くの分量が詰まっています.それに対し,日本語版は文書全部で1ページ程度の分量しかなく,内容もかなり浅いです.技術部分については,2~3行程度で軽く触れる程度で,その技術的な詳細部分も知っている人が分からない程度しか書かれていません.それなのに,トリビアとかが別途項目として独立して出ているなど,個人的には情報としてのバランス感もあまりよくないと感じます.日本語の文語は情報の圧縮率が高いとよく言われますが,資料の基本的な分量はその圧縮率を遥かに超えています.

さて,ここで以前お話したAIやRAGに戻ります.基本的にLLMに事前学習をさせる段階においても,まず英語と日本語とで資料となる文書の質が比べ物になりません.その上,情報検索しても出てくる資料もこの程度の差が出るので,生成型AIとしてもよい結果を生成するのは難しいわけです.

日々の生活に全て英語を使うのは至難でしょうし,私もそこまでは求めません.しかし,真剣な情報,特に卒研などでの情報検索は日本語という,地球規模ではローカルな言語は避けるべきかと思います.

2024年12月 6日 (金)

より以前の記事一覧

AltStyle によって変換されたページ (->オリジナル) /