[フレーム]
1 - 40 件 / 159件
タイムラインで流れてきたポストから、Googleが作っているImageFXが作ってくれる画像のクオリティが高いように見えたので、触ってみていた。 ImageFXの作例 これが自分で撮った紅葉の写真で、 こっちが、Image FXに、京都の紅葉、50mm f1.4バブルボケ、とか伝えて作ってもらったもの。 ChatGPTに同じ入力を渡すと、こんな画像なので、仕上がりの違いがわかると思う。 どこか嘘っぽいというかメルヘンな仕上がりになりがち。 ここまでできるなら、手持ちの画像そっくりな画像を作れるのでは、と思って試してみる。 手持ちのラーメンの画像そっくりなラーメン画像を作る ChatGPTに、自分で撮影したラーメンの写真をアップロードして、この画像を作るためのプロンプトを作って、とお願いする。 この画像と同じ写真を生成AIで作りたいので、プロンプトを生成してください。内容だけでなく、レンズの
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日本語ドキュメント特有のレイアウトに対処する必要があったりと日本語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日本のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ
はじめに: 本講座は「機械学習ってなんか面倒くさそう」と感じている プログラマのためのものである。本講座では 「そもそも機械が『学習する』とはどういうことか?」 「なぜニューラルネットワークで学習できるのか?」といった 根本的な疑問に答えることから始める。 そのうえで「ニューラルネットワークでどのようなことが学習できるのか?」 という疑問に対する具体例として、物体認識や奥行き認識などの問題を扱う。 最終的には、機械学習のブラックボックス性を解消し、所詮は ニューラルネットワークもただのソフトウェアであり、 固有の長所と短所をもっていることを学ぶことが目的である。 なお、この講座では機械学習のソフトウェア的な原理を中心に説明しており、 理論的・数学的な基礎はそれほど厳密には説明しない。 使用環境は Python + PyTorch を使っているが、一度原理を理解してしまえば 環境や使用言語が
9月に発足予定のデジタル庁。その舵取りを担うのが、担当大臣の平井氏だ。そうした中、4月7日に内閣官房IT総合戦略室でデジタル庁設置に関するオンライン会議が行われた。平井氏のほか、同室の向井治紀室長代理ら幹部2人が同席し、数十人の関係者がオンラインで視聴していたという。 会議の模様を収録した音声データには、以下のようなやり取りが記録されている。 平井「デジタル庁の入退室管理と、アクセスのね。それはさ、もう新しいシステムを実験的に入れてくれてもいい。松尾先生に言って一緒にやっちゃってもいいよ」 幹部「あっ」 平井「彼が抱えているベンチャー。ベンチャーでもないな、ACES(エーシーズ)。そこの顔認証、はっきり言ってNECより全然いい部分がある。だから聞いて。もうどこから撮ったっていけるし、速い。アルゴリズムがとっても優秀」 平井氏が絶賛するACES(同社のHPより) そして、この直後に朝日新聞が
当サイト【スタビジ】の本記事では、昨今のAIの進化のきっかけになっているGPTシリーズについてまとめていきたいと思います。GPT-1から始まりGPT-2、GPT-3、そしてChatGPTであるGPT-3.5、GPT-4と進化してきました。この進化の軌跡と違いについて解説していきます。 こんにちは! データサイエンティストのウマたん(@statistics1012)です! この記事では最近のAIブームの火付け役になったGPTシリーズについて簡単にまとめていきたいと思います。
人工知能を学ぶためのロードマップ このページでは、人工知能や深層学習を学んだことのない方を対象に、 それらを学ぶためのロードマップを紹介しています。 本ロードマップでは達成目標として、 「研究者」「データサイエンティスト」「エンジニア」「ビジネス」の 4つの職業ごとに4つのレベルを設けています。 まずはレベル0として、人工知能についての基礎的な知識を学びましょう。 技術に触れる(学習想定時間:1時間) まずは最新のAI技術に触れて,AIによってどのようなことができるのかを確認してみましょう. メジャーなサービスを含めいくつか紹介します. ・ChatGPT ChatGPTはすでに利用したことがある方が多いかと思いますが、OpenAIが開発・運営する大規模言語モデル(LLM)チャットボットです。LLMでは他にGoogleのGemini、AnthropicのClaude、Mistral AI、P
注意:AI批判目的ではありません。単なる考察結果の共有です。どちらかというと私は思想的にはAI推進過激派です。また、ここでの推測はすべて外れている可能性はあります、あくまで推測です。 追記(24/11/20)DMMボイスという名前から「にじボイス」という名称に変更された。主な変更点は以下。 キャラクターが15人増える なぜか久世凛さんとイルミルの声優が変更されるツッコミがあった利用規約の修正それ以外は本記事の内容はすべて当てはまるので、以下「DMMボイス」となっている箇所は適宜「にじボイス」へ読み替えて呼んでほしい。 DMMボイス(現にじボイス)最近AI界隈(?)で話題になっている、20人分のアニメ調キャラクターの声で感情的な音声を簡単に生成することができるAIサービス。 https://nijivoice.com/ それの学習元に、エロゲーのテキスト音声データが使われているのではないかと
急成長するジェネレーティブAI分野でここ最近、最も注目され、最も議論を呼んでいるスタートアップがサンフランシスコを拠点とする「OpenAI(オープンAI)」だ。フォーブスは、1月中旬に同社の共同創業者でCEOを務めるサム・アルトマンにインタビューを行い、同社の人工知能(AI)チャットボット「ChatGPT」の最新の動向や、AIツールがグーグルの検索ビジネスにもたらす脅威について質問した。 ──ChatGPTの人気ぶりや、収益化の推進、Microsoft(マイクロソフト)との提携などの状況を見ていると、ジェネレーティブAIのカテゴリーは今、転換点に差しかかっているように見えます。あなたの立場から、OpenAIはそのプロセスのどこにいると感じていますか? 今は確かにエキサイティングな時期だと思いますが、私としてはこれがまだ、きわめて初期の段階にあることを望んでいます。社会に前向きなインパクトを
最近、「AIを理解したくて代数幾何の教科書を勉強しているんですよ」という人によく会う。 五年前くらい前に、note株式会社の加藤社長も「社内で代数幾何学の勉強会を開いてるんですよ」と言っていた。僕はその都度「それは全く遠回りどころか明後日の方向に向かってますよ」と言うのだがなかなか聞き入れてもらえない。 確かに、AI、特にディープラーニングに出てくる用語には、ベクトルやテンソルなど、代数幾何学で使う言葉が多い。が、敢えて言おう。 代数幾何学とAIはほとんど全く全然何も関係していないと。 なぜこのような不幸な誤解が生まれてしまうかの説明は後回しにして、意地悪をしても仕方ないので、AIを理解するために最低限知っておかなければならない用語を5つだけ紹介する。 テンソル(スカラー、ベクトル、行列など)おそらく、「テンソル」という言葉が人々を全ての混乱に向かわせている。 Wikipediaの説明は忘
Business Insider Japan/小林優多郎ChatGPTに世間が沸いている。 長年この分野を見てきた者としては「ちょっと沸きすぎ」のようにも見える。深層学習を使った会話ロボットは、何もChatGPTが初めてというわけではない。 ところが、世界中が驚かざるを得ないゲームチェンジャーが現れた。 その名も「FlexGen」と言う。2月15日に公開された。 特筆すべきは、FlexGenが、ChatGPTなどの大規模言語モデルを「従来の100倍高速に動かせる」上に、NVIDIA Tesla T4という、わずか16GBのメモリーしかないGPUでその性能を使えるということだ。 つまり、大規模言語モデルを秋葉原で売っているパソコン程度で動かせる新しいフレームワークが登場したことになる。 このインパクトがどれほどすごいのかを解説してみよう。 目次: 「Google翻訳」と「大規模言語モデル」は
GPTでAI界隈が沸騰している。開発者も含めて誰も急激な性能向上の理由を理解出来ていない。普段は半年や1年で古くなるような時事ネタはあまり呟かないことにしているが、このところの動きがあまりに早く、未来に向けての不確実性が高まってい... https://t.co/1BCs8cXavs
はじめに 生成AIによって世の中は大きく変わります。単なるブームではないと確信しています。 研究者の間では数年で「あと人間の知能に匹敵するAIが出てくるだろう」と言われているほどです。 「生成AIって社内でもよく聞くけど何から始めればいいかわからない...」 「AIに興味はあるけど初期設定とか大変そう...」 この手順で学べば流石に初心者でも生成AIを使いこなせる人材になれるロードマップを整理しました。 誰も生成AIの大波に置いていかれないような記事を目指します。 対象読者 生成AIを学んでスキルアップしたい方 社内でAI活用してさらに活躍をしたい方 AIの波に乗って市場価値の高い人材を目指す方 記事の構成 本記事は入門編と発展編に分かれています。入門編では「AIを使える人材」になるためのゼロからのロードマップを記載しています。発展編では「AIアプリを作れる人材」になるためのステップアップ
学生の皆さんへ 2023年5月11日 学長 樺山祐和 現在、ChatGPTをはじめとした生成系人工知能(生成AI)についての議論が高まっています。そして、今後ますます技術が進み、また社会にも深く広く浸透していくことが予想されます。 美術大学としてはよりよい「学び」を得てもらうべく、こうした新技術を柔軟に活用し、また危惧される側面にも十分に配慮し、制作や研究に真摯に向き合ってもらいたいと期待しています。このメッセージでは、以下の6点を軸に、生成AIをめぐる現状と課題について大学としての見解を記述します。 身近なツールとなってきた生成AIを、まずは自分の目で確かめてみよう。 生成AIの問題や可能性についてより深く考えていこう。 個人情報や機密情報、また悪意のある内容の入力は絶対にしてはいけません。 レポートや論文に、生成AIの回答をそのまま用いて提出することを禁止します。 生成AIを引用すると
はじめに 初めまして。ZENKIGENデータサイエンスチームのはまなすです。正式な所属はDeNAデータ本部AI技術開発部なのですが[1]、業務委託という形で今年度から深層学習系の開発等に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻訳タスクを大きく越えて、Transformer関連の技術が様々な領域で用いられる汎用アーキテクチャとして目覚ましく発展し続けています。 今回はそんなTransformerが現時点までにどのように活用されてきたか、また、どのように工夫されてきたかをざっくりと俯瞰し、流れをおさらいする目的の記事になります。本記事の大枠は、2021年時点でのサーベイ論文である A Survey of Transformers に倣いつつ、適宜、2023年2月上旬現在ま
更新(2025年1月28日) 論文「Evolutionary Optimization of Model Merging Recipes」が論文誌「Nature Machine Intelligence」に採択され本日掲載されました。最新バージョンでは本アプローチをさらに実証する新たな実験結果を含んでいます。ぜひ以下からご覧ください。 https://www.nature.com/articles/s42256-024-00975-8 Sakana AIは2024年3月に「進化的モデルマージ」を公開し、大きな反響を呼びました。公開時には国内外の多くのメディアに取り上げられニュースになりました。進化的モデルマージはmergekitやOptuna Hubといった著名なOSSフレームワークにも実装され、多様なユーザーがそれを活用し、数々の個性的なモデルが作成・公開されてきました。また、社内外の複
中国のAIスタートアップ「DeepSeek」は2025年1月20日、数学的推論やコーディング能力でOpenAIの最新モデル「o1」と同等性能を持つ大規模言語モデル「DeepSeek-R1」を公開した。 使用・複製・改変・再配布を自由に許可する寛容なMITライセンス下でのオープンソース提供および従来比95〜97%のコスト減となるAPI価格が特徴で、AI業界に激震が起きている。 強化学習を重視、コールドスタート問題にも対応 論文によると、DeepSeek-R1の特筆すべき点は、強化学習(RL:Reinforcement Learning)を駆使し、従来の教師あり学習(SFT:Supervised Fine-Tuning)に頼らず、自律的に思考連鎖(CoT:Chain-of-Thought)を学習する点だ。このアプローチにより、モデルは複雑な問題を解決するための思考の連鎖を探索し、自己検証や振り
アール @RR_consultant 香港のPantheon Labが作成したAIインフルエンサーがリアルすぎる。表情、肌、筋肉など細部が鮮明に具現化されており、TikTokで数百万人のフォロワーを抱える。高級ブランドのPRなどユースケースは更に拡大すると思われ、インスタに有象無象に存在するビジュアルのみのインフルエンサーは淘汰されそう。 pic.twitter.com/nXbWloCxBN 2023年01月14日 16:25:09
また「海外のAIを使ったほうが早いのではないか、あるいは日本のAI産業を支える人材が無くなっても良いのかという議論もある。提言には短期と中長期、両方の視点を盛り込む」(塩崎氏)とした。 提言には、研究機関や民間企業などが計算資源に容易にアクセスできるようにするための環境整備も盛り込む。塩崎議員は「(LLMの登場などによって)1回の学習に必要な計算資源が増えた」とし、計算資源の重要性を説明した。また、日本語が弱いとされるデータ資源の集積や連携についても、公共データの取り扱いなどを含めて提言するという。 さらに、行政サービスにおけるAIの利活用についても提言する。塩崎議員は「公務員の働きすぎが問題になって久しい。AIは業務の効率化と行政サービスの質を両立させる一歩になる」と意気込んだ。 また、AI規制のあり方についても提言するという。EUや米国では差別、安全保障、民主主義といった観点でAIのリ
(数式を使わない) Transformer の直感的な説明 RNN の欠点 Transformer はこれをどう解決したか Transformer の動作原理 複数の要素間の関係を考慮する (Self-Attention、自己注意) 要素の順序を考慮する (Positional Encoding、位置エンコーディング) まとめ 概要: ChatGPT などで使われている Transformer モデルは、 ニューラルネットワークの世界にいくつかの革新的なアイデアをもたらした。 本記事では、プログラマに理解しやすい形でそれらのアイデアを解説する。 実際に使われている数学の詳細には触れない。 (技術的解説については元論文 Attention is All You Need か、 その注釈版である The Annotated Transformer を参照のこと。 日本語では この解説 がわかり
Grokを使って感じたんですけど 倫理観喪失しすぎてて 生成AIに革命が起きそう。 まず禁忌中の禁忌である ナマモノを普通に生成できる。 試しにやってみたけど深キョンとかハシカンとか普通に出てきてビックリした。 イラストレーターや漫画家が勝手に学習されてしまうAIに 反対するとかそういうレベルじゃなくて アイコラとかフェイクとかを簡単に作れてしまうという 結構な大問題なので普通にヤバイ Grokで生成してみた↓ Elon Musk そして最近オーストラリアの法律の影響もあるのか 生成AIアプリは規制が厳しくなって エロに関連するプロンプトが軒並みNGになって ちょいエロでも生成したい時はサイトの方で作らなきゃいけないので面倒極まりなくなった。 が、逆にGrokはオーストラリアが禁止したSNSそのものなので 未成年が使用しないという前提のがあるのか 規制がゆるゆるで しかも本来は欧米ではめっ
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 一言で言うと? この記事を一言で言うと、kaggleのあらゆる情報をマークダウン形式にしてまとめて(約50万トークン)、Geminiのプロンプトに入れたらいい感じだった!という内容です。 はじめに こんにちは!yukky_maruです。先日、KaggleのLLM 20 Questionsのwinner callが無事終わって賞金もいただき、一段落ついたので、今回自分が使った方法をシェアしたいと思います。 なお、この金メダルは半分くらいはGeminiのおかげです! Gemini を活用しまくりました。ChatGPTやClaudeではない理
DALL·E 3 is now available to all ChatGPT Plus, Team and Enterprise users, as well as to developers through our API. Modern text-to-image systems have a tendency to ignore words or descriptions, forcing users to learn prompt engineering. DALL·E 3 represents a leap forward in our ability to generate images that exactly adhere to the text you provide.
Akuma.ai http://akuma.ai 2024年2月、日本発のクラウド型画像生成サービスAkuma.aiが、リアルタイム画像生成機能「AIキャンバス」を搭載したことが話題になりました。3月1日には生成枚数が延べ1200万枚に達したと発表。リアルタイム画像生成技術「LCM」を組み入れたサービスですが、高度なPC環境が不要で、タブレットなどからでも簡単に使えるため、国内外の幅広い層にウケたという経緯です。 🎉生成画像1200万枚突破🎉 リアルタイム「AIキャンバス」生成枚数が1200万枚を突破しました! たくさんご利用いただきありがとうございます。 今後とも #AkumaAI の応援よろしくお願いします🦑 プレスリリースはこちら:https://t.co/Yf3tjxjCsS — Akuma.ai (@AkumaAI_JP) March 1, 2024 日本発の画像生成AIサ
In ChatGPT Prompt Engineering for Developers, you will learn how to use a large language model (LLM) to quickly build new and powerful applications. Using the OpenAI API, you’ll be able to quickly build capabilities that learn to innovate and create value in ways that were cost-prohibitive, highly technical, or simply impossible before now. This short course taught by Isa Fulford (OpenAI) and And
トランプ米政権で暗号資産と人工知能(AI)の責任者に起用されたデービッド・サックス氏は28日、中国のスタートアップ(新興企業)DeepSeek(ディープシーク)が米オープンAIのモデルのアウトプットを参考に技術を開発した「相当な証拠」があると述べた。 サックス氏はFOXニュースのインタビューで、ディープシークの取り組みについて「オープンAIのモデルから知識を蒸留(別のモデルのアウトプットを訓練目的で利用し同等の能力を開発する技術)したという相当な証拠がある。オープンAIはこれについてあまり満足していないと思う」と語った。 サックス氏は「相当な証拠」の詳細については説明しなかった。オープンAIは、コメントの要請にすぐには応じなかった。 ディープシークは先週、新たなオープンソースのAIモデル「R1」をリリースした。同社は「R1」の性能について、業界のさまざまな比較基準で米国の主要開発者に肩を並
トランプ米大統領は、ソフトバンクグループとオープンAI、オラクルが主導する人工知能(AI)インフラへの新たな大型投資を発表した。「スターゲート」合弁出資事業を通じて共同で投資する。 ソフトバンクGの孫正義会長兼社長、米オープンAIのサム・アルトマン最高経営責任者(CEO)、オラクルのラリー・エリソン氏と共に1000億ドル(約15兆5700億円)の初期投資を21日午後に公表した。スターゲートの会長には孫氏が就き、ソフトバンクGが資金調達、オープンAIが運営管理を担当する。 孫氏によれば、3社の共同出資事業が1000億ドルを直ちに投じ、データセンターやキャンパスを含むAIプロジェクト投資額を今後4年で少なくとも5000億ドル(約78兆円)に増やすことを目指す。 アラブ首長国連邦(UAE)アブダビ首長国の投資会社MGXも出資し、米テキサス州などでインフラを構築する。AI向け半導体で圧倒的シェアを
2022年を境に爆発的な流行を見せはじめた AI 画像生成。コアとなる拡散モデルの基礎解説、研究領域で育てられた技術が一般層にまで羽撃いた変遷、その過程で生じた解決されるべき問題点、および日進月歩で増え続ける発展的な手法群について、網羅的に流れを追いかけるメタサーベイを作成しました。 明日にでも世...
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる託宣が欲しいだけ。機械学習やAIが流行るのもそれが理由— TJO (@TJO_datasci) 2024年8月28日 これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。 基本的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にと
2024年02月27日にarXiv公開され,昨日(2024年02月28日)あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「1ビットGANのFPGA実装」を研究していた私としては非常に興味をそそられる内容なので、論文を読んでみた。今回は速報として、その内容のポイントを概説したい。 論文情報 Ma, S. et al. (2024) ‘The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits’, arXiv [c
2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、1音声を構成する要素である音素と音高に分解し、2音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 1は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、2さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 作ったもの DLsiteの新作音声作品をクローリング -> 好みかどうか推論 -> 好みならSlack通知をするシステムを完全サーバーレス(AWS SAM)で構築しました。さらなる精度向上のため、Slackメッセージのボタンをもとに教師データを蓄積する処理も作りました。 デモ(ぼかしMAX) とてもわかりにくいですが、好みであろう作品がPOSTされているSlackの画面です。各メッセージについている「興味あり!」「別に...」ボタンを押すとLambdaが起動し、DynamoDBに新たな教師データとして保存されます。 なぜ作ったのか DLsi
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く