[フレーム]
1 - 40 件 / 553件
Youtubeで配信しながら全プロンプトを実行しましたので、各節へのリンクを整理しました。時間のところにYoutubeへのリンクになっています。 もしずれていたら、その時間まで移動して視聴ください。 はじめに (4:00) 1章 ChatGPTの基礎知識 (5:50) 2章 ChatGPTの基本的な使い方 (6:28) 3章 ChatGPT Plusのセットアップ (7:32) 4章 ファイルのアップロードとダウンロード (12:40)4.1 アップロード・ダウンロード (13:03) 4.2 扱うことができるファイル (16:02) 5章 繰り返し作業を一瞬で (16:55)5.1 文字列操作 (17:20) 5.2 正規表現でのパターンマッチ (25:36) →54ページの正規表現でできることの例の説明 (29:09) 5.3 ファイルの一括操作 (46:20) 5.4 QRコード作成
OpenAIは、大規模言語モデル(GPT-4)でよりよい結果を出すためのプロンプトエンジニアリング(プロンプトのノウハウ)入門テキストを同社のウェブサイトで公開している。 同テキストでは、現在同社で最高の性能を持つ大規模言語モデルGPT-4を対象に、よりよい結果を導くための6つの戦略と、それぞれを実行する際の具体的な戦術(コツ)が掲載されている。 また、「Prompt examples」のページでは、上記で紹介したものを含む多数のプロンプト例が紹介されており、すぐに利用できるようになっている。 では紹介された6つの戦略を見ていこう。 明確な指示を書く LLMは利用者の心を読むことができないので、回答が長すぎる場合は「簡潔に」、単純すぎる場合は「専門家レベルで」と明示的に依頼する必要がある。 具体的な戦術としては下記が提案されている。 ・より関連性の高い回答を得られるよう、質問は詳細に ・モ
プロダクトマネジメントのコーチをしています。プロダクト開発の中でもGPT4を使うケースが増え、相談されることが増えてきました。 ChatGPTのGPT4を用いた際の、専門家として信用できる精度で推論させるための工夫の一部を紹介します。精度が必要な専門職かつ中級者向けになると思います。「機密情報の入力をどうさけるか」といった運用の話は今回はしません。 やったことと起きたこと一通り論文を読んで試したり、試行錯誤しました。 その結果、専門家として業務レベルで使える程度のものができるようになってきました。 クライアントのプロンプトを添削する仕事も増えつつあります。副作用として、日本語なのに日本語と感じられない自然言語に目覚めてきました。この片鱗についてお話しします。 分かったこと分かったこととして、精度を業務レベルで用いるためにまずはじめにとりくむことは下記です。 ・接待モードを切る ・指示の質が
最新のアプリやサービスのニュースを書くのが仕事の筆者にとって情報の整理は永遠の課題だ。 もちろん書くことを仕事にしている人に限らず、氾濫する大量の情報を必要な時に取り出して利用したいという欲求は多くの人が持っているはずだ。 以前は手書きノートやファイルのような紙媒体に保存していた情報も、時代とともに完全にデジタルに移行し、Evernote、Microsoft OneNote、Notionといったメモを作成することに特化したクラウドアプリを利用している人も多いだろう。 筆者はおそらく普通の人よりは多くのサービスに触れているはずだが、どれも帯に短したすきに長しに感じてしまい、複数のメモアプリに情報が散乱してしまっているのが実情だ。 そこで6月6日に日本でも提供が開始されたグーグルの「NotebookLM」だ。 「AI駆動型のリサーチ、執筆アシスタント」と説明されているように、参照文献(ソース)
はじめまして、sonesuke(https://twitter.com/sonesuke)です。 LLMにどっぷりハマっています。 TL; DR 16のプロンプトパターンを日本語の例をつけて、まとめてみた。 読んだ論文はこれ。 https://arxiv.org/pdf/2302.11382.pdf より高度なプロンプトエンジニアリングの話題はこちら プロンプトパターン 1. メタ言語パターン: The Meta Language Creation いつ使うか? 自然言語ではない方が、より簡潔で明確に表現できるとき プロンプトコンセプト 例 原文プロンプト "From now on, whenever I type two identifiers separated by a "→", I am describing a graph. For example, "a → b" is des
1ビットLLMの衝撃! 70Bで8.9倍高速 全ての推論を加算のみで!GPU不要になる可能性も 2024年02月28日 Updated by Ryo Shimizu on February 28, 2024, 16:46 pm JST 2月は中国では春節というお正月があり、春節にはみんな休む。 それもあってか、12月から1月にかけて怒涛の論文発表が行われて毎日「デイリーAIニュース」を配信している筆者は忙殺されていた。 春節中にはOpenAIがSoraを、GoogleがGemini1.5を発表したのは、その合間を縫ってのことだった。もはやAI最前線の戦いは研究が行われる場所の文化や風土に影響を受けるところまで来ている。 そして春節もあけた今週、さっそくAlibabaがとんでもないトーキングヘッドモデルを引っ提げて登場したかと思えば、Microsoftの中国チームがとてつもないLLMをリリース
Business Insider Japan/小林優多郎ChatGPTに世間が沸いている。 長年この分野を見てきた者としては「ちょっと沸きすぎ」のようにも見える。深層学習を使った会話ロボットは、何もChatGPTが初めてというわけではない。 ところが、世界中が驚かざるを得ないゲームチェンジャーが現れた。 その名も「FlexGen」と言う。2月15日に公開された。 特筆すべきは、FlexGenが、ChatGPTなどの大規模言語モデルを「従来の100倍高速に動かせる」上に、NVIDIA Tesla T4という、わずか16GBのメモリーしかないGPUでその性能を使えるということだ。 つまり、大規模言語モデルを秋葉原で売っているパソコン程度で動かせる新しいフレームワークが登場したことになる。 このインパクトがどれほどすごいのかを解説してみよう。 目次: 「Google翻訳」と「大規模言語モデル」は
OpenAIは2月15日(現地時間)、テキストから最大1分間の動画を生成できる動画生成AIモデル「Sora」を大量のデモ動画と共に発表した。複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができるという。 プロンプトから破綻のない動画を生成 Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: "Beautiful, snowy... pic.twitter.com
OpenAIの対話型AI「ChatGPT」は史上最も急速な成長で「月間1億ユーザー」をわずか2カ月で達成するなど、大いに注目を集めています。それに伴い、GoogleがChatGPTのライバルとなる会話型AI「Bard」を発表したり、中国企業が続々とChatGPT風AIを開発していると報道されている一方で、OpenAIはChatGPTのコードを公開していないためChatGPTを効果的に複製することは難しくなっています。AIのディープラーニングトレーニングを最適化するオープンソースプラットフォームのColossal-AIが、ChatGPTトレーニングプロセスをわずか1.6ギガバイトのGPUメモリで7.73倍高速なトレーニングに再現したと告知し、オープンソースで公開しています。 Open-source replication of ChatGPT implementation process!
2月29日に、文化庁で「文化審議会著作権分科会」の第7回が開催されました。著作権の専門家によってその制度について議論をする場ですが、今年度は2023年7月より「AIと著作権」について議論されてきました。3月に文化庁から政府に報告する「AIと著作権に関する考え方について(素案)」の最終案に近いものが発表され、1月下旬から2月上旬にかけて募った「パブリックコメント(パブコメ)」の結果報告もされるということもあり、注目されました。登場したのは「AIと著作権に関する考え方について(素案)令和6年2月29日時点版」、パブコメの結果を受けて、これまでの内容に微修正が施されていました。しかし、そこからわかったのは、文化庁の一貫したスタンスでした。 文化庁 文化審議会 著作権分科会 法制度小委員会(第7回) パブコメへの反応は「素案の内容周知」 発表物から議論を集めたのが発表資料に「パブコメの結果」が追加
ホーム LLM, プロンプト, 有料記事, 論文 「自分を信じて限界を超えてください」など感情を込めたプロンプト『EmotionPrompt』が添えられると、ChatGPTなどLLMのパフォーマンスは向上する 感情を込めたプロンプトが大規模言語モデル(LLM)の性能を向上させることが示されました。「自分を信じて限界を超えてください」や「困難は成長のチャンスです。」といった自信や成長に関わる要素を含む指示が、モデルの出力品質に貢献するとの報告です。 この発見は、人間の感情を取り入れたアプローチが、人工知能の分野においても重要な役割を果たす可能性を示唆しています。Microsoftなどの研究グループによって発表されました。 この記事では、感情を取り入れたプロンプトを提供する「EmotionPrompt」の背景、コンセプト、性能検証方法、実験結果、そして実際に効果が確認されたプロンプト例について
加熱するLLM開発競争に冷や水、オープンモデルの組み合わせだけでGPT-4o越えの事実 2024年06月21日 Updated by Ryo Shimizu on June 21, 2024, 18:19 pm JST 世界中の企業や政府が狂ったようにNVIDIAのGPUを買い漁る流れはそろそろ潮時かもしれない。 いくつかの興味深い事象が起きているからだ。 昨日発表されたKarakuri社のLLM、「KARAKURI LM 8x7B Instruct v0.1」は、非常に高性能な日本語LLMだ。Karakuri社は今年の一月にも非常に高性能な70Bモデルを引っ提げて業界に旋風を巻き起こした。この最新のLLNは、日本語向けオープンLLMとしては初の「命令実行」チューニングを施されている。それだけでなく、RAGと呼ばれる、複数の知識を組み合わせてより正解に近い答えを導く技術や、Function
Midjourneyの生成画像。12月のアップデートのv6では、写真と変わらないような画像が生成されることが話題となっている。この画像のような世界を動き回れるようになるのだろうか(筆者作成) 画像生成AIサービス「Midjourney」のオフィスアワーがあったのが1月4日。アメリカ時間で1月3日ですかね。オフィスアワーというのは、MidjourneyがDiscord上で月に1回開いて、いろいろユーザー向けに今後どのようにサービスが展開されるのかを説明するミーティングです。その会合に参加していたNick St. Pierreさんの報告によると、Midjourneyのデイヴィッド・ホルツCEOが「2024年末までにホロデッキに到達できる」と話したと言うんですね。「2024 年末までには、リアルタイムのオープンワールドが実現できればと思っています」とも言い、画像生成AIが、単にイラストといった画
AIスタートアップの米Anthropicが、同社のチャットAI「Claude 3」向けに公式プロンプト集を公開している。3月11日までに64種類の使用例を公開中。専用のWebサイト「プロンプトライブラリ」で公開しており、英語と日本語表示に対応している。 例えば、入力した材料や好みに応じた料理レシピを提案する「料理クリエイター」などのプロンプトを公開している。プロンプトは「システム」と「ユーザー」の2つに分かれ、まず前者でAIに指示し、次に後者でユーザー個別の条件や要件を伝える仕組み。料理クリエイターの場合は以下のような具合だ(原文ママ)。 システム:あなたの仕事は、利用可能な材料や食事の好みに関するユーザーの入力に基づいて、パーソナライズされたレシピのアイデアを生成することです。この情報を使用して、ユーザーの食事のニーズに対応しながら、指定された材料を使用して作ることができるさまざまな創造
「ChatGPTはすぐに嘘をつくから調べものには使えない」という意見をよく聞くが、これには大きな誤解がある。 そもそもChatGPTの心臓部である大規模言語モデル(LLM)は、膨大な知識を元にテキストを「生成」する仕組みだ。 逆に言うと、知識として持っていないことは一切わからないので、知らないことについて説明を求められても能力的に不可能なのだ。 だから、知識にない質問をされると答えられないだけでなく、苦し紛れに幻覚(ハルシネーション)を起こしてしまう。これが「すぐに嘘をつく」と言われる理由だ。 結論を書いてしまうと「ChatGPTは検索ツールではない」のだ。むしろ「ChatGPTがいちばん苦手とすることが検索」なのだ。 今回はこの欠点を補い、AIを活用した新しい検索の形を実現するという触れ込みのサービス「Perplexity.ai」を紹介していく。 Perplexity.aiとは Perp
この連載ではおなじみのキャラクター「明日来子さん」に右側からライトを当ててみた。左がIC-Lightを適用したもので、右がオリジナル。環境はWebUI Forge用の拡張機能を使用 5月8日に、「ControlNet」など画像生成AI関連の著名研究者であるイリヤスフィール(lllyasviel)さんが発表した「ICライト(Imposing Consistent Light、印象的な一貫的なライト)」が盛り上がりました。入力した画像をもとに、後から指定した照明効果を踏まえた画像を生成する技術です。 画像生成AIで照明効果がつけられる「ICライト(IC-Light)」 発表された学習済みモデルは、「ライトを指定すると、キャラクターのデータに合わせてテキストのプロンプトに合わせて独自に背景を生成するもの」「キャラクターとライトの影響を加味して、別の背景画像と合成するもの」の2種類があります。これ
大規模言語モデル(LLM)の「GPT-4」を手掛けた米OpenAIとペンシルベニア大学の研究者らは3月17日、「GPTはGPT:LLMの労働市場への影響の可能性に関する初期の考察」と題した論文を公開した。「GPT(Generative Pre-trained Transformer)モデルと関連技術が米国の労働市場に与える潜在的な影響を調査」したとしている。 調査の結果、米国の労働力の約80%が、GPTの導入によって少なくとも仕事の10%に影響を受ける可能性があり、約19%の労働者は仕事の50%に影響を受ける可能性があることが示されたという。 ほぼすべての職種に影響するが、特に現在高収入な職種のリスクが高いとしている。 調査は、学習達成度を表を用いて測定するルーブリック評価によって、職業別の人間の専門知識とGPT-4を使った場合を比較した。 方法は、1016の職業について、職業ごとに測定す
YouTubeにアップされている何十億もの動画のうち、あなたが一生に目にするのはごく一部でしょう。 重要なポイントだけを知りたいのに、そこにたどり着くまでにたくさんのことに目を通さなければならない動画もあります。それは無駄な時間です。 もし、視聴する動画の重要な情報を要約することで、視聴時間を短縮できるとしたらどうでしょう? 幸いなことに、GoogleのAIチャットボットであるGeminiには、YouTubeの拡張機能が組み込まれており、デフォルトで有効になっています。
Transformerは分散できる代償として計算量が爆発的に多いという不利がある。 一度みんなが忘れていたリカレントニューラルネットワーク(RNN)もボケーっとしている場合ではなかった。 なんと、GPT3並の性能を持つ、しかも完全にオープンな大規模言語モデルが公開されていた。 そのなもRWKV(RuwaKuvと発音しろと書いてある。ルワクフ?) RWKVはRNNなのでGPUメモリをそれほど大量に必要としない。 3GBのVRAMでも動くという。 時間がない方はビデオをご覧ください 僕の失敗は、何も考えずにgit lfs installでディレクトリごとコピーしようとしたこと。 このディレクトリには過去のモデルデータが全部あるので、ひとつ30GBのモデルデータを何十個もダウンロードしようとしていて終わらなかったのだ。 モデルデータは一とつあれば十分なのでひとつだけにする。 次に、chatのリポ
ほしいWebアプリの説明を書くだけで、ChatGPTが作って即Web公開してくれるサービス「GPTApp」を、ゲームアプリの企画・開発を手掛けるミリオンダウト代表のTakayuki Fukudaさんが公開した。 アプリのイメージを考えてフォームにテキストで入力すると、ChatGPT(GPT-3.5)がコードを出力してWebに実装する。開発にかかるのは約30秒と"爆速"。Web単体で動く簡単なアプリのみ開発できる。 うまくいけばきちんと動くが、失敗することも多い。アプリ完成画面で「ChatGPTの返信を見る」をクリックすると、ChatGPTが書いたコードも表示される。 GETAppはFukudaさんの個人開発だが、経営するミリオンダウトでは、ChatGPTなどのAIを使ったアプリを開発しているという。 関連記事 LINEでChatGPTと会話「AIチャットくん」100万ユーザー・2000万メ
現在,34個掲載(一部執筆途中) Xのアカウント@fuyu_quantでも技術系の投稿をしているのでよかったらフォローしてください! はじめに 今回はすぐに使えそうなプロンプトの工夫やフレームワークについて有名なものをまとめました.LMの出力の精度向上に役立てられればと思います. 論文があるものについてはarXivに最初に投稿された順番で掲載しています. 論文で精度向上が確認されているのは英語での検証がほとんどであるため,日本語で改善されるかは分かりません. 全てのLLM(GPT-4,Llama2,...)で精度が改善するとは限りません. ※(注記)記事に誤り等ありましたらご指摘いただけますと幸いです. 以下の記事では敵対的プロンプト技術をまとめています! 目次 Zero-shot prompting Few-shot prompting 2021年〜 Generated Knowledge Pr
米Googleの著名な2人の元研究者、リオン・ジョーンズ氏とデビッド・ハー氏が8月17日、東京に拠点を置く新AI企業を設立したとX(旧Twitter)で発表した。 ジョーンズ氏は、Googleが2017年に発表した生成AI革命のきっかけとなったと評価されている論文「Attention Is All You Need」(PDF)の8人の著者の1人。この論文では、後にChatGPTなどの製品開発の基礎となった深層学習アーキテクチャー、Transformerを紹介している。ジョーンズ氏は8月に10年以上勤めたGoogleを退社した。これで論文を書いた著者全員がGoogleからいなくなった。 ハー氏は2016年にGoogle Brain入りし、機械学習などの研究に取り組んだ後、2017年にGoogle Brainが東京チームを設立した際、そのトップとして来日した。2022年にGoogleを辞め、S
[速報]マイクロソフト、「Copilot Studio」発表。Copilotのカスタマイズ、プラグイン開発、ワークフローの設定など、Copilot用ローコード開発ツール。Ignite 2023 マイクロソフトは開催中の年次イベント「Microsoft Ignite 2023」で、同社のAIサービスであるCopilotのカスタマイズやプラグイン開発、ワークフローの設定、データソースとの接続などを含むさまざまな開発を可能にするローコード開発ツール「Copilot Studio」を発表しました。 例えば、何もカスタマイズされていないCopilotは、ある企業の出張経費の上限などについて正しく答えることはできません。 そこで、Copilot Studioを利用して出張経費の質問をトリガーとしたアクションを設定開始します。
GitHubがCopilotの将来像「Copilot Workspace」を発表した。人間が書いたIssueを起点にCopilotが仕様作成からコーディング、ビルドなど、ほとんど全ての開発工程を自動的に実行してくれるものだ。 GitHubの年次イベント「GitHub Universe 2023」が米サンフランシスコで開幕。同社CEOのThomas Dohmke(トーマス・ドムケ)氏は1日目の基調講演の最後に、GitHub Copilotの将来像となる「Copilot Workspace」を発表しました。 Copilot Workspaceは、人間が書いたIssueを起点にCopilotがIssueに対応した仕様を書き、実装計画を示し、それに沿ってコーディングや既存のコードの修正を行い、ビルドをしてエラーがあれば修正まで行うという、コーディングのほとんど全ての工程をCopilotが自動的に実
ジャクソン・グレートハウス・フォールはChatGPTの指示に従ってビジネスを始めた。Jackson Greathouse Fall ジャクソン・グレートハウス・フォールという男性は、ChatGPTに100ドルを「できるだけ多くのお金」に変えてほしいと依頼した。グレートハウス・フォールはそれから1週間も経たないうちに、環境に優しい製品に関するウェブサイトを立ち上げた。彼がChatGPTなどのAIツールを使い、どのようにビジネスを始めたかを紹介しよう。2022年11月にOpenAIのChatGPTが公開されて以来、開発者や不動産仲介業者などがこのAIツールを仕事に役立てている。そして今、あるユーザーがChatGPTの力を借りて富を得ようとしている。 ブランドデザイナーで作家のジャクソン・グレートハウス・フォール(Jackson Greathouse Fall)は2023年3月16日、ChatG
プレゼンにおけるスライド作りや文章も、ChatGPTと相談しながら作成することで効率的に準備を進めることができます。文章やデータに至るまで、説得力のあるプレゼンにするために、ChatGPTはどのような提案をしてくれるのでしょうか? AI活用コーチとしても活躍する谷口恵子氏の著書『AI仕事革命 ‐ChatGPTで仕事を10倍効率化‐』(リチェンジ)より、ChatGPTを活用したプレゼン資料の作成方法をみていきましょう。 プレゼン資料の構成もChatGPTなら可能 ChatGPTと相談しながら、プレゼン資料の骨子を作りましょう。いきなりプレゼン資料を作り始めるのではなく、まずは目的に合わせて構成をしっかり作っておくと、プレゼンの流れがスムーズになり、情報を整理された形で伝えられます。 また、聞き手がプレゼン全体の目的や内容を把握しやすくなり、関心を引きやすくなります。重要なポイントを効果的に強
実際、メタ(旧Facebook)の研究チームが公開した「LLaMA(ラマ)」は、13B(130億パラメータ)でありながら、いくつかのベンチマークでGPT3を上回った。また、スタンフォード大学の研究チームがGPT3によって生成した会話データを使ってLLaMAを微調整(ファインチューニング)した「Alpaca(アルパカ)」は、会話の確からしさについてはGPT3に匹敵するか、上回るとも言われている。 さらに、ShareGPTと言われる、GPTとの会話をオープンデータ化するプロジェクトによって得られたデータセットを元にAlpacaを再度微調整した「Vicuna(ビクーニャ)」は、Alpacaをも上回るとも。 2022年、MidjourneyとDALL-E2という、2つの非公開の「画像生成AI」が話題になった。 そこに、いきなりオープンソースでフリー(自由)という看板を掲げてStableDiffus
はじめに 新規事業部 生成AIチーム 山本です。 ChatGPT(OpenAI API)をはじめとしたAIの言語モデル(Large Language Model:以下、LLM)を使用して、チャットボットを構築するケースが増えています。通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができません。そのため、例えば社内システムに関するチャットボットを作成しようとしても、素のLLMでは質問に対してわからないという回答や異なる知識に基づいた回答が(当然ながら)得られてしまいます。 この問題を解決する方法として、Retrieval Augmented Generation(以下、RAG)という手法がよく使用されます。RAGでは、ユーザからの質問に回答するために必要そうな内容が書かれた文章を検索し、その文章をLLMへの入力(プロンプト)に付け加えて渡すことで、ユーザが欲しい
仮想的なシステムであり、実際の普及は想定されていない。 言語学習や異文化コミュニケーションのツールとしての可能性がある。 結論ローマ字運動とJaphalbetは、どちらも日本語の表記をラテン文字化する試みという点で共通していますが、その目的、アプローチ、そして想定される使用範囲に大きな違いがあります。ローマ字運動が日本の近代化と識字率向上を主眼としていたのに対し、Japhalbetは国際的な日本語学習とコミュニケーションの促進を目指しています。 また、ローマ字運動が日本語の文法構造をほぼそのまま維持したのに対し、Japhalbetはより大胆な文法の簡略化を提案しています。これは、Japhalbetが非日本語話者にとっての理解のしやすさを重視しているためです。 結果として、ローマ字運動は日本社会に一定の影響を与え、特に技術分野での応用を見出しましたが、Japhalbetは現時点では理論的な提
ChatGPTを活用して事業計画書作成を効率化しよう 経営者にとって、事業計画書を作成するのにハードルの高さを感じている人もいるかもしれません。 しかし、事業計画書は補助金申請や金融機関から融資を受けたい時にも重視される傾向にあるものです。 事業計画書を効率的に作成するなら、ChatGPTの活用がおすすめです。 今回は、ChatGPTで事業計画書を作成する際のプロンプト例や、作成時の注意点についてご紹介します。 事業計画書の作成に頭を悩ませている方は、ぜひ参考にしてみてください。 創業手帳ではオンライン上で記入・保存ができる「事業計画シート&資金シミュレーター」をリリース。事業計画を書くにあたっての定番項目は網羅しており、これを埋めるだけで事業の今後の計画などが整理できます。また出先で思いついた内容をちょっとメモするときに使ったりすることも可能。無料でご利用いただけますので、是非ご活用くだ
OpenAIが2023年3月14日に正式発表した「GPT-4」は、ChatGPTなどに用いられたGPT-3.5の性能をさらに超え、「初代iPhone登場時と同等の衝撃を与える存在」と評されています。すさまじい性能を有するGPT-4がどのような影響を生み出しているのか、AIに関するマーケティングの専門家であるサム・ウッズ氏が「生後わずか3週間のGPT-4が作成した14の素晴らしいもの」としてまとめています。 GPT-4 is barely 3 weeks old. It has already made significant contributions to various fields. Here are the 14 incredible things created with GPT-4.— Sam Woods (@samuelwoods_) 2023年4月3日 GPT-4では、テキ
それでは以下、簡単なデモを含めながら個別に説明していきます。 1. ハイブリッドサーチ こちらは、性質の異なる複数の検索方式(例えばベクトル検索とキーワード検索)を組み合わせて検索精度を向上させる手法になります。 各検索方式単体の場合に比べ、性質の異なる検索方式を組み合わせ、ある種いいとこ取りをする事で、検索性能の向上が期待できます。 今回はBM25でのキーワードベースの類似度検索と通常のベクトル検索を組み合わせていきます。 BM25について簡単に説明しておくと、文脈や文章構造は完全に無視した上で、文書内の単語を全てバラバラに分割し、文書内の各単語の出現頻度と文書間におけるレア度を加味した特徴量を算出します。 つまり、特定の文書内の各単語の数をカウントしてヒストグラムを作れば、似たような文書には同じような単語がよく出るはずなので(同じようなヒストグラムの形になるので)、類似度が高くなる性質
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く