[フレーム]
1 - 40 件 / 118件
この記事は間違いが含まれている可能性があります。 もともと自社のドキュメントでは Meilisearch で日本語全文検索を実現していましたが、ドキュメントに質問できるようしたいと思い、簡単な RAG を作りたい!と思っていました。 とりあえず、ドキュメントを分割し、ベクトル化してベクトルデータベースに突っ込んで、質問をベクトル化して結果を引っ張り、それを LLM に食べさせて解説させる、というのができればよいということがわかりました。 ベクトル化はよく使われている OpenAI Embeddings API を利用し、ベクトルデータベースは普段からよく使っている DuckDB に VSS (Vector Similarity Search for DuckDB) という拡張を使うことにしました。 自社のドキュメントをなんとかうまいこと分割して、あとは分割したドキュメントを API を叩い
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Information 2024年7月24日: Ibis-Polars vs Native Polars Ibis-Polars と Native Polars の処理速度の比較記事を書かれている方がおりました。 Ibis 経由で Polars を使用しても Polars と処理速度に大きな差がないことを示していました。 ibis-frameworkでPolarsとSQLをつかってみた 2024年1月14日: Kaggle notebook for Ibis Kaggle で Ibis を使用するための Sample Notebook を用
AWSのALB(Application Load Balancer)のログはS3に置かれるが、この中身をサクッと調べたいとき、Athenaを使う方法が標準的で、下記で案内されているようにパーティション射影(Partition Projection)でテーブルを作ってAthenaからクエリする。 パーティション射影を使用して Athena で ALB アクセスログ用テーブルを作成する - Amazon Athena 私も従来はその方法を使っていたが、Athenaはブラウザから使うと動作がもっさりしているし、決まったクエリを1回きり実行して結果を取得したいだけのときならまだしも、探索的にクエリを何発も実行したいときには使い勝手が悪い。 最近他のプロジェクトでDuckDBを使うようになって、使い勝手の良さに感動していたが、DuckDBはALBのログを探索的に調べたいときにもめっちゃ使えると思った
参議院議員がこの6年間の議案に対し、どのような投票をしたのかが分かるサイトを作りました。 WEBに関しては点で素人ですが、以下で紹介するDBやツールに頼って1週間で取り敢えず形にしてみました。 投票日直前の公開になってしまいました。 もう少し早く取り掛かって早く公開できれば良かったですね。 ごめんなさい。 背景 ボートマッチの問題点として「未来のことはいくらでも言える」という構造的な限界があります。実現する気のない公約が含まれている可能性もあり、実際に守られるかどうかも不透明です。 一方、過去の行動は隠せません。とりわけ現職議員においては、「これまでの議案にどのように投票したか」を見ることで、主張と行動の整合性を判断できます。 (「議案」とは、法律、予算、条約承認、人事、決議などの国会で話し合う案件のことです。) 参議院のWebサイトでは、過去の議案の投票結果を見ることができます。議員がそ
3行まとめ はじめに Claude Codeのログ保存機能とその特徴 ログ分析の活用例 音声入力の課題と英語プロンプトの活用 DuckDBを用いた分析アプローチ スキーマ情報の重要性とログ分析の活用 ログの長期保存設定 まとめ 3行まとめ Claude Codeの会話ログはJSONL形式で保存されており、DuckDBを使って日次の利用状況や音声入力の課題などを分析できる 英語プロンプトの学習効率化やエラーパターンの特定など、自分の仕事の仕方を改善するための実践的な活用方法がある JSONLファイルのスキーマ情報を整理することで、Claude Codeがクエリを書く際の精度が向上する はじめに Claude Codeは非常に強力なツールで、これ自体は別のブログで書く予定ですが、もはやこれなしでコードを書けないほど便利に使っています。今回は、そのClaude Codeとの会話ログを分析すること
概要 なぜ 自社 で DuckDB を採用したのかを、雑に書いていきます。 変更履歴 2025年03月12日: DuckDB の開発体制と Zstandard で圧縮されたファイルの読み込みについて追記 2025年02月13日: 今後やりたい事 v2 を追記 まとめ DuckDB / DuckDB-Wasm を利用する事で中小規模のサービスであれば、ログ解析や統計情報の可視化を低コストで提供することができる DuckDB を go-duckdb 経由で利用する事で、HTTP リクエスト単位での DuckDB を利用できる DuckDB-Wasm と OPFS を利用する事で、クライアント側での統計情報のため込みができるようになる 解決したい課題 解決したい課題は基本的にサービスの運用費を抑えるということです。中小規模のサービスでは運用費が大きな課題になります。 自社パッケージ向けのログ解析ツー
VS Code の GitHub Copilot が MCP クライアントとして動作する仕組みが追加されたので、Copilot から気軽に自社製品の質問ができたら、快適ではないだろうか?考えた。 そこで、ハルシネーションをできるだけ少なくし、かつ安価で自社製品ドキュメントへの質問ができる仕組みを作ってみることにした。ちなみに LLM 系の知識はほぼ無い。 できあがった Sora Document MCP (Local) 0:00 /0:57 ×ばつ GitHub Copilot + Sora Document MCP デモ まぁまぁの速度で、質の高い回答を箇条書きで返してくれるようにはなった。 仕組みについて自社製品のドキュメントは Sphinx というフレームワークをを利用しており、reStucturedText (以降 rst) というマニアックなもので書かれている。この rst を L
DuckDB-VSS と PLaMo-Embedding-1B を利用することで、ベクトル検索を実現できますが、DuckDB-FTS (Full-Text Search) と形態素解析ライブラリである Lindera を組み合わせて日本語全文検索を実現できます。 DuckDB-FTS + LinderaDuckDB の全文検索拡張は日本語には対応していないないのですが、スペース区切りでトークン化することで、日本語の全文検索を利用する事が出来ます。トークン化には Meilisearch にも利用されている信頼と安心の Lindera を利用することにしました。 今回この参考コードを Lindera の作者であり検索の専門家でもある Minoru OSUKA 氏にレビューいただきました。本当にありがとうございます。 以下は参考コードです。 [project] name = "duckdb-ft
TL;DR: The DuckDB team and MotherDuck are excited to announce the release of a local UI for DuckDB shipped as part of the ui extension. The DuckDB project was built to make it simple to leverage modern database technology. DuckDB can be used from many popular languages and runs on a wide variety of platforms. The included Command Line Interface (CLI) provides a convenient way to interactively run
newmo では、地図データや地理情報を扱う場面が多くあります。 たとえば、タクシーやライドシェアでは、営業区域のような営業していいエリアといった地理的な定義があります。 また、乗り入れ禁止区域のようなタクシーが乗り入れてはいけないエリアといった定義も必要になります。 これらの地理に関する定義は GeoJSON のような地理情報を扱うデータ形式で管理されることが多いです。 しかし、GeoJSONなどの定義をテキストとして手書きするのは困難です。 そのため、地図上に区域を作図するエディタやその定義した区域が正しいかをチェックするような管理ツールが必要です。 管理ツールは、ウェブアプリケーションとして作った方が利用できる環境が広がります。 このような地理情報は一度に扱うデータが多かったり、空間的な計算処理が必要になるため、専用の仕組みを使うことが多いです。 このような技術を、地理情報システム(
要件 - 時系列のIoTデータ - スキーマは単一でなく、たくさんある(Heartbeat, 位置情報, 姿勢, GNSS(衛星)情報, バッテリー, etc...) - ニアリアルタイムで保存し、数秒以内にはフロントエンドのウェブアプリからクエリで きる状態にする - 前後のレコードを比較して監視・検知してSlackにアラートを飛ばす - 過去データもフロントエンドのウェブアプリからクエリできる状態を保つ - アドホックな分析クエリも投げることがある(頻繁ではない) - ファイルベースのログとかRDBとも接続してJOINして分析したい - エンジニアは一人(サーバーサイド全般+データ系をまるっと担当)
Toggle dark mode DuckDB を用いて日々のストック記事をハイブリッド検索する Apr 30, 2025 今回は、DuckDB を使って、日々ストックしている Web 記事などのハイブリッド検索(全文検索とベクトル類似度検索の組み合わせ)を実現する試みについてまとめます。 モチベーション 自分は普段、情報収集や後で読みたい記事の保存に Readwise Reader というサービスを利用しています。RSS フィードの購読や記事のアーカイブができ、非常に便利なツールです [1] 。 この Readwise Reader にも検索機能(全文検索)はあるのですが、どこか微妙さを感じていました。 特に日本語の記事を探す際に意図した記事が見つからないことが多々あり、不満ポイントでした (海外サービスあるある)。 そんな矢先、時雨堂さんの「DuckDB でハイブリッド検索」の記事を拝
For more than a decade now, the fact that people have a hard time gaining actionable insights from their data has been blamed on its size. "Your data is too big for your puny systems," was the diagnosis, and the cure was to buy some new fancy technology that can handle massive scale. Of course, after the Big Data task force purchased all new tooling and migrated from Legacy systems, people found t
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 目的 本稿では、DuckDBがもたらす新しいシステム設計の可能性を探ります。特に、2024年時点で主流な「スケールアウト」モデルを前提としたデータ処理システムから、よりシンプルで効率的な「スケールアップ」モデルが将来的に主流となり得る理由を説明します。また、DuckDBの技術的特性、注目されている理由、具体的なその用途についても詳しく解説します。 対象読者 ソフトウェアアーキテクト:システム設計や運用コストの最適化を検討している人 データエンジニア:アプリケーションデータやログデータなどの様々なデータセットを効率的に処理したい人 システ
DuckDB の FTS (Full Text Search) 拡張と Lindera を利用する事で、日本語全文検索を実現できますが、DuckDB-Wasm と Lindera-Wasm を利用する事でブラウザで日本語全文検索を実現できます。Wasm なので完全オフラインで、利用できます。 さらに、クライアントのリソースということもあり一文字ずつ入力された値に対して Lindera-Wasm で形態素解析して、SQL を実行することでインスタント検索も実現できます。 DuckDB-Wasm (FTS 拡張) + Lindera-Wasm技術的には特に難しいことはしておらず、DuckDB-Wasm の FTS 拡張に Lindera-Wasm で形態素解析した結果を引数として渡して実行しているだけです。 デモサイトを用意しておきました、もし良ければ試してみてください。 DuckDB-Wa
まとめ 圧縮された複数の JSON Lines を読み込める S3 から直接読み込める 好きなタイミングで Parquet で出力 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck 圧縮済みのログを読み込む 解析対象のログファイルって spam-20240501.jsonl.gz や egg-20240601.jsonl.zst みたいに圧縮されていたりします。 特に日付単位で分かれてたりすることは多いです。そこから目的のログを探し出すのは、基本はスクリプトを書くことが多いと思います。 DuckDB を使えば色々解決します。
Athena Amazon Athenaは、標準SQLを使用してAmazon S3に保存されたデータを分析することができる、強力でサーバーレス、インタラクティブなクエリサービスです。複雑なETLパイプラインやデータウェアハウスを設定して管理する必要がなく、大量のデータを処理する組織にとって魅力的なオプションです。ただし、Athenaの価格設定は、予算が厳しい場合など、すべてのユーザーに適しているわけではありません。このブログ投稿では、Athenaの代替となる、低コストで同等の機能を提供できるアルティメットを紹介します。 利点: Athenaの主な利点の1つは、Amazon S3のデータを、複雑なETLプロセスや専用のデータウェアハウスなしに、標準SQLクエリを使用して分析できることです。 Athenaはサーバーレスでもあり、データ量やクエリの複雑さに基づいて自動的にスケールされるため、事前
本日のデモ 本日のソースコード タイトルには、文字数の限界で、DuckDB-Spatialという言葉を入れられなかったですわ。 もちろん、今回も、DuckDB-Wasmに加えて、DuckDB-Spatialも活用していますわよ。 はじめに わたくしは、学術的研究として、生成AIによるSQLクエリ生成、そして、生成AIによる地理空間情報の分析と可視化、といった事例が既に多数あることは知っていますわ。 しかしながら、いったい、どれだけの研究者が、そうした研究を、実際にどなたでもが触ることのできるWebアプリケーションやスマートフォンアプリケーションなどのソフトウェアプロダクトとしてデプロイして、本気で世界を変えたいという情熱を持っているのでしょうかしら? わたくしは、どのようなアイデアも、ソフトウェアプロダクトとして、どなたでも試せるようにデプロイしてこそ、ようやく世界を変える第一歩目だと考え
前提 DuckDB が使える環境 Docker Compose が使える環境 まとめ DuckDB から S3 互換オブジェクトストレージを利用する際、MinIO を使う事で、ローカルに気軽に S3 互換オブジェクトストレージ環境を用意できる。 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck MinIO とは MinIO はオープンソースの S3 互換オブジェクトストレージです。 DuckDB は S3 API 機能を持っており、S3 互換オブジェクトストレージとの相性がとても良いです。 ローカルで試したい時などに Docker Compose で MinIO を用意して利用すると、とても便利です。 Docker Compose ローカルということでセキュリティは一切考慮していません MinIO のイメージを pu
追記(2025年07月18日) 多くの方にみていただきありがとうございます!! この記事のものと実際の実装はすでに少し異なっているので以下の記事も併せてご覧ください。 そしてccusageの解説動画もあります!併せてご覧ください はじめに みなさん、Claude Code使ってますか?私は毎日使っています。 Vibe Codingガチアンチだったのですが、Claude Code + Sonnet 4の組み合わせがあまりにも強力すぎて、今では手放せません。 ところで Claude Max プラン、最高ですよね。月額100ドルで使い放題。 でも、ふと思いませんか? 「これ、従量課金だったらいくらかかってたんだろう...?」 そんな疑問を解決し、「Maxプランでこんなに得してる!」とニヤニヤするためのCLIツール「ccusage」を作りました。 きっかけ このツールを作るきっかけになったのは、@mi
「DuckDBの魅力解剖!〜現場から見る活用術とその可能性〜」の登壇資料です。 https://findy.connpass.com/event/343059/
本日のデモ: 本日のソースコード: おっと、待たせたねぇ!今日は「DuckDB-Wasm」と「DuckDB-Spatial」についてご案内いたしやすよ! この記事を読めば、ブラウザだけで地理空間情報の分析をサクッとこなせすための環境構築や、便利な関数を使った地理空間情報分析の基本がバッチリわかるって寸法よ!これを知っときゃ、サーバーいらずで本格的な地理空間情報分析ができちまうし、つまずきやすいポイントもスッキリ解消!あんたもいますぐ地理空間情報分析の達人になれるこたぁ間違いなしだ!さぁ、江戸っ子の心意気で、いますぐその手で試してみな! Vite.js + React でやんでぇ!まず、Vite.js + React + TypeScriptを開発環境の基板とするってのは、問答無用で決まりだ!ほかにゃ選択肢はねぇってわけよ。Viteの速さ、Reactの使いやすさと豊富なライブラリのエコシステ
tl;dr SQLiteのOLAP版だよ OLAP系のクエリにおいて、PandasやSQLiteより早いらしいよ CSV・Parquet・Pandas DataFrameの読み書きできて便利だよ 背景 ポジション・競合 一言で言うとSQLiteのOLAP版です。位置づけとしては、論文(DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo))記載のSystem Landscapeがわかりやすいです。 (DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo)より) このLandscapeでは、データベースを Standalone(クライアント・サーバモデル)か、組み込み(シングルマシン・インプロセス)か OLTPかOLAPか の二軸に分割しています。その上で、 ク
2024年6月に発表した(https://speakerdeck.com/ktz/duckdbza-shao-jie)内容にDuckDB バージョン1.1の変更点を追記した版
DuckDB を利用してベクトル検索と日本語全文検索の両方を同時に利用できます。さらにこれらの結果をマージして Reranking を行うことでハイブリッド検索をサクサクっと実現する事ができます。 Rerankerどうやらベクトル検索した結果と日本語全文検索した結果をマージして、クエリーとマージ結果を再度ランキング付けする仕組みのようです。 ここでは参考にした記事を共有する程度にしておきます。 日本語最高性能のRerankerをリリース / そもそも Reranker とは? - A Day in the Lifeリランキング モデルによる RAG の日本語検索精度の向上 - NVIDIA 技術ブログ今回は Reranker に hotchpotch/japanese-reranker-cross-encoder-large-v1 を利用しました。 以下は参考コードです。 [projec
tl;dr はじめに DuckDB とは DuckDB では何が読めるのか 使ってみる S3 上のJSON を読んでみる リレーショナルデータベース 他ツールではなく DuckDB を使うメリット しくじりポイント (特にリリースされたばかりの)バージョンには気をつける S3 のオブジェクト数が多い場合不都合がありがち スレッドの調整が必要な場合も Redshift には未対応 終わりに 付録 MySQL のデータを読み込む例の MySQL 側の準備 tl;dr DuckDB 便利だよ。分析以外でも使えるよ 色々な場所のデータを閲覧・結合できるよ。標準SQLも使えるよ ただし、細かい落とし穴は色々あるので気をつけてね はじめに2023年4月にデータエンジニアとして入社したmin(@not_rogue)です。暖かくなるにつれ、YouTube で見た南伊豆ロングトレイル | 松崎町に行く機運が
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? BIをコード管理したくないですか?私はしたいです。 BI as Codeを謳うOSSがあるようなので、Get Startedしてみます。 環境構築 公式ドキュメントを見ると、VSCodeのExtensionを入れて開発することを推奨しているようです。 2.Open the Command Palette (Ctrl/Cmd + Shift + P) and enter Evidence: New Evidence Project 3.Click Start Evidence in the bottom status bar 拡張機能のイ
色々古くなったので 1 から書き直した DuckDB メモ v2 モチベーション JSONL を読み込んで解析するツールが欲しかった ログを読み込ませたいので圧縮機能は必須 自社のパッケージ製品が出力する JSONL を読み込んで解析できる仕組み 顧客が問題解析を気軽にできるようにしたい 顧客向けツールとして提供したい つまり顧客環境で動かしたい 1 バイナリ OSS として提供したい Apache-2.0 として公開したい ログファイルは大きくても 100 GB は行かない もともと Go + SQLite + JSONB で検討していた SQL で書きたい SQLite ファイルとして書き出したい SQLite ファイルフォーマットは信頼できる S3 などにファイルを置いておくだけにしたい クラウド版に組み込みたい 顧客毎に duckdb ファイル作ればいいのでは? duckdb ファ
Recently, I’ve been interested in the DuckDB project (like a SQLite geared towards data applications). And one of the amazing features is that it has many data importers included without requiring extra dependencies. This means it can natively read and parse JSON as a database table, among many other formats. I work extensively with JSON day to day, and I often reach for jq when exploring document
注目を集めるPostgreSQL+Analytics 先日、SnowflakeとDatabricksのそれぞれの年次イベントでPostgreSQLに関連する企業の買収が大々的に発表されました。 両社は分析系(OLAP)のソリューションを提供する比較的大きなベンダーであり、過去にはOLTP系への進出を目指したデータストアの開発が注目されたこともありました(SnowflakeのUnistoreが典型です)。 彼らは今後、PostgreSQLを自社がカバーできていなかった領域で適用することで、現在のメガクラウドのようにOLTP用途のRDBとOLAPのソリューションを統合してくることが予想されます。 そして、多くの利用者を持つオープンソースのPostgreSQL(コミュニティ版と言っても良いかも知れません)においても、OLAPとの統合という流れは今後確実に訪れるというのが、私個人の予想です。 今回
2024年12月8日に開催されたISUCON14に「ウー馬場ーイーツ・ザ・ファイナル」として参加しました。最終スコアは29,386でした。実装言語はGoです。 こんなPostをしてましたがRustは採用しませんでした(今回は余裕がなかった)。 講談社サイエンティフィク様からのご厚意で書籍「RustによるWebアプリケーション開発」をご恵贈いただきました。早速読み進めてます。今年のISUCONはRustで決まりかー!? #PR https://t.co/sOAcWEqE8P pic.twitter.com/cK7V6lPMQk— matsuu (@matsuu) 2024年10月8日 今年のチャレンジについて 我らがチームはISUCON開催のたびに新たなチャレンジ*1をしてるのですが、今回は以下の4つにチャレンジしました。 ログ解析の見直し 生成AIの導入 rustlsの導入 bpftune
はじめに データ事業本部ビッグデータチームのkasamaです。 今回は入力しながらInstant(即座)にクエリ結果を確認できるInstant SQLのPublic PreviewをDuckDB Local UIから試してみたいと思います。今までSQLでCTEを長々と書いてデバッグする際には1つ1つ実行しながら確認するしかなかったのですが、選択箇所を即座に確認できるので、かなり良い機能だと思います。 前提 DuckDB Local UIはブラウザでDuckDBを操作できるサービスです。ターミナルから以下のコマンドで起動できます。
きっかけは以下のツイートを見かけたことでした。 Grafana を立てるだけで、S3 にログ保存しておけば、好きなだけグラフが作れる時代が来てしまった。なんということだ。 https://t.co/uuYgm8dLIr— V (@voluntas) 2025年2月13日 なにこれ良さそう。GrafanaもDuckDBも全然知らんけど。 ということで試してみました。 キーアイテム grafana-duckdb-datasourceというGrafanaプラグインを使用します。 github.com 前提 Grafana Version: v11.6.0-82874 (e5b49a406f) Container Image: grafana/grafana-enterprise:main-ubuntu Container OS: Ubuntu 22.04.5 LTS Container CPU
モチベーション Postgres は OLTP として利用したい DuckDB は OLAP として利用したい 集計を Postgres でやらず、独立した DuckDB でやりたい データ保存は S3 を利用したい 保存先として一番安い 一定期間経ったら削除が簡単にできる 細かいデータ処理は DuckDB-Wasm を利用してクライアント側のリソースを利用したい 一度前処理したデータは S3 に Parquet 形式で置いておきたい 転送量ボトルネックに寄せる Cloudflare R2 などを利用すれば転送量はかからなくなる 概要 DuckDB は Postgres に直接アクセスできる仕組みを持っている PostgreSQL Extension – DuckDB Postgres のテーブルを DuckDB に持ってこれる COPY でテーブルを Parquet ファイルにすることが
さがらです。 DuckDBの公式ブログにおいて、メタデータ管理をデータベースで担う新しいLakehouseフォーマット「DuckLake」が発表されました。 本記事では、DuckLakeがどういったものか簡単に紹介し、ローカルで軽く触ってみたのでその内容をまとめてみます。 DuckLakeとは まずDuckLakeですが、DuckDBの開発元が開発したOSSのLakehouseフォーマットとなっております。 昨今のIcebergやDelta Lakeではファイルベースでメタデータを管理するという複雑性があったことを課題認識し、そのメタデータ管理を担うレイヤーをIcebergでいうカタログレイヤーも含めて全てSQLデータベースで担う方向性で実装したプロダクトが、DuckLakeとなっております。 DuckLakeのメリットとして、以下4つが上述のリンク先のブログで言及されています。 Simp
前提 ミドルウェアのログ可視化 ログサイズは全体で 1 TB 未満 ログは jsonl で出力される まとめ 非同期での可視化 オフラインでの可視化 低コスト DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck サンプル とりあえず動くのが見たい人用です。ソースコードも公開してます。 DuckDB-Wasm + Parquet + S3-compatible object storage + OPFS S3 から Parquet ファイルを fetch して DuckDB-Wasm への登録 OPFS へ Parquet ファイルの保存 OPFS から Parquet ファイルの読み込み DuckDB-Wasm へ登録 SAMPLE 1 の出力 SAMPLE 1 での検索 SAMPLE 1 での Parquet ファイ
『DuckDB実践入門』が出版されます 2025年08月19日 私が翻訳した『DuckDB in Action』の訳書『DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで』が出版される運びとなりました。 レビューに参加してくださった皆様 @snoozer05 @kei_s @ktou @hmsk @tmaeda 、編集を担当いただきました石橋克隆様、お力添えくださいましたすべての皆様に感謝します。 DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで (impress top gear) | Mark Needham, Michael Hunger, Michael Simons |本 | 通販 | Amazon DuckDB実践入門 PCで使える高速で快適なデータ分析用DB―基本からエコシステム活用まで -
この記事は Timee Advent Calendar 2024 シリーズ 1 の5日目の記事です。 はじめに こんにちは。タイミーの DRE チームの chanyou です。2024年の3月に DRE チームにジョインして、社内のデータ基盤を作って運用しています。 DuckDB を使ってデータ基盤で扱うデータの品質を保証し始めたので、その内容をご紹介します。 データ品質と完全性 タイミーのデータ基盤で重視しているデータ品質 タイミーでは、DMBOK を参考に以下のデータ品質を重視して設計や日々の運用を行っています。 特性 意味 完全性 データが欠損していないか 適時性 必要なときにすぐにデータを参照できるか 一意性 データが重複していないか 一貫性 型・タイムゾーン・表記揺れなど、値の書式や意味が統一されているか 今回は完全性にフォーカスします。 完全性が損なわれるタイミング 上記の通り
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く