[フレーム]
はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできます コメント表示の設定

ブックマークしました

ここにツイート内容が記載されます https://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

594users がブックマーク コメント 63

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

行政の統計資料のような非構造化データをGPTで構造化データに変換する|mah_lab / 西見 公宏

594 users note.com/mahlab

ガイドラインをご確認の上、良識あるコメントにご協力ください

0 / 0
入力したタグを追加

現在プライベートモードです 設定を変更する

おすすめタグタグについて

よく使うタグ

はてなブックマーク

はてなブックマークで
関心をシェアしよう

みんなの興味と感想が集まることで
新しい発見や、深堀りがもっと楽しく

ユーザー登録

アカウントをお持ちの方はログインページ

記事へのコメント63

  • 注目コメント
  • 新着コメント
geerpm
これはすごい。が件数が何万件もあったときその正誤確認はどうするべきなんだろう。誤りが含まれる前提のサービス設計が必要になるのかも

その他
takutakuma
本当はこんなことせずに行政が構造化データをあげてくれれば問題は解決するけど、いまは過渡期ではあるし AI の力でなんとかして、行政の対応を待つのが良さそう。

その他
BlueSkyDetector
すごい。けどやっぱりまず第一に富士吉田市がまともなデータ公開すべきだよね。。。

その他
chintaro3
人間が打ちなおしたって間違うことはある訳だし、原理的にそれと同等レベルの事は実現可能。さらに間違いが無いかチェックすることを別途GPTでやればいい。

その他
laranjeiras
この記事を一番活用できるのは、こういった処理を15年以上やってデータ構築してきた私だと自負しております(アドホックなりに大量の小ツールを作ってるのでこのデータなら構造化可能(笑)。ありがとうございます。

その他
n-styles
他人が撮った謹呈の帯付きの本の画像を見出しに持ってくるセンスがいまいちわからん...。この本も作者も送り主も撮影者も、この記事や著者とほぼ無関係のように見えるが「行政」の1単語だけで画像引っ張ってきてる?

その他
kusomamma
"「この文字列を元に構造化データへ変換するプログラムを書け」と言われてもぶっちゃけ書けない自信があるので"いや、データ分析の仕事なんてそういう仕事ばかりという印象だが。前処理が工数の8割。

その他
Arturo_Ui
日本政府は「AI技術を利用して法体系を効率化する」という取り組みを(少なくとも検討は)始めていたはずだけど、実際に活用できそうな技術が登場した以上、政府の本気度が問われる局面に移ったわけですかね。

その他
OkadaHiroshi
GPT4を触ったイメージだと、GPTで直接変換するので吐く「変換するプログラムを書いて」とGPTにお願いしたほうが良いと思う。例外的なデータは「このデータだと上手くいかないんだけど」とコード修正してもらう。

その他
omega314
それなら「変換プログラム」を部分的でも不完全でもいいから出力してほしいかな。

その他
shodai
PDF変換

その他
kazuph1986
すばら。これを保育園PDFに適用してみる!

その他
yuiseki
そうそう、これ強力な使い方だと思う!!あらゆる非構造化データ・半構造化データを、機械可読な構造化データにさせることができるはず!

その他
misshiki
"投入したPDFと見比べてみても、驚くほど正確にデータ変換できていることが分かります。"便利だけど、人間によるチェックは欠かせなさそう。

その他
hatakazu93
技術

その他
anus3710223
統計表をCSV化するのって死ぬほど面倒なんですよね......。各担当が担当ごとのルールで公表してるから面倒なこときわまりなんいんすよね......

その他
hdampty7
だからさ、それが正しいかどうかはどうやって確認するのさ。だったら、自分でやったほうが早いんだって。もし、金貰ってそれやって不備があったらAIが悪いで客は納得するの?

その他
tettekete37564
照合テストが難しいのが気になるけどそれこそマギシステムよろしくAI3種使うとかすれば良いのかね

その他
wxitizi
確かにこういうのありがたいんだけど、結局は人力チェックしないと不安(になるくらい、表って見た目のためにイレギュラーなことを多々してる)なんだよなあ。

その他
shoh8
まじで詰まってたとこをGPTに投げてしまうで、一気に解決事例が溢れそう /元データ側がちゃんと構造化しろと言うのはその通りだけど、もう提供元を揺さぶるよりAIに任せた方が圧倒的に速そう

その他
ya--mada
マジでこれイケるの?本当ならスゴい!!

その他
Yagokoro
良くも悪くも、今流行のAIは高機能な変換フィルターなんだよな......

その他
yarumato
"PDFのような非構造化データを、ある程度LLMで扱いやすい形に変換してくれるライブラリでテキストデータ化。これをGPTに「JSON形式に変換して」とお願い。驚くほど正確にデータ変換。人が構造分析するより低コスト"

その他
myrmecoleon
UnstructuredPDFLoader使わなくてもPDFからコピペだけでもいけるんじゃ?と思って投げてみたらいけた。

その他
dlive1
LLMで扱いやすい形に変換してくれるライブラリにUnstructured.ioというもの

その他
kamezo
あー、構造化って、表形式の画像とかになってるデータをタブ区切りCSVとかにすることか!/正確性の担保かー。人間が突き合わせ校正するしかないのか?/生データは残ってないのか?←そこに戻る?

その他
tsuboty
なにこの汎用性...

その他
tg30yen
テキスト整形とか細かい用途のフリーソフトはまとめてAIで代替できそう。

その他
equilibrista
以下に示すデータは、市町村の統計データとして提供されているPDFをUnstructuredPDFLoaderによりテキスト化したものである。 平成3年から28年までの行をJSONデータに変換せよ。 以下は平成3年度の行をJSON化した場合の例である。

その他
daishi_n
アドホックにやるならGPTは便利そう。定型化コードを出力できれば便利だけど、これは課題かな

その他
blueboy
「こういった処理を15年以上やってデータ構築してきた」という人がいるが、早晩、ChatGPT に仕事を奪われて、追い出されそう。

その他
airj12
逆変換もしてもらって比較すれば正誤確認できそう

その他
raitu
"PDFのような非構造化データを、ある程度LLMで扱いやすい形に変換してくれるライブラリにUnstructured.io"がありそれと併用した例

その他
makbai
こういう無駄な負担をさせる地方自治体は地方交付税支給しなくてよいのでは

その他
uunfo
数字があってる保証がないな。出力された構造化データから表を作って一致するかどうか見ればよいのか

その他
tinao
これをノーコードでExcelで読める形式に変換できたら一般の人にもすごさが理解できると思う

その他
n-styles
n-styles 他人が撮った謹呈の帯付きの本の画像を見出しに持ってくるセンスがいまいちわからん...。この本も作者も送り主も撮影者も、この記事や著者とほぼ無関係のように見えるが「行政」の1単語だけで画像引っ張ってきてる?

2023年03月16日 リンク

その他
knok
神エクセルみたいな表はどうだろうか

その他
CavalleriaRusticana
構造化データ変換 (ただし正確性には疑問符状態)

その他
natu3kan
人力でやるには多すぎる構造化の反復作業を命令一つでやってくれるのいいよね。人力でやってもデバッグするのは同じだし。

その他

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

リンクを埋め込む

以下のコードをコピーしてサイトに埋め込むことができます

プレビュー
アプリのスクリーンショット
いまの話題をアプリでチェック!
  • バナー広告なし
  • ミュート機能あり
  • ダークモード搭載
アプリをダウンロード

関連記事

usersに達しました!

さんが1番目にブックマークした記事「行政の統計資料の...」が注目されています。

気持ちをシェアしよう

ツイートする

行政の統計資料のような非構造化データをGPTで構造化データに変換する|mah_lab / 西見 公宏

今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタ... 今朝方GPT-4が発表されて、みなさん死ぬほど盛り上がってますねー。 GPT-4を使えば一発でできそうなネタではありますが、GPT-4 APIのお値段は3.5よりもお高めの設定なので、これからはどのように上手くGPTのバージョンを使い分けていくかが問われていくと思います。 というわけで今日は非構造化データを構造化データに変換する話です。 問題の背景行政が定期的に公開している統計資料をご覧になったことはありますでしょうか。ディスる訳ではないですが、以下に示すのは私が住んでいる富士吉田市の統計資料です。 統計ふじよしだ令和元年度版 - 商業 このように分かりやすい表で情報を提供してくれるのはありがたいのですが、数値データにはなっていないので分析に活用することができません。 GPTのパワーを使って、このような非構造化データを構造化データに変換できないか?というのが日のお題になります。 コードP

ブックマークしたユーザー

  • kanazawawan2025年09月26日 kanazawawan
  • gifuwasabig2025年02月02日 gifuwasabig
  • syopactn32024年11月18日 syopactn3
  • otcsr2024年07月11日 otcsr
  • shoppingmalljp2024年01月28日 shoppingmalljp
  • daitom2023年12月07日 daitom
  • s-takaya10272023年11月23日 s-takaya1027
  • eichisanden2023年10月05日 eichisanden
  • gwtdog2023年08月26日 gwtdog
  • ken1028-kufc2023年08月23日 ken1028-kufc
  • techtech05212023年07月30日 techtech0521
  • otomac2023年06月27日 otomac
  • t330333032023年06月27日 t33033303
  • issyurn2023年06月27日 issyurn
  • lost_and_found2023年06月27日 lost_and_found
  • takehirohattori2023年06月11日 takehirohattori
  • kitone2023年05月11日 kitone
  • Guro2023年05月08日 Guro
すべてのユーザーの
詳細を表示します

ブックマークしたすべてのユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

同時期にブックマークされた記事

いま人気の記事 - 企業メディア

企業メディアをもっと読む

はてなブックマーク

公式Twitter

はてなのサービス

Copyright © 2005-2025 Hatena. All Rights Reserved.
設定を変更しましたx

AltStyle によって変換されたページ (->オリジナル) /