こんにちは。 最近はPythonを使ってツイートの分析をしています。 具体的にはクラスタリングやtf-idfなどの手法を使って、クラスタリングした後に そのクラスターの特徴語を抜き出すということをやっています。 tf-idfの結果を見ると、 ところどころhttpやコロン、スラッシュという文字があったので、 形態素解析前の処理として、プロトコルを消す処理を書きました。 #! /usr/bin/python # coding: UTF-8 import re text ="https://twitter.com, facebook:http://facebook.com/control/event" while re.search(r'(https?://[a-zA-Z0-9.-]*)', text): match = re.search(r'(https?://[a-zA-Z0-9.-]*)