Sex Ratios and Wikidata Part III¶

validity

{english_label(qid): language_count for qid, language_count in used_sexes_count.iteritems()}

VERBOSE:pywiki:Found 1 wikidata:wikidata processes running, including this one.

{u'Female': 89,
 u'female': 367,
 u'female animal': 55,
 u'genderqueer': 23,
 u'intersex': 51,
 u'kathoey': 10,
 u'male': 395,
 u'male animal': 66,
 u'man': 3,
 u'sodium': 1,
 u'transgender female': 63,
 u'transgender male': 24}
show_by_lang_plot()

diffdf.sort(columns='change%', ascending=True)[['female_may2013','female_march2014','change%']].head(10)

diffdf.sort(columns='change%', ascending=False)[['female_may2013','female_march2014','change%']].head(10)

top_non_MF.sort('non_MF%', ascending=False)

sex_props_df.sort('props_per_item')

import json
from collections import defaultdict
import pandas as pd
import pywikibot
import decimal
NOPLACES = decimal.Decimal(10) ** 0
TWOPLACES = decimal.Decimal(10) ** -2
%pylab inline

Populating the interactive namespace from numpy and matplotlib

norm_sex[sexdf['total']>1000].sort(columns='non_MF', ascending=False).head(10)

jsonfile = open('lang_sex.json','r')
bigdict = json.load(jsonfile)
lang_sex = defaultdict(dict)
for keystring, count in bigdict.iteritems():
 lang, sex = keystring.split('--')
 lang_sex[lang][sex] = count

used_sexes = defaultdict(list)
for lang, sex_dict in lang_sex.iteritems():
 for sex in sex_dict.iterkeys():
 used_sexes[sex].append(lang)

used_sexes_count = {sex: len(lang_list) for sex, lang_list in used_sexes.iteritems()}

sexdf = pd.DataFrame.from_dict(lang_sex, orient='index')
sexdf = sexdf.fillna(value=0)
#sexdf.plot(kind='bar', stacked=True, figsize=(10,10))
#Norm_sex is not "normal" sex, but rather the Sex-data normed into percentages.
norm_sex = sexdf.apply(lambda col: col / float(col.sum()), axis=1)

#Tranforming QIDs into English labels.
enwp = pywikibot.Site('en','wikipedia')
wikidata = enwp.data_repository()
def english_label(qid):
 page = pywikibot.ItemPage(wikidata, qid)
 data = page.get()
 return data['labels']['en']

sex_qs = [str(q) for q in norm_sex.columns]
sex_labels = [english_label(sex_q) for sex_q in sex_qs]
norm_sex.columns = sex_labels

---------------------------------------------------------------------------
NameError Traceback (most recent call last)
<ipython-input-7-42dc746c5cd3> in <module>()
 8 return data['labels']['en']
 9 
---> 10sex_qs = [str(q) for q in norm_sex.columns]
 11 sex_labels = [english_label(sex_q) for sex_q in sex_qs]
 12 
NameError: name 'norm_sex' is not defined
#norm_sex.index = [label.replace('wiki','') for label in norm_sex.index]
#comparing by total between two different dataframes requires 
#that norm_sex has not had any rows modified since it was created from sexdf
sexdf['total'] = sexdf.sum(axis=1)
fs1000 = norm_sex[sexdf['total']>10000].sort('female', ascending=True)

def show_by_lang_plot():
 fsplot = fs1000.plot(kind='bar', stacked=True, legend=True, figsize=(13,8), alpha=0.9, ylim=(0,1),
 title= '''Comoposition of Wikidata Prorerty:P21 "Sex or Gender" by Language 
 (Languages with over 1,000 associated P21)''',
 colormap='Set1')
 plt.yticks(linspace(0, 1, num=11), [str(decimal.Decimal(x * 100).quantize(NOPLACES))+'%' for x in arange(0,1.1,0.1)])

 ticklocs, langs = plt.xticks()
 langstrs = [str(decimal.Decimal(norm_sex.loc[lang.get_text()]['female']* 100).quantize(TWOPLACES))+'% '+ lang.get_text() for lang in langs]
 plt.xticks(ticklocs, langstrs)
 plt.xlabel('Language-Wiki percentage "female"')

fs1000

maydf = pd.read_table('may2013.csv',sep=',', index_col=0)
maydf['female'] = maydf['perc'] / 100.0
diffdf = maydf.join(other=norm_sex,how='inner',lsuffix='_may2013', rsuffix='_march2014')
diffdf['change%'] = (diffdf['female_march2014'] - diffdf['female_may2013']) / diffdf['female_may2013']
diffdf['change%'] = diffdf['change%'].apply(lambda x: decimal.Decimal(x * 100).quantize(TWOPLACES) )

non_MF_cols = [col for col in norm_sex.columns if col not in ['male','female']]
norm_sex['non_MF'] = norm_sex[non_MF_cols].sum(axis=1)

top_non_MF_dict = dict()
for s in non_MF_cols:
 t = norm_sex[sexdf['total']>1000].sort(columns=s, ascending=False)[s].head(1)
 top_non_MF_dict[s] = {'wiki':t.index[0],'non_MF%':t[0]*100}
top_non_MF = pd.DataFrame.from_dict(data=top_non_MF_dict, orient='index')

jsonfile = open('sex_propcount.json','r')
sex_props_json = json.load(jsonfile)
sex_props = defaultdict(dict)
for keystring, count in sex_props_json.iteritems():
 sex, prop = keystring.split('_')
 sex_props[sex][prop] = count

sex_props_df = pd.DataFrame.from_dict(sex_props, orient='index')
sex_qs = [str(q) for q in sex_props_df.index]
sex_labels = [english_label(sex_q) for sex_q in sex_qs]
sex_props_df.columns = ['item_count', 'total_props']
sex_props_df.index = sex_labels
sex_props_df['props_per_item'] = sex_props_df['total_props'] / sex_props_df['item_count']

VERBOSE:pywiki:Found 1 wikidata:wikidata processes running, including this one.

female_may2013	female_march2014	change%
lang
enwiki	0.1845	0.142132	-22.96
gawiki	0.1456	0.118133	-18.86
afwiki	0.1406	0.115850	-17.60
cswiki	0.1705	0.141063	-17.27
frwiki	0.1658	0.141045	-14.93
zhwiki	0.2062	0.178885	-13.25
itwiki	0.1667	0.144760	-13.16
hywiki	0.1633	0.141859	-13.13
ruwiki	0.1627	0.142226	-12.58
htwiki	0.0531	0.047382	-10.77

female_may2013	female_march2014	change%
lang
urwiki	0.1319	0.486671	268.97
ocwiki	0.1261	0.159599	26.57
mlwiki	0.1636	0.202758	23.93
bnwiki	0.1313	0.161183	22.76
mznwiki	0.1041	0.125305	20.37
arzwiki	0.2392	0.287158	20.05
ltwiki	0.1190	0.142340	19.61
arwiki	0.1293	0.153516	18.73
warwiki	0.1003	0.116598	16.25
tlwiki	0.2943	0.340477	15.69

wiki	non_MF%
male animal	yiwiki	0.181159
transgender female	urwiki	0.092994
Female	mgwiki	0.080321
genderqueer	zh_min_nanwiki	0.066445
intersex	ckbwiki	0.058754
transgender male	arzwiki	0.042105
female animal	hywiki	0.038812
kathoey	thwiki	0.012922
man	jawiki	0.001523
sodium	eswiki	0.000990

item_count	total_props	props_per_item
sodium	1	4	4.000000
man	2	10	5.000000
female	122288	738962	6.042801
male	768646	4816357	6.266028
male animal	55	385	7.000000
female animal	6	44	7.333333
genderqueer	8	63	7.875000
transgender female	41	398	9.707317
transgender male	4	43	10.750000
intersex	8	88	11.000000
kathoey	1	11	11.000000
Female	1	20	20.000000

female animal	intersex	kathoey	Female	transgender female	male animal	male	female	transgender male	genderqueer	man
zh_min_nanwiki	0.000000	0.000000	0.000000	0.000664	0.000000	0.000664	0.787375	0.210631	0.000000	0.000664	0.001993
yiwiki	0.000000	0.000000	0.000000	0.000000	0.000000	0.001812	0.897645	0.100543	0.000000	0.000000	0.001812
cywiki	0.000371	0.000000	0.000000	0.000186	0.000371	0.000000	0.820375	0.178326	0.000186	0.000186	0.001299
ckbwiki	0.000000	0.000588	0.000000	0.000000	0.000588	0.000000	0.893067	0.105758	0.000000	0.000000	0.001175
thwiki	0.000000	0.000000	0.000129	0.000129	0.000388	0.000388	0.788345	0.210492	0.000129	0.000000	0.001163
mswiki	0.000000	0.000000	0.000000	0.000223	0.000223	0.000446	0.802679	0.196205	0.000223	0.000000	0.001116
ruwikiquote	0.000000	0.000000	0.000000	0.000552	0.000000	0.000000	0.909492	0.089404	0.000000	0.000552	0.001104
mlwiki	0.000270	0.000270	0.000000	0.000270	0.000270	0.000000	0.796161	0.202758	0.000000	0.000000	0.001081
eowiki	0.000125	0.000187	0.000062	0.000062	0.000374	0.000249	0.851300	0.147640	0.000000	0.000000	0.001060
kowiki	0.000075	0.000075	0.000038	0.000038	0.000491	0.000113	0.801608	0.197373	0.000075	0.000113	0.001019

Sex Ratios and Wikidata Part III¶

Introduction¶

Comparing May 2013 to March 2014¶

Top Losers¶

Top Winners¶

Non 'male' or 'female' values.¶

Accompanying Data Richness¶

Update¶

Update 2¶

Conclusions¶

Start of Supporting Code¶

female animal	intersex	kathoey	Female	transgender female	male animal	male	female	transgender male	genderqueer	man	sodium
slwiki	0.000074	0.000000	0.000000	0.000074	0.000074	0.000074	0.911398	0.088307	0.000000	0.000000	0.000000	0.00000
lawiki	0.000060	0.000060	0.000000	0.000060	0.000180	0.000120	0.889302	0.110219	0.000000	0.000000	0.000000	0.00000
bewiki	0.000000	0.000000	0.000000	0.000099	0.000000	0.000099	0.876528	0.123273	0.000000	0.000000	0.000000	0.00000
cawiki	0.000026	0.000000	0.000000	0.000026	0.000103	0.000129	0.870905	0.128786	0.000026	0.000000	0.000000	0.00000
elwiki	0.000000	0.000000	0.000000	0.000068	0.000068	0.000068	0.869061	0.130734	0.000000	0.000000	0.000000	0.00000
euwiki	0.000080	0.000000	0.000000	0.000080	0.000080	0.000239	0.865686	0.133837	0.000000	0.000000	0.000000	0.00000
skwiki	0.000078	0.000000	0.000000	0.000078	0.000078	0.000078	0.864363	0.135245	0.000078	0.000000	0.000000	0.00000
frwiki	0.000020	0.000025	0.000000	0.000005	0.000107	0.000097	0.858680	0.141045	0.000005	0.000015	0.000000	0.00000
cswiki	0.000048	0.000000	0.000000	0.000024	0.000096	0.000096	0.858648	0.141063	0.000024	0.000000	0.000000	0.00000
enwiki	0.000009	0.000012	0.000002	0.000002	0.000069	0.000052	0.857699	0.142132	0.000007	0.000014	0.000002	0.00000
ruwiki	0.000038	0.000019	0.000010	0.000010	0.000077	0.000077	0.857515	0.142226	0.000019	0.000010	0.000000	0.00000
dawiki	0.000036	0.000073	0.000000	0.000036	0.000109	0.000073	0.856768	0.142904	0.000000	0.000000	0.000000	0.00000
ukwiki	0.000062	0.000031	0.000000	0.000031	0.000062	0.000031	0.855573	0.144178	0.000031	0.000000	0.000000	0.00000
dewiki	0.000013	0.000006	0.000003	0.000003	0.000034	0.000047	0.855591	0.144277	0.000013	0.000013	0.000000	0.00000
itwiki	0.000006	0.000028	0.000000	0.000006	0.000090	0.000107	0.854986	0.144760	0.000011	0.000006	0.000000	0.00000
eowiki	0.000125	0.000187	0.000062	0.000062	0.000374	0.000249	0.851300	0.147640	0.000000	0.000000	0.000000	0.00000
glwiki	0.000082	0.000082	0.000000	0.000082	0.000329	0.000164	0.851602	0.147658	0.000000	0.000000	0.000000	0.00000
etwiki	0.000079	0.000079	0.000000	0.000079	0.000079	0.000237	0.846676	0.152771	0.000000	0.000000	0.000000	0.00000
arwiki	0.000040	0.000040	0.000000	0.000040	0.000079	0.000079	0.846166	0.153516	0.000000	0.000040	0.000000	0.00000
idwiki	0.000208	0.000052	0.000000	0.000052	0.000104	0.000156	0.843220	0.156156	0.000052	0.000000	0.000000	0.00000
hrwiki	0.000078	0.000078	0.000000	0.000078	0.000078	0.000156	0.842670	0.156863	0.000000	0.000000	0.000000	0.00000
eswiki	0.000030	0.000040	0.000000	0.000010	0.000109	0.000079	0.841094	0.158589	0.000020	0.000020	0.000000	0.00001
ptwiki	0.000043	0.000043	0.000000	0.000014	0.000199	0.000114	0.840760	0.158785	0.000014	0.000028	0.000000	0.00000
bgwiki	0.000091	0.000045	0.000000	0.000045	0.000091	0.000181	0.839242	0.160305	0.000000	0.000000	0.000000	0.00000
huwiki	0.000120	0.000040	0.000000	0.000040	0.000200	0.000200	0.839014	0.160386	0.000000	0.000000	0.000000	0.00000
plwiki	0.000031	0.000021	0.000000	0.000010	0.000063	0.000094	0.839206	0.160575	0.000000	0.000000	0.000000	0.00000
nlwiki	0.000041	0.000027	0.000000	0.000014	0.000082	0.000123	0.838302	0.161343	0.000014	0.000041	0.000014	0.00000
hewiki	0.000085	0.000042	0.000000	0.000042	0.000297	0.000127	0.836914	0.162449	0.000000	0.000042	0.000000	0.00000
trwiki	0.000076	0.000038	0.000000	0.000038	0.000114	0.000191	0.833810	0.165656	0.000038	0.000038	0.000000	0.00000
fiwiki	0.000060	0.000060	0.000020	0.000020	0.000099	0.000079	0.824523	0.175100	0.000040	0.000000	0.000000	0.00000
jawiki	0.000030	0.000030	0.000015	0.000015	0.000167	0.000107	0.823550	0.176039	0.000000	0.000030	0.000015	0.00000
zhwiki	0.000087	0.000029	0.000029	0.000029	0.000261	0.000145	0.820476	0.178885	0.000029	0.000029	0.000000	0.00000
nowiki	0.000020	0.000020	0.000000	0.000020	0.000082	0.000082	0.819593	0.180183	0.000000	0.000000	0.000000	0.00000
shwiki	0.000073	0.000073	0.000000	0.000073	0.000367	0.000000	0.817768	0.181571	0.000000	0.000073	0.000000	0.00000
fawiki	0.000066	0.000033	0.000033	0.000033	0.000332	0.000033	0.816748	0.182721	0.000000	0.000000	0.000000	0.00000
rowiki	0.000096	0.000048	0.000000	0.000048	0.000048	0.000096	0.816821	0.182844	0.000000	0.000000	0.000000	0.00000
simplewiki	0.000051	0.000051	0.000000	0.000051	0.000306	0.000102	0.815151	0.184084	0.000051	0.000153	0.000000	0.00000
viwiki	0.000093	0.000093	0.000000	0.000093	0.000093	0.000186	0.813103	0.186247	0.000000	0.000093	0.000000	0.00000
svwiki	0.000042	0.000042	0.000000	0.000014	0.000111	0.000056	0.811433	0.188275	0.000014	0.000014	0.000000	0.00000
commonswiki	0.000045	0.000000	0.000000	0.000045	0.000089	0.000268	0.810849	0.188614	0.000045	0.000045	0.000000	0.00000
kowiki	0.000075	0.000075	0.000038	0.000038	0.000491	0.000113	0.801608	0.197373	0.000075	0.000113	0.000000	0.00000
srwiki	0.000074	0.000074	0.000000	0.000074	0.000074	0.000223	0.799718	0.199688	0.000000	0.000074	0.000000	0.00000