<div dir="ltr"><div dir="ltr">Thanks Gurshabad. This is very helpful.<div><br></div><div>I've done a deeper dive into the gender-detector package, and have a better sense now of what it's doing.</div><div><br></div><div>I've also realized that there was a bug in <i>my</i> code, and that this was part of misgendering Gurshabad. It is now saying "Gurshabad" is of "unknown" gender.</div></div><br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Agree. Does it make sense to make this difference explicit, even if it's<br>
in the same category? eg. "Non-binary or could not be determined"<br></blockquote><div><br></div><div>This is a good idea.</div><div>Given our current methods, we have no way of determining if somebody considers themselves non-binary.</div><div>So these people will always be of "unknown" gender, from the perspective of our research.</div><div>I see that as good to flag.</div><div><br></div><div>An issue that has not yet been settled is how we are measuring "diversity", and how that measurement should reflect our uncertainty and the possibility of more than two represented gender categories.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Non-authoritative as well, but fwiw, in agreement with Juliana that<br>
'man' and 'woman' are probably better to use here. Maybe someone can<br>
also comment on whether 'masculine'/'feminine' also work for this? (The<br>
advantage I see with this descriptor is that the results then clearly<br>
remark on names and not people, but there may be other problems with<br>
this terminology that I'm not aware of. Apologies in advance if this<br>
suggestion seems misguided; happy to learn.)<br></blockquote><div><br></div><div>This sounds very sensible to me.</div><div><br></div><div>One counterpoint though is that, digging more into the gender-detector module, it looks like it's not using data about whether or not a name is historically or linguistically masculine or feminine.</div><div><br>Rather it has count data for each country: the number of "male" and "female" (it's labels) that have that name in each country. (I'm not sure how this data was created. On of the people involved in that project, Nathan Mathias, is now a professor at Cornell and would probably weigh in if we asked him to.)</div><div><br></div><div>The gender guess is then based on whether or not the preponderance of uses of the name apply to "male" or "female" people. There's a confidence cutoff that's actually quite strict; anything below this confidence rate gets an "unknown" response.</div><div> <br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Not arguing against the theory that a Western bias may exist in the<br>
dataset, but just stepping in to say that my name is not a good case to<br>
determine this: like lots of names following a Sikh naming convention, I<br>
don't think mine is specific for men/women.<br></blockquote><div><br></div><div>Cool. Good to know! The BigBang code now reflects this.</div><div><br></div><div>Now I think the only names that are currently giving the code trouble are:</div><div><ul><li> "<span style="white-space:pre-wrap">Stéphane Bortzmeyer". The dictionary is in ASCII and includes no accents. In the US dictionary, "Stephane" has a </span> 655/1128 male/female count. In the UK dictionary, it has a 41/0 male/female count, and is considered "male". This actually accords with my intuition--without looking him up, I (from the US) had assumed Stéphane was a woman. Anyway, an interesting regional difference.</li><li>"=?utf-8?q?St=C3=A9phane_Couture?=" who is "unknown"</li></ul><div>My conclusion is that while there's a fairly high error rate, the gender-detector module is good enough as is to proceed with. The errors should iron out as it's used at larger scale.</div></div><div><br></div><div>The next step is to get a sense of gendered mailing list participation change <i>over time</i>, which I believe has not been done yet.</div><div><br></div><div><div><img src="cid:ii_kcgexo770" alt="image.png" width="365" height="373"><br></div></div><div><br></div><div>On the whole, this has been very helpful. Thanks to both Juliana and Gurshabad.</div><div><br></div><div>I hope this effort contributes towards some publishable research down the line. I anticipate that:</div><div> - The substance of this discussion is going to be critical to include in a Methods section of any research paper</div><div> - Depending on how deep we wind up going into it, an audit of the gender detection module and what we augment it with, the design process around it, etc., might be a publishable piece in its own right.</div><div><br></div><div>Cheers,</div><div>Seb</div></div></div>