<div dir="ltr">Nick, thanks so much for championing development of this important feature!<div><br></div><div>If you think there's a better place to respond to your specific prompts (issue, wiki?) then please tell me. For now, a couple thoughts in email...<br><div class="gmail_extra"><div class="gmail_quote"><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">Feedback is appreciated, but in particular, I'd like to know:<br>
* what research questions do you have where gender estimation might be useful?<br>
* do you know of other projects (not already listed here) doing similar things which would be useful for comparison or collaboration?<br>
* whom else should we be asking for feedback?<br></blockquote><div><br></div><div>I think Joe Hall at CDT mentioned an interest in this issue specifically. I don't recall what his research questions were in particular.</div><div><br></div><div>You mentioned some work by Nathan Matias. I think it would be fantastic if we could get him to weigh in on this.</div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
## Research questions and methods<br>
<br>
In the space of Internet governance broadly, I believe these questions are motivated by an interest in exploring the legitimacy of multistakeholder decision-making and how representative it might be of, for example, the users of technology being designed. What factors affect differences in participation by demographic?<br></blockquote><div><br></div><div>Personally, I see two sides to the diversity question. One which has a lot of popular interest is the question of diversity and legitimacy. A governing body that is not representative of the demographics of the people it governs can be perceived as illegitimate. This is an important issue.</div><div><br>A related but different question (which I bring up just because it's closer to my own substantive research interests) is the relationship between diversity and collective intelligence. Scott Page has prominent work on this:</div><div><br></div><div><a href="https://democracyspot.net/2013/04/26/when-diversity-trumps-ability/">https://democracyspot.net/2013/04/26/when-diversity-trumps-ability/</a><br></div><div><br></div><div>While I think it may be useful to distinguish the diversity-and-legitimacy question from the diversity-and-productivity/intelligence questions, from a data preprocessing perspective there's a lot of overlap in the requirements needed to study either.</div><div><br></div><div>So I suppose I would argue that we may want to separate the concerns of robust heuristics for gender estimation from any particular research question.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
In addition, we may wish to understand how the particular collaborative methods we are exploring affect the representation of participation. Do Github projects with codes of conduct show more active participation from women? Do mailing list messages show proportionately more or less participation from non-US regions compared to in-person meetings of Internet governance groups? Is there significant variation in participation rates (among genders, organizational affiliations, regions) between different working groups within a single organization?<br></blockquote><div><br></div><div>I think one important thing suggested by these queries is the importance of intersectionality when considering the properties of these participants.</div><div><br></div><div>Putting it another way: I'd argue that we'll want to have a whole suite of tools for gathering and estimating data about mailing list participants, including gender but also organizational affiliation and geographic origin. Then a lot of the interesting questions/answers will be in the correlations of these different pieces of information.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
These notes refer to *estimating* gender to emphasize how difficult it will be to determine participant gender with high precision or confidence. As a computer-mediated form of communication, recipients of an email may not know  much about the sender, including their legal name, how they appear in person, much less details of gender identity.<br></blockquote><div><br></div><div>I think that this is definitely an important caveat to any work we do on this. I think we should be very active in soliciting criticism on our efforts in this area, and specifically in engaging other interested researchers in designing computational solutions to the identity questions that this sort of work raises.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">As Matias notes [0], it's possible to combine automated with human methods -- for example, the researcher or crowdsourced workers could look up a person's online presence and guess their gender. (I understand that Harsh Gupta determined gender by looking up the online identities of all participants in a group, for example [1].)<br></blockquote><div><br></div><div>I wonder if this process could be automated at all.</div><div><br></div><div>For example, I can imagine a script that:</div><div><ol><li>Takes a given name/email address/organizational affilation<br></li><li>Looks up the first hits on Google (or some engine with a public API) for results</li><li>Counts pronouns used on those pages and compares them with global averages</li><li>Uses that comparison as evidence in gender estimation heuristic.</li></ol><div>I wonder how accurate such a script would be. </div></div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
## Code<br>
<br>
Using malev/gender-detector library [2], I've written initial code that attempts to extract given names from email headers and calculate aggregate gender information for the messages of a mailing list. You can see that code in use in a Python notebook [3]. As expected, the completeness of that estimate varies between mailing lists and suffers both from not being able to determine the first/given name and not being able to guess the gender from that name.<br></blockquote><div><br></div><div>How extensible is this library?</div><div>Is it internationalized?</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
As a next step, it would be useful to provide a way to input a spreadsheet of email addresses and human-guessed genders to supplement the name-based automated guess. We could also add functionality to export a list of names/email addresses that can't be guessed, to facilitate the most efficient use of human effort. <br></blockquote><div><br></div><div>+1</div><div><br></div><div>One interesting insight from the summer school workshop was that a number of participants got the most value out of BigBang by exporting data as .csv and importing it into Excel, which they were more familiar with.</div><div><br></div><div>So in general, architecting with ease of data import/export in mind is going to be good for adoption by non-developers.</div><div> </div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
This has mostly been focused on mailing lists, but Github activity would be another similar area. I've been interested in learning more about research showing that pull requests from women are accepted more often if they're not identifiable as women [4].<br></blockquote><div><br></div><div>Excellent point.</div><div><br></div><div>I imagine that in the future as we think about the ontology underlying our analysis, we are going to want to take about a Person, who will have an indentified email address(es) and Git/Github username/credentials. Resolving all this information from across media is going to be a big source of insights, I believe.</div><div><br></div><div>Thanks again for bringing up all these important issues!</div><div>Seb </div></div></div></div></div>