<div dir="auto"><br><div class="gmail_quote" dir="auto"><div dir="ltr" class="gmail_attr">Nick!</div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div><blockquote type="cite"><div dir="ltr"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">An issue that has not yet been settled is how we are measuring "diversity", and how that measurement should reflect our uncertainty and the possibility of more than two represented gender categories.<br></blockquote></div></div></blockquote><div><br></div><div>So far I haven’t been trying to capture or record people with non-binary genders both because it’s not easily estimated by gender-detector and similar libraries and for ethical considerations that it could be outing or identifying people. In general, my research has been trying to estimate the gender breakdown of populations but not to record and publish individual people’s genders, to avoid individual misgendering and to avoid the privacy risks of disclosing someone’s gender.</div></div></div></blockquote></div><div dir="auto"><br></div><div dir="auto">That makes sense.</div><div dir="auto"><br></div><div dir="auto">It may make sense to break down the unknown cases further when they dominate. (See below)</div><div dir="auto"><br></div><div dir="auto">I'm going to for the sake of honing the intuitions here push back and say that if we are using only such public and expressed information as one's stated name and public biography to infer gender, nothing we are doing is creating any new risk.</div><div dir="auto"><br></div><div dir="auto">I guess I'm suspecting the "outing" case here.</div><div dir="auto"><br></div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div><blockquote type="cite"><div dir="ltr"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">The gender guess is then based on whether or not the preponderance of uses of the name apply to "male" or "female" people. There's a confidence cutoff that's actually quite strict; anything below this confidence rate gets an "unknown" response.<br></blockquote></div></div></blockquote><div><br></div><div>Yes, these libraries import datasets that I believe come from local governments, which record names and recorded genders at birth. As you note, the cut-off is quite high confidence (both that there are enough instances recorded, and that the percentage of the recorded instances is extremely disproportionate to the identified gender).</div></div></div></blockquote></div><div dir="auto"><br></div><div dir="auto">Aha! Fascinating.</div><div dir="auto"><br></div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div><div>Yes, I still see errors, and most often with names that in the US are strongly gendered but in other countries may not be gendered or may have a different gender balance. Those are cases where the US/Western focus also leads to incorrect data. But those instances have been rare when I’ve done manual checks with groups of people I know; more often the gender-detector library is recording genders as unknown.</div></div></div></blockquote></div><div dir="auto"><br></div><div dir="auto"><br></div><div dir="auto">It looks like a method argument can switch the data backed to the UK name set, which might be slightly better for European and maybe other continental names.</div><div dir="auto"><br></div><div dir="auto">Because IETF is global we could run both and average the two. Or if we get good national origin metadata about participants we could use it to map them to the right dictionary.</div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div><div>I’d be interested in that. I have not looked at estimates of gender participation over time. I have compared different mailing lists/working groups, which seemed of interest. Some rough initial work in the graphs attached.<br></div><div><br></div><div><img id="m_-7413555016386245850D2473F5D-5232-44E2-89EF-A233311A2070" src="cid:735490E2-DB60-4BD9-8356-3F7E5F50BAE7@RAC2V1A"><img id="m_-7413555016386245850C46ECBF1-EDA7-4AFE-93E8-276B2729E3F0" src="cid:8614D0FD-65AD-4744-816C-9E1F449D7E99@RAC2V1A"></div><br><blockquote type="cite"><div><div dir="ltr"><div class="gmail_quote"><div><div><span id="m_-7413555016386245850cid:ii_kcgexo770"><image.png></span><br></div></div><div><br></div></div></div></div></blockquote><div></div></div></div></blockquote></div><div dir="auto">Awesome.</div><div dir="auto"><br></div><div dir="auto">Has anything of theoretical interest explained the differences in the numbers?</div><div dir="auto"><br></div><div dir="auto">For the cases where there's a proponderance of "unknowns", is it possible to break them into smaller categories?</div><div dir="auto"><br></div><div dir="auto">For example, I wonder if the dataset bias is causing a mailing list with a strong non-Western regional presence to register grey.</div><div dir="auto"><br></div><div dir="auto"><br></div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div><div>I think it would be better to use this method to look at the mailing list traffic by gender rather than the document authors: since there’s a small number of document editors, that’s something that could more easily be tagged by hand with higher precision.</div></div></div></blockquote></div><div dir="auto"><br></div><div dir="auto">I agree mostly.</div><div dir="auto">The mailing lists should have more interesting aggregate numbers.</div><div dir="auto"><br></div><div dir="auto">I mainly started with HRPC drafts because of the close connection between the BigBang community and the HRPC community, and because with a small set of authors I knew we could validate it amongst ourselves. Be our own guinea pig, so to speak.</div><div dir="auto"><br></div><div dir="auto">It would maybe be notable if the gender breakdown of the drafts were unrepresentative of the breakdown of the corresponding mailing lists.</div><div dir="auto"><br></div><div dir="auto">Or if draft content varies, on average, with draft author gender.</div><div dir="auto"><br></div><div dir="auto"><br></div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div><div>I believe Jari was providing statistics on gender of RFC authors which used (at least in part) a manual list. He wouldn’t make that list public as a privacy matter, but it could be something he would be willing to share with researchers as long as we also kept it private.</div></div></div></blockquote></div><div dir="auto"><br></div><div dir="auto">Yeah let's stay away from that!</div><div dir="auto"><br></div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div>Yes, I found the methods and caveats about them to be the most detailed part of working/writing on this topic. In the draft I’d put together so far, I started with all the limitations of the method, and then tried to explain why it still might be useful to look at these estimates. I’m still cautious about publishing that because I don’t know how much we can look past those limitations and whether any harm can be done by publishing estimates, but I’d be interested to hear other perspectives. </div></div></blockquote></div><div dir="auto"><br></div><div dir="auto">I think it's good work and you should publish it!</div><div dir="auto"><br></div><div class="gmail_quote" dir="auto"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div style="word-wrap:break-word;line-break:after-white-space"><div>Maybe it would be best to work on a paper together that could include multiple reviews and perspectives.</div></div></blockquote></div><div dir="auto"><br></div><div dir="auto">I'm all for that :)</div><div class="gmail_quote" dir="auto"></div></div>