<div dir="ltr">I've managed to make some progress on the question of how gender diversity affects working group productivity.<br><div><br></div><div>I'd like some feedback on this very preliminary visualization of HRPC, as I think it illustrates some of the analytic, methodological, and ethical challenges of this question.</div><div><br></div><div><div><img src="cid:ii_kcc65bow0" alt="image.png" width="452" height="304"><br></div></div><div>This plot shows a rolling average of email activity to HRPC's mailing list, and vertical lines for number of drafts published on each day.</div><div><br></div><div>In this plot, I've colored the draft lines based on a "gender tendency", computed as follows:</div><div> - Using BigBang's gender detector, it makes a guess based on each author's first name as to whether they are "male" (1), "female" (0), or "unknown" (.5).</div><div> - It averages together the values for all the authors who have published on that day.</div><div><br></div><div>There are some notable issues with this method.</div><div> - The data is not always clean, and e.g. unicode errors in somebody's name cause them to be identified as non-binary.</div><div> - I get confused by this all the time, but I was under the impression that "male" and "female" were sexes, not genders?</div><div> - The name-based gender detector has a western bias and this leads to some errors. I believe it is misgendering Gurshabad Grover as a woman.</div><div><br></div><div>I know these sorts of topics can be divisive. I wonder if anybody has ideas for how to improve things that are actionable from an engineering standpoint?</div><div><br></div><div>Is anybody on this list authoritative about the right kinds of gender categories to use?</div><div><br></div><div>One idea is to use the IETF DataTracker's biography field and count pronouns:</div><div><a href="https://github.com/datactive/bigbang/issues/393">https://github.com/datactive/bigbang/issues/393</a><br></div><div><br></div><div>I'll step forward and say my view of this, which is: in no way, shape, or form are we doing some sort of fundamental injustice or wrong by having an imperfect solution to what is an inherently challenging engineering problem. I'm not interested in moralizing on this topic. I would very much like to improve the accuracy of the results such that this is possible and over some minimum ethical hurdles.</div><div><br></div><div>- S</div><div><br></div></div>