<div dir="auto">Not urgent--I'll get the data with the crawler script and test as I go.</div><div class="gmail_extra"><br><div class="gmail_quote">On Feb 16, 2018 11:35 AM, "Sebastian Benthall" <<a href="mailto:sbenthall@gmail.com">sbenthall@gmail.com</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Is there a web-accessible link to a dump of the IETF data that's ready?<div><br></div><div>I'm reinstall bigbang fresh on a new machine and figure I should start working with the IETF data set, as that's the topic of interest at the moment.</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Feb 16, 2018 at 5:31 AM, Niels ten Oever <span dir="ltr"><<a href="mailto:niels@article19.org" target="_blank">niels@article19.org</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">I would love to at least listen-in!<br>
<br>
Cheers,<br>
<br>
Niels<br>
<span>On 02/16/2018 01:26 AM, Nick Doty wrote:<br>
> On Feb 5, 2018, at 2:09 PM, Sebastian Benthall <<a href="mailto:sbenthall@gmail.com" target="_blank">sbenthall@gmail.com</a><br>
</span><span>> <mailto:<a href="mailto:sbenthall@gmail.com" target="_blank">sbenthall@gmail.com</a>>> wrote:<br>
>><br>
>> 2) I just figured out how to make time for this in the short term. So<br>
>> count me in.<br>
>><br>
>> Shall we plan a meeting about this?<br>
><br>
> Yeah, I'd love to do that! Would folks be interested in an audio chat<br>
> next week? I will send around a Doodle poll if it's more than just me<br>
> and Seb.<br>
><br>
>> On Feb 5, 2018 4:24 PM, "Sebastian Benthall" <<a href="mailto:sbenthall@gmail.com" target="_blank">sbenthall@gmail.com</a><br>
</span><span>>> <mailto:<a href="mailto:sbenthall@gmail.com" target="_blank">sbenthall@gmail.com</a>>> wrote:<br>
>><br>
>>     These are great questions, Nick.<br>
>><br>
>>     I'd love to work on them with you, especially because they are<br>
>>     such general metrics.<br>
>>     Sadly I've got almost no time to work on it until May, due to<br>
>>     dissertation work.<br>
>><br>
>>     Let me provide some recommendations based on my attempts to<br>
>>     address similar questions on SciPy and other lists.<br>
><br>
> These comments are really helpful, thanks!<br>
><br>
> I am interested to understand the math better, and could really use your<br>
> help on that. I definitely get your general point that because there's a<br>
> long-tail distribution in any case, I need to find cases that don't fit<br>
> that pattern in order to show meaningful results. <br>
><br>
> I'm not sure I understand the concentration parameter, but it does seem<br>
> like something like that would be useful. I also thought there might be<br>
> interesting graph analysis metrics -- like centrality? -- in a graph of<br>
> the nodes of connections between participants and lists.<br>
><br>
> Thanks again for your thoughts!<br>
> —Nick<br>
>  <br>
>><br>
>>         * how many participants total in IETF work?<br>
>><br>
>><br>
>>     The odds are *very* high that the emails-per-person distribution<br>
>>     is a heavy-tail distribution.<br>
>>     Based on previous work<br>
</span>>>     <<a href="https://conference.scipy.org/proceedings/scipy2015/pdfs/sebastian_benthall.pdf" rel="noreferrer" target="_blank">https://conference.scipy.<wbr>org/proceedings/scipy2015/<wbr>pdfs/sebastian_benthall.pdf</a>>,<br>
<div><div class="m_7305273579087022506h5">>>     I would test for fit to log normal and power law distributions.<br>
>>     My money is on log normal being a better fit.<br>
>><br>
>>     This is important because when interpreting the results, we have<br>
>>     to keep in mind that<br>
>>     the log normal distribution is essentially a noise pattern.<br>
>>     So it's easy to read into the data relationships that may not be<br>
>>     there,<br>
>>     especially if you're using a linear rather than a log linear<br>
>>     relationship as an indicator.<br>
>><br>
>>         * how "sticky" is participation?<br>
>>                 if people participate on a list, do they return? do<br>
>>         they show up to f2f meetings?<br>
>>                 what's the attrition rate?<br>
>>                 what's the distribution of length of participation?<br>
>><br>
>><br>
>>     Assuming there is a heavy tail distribution of participation, then<br>
>>     about half the contributors<br>
>>     will only contribute once.<br>
>><br>
>>     The distribution of attrition/retention will look more or less<br>
>>     just like the distribution of participation.<br>
>>     The length will look like it as well.<br>
>><br>
>>     It's not clear how to interpret this, because the reasons why any<br>
>>     particular person participates a lot<br>
>>     or a little are very likely <br>
>>     (a) myriad (no single reason, but rather a combination of many<br>
>>     reasons, and <br>
>>     (b) exogenous to the data itself.<br>
>><br>
>>     For these reasons I expect you would get more interesting results<br>
>>     if you can segment the population<br>
>>     into categories of interest. You've mentioned gender and firms of<br>
>>     employment, which are both good ones.<br>
>><br>
>>     But for each category, you may want to have more than one parameter to<br>
>>     characterize the each one's participation distribution.<br>
</div></div>>>     May mean /and/ variance?<br>
<div class="m_7305273579087022506HOEnZb"><div class="m_7305273579087022506h5">>><br>
>>         * who has participated longest? across the most groups?<br>
>>                 is there a group of "elites" across working groups?<br>
>><br>
>><br>
>>     This is a great question.<br>
>>     But keep in mind: the people who participate most are going to be<br>
>>     participating a lot<br>
>>     more numerically across all lists than others.<br>
>>     So they will have more chances to participate in different lists.<br>
>><br>
>>     You may want to be looking at, for each participant, their<br>
>>     individual distribution of participation<br>
>>     over many lists, and then look at the concentration parameter of<br>
>>     that distribution:<br>
>><br>
>>     <a href="https://en.wikipedia.org/wiki/Concentration_parameter" rel="noreferrer" target="_blank">https://en.wikipedia.org/<wbr>wiki/Concentration_parameter</a><br>
>>     <<a href="https://en.wikipedia.org/wiki/Concentration_parameter" rel="noreferrer" target="_blank">https://en.wikipedia.org/wik<wbr>i/Concentration_parameter</a>><br>
>><br>
>>     The math can be a bit tricky but I think it's worth tackling<br>
>>     correctly.<br>
>>      <br>
>><br>
>>                 how many participants are single-group?<br>
>><br>
>><br>
>>     Since most participants will be only send one message, that's<br>
>>     going to skew this metric<br>
>>     unless you take that into account somehow.<br>
>>      <br>
>><br>
>>                 how many groups does the typical participant join?<br>
>><br>
>>         As I believe I've mentioned to this group before, I've been<br>
>>         looking into estimating gender in mailing list participation,<br>
>>         including:<br>
>><br>
>>         * What is the gender distribution of participants in Internet<br>
>>         and Web technical standard-setting?<br>
>>             how does that distribution differ from the population at<br>
>>         large? from employment at related firms?<br>
>>             does that distribution change over time?<br>
>>             are there sub-groups which have distinctly different<br>
>>         distributions?<br>
>>         * Does the gender distribution of conversation differ from the<br>
>>         gender distribution of the participants?<br>
>><br>
>><br>
>>     Great questions.<br>
>>      <br>
>><br>
>>         Do you have questions you'd like to add to this list? Would<br>
>>         you be interested in trying to measure/answer one of these<br>
>>         questions? Which are the easiest and which are the most<br>
>>         difficult? What features would we need to add to BigBang to<br>
>>         make them answerable?<br>
>><br>
>><br>
>>     In sum, I think all these questions are great ones and related to<br>
>>     each other.<br>
>>     I think the biggest challenge is getting the correct statistical<br>
>>     modeling right,<br>
>>     so that the results are not misinterpreted.<br>
>><br>
>>     - Seb<br>
>>      <br>
>><br>
><br>
><br>
><br>
</div></div><div class="m_7305273579087022506HOEnZb"><div class="m_7305273579087022506h5">> ______________________________<wbr>_________________<br>
> Bigbang-dev mailing list<br>
> <a href="mailto:Bigbang-dev@data-activism.net" target="_blank">Bigbang-dev@data-activism.net</a><br>
> <a href="https://lists.ghserv.net/mailman/listinfo/bigbang-dev" rel="noreferrer" target="_blank">https://lists.ghserv.net/mailm<wbr>an/listinfo/bigbang-dev</a><br>
><br>
<br>
</div></div><br>______________________________<wbr>_________________<br>
Bigbang-dev mailing list<br>
<a href="mailto:Bigbang-dev@data-activism.net" target="_blank">Bigbang-dev@data-activism.net</a><br>
<a href="https://lists.ghserv.net/mailman/listinfo/bigbang-dev" rel="noreferrer" target="_blank">https://lists.ghserv.net/mailm<wbr>an/listinfo/bigbang-dev</a><br>
<br></blockquote></div><br></div>
</blockquote></div></div>