<html><head><meta http-equiv="Content-Type" content="text/html charset=us-ascii"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class=""><div class="">Hi all,</div><div class=""><br class=""></div><div class="">I've opened a pull request with a provenance metadata file creation feature; it also has a couple error-handling and documentation improvements.</div><div class=""><a href="https://github.com/datactive/bigbang/pull/289" class="">https://github.com/datactive/bigbang/pull/289</a></div><div class=""><br class=""></div><div class="">I hope this can be useful to all and that we can get it reviewed and integrated promptly. </div><div class=""><br class=""></div><div class="">(I believe I was able to use git rebase on top of master so that it only includes the relevant commits; it makes for easier reviewing and doesn't require cherry-picking or messy additional commits to remove other scientific files that I was also working on. git rebase is a powerful but scary tool, so while I recommend this, I recommend doing it with caution and not on any branches/commits that have already been pushed to the main datactive repo.)</div><div class=""><br class=""></div><div class="">Regarding shared archives, I'm finding that the number and size of the files is making straight-up checking them into Git a little difficult; it takes minutes just to git add the files to a changelist. I suspect that the git-lfs extension would be a useful way to help with this. Under my understanding, we would, in short, check in hashes of files to a git repository and then the full additional mail archives to another location (hosted by GitHub or GitLab) and then git-lfs will download the full mail archives (but not every version of them) as needed. If that sounds reasonable, then I think we can more easily pursue the shared archives approach (for all the IETF or ICANN archives, say) with non-public hosting, either on GitLab or through a separate server as Niels had offered. I'll investigate more and let people know; if anyone on the list has experience with git-lfs (or, alternatively, git-annex) already, please let me know!</div><div class=""><br class=""></div><div class="">Cheers,</div><div class="">Nick</div><br class=""><div><blockquote type="cite" class=""><div class="">On Aug 1, 2017, at 4:50 PM, Nick Doty <<a href="mailto:npdoty@ischool.berkeley.edu" class="">npdoty@ischool.berkeley.edu</a>> wrote:</div><br class="Apple-interchange-newline"><div class=""><meta http-equiv="Content-Type" content="text/html charset=us-ascii" class=""><div style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;" class="">We've touched on this a couple of times before; I think we've decided not to include collected mailing list archives in the BigBang repository itself. There are few archives that would be relevant to all users, and we're trying to write code for automated collection so that you can download any archive you need for your own research.<div class=""><br class=""></div><div class="">That being said, I wonder if it might be useful to have separate repositories where interested researchers can share the archives they've downloaded. I've been downloading mailing list archives for every active W3C Working Group and Interest Group, and separately for every active IETF Working Group; it comes to a lot of data, takes a good deal of time to download and may require some babysitting of those long-running processes. Would others be interested in separate repo's with snapshots of ML archives for those organizations? Or any other common organizations/lists it might be useful to have snapshot data for?</div><div class=""><br class=""></div><div class="">To that point, I also think we'll need useful provenance metadata if we get to the point of sharing archives. When were these downloaded, what was the specific mailing list, what software was used to download them, etc. Indeed, I feel like I should have that functionality just for my individual work in order to maintain good research practice. I opened <a href="https://github.com/datactive/bigbang/issues/283" class="">https://github.com/datactive/bigbang/issues/283</a> on that 6 weeks ago, and today I've written code to generate provenance.yaml files during the mail collection process: <a href="https://github.com/npdoty/bigbang/tree/provenance" class="">https://github.com/npdoty/bigbang/tree/provenance</a></div><div class=""><br class=""></div><div class="">I'd appreciate any feedback on the issue or on this list. </div><div class=""><br class=""></div><div class="">I could try to create a minimal PR, but that's getting harder for me as datactive/bigbang's master branch has not been updated in a long time and my code may rely on other changes I've made in intervening months.</div><div class=""><br class=""></div><div class="">Cheers,</div><div class="">Nick</div></div></div></blockquote></div><br class=""></body></html>