#!/usr/bin/python # POAK Lite # Script to produce http://www.w3.org/2005/06/poak/ pages and feeds. # Dean Jackson http://www.w3.org/People/Dean/ # # # Like many useful programs, this started out as a little # hack that has evolved into something bigger. And, like nearly # every program I write, it's at the stage where it is # useful enough that it should be rewritten so that it is # no longer a hack. Oh well. import feedparser import time import sys import re # Holds all configuration parameters config = {} # basic XML escaping def escape(text): return text.replace("&", "&").replace("<", "<").replace(">", ">") class Entry: def __init__(self, title, link, date): self.title = title.encode('utf-8') self.link = link self.date = date def __cmp__(self, other): return other.date - self.date class FeedEntry(Entry): def __init__(self, title, link, date, basename, baselink, summary): Entry.__init__(self, title, link, date) self.basename = basename.encode('utf-8') self.baselink = baselink self.summary = summary.encode('utf-8') def aggregate(entrieslist, num): feedList = [] for entries in entrieslist: for entry in entries: feedList.append(entry) feedList.sort() return feedList[:num] def feeds(feedlist, num): feedList = [] for feed in feedlist: print " -", feed[2], "-", feed[0] rss = feedparser.parse(feed[0]) for e in rss.entries: if not e.has_key('modified_parsed') or \ e.modified_parsed == None or \ e.modified_parsed == '': continue date = time.mktime(e.modified_parsed) if e.has_key('summary') and e.summary != '': summary = e.summary elif e.has_key('content') and e.content[0].value != '': summary = e.content[0].value else: summary = "" feedList.append(FeedEntry(e.title, e.link, date, rss.feed.title, rss.feed.link, summary)) feedList.sort() return feedList[:num] def outputHTML(feeds, num, filename): f = open(filename, "w") f.write(''' %s

%s

''' % (config["title"], config["name"], config["title"], config["subtitle"])) for i in feeds: f.write('

\n') f.write('

') f.write(i.title) f.write('

\n') if i.summary[:3] == "

": f.write(i.summary) f.write('\n') else: f.write('

') f.write(i.summary) f.write('

\n') f.write('

%s ' % time.strftime("%d %b %Y", time.gmtime(i.date))) f.write(' by ') f.write(i.basename) f.write(' ') f.write('

\n') f.write('

The data displayed here comes from the following sources: \n') for i in config["feed"]: f.write('%s ' % (i[1], i[2])) f.write('

\n') f.write('

News aggregation available as an RSS feed.

\n' % config["name"]) f.write('

Unfortunately due to the nature of the content we are unable to guarantee this page is valid XHTML. Some portions are Copyright W3C 2005.

\n') f.write('

Information on POAK including configuration and source code - Dean Jackson.

\n') f.write('

\n') f.write('\n\n') f.close() def outputRSS(entries, num, filename): f = open(filename, "w") f.write(''' %s http://www.w3.org/ %s en http://www.w3.org/ %s ''' % (config["title"], config["subtitle"], time.strftime("%Y-%m-%dT%H:%M+00:00", time.gmtime()))) for entry in entries[:num]: f.write(' \n' % entry.link) f.write(''' ''') for entry in entries[:num]: f.write('\n' % entry.link) f.write(' ') f.write(entry.title) f.write('\n') f.write(' ') f.write(entry.link) f.write('\n') f.write(' %s\n' % time.strftime("%Y-%m-%dT%H:%M:%S+10:00", time.gmtime(entry.date))) f.write(' ') f.write(escape(entry.summary)) f.write('\n') f.write('\n') f.write('\n') f.close() if __name__ == "__main__": if len(sys.argv) != 2: print "Usage: python %s configname" % sys.argv[0] print "where configname is the basename of a configuration file" print "eg. 'w3c' for the file 'w3c.config'" sys.exit(1) configname = sys.argv[1] config["name"] = configname config["title"] = "No Title" config["subtitle"] = "Subtitle" config["feed"] = [] for l in open("%s.config" % configname).readlines(): l = l.strip() if l == "": continue if l.split()[0] == "title": config["title"] = " ".join(l.split()[1:]) elif l.split()[0] == "subtitle": config["subtitle"] = " ".join(l.split()[1:]) elif l.split()[0] == "feed": config["feed"].append((l.split()[1], l.split()[2], " ".join(l.split()[3:]))) print "* Doing feeds" feedlist = feeds(config["feed"], 30) print "* Producing HTML" outputHTML(feedlist, 20, "%s.html" % configname) print "* Producing RSS" outputRSS(feedlist, 20, "%s.rss" % configname) print "Done."