openmedialibrary/oml/media/__init__.py

# -*- coding: utf-8 -*-
# vi:si:et:sw=4:sts=4:ts=4
from __future__ import division

import base64
import hashlib
import os

import ox

import pdf
import epub
import txt
import opf

def get_id(f=None, data=None):
    if data:
        return base64.b32encode(hashlib.sha1(data).digest())
    else:
        return base64.b32encode(ox.sha1sum(f, cached=True).decode('hex'))


def metadata(f, from_=None):
    ext = f.split('.')[-1]
    data = {}
    data['extension'] = ext
    data['size'] = os.stat(f).st_size

    if ext == 'pdf':
        info = pdf.info(f)
    elif ext == 'epub':
        info = epub.info(f)
    elif ext == 'txt':
        info = txt.info(f)

    opf_info = {}
    metadata_opf = os.path.join(os.path.dirname(from_ or f), 'metadata.opf')
    if os.path.exists(metadata_opf):
        opf_info = opf.info(metadata_opf)

    for key in (
        'title', 'author', 'date', 'publisher',
        'language', 'textsize', 'pages',
        'isbn', 'asin'
    ):
        if key in info:
            value = info[key]
            if isinstance(value, str):
                try:
                    value = value.decode('utf-8')
                except:
                    value = None
            if value:
                data[key] = info[key]
        if key in opf_info:
            data[key] = opf_info[key]
    if 'isbn' in data:
        data['primaryid'] = ['isbn', data['isbn'][0]]
    elif 'asin' in data:
        data['primaryid'] = ['asin', data['asin'][0]]
    if 'author' in data:
        if isinstance(data['author'], basestring):
            data['author'] = data['author'].split('; ')
        if data['author'] in (['Administrator'], ['Default'], ['user']):
            del data['author']
    if not 'title' in data:
        data['title'] = os.path.splitext(os.path.basename(f))[0]
        if data['title'].startswith('Microsoft Word - '):
            data['title'] = data['title'][len('Microsoft Word - '):]
        for postfix in ('.doc', 'docx', '.qxd', '.indd', '.tex'):
            if data['title'].endswith(postfix):
                data['title'] = data['title'][:-len(postfix)]
        if not data['title'].strip():
            del data['title']
    return data
and more... 2014-05-12 23:43:27 +00:00			`# -- coding: utf-8 --`
			`# vi:si:et:sw=4:sts=4:ts=4`
			`from __future__ import division`

			`import base64`
			`import hashlib`
			`import os`

			`import ox`

Open Media Library 2014-05-04 17:26:43 +00:00			`import pdf`
			`import epub`
			`import txt`
use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00			`import opf`
Open Media Library 2014-05-04 17:26:43 +00:00
and more... 2014-05-12 23:43:27 +00:00			`def get_id(f=None, data=None):`
			`if data:`
			`return base64.b32encode(hashlib.sha1(data).digest())`
			`else:`
cache file hash 2014-05-26 09:27:20 +00:00			`return base64.b32encode(ox.sha1sum(f, cached=True).decode('hex'))`
and more... 2014-05-12 23:43:27 +00:00
Open Media Library 2014-05-04 17:26:43 +00:00
use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00			`def metadata(f, from_=None):`
Open Media Library 2014-05-04 17:26:43 +00:00			`ext = f.split('.')[-1]`
			`data = {}`
import/lists/autocompleteFolder 2014-05-18 23:24:04 +00:00			`data['extension'] = ext`
			`data['size'] = os.stat(f).st_size`
use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00
Open Media Library 2014-05-04 17:26:43 +00:00			`if ext == 'pdf':`
			`info = pdf.info(f)`
			`elif ext == 'epub':`
			`info = epub.info(f)`
			`elif ext == 'txt':`
			`info = txt.info(f)`

use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00			`opf_info = {}`
			`metadata_opf = os.path.join(os.path.dirname(from_ or f), 'metadata.opf')`
			`if os.path.exists(metadata_opf):`
			`opf_info = opf.info(metadata_opf)`

extract textsize, take timestamp for changelog entries update peers on peering events 2014-05-19 09:38:41 +00:00			`for key in (`
use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00			`'title', 'author', 'date', 'publisher',`
			`'language', 'textsize', 'pages',`
			`'isbn', 'asin'`
extract textsize, take timestamp for changelog entries update peers on peering events 2014-05-19 09:38:41 +00:00			`):`
Open Media Library 2014-05-04 17:26:43 +00:00			`if key in info:`
			`value = info[key]`
			`if isinstance(value, str):`
			`try:`
			`value = value.decode('utf-8')`
			`except:`
			`value = None`
			`if value:`
			`data[key] = info[key]`
use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00			`if key in opf_info:`
			`data[key] = opf_info[key]`
Open Media Library 2014-05-04 17:26:43 +00:00			`if 'isbn' in data:`
lots of stuff 2014-05-21 00:02:21 +00:00			`data['primaryid'] = ['isbn', data['isbn'][0]]`
use metadata.opf or metadata if available 2014-05-27 14:08:14 +00:00			`elif 'asin' in data:`
			`data['primaryid'] = ['asin', data['asin'][0]]`
cleanup meta parser 2014-05-26 08:23:10 +00:00			`if 'author' in data:`
			`if isinstance(data['author'], basestring):`
			`data['author'] = data['author'].split('; ')`
			`if data['author'] in (['Administrator'], ['Default'], ['user']):`
			`del data['author']`
Open Media Library 2014-05-04 17:26:43 +00:00			`if not 'title' in data:`
			`data['title'] = os.path.splitext(os.path.basename(f))[0]`
cleanup meta parser 2014-05-26 08:23:10 +00:00			`if data['title'].startswith('Microsoft Word - '):`
			`data['title'] = data['title'][len('Microsoft Word - '):]`
cache file hash 2014-05-26 09:27:20 +00:00			`for postfix in ('.doc', 'docx', '.qxd', '.indd', '.tex'):`
cleanup meta parser 2014-05-26 08:23:10 +00:00			`if data['title'].endswith(postfix):`
			`data['title'] = data['title'][:-len(postfix)]`
			`if not data['title'].strip():`
			`del data['title']`
Open Media Library 2014-05-04 17:26:43 +00:00			`return data`