openmedialibrary/oml/media/pdf.py

# -*- coding: utf-8 -*-


import sys
import tempfile
import subprocess
import os
import shutil
from glob import glob
from datetime import datetime

from PyPDF2 import PdfFileReader
from PIL import Image
import ox

import settings
from utils import get_language, to_isbn13, find_isbns, get_short_path_name

import logging
logger = logging.getLogger(__name__)

def cover(pdf):
    if sys.platform == 'darwin':
        return ql_cover(pdf)
    else:
        return page(pdf, 1)

def ql_cover(pdf, size=1024):
    tmp = tempfile.mkdtemp()
    cmd = [
        'qlmanage',
        '-t',
        '-s',
        str(size),
        '-o',
        tmp,
        pdf
    ]
    p = subprocess.Popen(cmd, close_fds=True)
    p.wait()
    image = glob('%s/*' % tmp)
    if image:
        image = image[0]
        with open(image, 'rb') as fd:
            data = fd.read()
    else:
        logger.debug('qlmanage did not create cover for %s', pdf)
        data = None
    shutil.rmtree(tmp)
    return data

def page(pdf, page, size=1024):
    tmp = tempfile.mkdtemp()
    if sys.platform == 'win32':
        pdf = get_short_path_name(pdf)
    cmd = [
        'pdftocairo',
        pdf,
        '-jpeg',
        '-f', str(page), '-l', str(page),
        '-scale-to', str(size), '-cropbox',
        os.path.join(tmp, 'page')
    ]
    if sys.platform == 'win32':
        startupinfo = subprocess.STARTUPINFO()
        startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW
        startupinfo.wShowWindow = subprocess.SW_HIDE
        p = subprocess.Popen(cmd, close_fds=True, startupinfo=startupinfo)
    else:
        p = subprocess.Popen(cmd, close_fds=True)
    p.wait()
    image = glob('%s/*' % tmp)
    if image:
        image = image[0]
        with open(image, 'rb') as fd:
            data = fd.read()
    else:
        logger.debug('pdftocairo %s %s', pdf, ' '.join(cmd))
        data = None
    shutil.rmtree(tmp)
    return data

def crop(pdf, page, left, top, right, bottom):
    size = 2048
    tmp = tempfile.mkdtemp()
    if sys.platform == 'win32':
        pdf = get_short_path_name(pdf)
    cmd = [
        'pdftocairo',
        pdf,
        '-jpeg',
        '-f', str(page), '-l', str(page),
        '-scale-to', str(size), '-cropbox',
        os.path.join(tmp, 'page')
    ]
    if sys.platform == 'win32':
        startupinfo = subprocess.STARTUPINFO()
        startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW
        startupinfo.wShowWindow = subprocess.SW_HIDE
        p = subprocess.Popen(cmd, close_fds=True, startupinfo=startupinfo)
    else:
        p = subprocess.Popen(cmd, close_fds=True)
    p.wait()
    image = glob('%s/*' % tmp)
    if image:
        image = image[0]
        crop = [int(p) for p in (left, top, right, bottom)]
        img = Image.open(image).crop(crop)
        img.save(image)
        with open(image, 'rb') as fd:
            data = fd.read()
    else:
        logger.debug('pdftocairo %s %s', pdf, ' '.join(cmd))
        data = None
    shutil.rmtree(tmp)
    return data
    

'''
def page(pdf, page):
    image = tempfile.mkstemp('.jpg')[1]
    cmd = [
        'gs', '-q',
        '-dBATCH', '-dSAFER', '-dNOPAUSE', '-dNOPROMPT',
        '-dMaxBitmap=500000000',
        '-dAlignToPixels=0', '-dGridFitTT=2',
        '-sDEVICE=jpeg', '-dTextAlphaBits=4', '-dGraphicsAlphaBits=4',
        '-r72',
        '-dUseCropBox',
        '-dFirstPage=%d' % page,
        '-dLastPage=%d' % page,
        '-sOutputFile=%s' % image,
        pdf
    ]
    p = subprocess.Popen(cmd, close_fds=True)
    p.wait()
    with open(image, 'rb') as fd:
        data = fd.read()
    os.unlink(image)
    return data
'''

def parse_tableofcontents(reader):
    titles = []
    try:
        if '/Root' in reader.trailer and '/Outlines' in reader.trailer['/Root']:
            outlines = reader.trailer['/Root']['/Outlines']
            if '/First' in outlines:
                title = outlines['/First']
                while title:
                    if '/Title' in title:
                        titles.append(title['/Title'])
                    if '/Next' in title:
                        title = title['/Next']
                    else:
                        title = None
    except:
        logger.debug('failed to parse pdf outline', exc_info=True)
    try:
        titles = [title.decode('utf-8','ignore').strip() if isinstance(title, bytes) else title for title in titles]
        toc = '\n'.join(titles).strip()
    except:
        logger.debug('failed to decode outline', exc_info=True)
        titles = []
    return toc

def info(pdf):
    data = {}
    with open(pdf, 'rb') as fd:
        try:
            pdfreader = PdfFileReader(fd)
            data['pages'] = pdfreader.numPages
            if pdfreader.getIsEncrypted():
                pdfreader.decrypt('')
            toc = parse_tableofcontents(pdfreader)
            if toc:
                data['tableofcontents'] = toc
            try:
                info = pdfreader.getDocumentInfo()
            except:
                info = None
            if info:
                for key in info:
                    if info[key]:
                        try:
                            value = info[key]
                            if len(value) == 1:
                                value = value[0]
                            if isinstance(value, bytes):
                                value = value.decode('utf-16')
                            data[key[1:].lower()] = value
                        except:
                            pass
            try:
                xmp = pdfreader.getXmpMetadata()
            except:
                xmp = None
            if xmp:
                for key in dir(xmp):
                    if key.startswith('dc_'):
                        try:
                            value = getattr(xmp, key)
                        except:
                            continue
                        if isinstance(value, dict) and 'x-default' in value:
                            value = value['x-default']
                        elif isinstance(value, list):
                            value = [v.strip() if isinstance(v, str) else v for v in value if v]
                            value = [v.strftime('%Y-%m-%d') if isinstance(v, datetime) else v for v in value]
                            if len(value) == 1:
                                value = value[0]
                        _key = key[3:]
                        if value and _key not in data:
                            data[_key] = value
        except:
            logger.debug('FAILED TO PARSE %s', pdf, exc_info=True)

    '''
    cmd = ['pdfinfo', pdf]
    p = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    stdout, stderr = p.communicate()
    for line in stdout.strip().split('\n'):
        parts = line.split(':')
        key = parts[0].lower().strip()
        if key:
            data[key] = ':'.join(parts[1:]).strip()
    for key in data.keys():
        if not data[key]:
            del data[key]
    '''
    if 'identifier' in data:
        value = to_isbn13(data['identifier'])
        if value:
            data['isbn'] = value
            del data['identifier']
    for key, value in data.items():
        if isinstance(value, dict):
            value = ' '.join(list(value.values()))
            data[key] = value.strip()
    for key in list(data):
        if data[key] in ('Unknown',):
            del data[key]
        if key == 'language':
            data[key] = get_language(data[key])
    if settings.server['extract_text']:
        text = extract_text(pdf)
        data['textsize'] = len(text)
        if 'isbn' not in data:
            isbn = extract_isbn(text)
            if isbn:
                data['isbn'] = isbn
    if 'date' in data and len(data['date']) == 8 and data['date'].isdigit():
        d = data['date']
        data['date'] = '%s-%s-%s' % (d[:4], d[4:6], d[6:])
    if 'author' in data and isinstance(data['author'], str):
        data['author'] = [ox.normalize_name(data['author'])]
    if 'description' in data:
        data['description'] = ox.strip_tags(ox.decode_html(data['description'])).strip()
    if data.get('title', '').startswith('Microsoft Word'):
        for key in ('title', 'author', 'producer', 'creator'):
            if key in data:
                del data[key]
    for key in list(data):
        if isinstance(data[key], str) and not data[key].strip():
            del data[key]
    return data

'''
    #possbile alternative with gs
    tmp = tempfile.mkstemp('.txt')[1]
    cmd = ['gs', '-dBATCH', '-dNOPAUSE', '-sDEVICE=txtwrite', '-dFirstPage=3', '-dLastPage=5', '-sOutputFile=%s'%tmp, pdf]

'''
def extract_text(pdf):
    if sys.platform == 'win32':
        pdf = get_short_path_name(pdf)
    cmd = ['pdftotext', pdf, '-']
    if sys.platform == 'darwin':
        pdftotext = ['/usr/local/bin/pdftotext', pdf, '-']
        if os.path.exists(pdftotext[0]):
            cmd = pdftotext
        else:
            cmd = ['/usr/bin/mdimport', '-d2', pdf]
    if sys.platform == 'win32':
        startupinfo = subprocess.STARTUPINFO()
        startupinfo.dwFlags |= subprocess.STARTF_USESHOWWINDOW
        startupinfo.wShowWindow = subprocess.SW_HIDE
        p = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, startupinfo=startupinfo)
    else:
        p = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
    stdout, stderr = p.communicate()
    stdout = stdout.decode()
    stderr = stderr.decode()
    if sys.platform == 'darwin' and cmd[0] == '/usr/bin/mdimport':
        if 'kMDItemTextContent' in stderr:
            stdout = stderr.split('kMDItemTextContent = "')[-1].split('\n')[0][:-2]
        else:
            stdout = ''
    return stdout.strip()


def pypdf_extract_text(path):
    '''
        slow and bad results
    '''
    pdf = PdfFileReader(path)
    content = []
    for i in range(0, pdf.getNumPages()):
        try:
            extracted_text = pdf.getPage(i).extractText()
            content.append(extracted_text)
        except:
            pass
    content = "\n".join(content).replace("\xa0", " ").strip()
    return content

def extract_isbn(text):
    isbns = find_isbns(text)
    if isbns:
        return isbns[0]
Open Media Library 2014-05-04 19:26:43 +02:00			`# -- coding: utf-8 --`
port to python3 2014-09-03 00:32:44 +02:00
Open Media Library 2014-05-04 19:26:43 +02:00
			`import sys`
			`import tempfile`
			`import subprocess`
			`import os`
			`import shutil`
			`from glob import glob`
better pdf parsing 2015-12-24 20:30:14 +05:30			`from datetime import datetime`
Open Media Library 2014-05-04 19:26:43 +02:00
use PyPDF2 2014-09-08 20:46:09 +02:00			`from PyPDF2 import PdfFileReader`
extract detail from pdf 2024-06-09 14:47:36 +01:00			`from PIL import Image`
normalize names 2016-01-08 16:14:09 +05:30			`import ox`
Open Media Library 2014-05-04 19:26:43 +02:00
			`import settings`
windows pathnames 2016-01-31 22:58:53 +05:30			`from utils import get_language, to_isbn13, find_isbns, get_short_path_name`
Open Media Library 2014-05-04 19:26:43 +02:00
queue peering requests and send again 2014-05-18 05:01:24 +02:00			`import logging`
use logging.getLogger(__name__) 2015-11-29 15:56:38 +01:00			`logger = logging.getLogger(__name__)`
queue peering requests and send again 2014-05-18 05:01:24 +02:00
Open Media Library 2014-05-04 19:26:43 +02:00			`def cover(pdf):`
			`if sys.platform == 'darwin':`
			`return ql_cover(pdf)`
			`else:`
			`return page(pdf, 1)`

extract detail from pdf 2024-06-09 14:47:36 +01:00			`def ql_cover(pdf, size=1024):`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`tmp = tempfile.mkdtemp()`
			`cmd = [`
			`'qlmanage',`
			`'-t',`
			`'-s',`
extract detail from pdf 2024-06-09 14:47:36 +01:00			`str(size),`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`'-o',`
			`tmp,`
			`pdf`
			`]`
close_fds=True by default 2014-08-22 18:49:11 +02:00			`p = subprocess.Popen(cmd, close_fds=True)`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`p.wait()`
			`image = glob('%s/*' % tmp)`
			`if image:`
			`image = image[0]`
			`with open(image, 'rb') as fd:`
			`data = fd.read()`
			`else:`
			`logger.debug('qlmanage did not create cover for %s', pdf)`
			`data = None`
			`shutil.rmtree(tmp)`
			`return data`

extract detail from pdf 2024-06-09 14:47:36 +01:00			`def page(pdf, page, size=1024):`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`tmp = tempfile.mkdtemp()`
windows pathnames 2016-01-31 22:58:53 +05:30			`if sys.platform == 'win32':`
			`pdf = get_short_path_name(pdf)`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`cmd = [`
			`'pdftocairo',`
			`pdf,`
			`'-jpeg',`
space 2019-06-18 09:18:23 +02:00			`'-f', str(page), '-l', str(page),`
extract detail from pdf 2024-06-09 14:47:36 +01:00			`'-scale-to', str(size), '-cropbox',`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`os.path.join(tmp, 'page')`
			`]`
hide window, open file not folder 2016-02-01 00:49:25 +05:30			`if sys.platform == 'win32':`
			`startupinfo = subprocess.STARTUPINFO()`
			`startupinfo.dwFlags \|= subprocess.STARTF_USESHOWWINDOW`
			`startupinfo.wShowWindow = subprocess.SW_HIDE`
			`p = subprocess.Popen(cmd, close_fds=True, startupinfo=startupinfo)`
			`else:`
			`p = subprocess.Popen(cmd, close_fds=True)`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`p.wait()`
			`image = glob('%s/*' % tmp)`
			`if image:`
			`image = image[0]`
			`with open(image, 'rb') as fd:`
			`data = fd.read()`
			`else:`
			`logger.debug('pdftocairo %s %s', pdf, ' '.join(cmd))`
			`data = None`
			`shutil.rmtree(tmp)`
			`return data`
Open Media Library 2014-05-04 19:26:43 +02:00
extract detail from pdf 2024-06-09 14:47:36 +01:00			`def crop(pdf, page, left, top, right, bottom):`
			`size = 2048`
			`tmp = tempfile.mkdtemp()`
			`if sys.platform == 'win32':`
			`pdf = get_short_path_name(pdf)`
			`cmd = [`
			`'pdftocairo',`
			`pdf,`
			`'-jpeg',`
			`'-f', str(page), '-l', str(page),`
			`'-scale-to', str(size), '-cropbox',`
			`os.path.join(tmp, 'page')`
			`]`
			`if sys.platform == 'win32':`
			`startupinfo = subprocess.STARTUPINFO()`
			`startupinfo.dwFlags \|= subprocess.STARTF_USESHOWWINDOW`
			`startupinfo.wShowWindow = subprocess.SW_HIDE`
			`p = subprocess.Popen(cmd, close_fds=True, startupinfo=startupinfo)`
			`else:`
			`p = subprocess.Popen(cmd, close_fds=True)`
			`p.wait()`
			`image = glob('%s/*' % tmp)`
			`if image:`
			`image = image[0]`
			`crop = [int(p) for p in (left, top, right, bottom)]`
			`img = Image.open(image).crop(crop)`
			`img.save(image)`
			`with open(image, 'rb') as fd:`
			`data = fd.read()`
			`else:`
			`logger.debug('pdftocairo %s %s', pdf, ' '.join(cmd))`
			`data = None`
			`shutil.rmtree(tmp)`
			`return data`






use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`'''`
Open Media Library 2014-05-04 19:26:43 +02:00			`def page(pdf, page):`
			`image = tempfile.mkstemp('.jpg')[1]`
			`cmd = [`
			`'gs', '-q',`
			`'-dBATCH', '-dSAFER', '-dNOPAUSE', '-dNOPROMPT',`
			`'-dMaxBitmap=500000000',`
			`'-dAlignToPixels=0', '-dGridFitTT=2',`
			`'-sDEVICE=jpeg', '-dTextAlphaBits=4', '-dGraphicsAlphaBits=4',`
			`'-r72',`
			`'-dUseCropBox',`
			`'-dFirstPage=%d' % page,`
			`'-dLastPage=%d' % page,`
			`'-sOutputFile=%s' % image,`
			`pdf`
			`]`
close_fds=True by default 2014-08-22 18:49:11 +02:00			`p = subprocess.Popen(cmd, close_fds=True)`
Open Media Library 2014-05-04 19:26:43 +02:00			`p.wait()`
			`with open(image, 'rb') as fd:`
			`data = fd.read()`
			`os.unlink(image)`
			`return data`
use poppler pdftocairo for preview 2014-05-25 14:44:07 +02:00			`'''`
Open Media Library 2014-05-04 19:26:43 +02:00
extract tableofcontents from pdf 2016-01-12 14:57:08 +05:30			`def parse_tableofcontents(reader):`
			`titles = []`
			`try:`
			`if '/Root' in reader.trailer and '/Outlines' in reader.trailer['/Root']:`
			`outlines = reader.trailer['/Root']['/Outlines']`
			`if '/First' in outlines:`
			`title = outlines['/First']`
			`while title:`
			`if '/Title' in title:`
			`titles.append(title['/Title'])`
			`if '/Next' in title:`
			`title = title['/Next']`
			`else:`
			`title = None`
			`except:`
			`logger.debug('failed to parse pdf outline', exc_info=True)`
			`try:`
			`titles = [title.decode('utf-8','ignore').strip() if isinstance(title, bytes) else title for title in titles]`
			`toc = '\n'.join(titles).strip()`
			`except:`
			`logger.debug('failed to decode outline', exc_info=True)`
			`titles = []`
			`return toc`

Open Media Library 2014-05-04 19:26:43 +02:00			`def info(pdf):`
			`data = {}`
			`with open(pdf, 'rb') as fd:`
			`try:`
			`pdfreader = PdfFileReader(fd)`
import/lists/autocompleteFolder 2014-05-19 01:24:04 +02:00			`data['pages'] = pdfreader.numPages`
try to decrypt pdf with empty password if its encrypted 2014-10-31 16:13:02 +01:00			`if pdfreader.getIsEncrypted():`
			`pdfreader.decrypt('')`
extract tableofcontents from pdf 2016-01-12 14:57:08 +05:30			`toc = parse_tableofcontents(pdfreader)`
			`if toc:`
			`data['tableofcontents'] = toc`
dont fail parsing parts of the pdf 2016-01-25 15:51:54 +05:30			`try:`
			`info = pdfreader.getDocumentInfo()`
			`except:`
			`info = None`
Open Media Library 2014-05-04 19:26:43 +02:00			`if info:`
			`for key in info:`
			`if info[key]:`
handle utf-16 pdf info 2014-11-15 00:57:49 +00:00			`try:`
better pdf parsing 2015-12-24 20:30:14 +05:30			`value = info[key]`
			`if len(value) == 1:`
			`value = value[0]`
			`if isinstance(value, bytes):`
			`value = value.decode('utf-16')`
cleanup pdf 2015-12-25 13:33:32 +05:30			`data[key[1:].lower()] = value`
handle utf-16 pdf info 2014-11-15 00:57:49 +00:00			`except:`
			`pass`
dont fail parsing parts of the pdf 2016-01-25 15:51:54 +05:30			`try:`
			`xmp = pdfreader.getXmpMetadata()`
			`except:`
			`xmp = None`
Open Media Library 2014-05-04 19:26:43 +02:00			`if xmp:`
			`for key in dir(xmp):`
			`if key.startswith('dc_'):`
some attributes don't work 2016-01-13 11:33:47 +05:30			`try:`
			`value = getattr(xmp, key)`
			`except:`
			`continue`
Open Media Library 2014-05-04 19:26:43 +02:00			`if isinstance(value, dict) and 'x-default' in value:`
			`value = value['x-default']`
			`elif isinstance(value, list):`
better pdf parsing 2015-12-24 20:30:14 +05:30			`value = [v.strip() if isinstance(v, str) else v for v in value if v]`
			`value = [v.strftime('%Y-%m-%d') if isinstance(v, datetime) else v for v in value]`
			`if len(value) == 1:`
			`value = value[0]`
Open Media Library 2014-05-04 19:26:43 +02:00			`_key = key[3:]`
			`if value and _key not in data:`
			`data[_key] = value`
			`except:`
s/exc_info=1/exc_info=True/g 2016-01-24 14:43:03 +05:30			`logger.debug('FAILED TO PARSE %s', pdf, exc_info=True)`
cleanup pdf 2015-12-25 13:33:32 +05:30
Open Media Library 2014-05-04 19:26:43 +02:00			`'''`
			`cmd = ['pdfinfo', pdf]`
dont cloes_fds if stdout/stderr is piped 2016-01-31 18:55:12 +05:30			`p = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)`
Open Media Library 2014-05-04 19:26:43 +02:00			`stdout, stderr = p.communicate()`
			`for line in stdout.strip().split('\n'):`
			`parts = line.split(':')`
			`key = parts[0].lower().strip()`
			`if key:`
			`data[key] = ':'.join(parts[1:]).strip()`
			`for key in data.keys():`
			`if not data[key]:`
			`del data[key]`
			`'''`
performance 2014-05-27 01:45:29 +02:00			`if 'identifier' in data:`
store metadata per user. remove primaryid. only store isbn13 2016-01-11 19:13:54 +05:30			`value = to_isbn13(data['identifier'])`
			`if value:`
			`data['isbn'] = value`
performance 2014-05-27 01:45:29 +02:00			`del data['identifier']`
port to python3 2014-09-03 00:32:44 +02:00			`for key, value in data.items():`
performance 2014-05-27 01:45:29 +02:00			`if isinstance(value, dict):`
port to python3 2014-09-03 00:32:44 +02:00			`value = ' '.join(list(value.values()))`
cleanup pdf 2015-12-25 13:33:32 +05:30			`data[key] = value.strip()`
			`for key in list(data):`
			`if data[key] in ('Unknown',):`
			`del data[key]`
			`if key == 'language':`
normalize language 2015-12-25 19:40:49 +05:30			`data[key] = get_language(data[key])`
Open Media Library 2014-05-04 19:26:43 +02:00			`if settings.server['extract_text']:`
dont extract text if extract_text is false 2016-02-19 14:42:19 +05:30			`text = extract_text(pdf)`
			`data['textsize'] = len(text)`
for update 2019-01-15 13:20:11 +05:30			`if 'isbn' not in data:`
Open Media Library 2014-05-04 19:26:43 +02:00			`isbn = extract_isbn(text)`
			`if isbn:`
store metadata per user. remove primaryid. only store isbn13 2016-01-11 19:13:54 +05:30			`data['isbn'] = isbn`
fix pdf info 2014-05-27 11:09:06 +02:00			`if 'date' in data and len(data['date']) == 8 and data['date'].isdigit():`
			`d = data['date']`
			`data['date'] = '%s-%s-%s' % (d[:4], d[4:6], d[6:])`
split pdf author 2015-12-25 20:23:22 +05:30			`if 'author' in data and isinstance(data['author'], str):`
normalize names 2016-01-08 16:14:09 +05:30			`data['author'] = [ox.normalize_name(data['author'])]`
pdf with html description 2016-01-29 22:17:39 +05:30			`if 'description' in data:`
			`data['description'] = ox.strip_tags(ox.decode_html(data['description'])).strip()`
dont take pdf metadata if title starts with Microsoft Word 2016-02-14 20:26:17 +05:30			`if data.get('title', '').startswith('Microsoft Word'):`
			`for key in ('title', 'author', 'producer', 'creator'):`
			`if key in data:`
			`del data[key]`
avoid space titles 2016-03-18 18:35:41 +01:00			`for key in list(data):`
			`if isinstance(data[key], str) and not data[key].strip():`
			`del data[key]`
Open Media Library 2014-05-04 19:26:43 +02:00			`return data`

			`'''`
			`#possbile alternative with gs`
			`tmp = tempfile.mkstemp('.txt')[1]`
			`cmd = ['gs', '-dBATCH', '-dNOPAUSE', '-sDEVICE=txtwrite', '-dFirstPage=3', '-dLastPage=5', '-sOutputFile=%s'%tmp, pdf]`

			`'''`
			`def extract_text(pdf):`
run pdftotext only once 2016-02-07 17:11:00 +05:30			`if sys.platform == 'win32':`
			`pdf = get_short_path_name(pdf)`
use pdftotext if available 2019-02-01 17:36:03 +05:30			`cmd = ['pdftotext', pdf, '-']`
Open Media Library 2014-05-04 19:26:43 +02:00			`if sys.platform == 'darwin':`
use pdftotext if available 2019-02-01 17:36:03 +05:30			`pdftotext = ['/usr/local/bin/pdftotext', pdf, '-']`
			`if os.path.exists(pdftotext[0]):`
			`cmd = pdftotext`
			`else:`
			`cmd = ['/usr/bin/mdimport', '-d2', pdf]`
hide window, open file not folder 2016-02-01 00:49:25 +05:30			`if sys.platform == 'win32':`
			`startupinfo = subprocess.STARTUPINFO()`
			`startupinfo.dwFlags \|= subprocess.STARTF_USESHOWWINDOW`
			`startupinfo.wShowWindow = subprocess.SW_HIDE`
			`p = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE, startupinfo=startupinfo)`
run pdftotext only once 2016-02-07 17:11:00 +05:30			`else:`
			`p = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.PIPE)`
Open Media Library 2014-05-04 19:26:43 +02:00			`stdout, stderr = p.communicate()`
fix text extraction on osx 2014-09-30 22:30:09 +02:00			`stdout = stdout.decode()`
			`stderr = stderr.decode()`
use pdftotext if available 2019-02-01 17:36:03 +05:30			`if sys.platform == 'darwin' and cmd[0] == '/usr/bin/mdimport':`
postupdate, pdf osx fixes 2014-05-20 02:08:28 +02:00			`if 'kMDItemTextContent' in stderr:`
			`stdout = stderr.split('kMDItemTextContent = "')[-1].split('\n')[0][:-2]`
			`else:`
			`stdout = ''`
Open Media Library 2014-05-04 19:26:43 +02:00			`return stdout.strip()`

add meta.extract_text 2016-01-19 20:48:25 +05:30
			`def pypdf_extract_text(path):`
			`'''`
			`slow and bad results`
			`'''`
			`pdf = PdfFileReader(path)`
			`content = []`
			`for i in range(0, pdf.getNumPages()):`
			`try:`
			`extracted_text = pdf.getPage(i).extractText()`
			`content.append(extracted_text)`
			`except:`
			`pass`
			`content = "\n".join(content).replace("\xa0", " ").strip()`
			`return content`

Open Media Library 2014-05-04 19:26:43 +02:00			`def extract_isbn(text):`
			`isbns = find_isbns(text)`
			`if isbns:`
			`return isbns[0]`
extract detail from pdf 2024-06-09 14:47:36 +01:00