PDF ドキュメントから表を抽出する方法

この記事ではその方法を説明しますPDF ドキュメントから表を抽出する。個別に使用したい複数の表を含む PDF ファイルが多数ある場合があります。これらのテーブルをコピーして貼り付けることは、期待した出力が得られない可能性があるため、良い選択肢ではありません。そのため、PDF ファイルからテーブルを抽出し、それらのテーブルを別のファイルとして保存できる他の簡単なオプションが必要です。

これらのほとんどはPDF テーブル抽出ツールPDF テーブルがスキャンされている場合は役に立ちません。このような場合、まず最初に行うべきことは、PDF を検索可能にするそして、これらのオプションを試してください。

PDF ドキュメントから表を抽出

この記事では、PDF ファイルから表を抽出するための 2 つの無料オンラインサービスと 3 つの無料ソフトウェアを追加しました。

PDFからXLSへ
PDFtoExcel.com
表
ByteScout PDF マルチツール
Sejda PDF デスクトップ。

1] PDFからXLSへ

PDF to XLS は、PDF から表を抽出するための最良のオプションの 1 つです。便利な2つの機能を搭載しています。からテーブルを取得できます20 PDF書類も一緒に。また、PDF テーブルの抽出は自動的に行われます。出力を次のように生成します。XLSXファイル。 PDF に複数のテーブルがある場合、各テーブルは出力 XLSX ファイルの異なるシートに個別に保存されます。

このサービスの pdftoxls.com ホームページを開きます。その後、PDF ファイルをドラッグアンドドロップするか、ファイルをアップロードするボタン。アップロードされた各 PDF は、XLSX 形式のファイルに自動的に変換されます。出力ファイルの準備ができたら、それらを 1 つずつダウンロードすることも、すべての出力ファイルを含む ZIP ファイルをダウンロードすることもできます。

2] PDFtoExcel.com

PDFtoExcel.com サービスは、1 つの PDF から一度に表を抽出できますが、PDF をアップロードするための複数のプラットフォームをサポートしています。サポートしますOneDrive、デスクトップ、Googleドライブ、そしてドロップボックスPDF をアップロードするためのプラットフォーム。また、変換プロセスは自動的に行われます。

このサービスのホームページは、ここ。そこで、アップロードオプションを選択して PDF を追加します。その後、PDF が自動的にアップロードされ、Excel (XLSX) ファイルに変換されます。出力の準備が完了すると、PDF 表を含む出力ファイルを保存するためのダウンロードリンクが表示されます。

注記：このサービスには、スキャンした PDF ファイルからも表を抽出できると記載されていますが、私には機能しませんでした。スキャンした PDF については引き続き試すことができます。

3]表

Tabula は、PDF 内の表を自動的に検出し、表を別名で保存できる強力なソフトウェアです。TSV、JSON、またはCSVファイル。 PDF テーブルごとに個別の CSV ファイルを保存するか、すべてのテーブルを 1 つの CSV ファイルに保存するかを選択できます。

これをダウンロードするにはオープンソースPDF テーブル抽出プログラム、ここをクリック。それもJavaが必要です正常に実行して使用できるようになります。

ダウンロードしたZIPファイルを解凍して実行します。表.exeファイル。デフォルトのブラウザでページが開きます。ページが開かない場合は、ブラウザに https://localhost:8080 を追加して、入力。

ここで、[参照] オプションを使用して PDF を追加できるインターフェースが表示されます。その後、を押します。輸入ボタン。 PDF が追加されると、そのインターフェイスの PDF ページが表示されます。

のテーブルの自動検出ボタンをクリックすると、その PDF 内のすべての表が自動的に強調表示されます。テーブルを選択して手動でハイライト表示することもできます。選択したテーブルを削除することもできます。

これにより、必要なテーブルのみを保存することができます。 PDF テーブルが強調表示されたら、抽出されたデータのプレビューとエクスポートボタン。

最後に、上部のドロップダウンメニューを使用して出力形式を選択し、輸出ボタン。これにより、選択した出力形式ファイルで PDF テーブルが保存されます。

4] ByteScout PDF マルチツール

名前が示すように、このソフトウェアには複数のツールが付属しています。などのツールがありますPDF を複数ページの TIFF に変換、PDF ドキュメントを回転する、PDFを検索不能にする、PDFを最適化する、PDF に画像を追加する、など。 PDF テーブル検出機能もあり、これは非常に素晴らしいです。このツールの利点は、次のことができることですスキャンした PDF から表を抽出するあまりにも。複数のページ内のテーブルを検出し、それらのテーブルを次のように抽出できます。CSV、XLS、XML、TXT、またはJSONフォーマットファイル。抽出前に、ページ範囲指定したページのみから表を抽出します。

このソフトウェアを入手できますここ。それは非営利目的の場合は無料のみ。インストール後、このソフトウェアを実行して使用しますドキュメントを開くPDF を追加するオプション。その後、テーブルの検出上の画像で強調表示されているツール。このツールは以下にありますデータ抽出カテゴリ。

テーブルを検出するための条件を設定できるボックスが開きます。たとえば、列と行の最小数、テーブル間の最小改行数を設定したり、テーブル検出モードを枠付きテーブルまたは枠なしテーブルに設定したりできます。オプションを使用するか、デフォルト設定をそのまま使用します。

その後、を押します次のテーブルを検出そのボックス内のボタンをクリックします。現在のページ上のテーブルを識別して選択します。このようにして、別のページに移動して、さらに多くのテーブルを検出できます。

完了したら、使用してください抽出に進むボタンを押して出力形式を選択します。最後に、オプションを使用して現在のページからテーブルを保存したり、ページ範囲を定義して出力を保存したりできます。

このツールは満足のいく出力を提供します。ただし、場合によっては、PDF 内の他のコンテンツが検出され、複数のページから表を抽出できない場合があります。その場合は、これを使用してテーブルを 1 つずつフェッチして保存する必要があります。

5] Sejda PDF デスクトップ

Sejda PDF Desktop も多目的ソフトウェアです。最適化したり、PDFを圧縮する、PDFに透かしを追加、PDF から制限を削除する、PDF ドキュメントの編集など。ただし、無料プランには制限があります。無料プランでは、1日に実行できるタスクは3つまでです。また、PDFのサイズ制限は50MBまたは10ページ。

そのPDFからExcelへ変換ツールは PDF テーブルを抽出します。 PDF ページ内の表を自動的に検出し、XLSX または CSV として保存できます。

そのダウンロードリンクはここ。インストール後、メインインターフェイスから PDF to Excel ツールを使用します。そのツールを選択した後、使用しますPDF ファイルを選択してくださいボタン。無料プランに追加できる PDF は 1 つだけです。

PDF が追加されると、PDFをCSVに変換そしてPDFをExcelに変換ボタン。ボタンをクリックして、PC 上の目的の場所に出力を保存します。