添付ファイルのインデックス作成を無効化する方法

お困りですか?

アトラシアン コミュニティをご利用ください。

コミュニティに質問

目的

サイズの大きい MS Excel または MS PowerPoint ドキュメントのインデックスで問題が発生し、再インデックスで Unknown Ptg の警告メッセージが表示されることがあります。これは無害です。POI ライブラリで読解不可能なドキュメントの再インデックスでこのような警告を停止するリクエストが起票されています。

このエラーは通常は深刻なものではありませんが、大規模な添付ファイルが利用されている場合は問題を発生させることがあります。このため、特定の種類の添付ファイルに対してインデックス作成を無効化したい場合があります。

これを行うには次のいずれかの方法を利用できます。

Confluence 6.2.2 では、大規模な添付ファイルのインデックス作成時にご利用のサイトのメモリ不足エラーを防ぐ変更が行われています。この変更には、テキスト抽出やインデックス プロセス前のファイル サイズ (設定可能) の確認が含まれます。添付ファイルのインデックス作成を完全に無効化する前に「添付ファイルのサイズの設定」で仕組みをご確認ください。ご利用のサイトに合わせて制限を調整できる可能性があります。

ソリューション

方法 1: 管理コンソールを利用

この方法は、UI でシステム プラグインを無効化できない Confluence 7+ では利用できません。Confluence 7 を実行している場合は方法 2 をご利用ください。

  1. Confluence 管理 > [アドオンの管理] に移動します。
  2. 画面の中央に、[User Installed] というプルダウン メニューがあります。これを [All Add-ons] に変更します。 
  3. [System Add-ons] 配下の [System Add-ons] にスクロールします。
    1. [Attachment Extractors] を展開します。
    2. [1 of 1 modules enabled] の横の [+] 記号をクリックします。
    3. [PDF Content Extractor] にカーソルをあわせると [disable] ボタンが表示されます。 
    4. [disable] ボタンをクリックします。
  4. [Office Connector] プラグインにスクロールします。
    1. [Office Connector] プラグインを展開します。
    2. [x out of x modules enabled] を展開します。
    3. 次のモジュールを無効化します。
      1. Word Content Extractor
      2. Word XML Content Extractor
      3. Powerpoint 97 Content Extractor
      4. Powerpoint 2007 Content Extractor
      5. Excel 97 Content Extractor
      6. Excel 2007 Content Extractor

無効化したモジュールに対応するタイプのすべての添付ファイル コンテンツが検索クエリで無視されるようになります。

バンドルされたモジュールは再起動後に再び有効化される点にご注意ください。永続的なソリューションが必要な場合は方法 2 をご利用ください。

方法 2: プラグインの atlassian-plugin.xml ファイルを編集

次の JAR ファイル内にある atlassian-plugin.xml ファイルのコンテンツを編集し、関連するファイル タイプ抽出をコメント アウトする必要があります。

  • confluence-attachment-extractors-x.x.jar (PDF用) または
  • OfficeConnector-x.x.jar (Office ファイル用)

これらの JAR ファイルはいずれも confluence\WEB-INF\atlassian-bundled-plugins  ディレクトリにあります。

JAR ファイルの編集に馴染みがない場合は「Confluence の JAR ファイル内のファイルを編集する方法」で詳細をご確認ください。

atlassian-plugin.xml ファイル内のファイル タイプ抽出は key 属性における ContentExtractor の有無で特定できます。

特定のファイル タイプの ContentExtractor を無効化すると、そのタイプのすべてのファイルが検索対象外になります。

次の例では pdfContentExtractor が無効化されているため、PDF の添付ファイルがインデックスされなくなります。

<atlassian-plugin key="com.atlassian.confluence.plugins.attachmentExtractors" name="Attachment Extractors">
    <plugin-info>
        <description>This plugin extracts searchable text from various attachment types.</description>
        <version>1.1</version>
        <vendor name="Atlassian Pty Ltd" url="http://www.atlassian.com/"/>
    </plugin-info>

    <!--
    <extractor name="PDF Content Extractor" key="pdfContentExtractor" class="com.atlassian.bonnie.search.extractor.PdfContentExtractor" priority="1100">
        <description>Indexes contents of PDF files</description>
    </extractor>
    -->

</atlassian-plugin>

次の表は、OfficeConnector-x.x.jar ファイル内の atlassian-plugin.xml のファイル タイプの抽出を示しています。インデックスを防ぐにはコメント アウトが必要です。

添付ファイルのタイプ

ファイル タイプ抽出

Word 97/2007 (.doc および .docx)

<extractor name="Word Content Extractor" key="wordContentExtractor" class="com.atlassian.confluence.extra.officeconnector.index.word.WordTextExtractor" priority="1099">
    <description>Indexes contents of Word 97/2007 files</description>
</extractor>

PowerPoint 97 (.ppt)

<extractor name="PowerPoint 97 Content Extractor" key="ppt97ContentExtractor" class="com.atlassian.confluence.extra.officeconnector.index.powerpoint.PowerPointTextExtractor" priority="1099">
    <description>Indexes contents of PowerPoint 97 files</description>
</extractor>

PowerPoint 2007 (.pptx)

<extractor name="PowerPoint 2007 Content Extractor" key="ppt2k7ContentExtractor" class="com.atlassian.confluence.extra.officeconnector.index.powerpoint.PowerPointXMLTextExtractor" priority="1099">
    <description>Indexes contents of PowerPoint 2007 files</description>
</extractor>

Excel 97 (.xls)

<extractor name="Excel 97 Content Extractor" key="excel97ContentExtractor" class="com.atlassian.confluence.extra.officeconnector.index.excel.ExcelTextExtractor" priority="1099">
    <description>Indexes contents of Excel 97 files</description>
</extractor>

Excel 2007 (.xlsx)

<extractor name="Excel 2007 Content Extractor" key="excel2k7ContentExtractor" class="com.atlassian.confluence.extra.officeconnector.index.excel.ExcelXMLTextExtractor" priority="1099">
    <description>Indexes contents of Excel 2007 files</description>
</extractor>
最終更新日 2021 年 7 月 28 日

この内容はお役に立ちましたか?

はい
いいえ
この記事についてのフィードバックを送信する
Powered by Confluence and Scroll Viewport.