JP7529673B2 - コンテンツ不可知ファイルインデキシングの方法及びシステム - Google Patents
コンテンツ不可知ファイルインデキシングの方法及びシステム Download PDFInfo
- Publication number
- JP7529673B2 JP7529673B2 JP2021540318A JP2021540318A JP7529673B2 JP 7529673 B2 JP7529673 B2 JP 7529673B2 JP 2021540318 A JP2021540318 A JP 2021540318A JP 2021540318 A JP2021540318 A JP 2021540318A JP 7529673 B2 JP7529673 B2 JP 7529673B2
- Authority
- JP
- Japan
- Prior art keywords
- chunks
- binary data
- data file
- chunk
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 69
- 230000002085 persistent effect Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000010365 information processing Effects 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 238000004590 computer program Methods 0.000 description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/60—General implementation details not specific to a particular type of compression
- H03M7/6052—Synchronisation of encoder and decoder
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本出願は、2017年10月11日に出願された、「コンテンツ不可知ファイルインデキシングの方法及びシステム(Method and System for Content Agnostic File Indexing)」という名称の特許出願第15/730,043号の一部継続出願であり、同出願の内容はあらゆる目的の為に本明細書に参照により完全に援用される。
以下のコンピュータプログラムリストを本明細書に添付して提出し、参照により援用する。夫々のファイルは参照により援用される。以下のコンピュータプログラムリストは、以下の形式である。<バイト単位のサイズ> <作成日> <ファイル名>。
同じ参照符号は、図面の幾つかの図を通して同じ部品又はステップを参照する。
01
{00}{01}{10}{11}
{00}{01}{10}{11}
d^n=p(i)
(d^n)n=p(f)
d=システムの次数
n=システムの次数に応じた適切なn-ary単位での長さ
p(i)=初期インデックス
p(f)=最終インデックス
{00}{01}{10}{11}
011001110001
であれば、
0010 0111 0001
01 10 01 11 00 01
{2,1}{2,2}{2,1}{2,3}{2,0}{2,1}
011001 110001
011 001 110 001
00 1 00 1 11 0 00 1
00 10 00 10 11 00 00 10
0110011100
0110 0111 00
01 10 01 11 00
{2,1}{2,2}{2,1}{2,3}{1,0}
〔付記1〕
バイナリデータファイルのコンテンツ不可知参照の為のコンピュータ実装方法であって、
入力シードを用いて表を事前生成するステップであって、表は所定の長さのビットの全ての順列を含むステップと、
前記バイナリデータファイルの長さを決定するステップであって、前記長さは、前記バイナリデータファイルのビット数を含むステップと、
前記バイナリデータファイルを部分ストリングにチャンクするステップであって、各部分ストリングは前記バイナリデータファイルの長さよりも小さい長さであるステップと、
前記バイナリデータファイルの各チャンクについて、そのチャンクが前記事前生成された表内にあるかどうかを判断し、そのチャンクが事前生成された表内にある場合には、そのチャンクに前記事前生成された表内のチャンクの位置のインデックスを関連付け、そのチャンクが前記事前生成された表内にない場合には、チャンクされたバイナリデータを更に小さなチャンクに分割するステップと、
チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップと、を含む方法。
〔付記2〕
前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップが、
前記バイナリデータファイルの代わりに、前記チャンクの数及び全ての関連するインデックスを記憶装置に永続化するステップを含む、付記1に記載の方法。
〔付記3〕
前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップが、
前記データファイルの代わりに前記チャンクの数及び全チャンクの関連するインデックスを送信するステップを含む、付記1に記載の方法。
〔付記4〕
前記送信するステップは、前記チャンクの数及び全チャンクの関連するインデックスをネットワーク上で送信する、付記3に記載の方法。
〔付記5〕
前記送信するステップは、前記チャンク数及び全チャンクの関連するインデックスをバス上で送信する、付記3に記載の方法。
〔付記6〕
前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップは、
各順序付けられたペアがチャンクレベル及び関連するインデックスを示す、順序付けられたペアのタプルを作成するステップを含む、付記1に記載の方法。
〔付記7〕
前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップは、前記チャンクの数及び全チャンクの関連するインデックスを記憶装置上に永続化することを含む、付記1に記載の方法。
〔付記8〕
前記記憶装置はディスクである、付記7に記載の方法。
〔付記9〕
前記事前生成された表がハッシュ表である、付記1に記載の方法。
〔付記10〕
前記事前生成された表が行列である、付記1に記載の方法。
〔付記11〕
前記事前生成された表が揮発性メモリに永続化される、付記1に記載の方法。
〔付記12〕
前記事前生成された表が不揮発性メモリに永続化される、付記1に記載の方法。
〔付記13〕
前記バイナリデータファイルを部分ストリングにチャンクすることは、更に、
前記バイナリデータを所定の長さのチャンクにチャンクすることを含む、付記1に記載の方法。
〔付記14〕
前記所定の長さが2メガバイトである、付記13に記載の方法。
〔付記15〕
前記所定の長さが2メガバイトよりも小さい、付記13に記載の方法。
〔付記16〕
前記所定の長さが2メガバイトよりも大きい、付記13に記載の方法。
〔付記17〕
前記バイナリデータファイルを部分ストリングにチャンクすることは、更に、
前記バイナリデータファイルを、同じサイズの2つのチャンクに再帰的に分割することを含む付記1に記載の方法。
〔付記18〕
チャンクの数及び全チャンクの関連するインデックスに基づいてデータを取得する方法であって、
入力シードを使用して表を事前生成するステップであって、前記表は、所定の長さのビットの全ての順列を含み、前記事前生成された表を使用してチャンクの数及び関連するインデックスを生成するステップと、
各チャンクについて、そのチャンクに関連付けられたインデックスで表内にデータを配置するステップと、各チャンクに関連付けられたデータを返すステップと、を含む方法。
〔付記19〕
各チャンクに関連するデータを返すステップは、
各チャンクに関連するデータを単一のビットストリームに連結することを含む、付記18に記載の方法。
Claims (17)
- 計算機システム上で実行されるバイナリデータファイルのコンテンツ不可知参照の為の情報処理方法であって、
前記計算機システムを使用して、入力シードを用いて表を事前生成するステップであって、表は所定の長さのビットの全ての順列を含むステップと、
前記計算機システムを使用して、前記バイナリデータファイルの長さを決定するステップであって、前記長さは、前記バイナリデータファイルのビット数を含むステップと、
前記計算機システムを使用して、前記バイナリデータファイルを部分ストリングにチャンクするステップであって、各部分ストリングは前記バイナリデータファイルの長さよりも小さい長さであるステップと、
前記計算機システムを使用して、前記バイナリデータファイルの各チャンクについて、そのチャンクが前記事前生成された表内にあるかどうかを判断し、そのチャンクが事前生成された表内にある場合には、そのチャンクに前記事前生成された表内のチャンクの位置のインデックスを関連付け、そのチャンクが前記事前生成された表内にない場合には、チャンクされたバイナリデータを更に小さなチャンクに分割するステップと、
前記計算機システムを使用して、チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップと、を含む方法。 - 前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップが、
前記バイナリデータファイルの代わりに、前記チャンクの数及び全ての関連するインデックスを記憶装置に永続化するステップを含む、請求項1に記載の方法。 - 前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップが、
前記バイナリデータファイルの代わりにチャンクの数及び全チャンクの関連するインデックスを送信するステップを含む、請求項1に記載の方法。 - 前記送信するステップは、前記チャンクの数及び全チャンクの関連するインデックスをネットワーク上で送信する、請求項3に記載の方法。
- 前記送信するステップは、前記チャンクの数及び全チャンクの関連するインデックスをバス上で送信する、請求項3に記載の方法。
- 前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップは、
各順序付けられたペアがチャンクレベル及び関連するインデックスを示す、順序付けられたペアのタプルを作成するステップを含む、請求項1に記載の方法。 - 前記チャンクの数及び全チャンクの関連するインデックスを使用して前記バイナリデータファイルを示すステップは、前記チャンクの数及び全チャンクの関連するインデックスを記憶装置上に永続化することを含む、請求項1に記載の方法。
- 前記記憶装置はディスクである、請求項7に記載の方法。
- 前記事前生成された表がハッシュ表である、請求項1に記載の方法。
- 前記事前生成された表が行列である、請求項1に記載の方法。
- 前記事前生成された表が揮発性メモリに永続化される、請求項1に記載の方法。
- 前記事前生成された表が不揮発性メモリに永続化される、請求項1に記載の方法。
- 前記バイナリデータファイルを部分ストリングにチャンクすることは、更に、
前記バイナリデータを所定の長さのチャンクにチャンクすることを含む、請求項1に記載の方法。 - 前記所定の長さが2メガバイトである、請求項13に記載の方法。
- 前記所定の長さが2メガバイトよりも小さい、請求項13に記載の方法。
- 前記所定の長さが2メガバイトよりも大きい、請求項13に記載の方法。
- 前記バイナリデータファイルを部分ストリングにチャンクすることは、更に、
前記バイナリデータファイルを、同じサイズの2つのチャンクに再帰的に分割することを含む請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/244,332 | 2019-01-10 | ||
US16/244,332 US11138152B2 (en) | 2017-10-11 | 2019-01-10 | Method and system for content agnostic file indexing |
PCT/US2020/012661 WO2020146448A1 (en) | 2019-01-10 | 2020-01-08 | Method and system for content agnostic file indexing |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022518194A JP2022518194A (ja) | 2022-03-14 |
JP7529673B2 true JP7529673B2 (ja) | 2024-08-06 |
Family
ID=71520909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021540318A Active JP7529673B2 (ja) | 2019-01-10 | 2020-01-08 | コンテンツ不可知ファイルインデキシングの方法及びシステム |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3908937A4 (ja) |
JP (1) | JP7529673B2 (ja) |
KR (1) | KR20210110875A (ja) |
AU (1) | AU2020205970A1 (ja) |
CA (1) | CA3126012A1 (ja) |
WO (1) | WO2020146448A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138152B2 (en) | 2017-10-11 | 2021-10-05 | Lognovations Holdings, Llc | Method and system for content agnostic file indexing |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007508753A (ja) | 2003-10-17 | 2007-04-05 | パクバイト ソフトウエア プロプライアタリー リミティド | データ圧縮システム及び方法 |
US20120166448A1 (en) | 2010-12-28 | 2012-06-28 | Microsoft Corporation | Adaptive Index for Data Deduplication |
US20150201043A1 (en) | 2010-08-20 | 2015-07-16 | Abdulrahman Ahmed Sulieman | Methods and systems for encoding/decoding files and transmissions thereof |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5594435A (en) * | 1995-09-13 | 1997-01-14 | Philosophers' Stone Llc | Permutation-based data compression |
US7882139B2 (en) * | 2003-09-29 | 2011-02-01 | Xunlei Networking Technologies, Ltd | Content oriented index and search method and system |
US20050071151A1 (en) * | 2003-09-30 | 2005-03-31 | Ali-Reza Adl-Tabatabai | Compression-decompression mechanism |
CN101523732A (zh) * | 2006-09-01 | 2009-09-02 | 帕克比特软件股份有限公司 | 用于通过数据网络传输数据文件的方法和系统 |
US11138152B2 (en) * | 2017-10-11 | 2021-10-05 | Lognovations Holdings, Llc | Method and system for content agnostic file indexing |
-
2020
- 2020-01-08 KR KR1020217025238A patent/KR20210110875A/ko unknown
- 2020-01-08 JP JP2021540318A patent/JP7529673B2/ja active Active
- 2020-01-08 CA CA3126012A patent/CA3126012A1/en active Pending
- 2020-01-08 EP EP20737931.4A patent/EP3908937A4/en active Pending
- 2020-01-08 AU AU2020205970A patent/AU2020205970A1/en active Pending
- 2020-01-08 WO PCT/US2020/012661 patent/WO2020146448A1/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007508753A (ja) | 2003-10-17 | 2007-04-05 | パクバイト ソフトウエア プロプライアタリー リミティド | データ圧縮システム及び方法 |
US20150201043A1 (en) | 2010-08-20 | 2015-07-16 | Abdulrahman Ahmed Sulieman | Methods and systems for encoding/decoding files and transmissions thereof |
US20120166448A1 (en) | 2010-12-28 | 2012-06-28 | Microsoft Corporation | Adaptive Index for Data Deduplication |
Also Published As
Publication number | Publication date |
---|---|
JP2022518194A (ja) | 2022-03-14 |
KR20210110875A (ko) | 2021-09-09 |
CA3126012A1 (en) | 2020-07-16 |
WO2020146448A1 (en) | 2020-07-16 |
EP3908937A4 (en) | 2022-09-28 |
EP3908937A1 (en) | 2021-11-17 |
AU2020205970A1 (en) | 2021-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8244530B2 (en) | Efficient indexing of documents with similar content | |
US20220093210A1 (en) | System and method for characterizing biological sequence data through a probabilistic data structure | |
US20220255014A1 (en) | Trie-Based Indices for Databases | |
US9805079B2 (en) | Executing constant time relational queries against structured and semi-structured data | |
US10680645B2 (en) | System and method for data storage, transfer, synchronization, and security using codeword probability estimation | |
US7478113B1 (en) | Boundaries | |
US20120089579A1 (en) | Compression pipeline for storing data in a storage cloud | |
CN109299086B (zh) | 最优排序键压缩和索引重建 | |
US11138152B2 (en) | Method and system for content agnostic file indexing | |
US10691644B2 (en) | System and method for data storage, transfer, synchronization, and security using recursive encoding | |
US11366790B2 (en) | System and method for random-access manipulation of compacted data files | |
US11880368B2 (en) | Compressing data sets for storage in a database system | |
US10601442B2 (en) | Memory compression method and apparatus | |
JP7529673B2 (ja) | コンテンツ不可知ファイルインデキシングの方法及びシステム | |
CN112416879B (zh) | 一种基于ntfs文件系统的块级数据去重方法 | |
JP7047110B2 (ja) | コンテンツ非依存のファイルインデックス化の方法及びシステム | |
US8595195B2 (en) | Creating a self-contained portable output file | |
US11748307B2 (en) | Selective data compression based on data similarity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221024 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231226 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20240315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7529673 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |