Спосіб автоматичної ітеративної кластеризації електронних документів за семантичної близькості, спосіб пошуку в сукупності кластерних по семантичній близькості документів та машиночитні носії

 

Область техніки, до якої належить винахід

Даний винахід відноситься до способу автоматичної ітеративної кластеризації електронних документів за семантичної близькості, способу пошуку в сукупності кластерних по семантичній близькості документів, а також до машиночитаних носіїв з програмами для реалізації цих способів.

Рівень техніки

Величезні обсяги інформації в мережі Інтернет призводять до того, що кількість об'єктів, які видаються за запитом користувача, дуже велике. Загальною проблемою, яка знижує ефективність роботи користувача з пошуковою системою, є надмірність інформації при видачі результатів за запитом. Це ускладнює процес огляду результатів і вибору найбільш підходящих матеріалів (статей, публікацій, звітів і ін) з безлічі знайдених.

В даний час відомі різні способи групування документів за їх семантичної близькості, що дозволяють надалі проводити пошук в сукупності таких документів.

Так, у патенті РФ №2268488 (опубл. 20.01.2006) розкрито спосіб, в якому кодують слова, фрази, ідіоми, пропозиції і навіть ідеї для подальшої числової обробки, в тому числі кластеризації. У патенті РФ №227387�щей індексацією знайдених одиниць для віднесення тексту до конкретного класу. У способі за патентом №6871174 (опубл. 22.03.2005) визначають схожість текстів з текстовим фрагментам. У патенті ЕАПВ №002016 (опубл. 22.01.2001) описаний спосіб, в якому у фрагментах текстового документа визначають унікальні блоки інформації і використовують їх для подальшої кластеризації та пошуку. Недолік всіх цих способів полягає в тому, що для їх здійснення потрібно дуже великий обсяг пам'яті, т. к. при надходженні нового тексту обробку доводиться повторювати для кожного вже обробленого тексту.

У патенті США №6189002 (опубл. 13.02.2001) розкрито спосіб, в якому текст поділяють на абзаци і слова, які перетворять в вектори впорядкованих елементів. Кожен елемент вектора відповідає абзацу, знайденому застосуванням заданої функції до числа появ у цьому абзаці слова, що відповідає цьому елементу. Текстовий вектор розглядається як семантичний профіль документа, придатний для зіставлення у разі кластеризації. Однак з урахуванням різноманіття абзаців даний спосіб також вимагає величезного масиву запам'ятованих даних.

Розкриття винаходу

Завданням цього винаходу є розробка такого способу ітеративної кластеризації електронних документів по ресурсних документів, так і подальшого пошуку в кластеризованной сукупності тих документів, які релевантні пошуковому запиту.

Для вирішення цього завдання і досягнення зазначеного технічного результату в першому об'єкті цього винаходу запропоновано спосіб автоматичної ітеративної кластеризації електронних документів за семантичної близькості, полягає в тому, що: перетворять кожен підлягає обробці електронний документ у відповідний багатовимірний вектор у багатовимірному просторі, виміри якого визначаються містяться в електронному документі термами; знаходять міру близькості отриманого багатовимірного вектора до кожного з багатовимірних векторів вже наявних кластерів, що об'єднують семантично близькі електронні документи, опрацьовані раніше; доповнюють підлягає обробці електронним документом той з кластерів, для якого знайдена міра близькості мінімальна; визначають для доповненого кластера його новий багатовимірний вектор; приймають в якості теми доповненого кластера назва того електронних документів у даному кластері, для якого міра близькості його багатовимірного вектора до певного нового багатовимірного вектора мінімальна.

Особи�одлежащих обробки електронних документів в міру їх появи протягом заздалегідь заданого інтервалу часу; після чого і здійснювати кластеризацію кожного з електронних документів у накопиченої сукупності.

Ще одна особливість способу по першому об'єкту цього винаходу полягає в тому, що перетворення електронного документа багатовимірний вектор може включати в себе етапи, на яких: планаризируют текст електронного документа; формують масиви термів для планаризованного тексту кожного з електронних документів, для чого токенизируют планаризованний текст, отримуючи в результаті сегменти у вигляді слів, знаків пунктуації, прогалин і стеммируют токенизированний текст, виділяючи в результаті основи слів за допомогою принаймні одного з евристичних алгоритмів, після чого знаходять вага кожного терма в кожному з електронних документів, і висловлюють кожен з електронних документів у вигляді вектора в багатовимірному просторі, виміри якого визначаються знайденими вагами термів в тексті даного електронного документа.

При цьому обчислення ваги кожного терма можуть виконувати з використанням міри TF-IDF, що представляє собою добуток величини

на величину

.

Ще одна особливість способу ет включати в себе етапи, на яких обчислюють косинусную міру близькості між кожною парою багатовимірних векторів; розбивають всі багатовимірні вектори на підмножини, в кожному з яких обчислена косинусні міра близькості між парою будь-яких багатовимірних векторів менше наперед заданого значення; розраховують вектор-центроїд кожного з підмножин як середньоарифметичне всіх багатовимірних векторів цієї підмножини; приписують кожен багатовимірний вектор до підмножини з найближчим вектором-центроїдом.

Ще одна особливість способу по першому об'єкту цього винаходу полягає в тому, що додатково можуть здійснювати етапи, на яких знаходять міру взаємної близькості багатовимірних векторів для кожної пари кластерів; об'єднують у відповідний топік ті кластери, для яких знайдені заходи взаємної близькості їх багатовимірних векторів не перевищують заздалегідь задане порогове значення; визначають для топіка його багатовимірний вектор; приймають в якості теми топіка тему того з вхідних в нього кластерів, для якого міра близькості його багатовимірного вектора до певного багатовимірного вектора цього топіка мінімальна.

Ще одна особливість способу по першому об'єкту цього винаходу �рних векторів для кожної пари топіків; об'єднують у відповідний супертопик ті топіки, для яких знайдені заходи взаємної близькості їх багатовимірних векторів не перевищують заздалегідь заданий поріг; визначають для супертопика його багатовимірний вектор; приймають в якості теми супертопика тему того з вхідних в нього топіків, для якого міра близькості його багатовимірного вектора до певного багатовимірного вектора цього супертопика мінімальна.

Ще одна особливість способу по першому об'єкту цього винаходу полягає в тому, що можуть будувати графа, вузлами якого є супертопики, а кожне з ребер являє собою відношення близькості пов'язуються цим ребром супертопиков, топіків і документів.

При цьому можуть становити глобальний словник термів для забезпечення можливості подальшого проведення пошуку фрагментів графа, релевантних конкретному пошуковому документа.

Для рішення тієї ж задачі і забезпечення того самого технічного результату у другому об'єкті цього винаходу запропоновано спосіб пошуку в сукупності кластерних по семантичній близькості документів, який полягає в тому, що: здійснюють кластеризацію електронних документів згідно способу по першому об'єкту настоящ�нтів побудованого графа.

Для рішення тієї ж задачі і забезпечення того самого технічного результату у третьому об'єкті цього винаходу запропоновано машиночитаемий носій, призначений для безпосередньої участі в роботі обчислювального засобу і містить програму, яка при її виконанні в обчислювальному засобі забезпечує виконання способу по першому об'єкту цього винаходу.

Для рішення тієї ж задачі і забезпечення того самого технічного результату у четвертому об'єкті цього винаходу запропоновано машиночитаемий носій, призначений для безпосередньої участі в роботі обчислювального засобу і містить програму, яка при її виконанні в обчислювальному засобі забезпечує виконання способу з другого об'єкту цього винаходу.

Короткий опис креслень

Даний винахід ілюструється доданими кресленнями.

На Фіг.1 показана блок-схема алгоритму семантичної кластеризації електронних документів у відповідності з цим винаходом.

На Фіг.2 проілюстровано визначення міри близькості векторів.

На Фіг.3 проілюстровано принцип кластеризації за методом Canopy.

На Фіг.4 показаний граф, що відображає принц�а запит «марс умови для життя» в системі, використовує даний винахід.

На Фіг.6 наведено приклад звіту, що формується системою за деякими відбірковим критеріям.

Детальний опис варіантів здійснення

Завдання зменшення надлишковості може вирішуватися різними способами. У більшості випадків величезні обсяги інформації можна зробити доступними для сприйняття, якщо вміти розбивати джерела інформації, наприклад web-сторінки, на тематичні групи. Тоді користувач може відразу відкидати безліч документів з груп з малої релевантністю. Такий процес угруповання текстових даних здійснюється з допомогою кластеризації.

Кластеризація вибірки документів являє собою ефективний засіб підвищення якості діалогу користувача з пошуковою системою, що дозволяє проводити розділення отриманої вибірки за тематичними ознаками. Метою кластеризації документів є автоматичне виявлення груп семантично схожих документів серед заданого фіксованого безлічі документів, коли ніякі характеристики цих груп не задаються заздалегідь.

Спосіб автоматичної ітеративної кластеризації електронних документів по семантичній близькості згідно з цим зображе�х, з метою забезпечення процесів управління даними, які з різних електронних джерел науково-технічної інформації з використанням інноваційних семантичних технологій. Цей спосіб може здійснюватися в системі, що представляє собою або включає в себе обчислювальний засіб (сервер, персональний комп'ютер, тощо), запрограмований для виконання описаних нижче дій.

Для виявлення семантичної близькості електронних документів особливу актуальність мають методи інтелектуального аналізу даних. Основна особливість цих методів полягає у встановленні наявності та характеру прихованих закономірностей у даних, тоді як традиційні статистичні методи займаються головним чином параметричної оцінкою вже встановлених закономірностей. Серед методів інтелектуального аналізу даних особливе місце займає кластеризація. Кластеризація, грунтуючись на відношенні подібності елементів, встановлює підмножини (кластери), які групуються вхідні дані.

Зазвичай джерелами оброблюваних документів служать різні набори документів мережі Інтернет. Визначення значущих джерел здійснюється користувачем з урахуванням його �наявність джерел, наявність інформації про тих чи інших об'єктах тощо), тобто з'ясовується коло розглянутих джерел інформації, зміст предметної області.

При цьому користувач визначає тип інформаційної потреби та її обмеження (за видами видань, мов публікацій, географічних і хронологічних рамок і т. п.).

Як правило, у користувачів існують стандартні набори ресурсів мережі Інтернет за тематикою їх діяльності. Список інформаційних ресурсів формується таким чином, щоб ресурси, доповнюючи один одного, максимально охоплювали інформацію з даної теми.

Вихідними даними для реалізації способів по справжньому винаходу є потік прив'язаних до часу документів, який приходить в систему. Кожен документ розглядається в якості вихідного інформаційного об'єкта, що володіє часом створення (виникнення) і унікальним ідентифікатором - уніфікованим покажчиком ресурсів (УКР, URL - Uniform Resource Locator).

Завданням системи, що реалізує способи по справжньому винаходу, є групування вхідного потоку документів за темами і встановлення близькості між темами. Система оперує екземплярами об'єктів декількох типів - документи, топіки, супі�

Початковій операцією, що виконується системою, є поповнення бази даних системи вихідними інформаційними об'єктами. Фахівцям зрозуміло, що підлягає кластеризації текст необхідно подати в електронній формі для подальшої автоматизованої обробки. Цей етап на Фіг.1 умовно позначений посилальної позицією 1 і може бути виконаний будь-яким відомим способом, наприклад скануванням тексту з подальшим розпізнаванням з допомогою загальновідомих засобів типу ABBYY FineReader. Якщо ж текст поступає на обробку електронної мережі, наприклад з Інтернету, то етап його подання в електронній формі виконується заздалегідь, до розміщення цього тексту в мережі. Тому на блок-схемі Фіг.1 етап подання документа в електронній формі показаний пунктиром. Для кожного з таких об'єктів у базі даних системи зберігається вихідний вид документа в оригінальному форматі (поз.2 на Фіг.1). На його основі отримують текст документа, витягнутий з документа в оригінальному форматі, іменований планаризованним текстом (поз.3 на Фіг.1).

Далі формують масиви термів для планаризованного тексту кожного з збережених електронних документів. Для цього спочатку планаризованний текст токенизируют, п�ті одиниці, іменовані токенами (token). Токеном може бути будь-який об'єкт з наступних: слова, що складаються кожне з послідовності букв і, можливо, дефісів; послідовність пробілів; знаки пунктуації; числа (приміром, 2012, Тянь-Шань). Іноді сюди ж відносять такі послідовності символів, як А300, i150b і т. п. Виділення токенів завжди здійснюється за досить простим правилам, наприклад, як в заявці на патент США №2007/0073533 (опубл. 29.03.2007). Після цього токенизированний текст стеммируют, тобто виділяють основи слів за допомогою будь-якого з відомих евристичних алгоритмів - наприклад, використовуючи такі бібліотеки як Snowball (див. http://snowball.tartarus.org/) і Ispell (див. http://www.gnu.org/software/ispell/). На Фіг.1 цей етап умовно позначений посилальної позицією 4.

Після цього знаходять вага кожного терма в сформованому масиві термів в кожному з електронних документів (поз.5 на Фіг.1). Це обчислення ваги кожного терма можна виконувати, наприклад, з використанням міри TF-IDF, що представляє собою добуток величини

на величину

.

В принципі, ваги термів можна знаходити й інакше, наприклад, так, як описано у вищезгаданому патенті США №6189002.

Після того, як знайдені вазі вектора в багатовимірному просторі (поз.6 на Фіг.1). Наприклад, якщо для даного документа виписати по порядку ваги всіх термів, включаючи ті, яких немає у цьому документі, вийде вектор, який і буде поданням даного документа у векторному просторі. Розмірність цього простору визначаються знайденими вагами термів в тексті даного електронного документа. Тобто вага терма в документі - це «важливість» слова, вихідного для цього терма, при ідентифікації даного тексту. Якщо підрахувати кількість вживань терма в документі, так звану частоту терма, то чим частіше слово зустрічається в документі, тим більший у нього буде вагу. Якщо терм не зустрічається в документі, то його вага в цьому документі дорівнює нулю.

В результаті виконання етапів, позначених ссилочними позиціями 1-6 на Фіг.1, виконується перетворення кожного підлягає обробці електронного документа у відповідний багатовимірний вектор у багатовимірному просторі. Можна сказати, що сформований багатовимірний вектор являє собою упорядкований набір чисел з довжиною, рівною кількістю записів в упорядкованому словника термів, що зустрічаються в документах, де кожному терму відповідає величина TF-IDF. Терми являють собою згадуються в документах слова, пѷ багатовимірних векторів у вже існуючих кластерах, об'єднують семантично близькі електронні документи, опрацьовані раніше (поз.7 на Фіг.1). Таку міру можна обчислювати так само, як описано у вже згаданому патенті США №6189002. Однак переважно використовувати косинусную міру близькості векторівваг термів документів:

,

де

-, i=1, 2 - вектор в просторі термів, витягуваних з усього безлічі документів.

-- скалярний добуток векторів ваг, обчислене за формулою

, де xi, yi, - i-e координати векторів,

-, k=1, 2 - евклідова норма вектора, обчислюється за формулою

,

а, xi- координата вектора (вага i-го терма), обчислюється за формулою

,

в якій tft- частота (кількість згадувань) терма t в даному документі, N - загальна кількість документів, а Nt- кількість документів, в яких зустрічається хоча б один терм t. Зазначимо, що tft- це визначена вище величина TF для терма t.

На Фіг.2 пр�ахождения міри близькості вектора в документі, підлягає обробці, з векторами у вже наявних кластери виконують етап (поз.8 на Фіг.1), на якому доповнюють цим підлягає обробці електронним документом той з вже наявних кластерів, для якого знайдена на попередньому етапі міра близькості мінімальна. Якщо ж мова йде про початкову кластеризації декількох документів (коли кластери ще не визначені) або попередню кластеризації сукупності ще не оброблених електронних документів (у разі їх накопичення протягом заздалегідь заданого або довільного інтервалу часу), то кластерний аналіз може проводитися наступним чином.

Взагалі кластерний аналіз - це спосіб групування багатовимірних об'єктів, заснований на представленні результатів окремих спостережень точками відповідного геометричного простору з подальшим виділенням груп як «згустків» цих точок (кластерів). Кластерний аналіз передбачає виділення компактних, віддалених один від одного груп об'єктів, відшукує «природне» розбиття сукупності на області скупчення об'єктів. Він використовується, коли вихідні дані представлені у вигляді матриць близькості або відстаней між об'єктами або у вигляді точок у багатовимірному просторів�яких геометрично віддалених груп, усередині яких близькі об'єкти. У цьому винаході точками в багатовимірному просторі є умовно кінці знайдених багатовимірних векторів.

Таким чином, кластеризація - це розбиття множини документів на кластери, тобто підмножини, параметри яких заздалегідь невідомі. Кількість кластерів може бути довільним або фіксованим. Всі методи кластеризації можна розділити на кількісні і нечислові. Числові методи використовують числові характеристики про документи, а нечислові методи використовують для роботи безпосередньо слова і фрази, що становлять текст. Існують статистичні, ієрархічні і графові алгоритми кластеризації.

У цьому винаході кластеризація реалізована як послідовний багатоступінчастий процес, на окремих етапах якого виконується «класична» кластеризація деякої порції даних за допомогою будь-якого добре себе зарекомендував алгоритму. Наприклад, у практичній реалізації системи переважно використовується алгоритм кластеризації, іменований методом Canopy (метод «навісів») (див. http://www.kamalnigam.com/papers/canopy-kdd00.pdf).

Основна ідея цього методу полягає у виконанні кластеризації в два етапи, з яких перший эатем може застосовуватися другий, більш ретельний етап, на якому проводяться більш затратні вимірювання відстаней між точками, які є під загальним canopy («навісом»).

На першому етапі використовується невитратне вимірювання відстаней для того, щоб створити деяку кількість перекриваються підмножин, званих «навісами». «Навіс» (canopy) - це просто набір елементів (тобто точок даних або елементів), які, згідно з наближеним вимірюванням подібностей, знаходяться на деякій відстані від центральної точки. Що особливо важливо, елемент може виявитися під більш ніж одним накриттям», а кожен елемент повинен перебувати принаймні, тільки під одним «навісом». «Навіси» створюються з тим наміром, що точки, які не входять в які-небудь загальні «навіси», знаходяться на достатній відстані один від одного, і, таким чином, не можуть перебувати в одному кластері. На Фіг.3 круги з суцільними лініями показують приклад перекриття «навісів», які охоплюють набори даних.

Таким чином, після знаходження багатовимірних векторів і обчислення заходи їх попарної близькості (тобто після етапу 8 на Фіг.1) всі отримані багатовимірні вектори розбивають на підмножини, в кожному з яких обчислена міра б� значення. При цьому розраховують вектор-центроїд кожного з отриманих підмножин як середньоарифметичне всіх багатовимірних векторів цієї підмножини (поз.9 на Фіг.1).

На другому етапі методу «навісів» кожній точці приписується тільки один кластер за принципом: кожна точка (тобто кожен вектор) багатовимірного простору приписується до найближчої центроїду. Класичний алгоритм використовує метрику відстаней і два порогу відстаней Т1>Т2. Для кожної з множини точок, якщо відстань від деякої точки у конкретному кластері <Т1, ця точка додається в даний кластер (суцільні кола на Фіг.3). Далі, якщо це відстань <Т2, то дана точка видаляється з подальшого розгляду і вважається такою, що належить даному «навісу» (пунктирні кола на Фіг.3), що дозволяє знизити обчислювальну складність алгоритму. Таким чином, об'єкт (точка), дуже близький до центру майбутнього кластера буде виключено (виключена) з подальшої обробки. Алгоритм повторюється до тих пір, поки початковий набір не стане порожнім.

Потім виконується формування кластерів на основі отриманих центроїдів (середньоарифметичне всіх точок, що входять в цей «навіс»). Для кожної точки здійснюється пошук бкому центроїду. При цьому кількість кластерів стає рівним кількості «навісів».

Після виконання етапу доповнення кластера новим документом (поз.8 на Фіг.1) визначають для цього доповненого кластера його новий багатовимірний вектор (поз.10 на Фіг.1) як середньоарифметичне колишнього вектора цього кластера і вектора доданого документа. Потім приймають в якості теми згаданого доповненого кластера назва того електронних документів у даному кластері, для якого міра близькості його багатовимірного вектора до певного нового багатовимірного вектора мінімальна (поз.11 на Фіг.1).

На Фіг.4 представлений шаблон графа, в який вкладаються кластери, отримані в результаті вищеописаною кластеризації.

Горизонтальні ребра в цій графі є ієрархічні узагальнюючі відносини між сутностями. Ребро документ-топік представляє той факт, що документ є частиною кластера, що складається з близьких за змістом документів. Ребро топік-супертопик узагальнює вже кластери на більш високому рівні. Представлений шаблон залежно від природи або структури вихідних документів може бути продовжений вправо (гипертопики і т. д.) для досягнення більш високих ступенів узагальнення.

Чим вище і�s важливі при використанні отриманої структури для прискорення інформаційного пошуку та для подання величезних масивів інформації в структурованому і узагальненому вигляді.

Ребра-дуги пов'язують сутності всередині кожного рівня ієрархії. Ці зв'язки корисні для розширення списку знайдених документів близькими за змістом документами.

Саме спосіб отримання описаної вище структури і є основним предметом даного винаходу.

Специфіка способу по справжньому винаходу полягає в тому, що вже наявні кластери обробляють як окремі документи. Тобто знаходять багатовимірний вектор кожного кластера (фактично він вже знайдений після доповнення кластера черговим електронним документом); знаходять міру взаємної близькості багатовимірних векторів для кожної пари кластерів; об'єднують у відповідний топік (topic) ті кластери, для яких знайдені заходи взаємної близькості їх багатовимірних векторів не перевищують заздалегідь задане порогове значення; визначають багатовимірний вектор для топіка; приймають в якості теми топіка тему того з вхідних в нього кластерів, для якого міра близькості його багатовимірного вектора до певного багатовимірного вектора цього топіка мінімальна.

Цю процедуру бажано повторюють вже для топіків, тобто знаходять міру взаємної близькості багатовимірних векторів для кожної пари топіків; об'єднують у відповідний супертонее заданий поріг; визначають багатовимірний вектор для супертопика; приймають в якості теми такого супертопика тему того з вхідних в нього топіків, для якого міра близькості його багатовимірного вектора до певного багатовимірного вектора цього супертопика мінімальна.

Цю ж процедуру можна повторювати і для сюжетів, щоб сформувати суперсюжети, і т. д. наприклад, у разі визначення тем для супертопиков в способі по справжньому винаходу будують граф, вузлами якого є супертопики, а кожне з ребер являє собою відношення близькості пов'язуються цим ребром супертопиков. Після цього складають глобальний словник термів для забезпечення можливості подальшого проведення пошуку фрагментів побудованого графа, релевантних конкретному пошуковому документа.

В якості ілюстрації на Фіг.5 наведено скріншот графа, що повертається на запит «марс умови для життя» в системі, практично використовує даний винахід. На цьому зображенні представлена частина описаної вище графової структури на рівні топіків, тобто на рівні кластерів документів, між кластерами представлені зв'язку-дуги (див. шаблон графа на Фіг.4). Система знайшла, що вектор запиту «марс умови для життя» при поистроиду кластера документа «НАСА: На стародавньому Марсі були всі умови для життя».

Для ілюстрації ієрархічних зв'язків на Фіг.6 наведено приклад звіту, за типами дорожньо-транспортних пригод (ДТП) за деякий період часу. Тут сутності високого рівня ієрархії містять у собі об'єкти більш низьких рівнів. На Фіг.6 схематично показані звіти по ДТП трьох типів: вантажівка та автобус (загальний круг зліва внизу), вантажівку і автомобіль (загальний коло нагорі), автомобіль і автомобіль (загальний коло праворуч внизу). Тут круги найменшого діаметра (і найбільш темні) подають документи (новинні повідомлення), в яких згадується факт ДТП. Далі по ієрархії, повідомлення про одне й те ж подію об'єднані в кластери-топіки, топіки об'єднані в супертопики, супертопики об'єднані за типом описуваних у них подій (автомобіль-автомобіль, вантажівка-автомобіль). При цьому коло найбільшого діаметра (і найбільш світлий) несе чисто естетичну навантаження.

Для другого об'єкта цього винаходу - способи пошуку в сукупності кластерних по семантичній близькості документів - спочатку здійснюють кластеризацію електронних документів згідно способу по першому об'єкту цього винаходу з обов'язковою побудовою вищезазначеного графа, а потім виполняюстроится вектор запиту і на підставі міри близькості виконується пошук самого близького супертопика, потім топіка, а далі - документа.

Фахівцям зрозуміло, що обидва способи по справжньому винаходу виконуються відповідно запрограмованої системі. Тому ще двома об'єктами цього винаходу є машиночитані носії, призначені для безпосередньої участі в роботі обчислювального засобу зазначеної системи та містять кожен програму, яка при її виконанні в обчислювальному засобі забезпечує виконання відповідного способу. Такими машиночитаемими носіями можуть бути як жорсткі диски, так і інші пристрої, наприклад флеш-пам'ять, DVD-диски, магнітні стрічки і т. д.

Таким чином, використання цього винаходу дозволяє спростити і прискорити як кластеризацію електронних документів за семантичної близькості, так і подальший пошук в кластеризованной сукупності тих документів, які релевантні пошуковому запиту.

1. Спосіб автоматичної ітеративної кластеризації електронних документів за семантичної близькості, полягає в тому, що:
- перетворять кожен підлягає обробці електронний документ у відповідний багатовимірний вектор у багатовимірному просторі, виміри якого визнач�гомерного вектора до кожного з багатовимірних векторів вже наявних кластерів, об'єднують семантично близькі електронні документи, опрацьовані раніше;
- доповнюють згаданим підлягає обробці електронним документом той із згаданих кластерів, для якого знайдена міра близькості мінімальна;
- визначають для згаданого доповненого кластера його новий багатовимірний вектор;
- приймають в якості теми згаданого доповненого кластера назва того електронних документів у даному кластері, для якого міра близькості його багатовимірного вектора до певного нового багатовимірного вектора мінімальна.

2. Спосіб за п. 1, в якому:
- накопичують сукупність підлягають обробці електронних документів в міру їх появи протягом заздалегідь заданого інтервалу часу;
- після чого і здійснюють кластеризацію кожного з електронних документів у накопиченої сукупності.

3. Спосіб за п. 1, в якому зазначене перетворення електронного документа багатовимірний вектор включає в себе етапи, на яких:
- планаризируют текст згаданого електронного документа;
- формують масиви термів для планаризованного тексту кожного із згаданих електронних документів, для чого:
- токенизируют планаризованний текст, отримуючи в результьтате основи слів з допомогою, щонайменше, одного з евристичних алгоритмів; після чого:
- знаходять вага кожного терма в кожному зі згаданих електронних документів;
- висловлюють кожен із згаданих електронних документів у вигляді вектора в багатовимірному просторі, виміри якого визначаються знайденими вагами термів в тексті даного електронного документа.

4. Спосіб за п. 3, в якому зазначене обчислення ваги кожного терма виконують з використанням міри TF-IDF, що представляє собою добуток величини

на величину
.

5. Спосіб за п. 1, в якому зазначене знаходження міри близькості багатовимірних векторів включає в себе етапи, на яких:
- обчислюють косинусную міру близькості між кожною парою згаданих багатовимірних векторів;
- розбивають всі згадані багатовимірні вектори на підмножини, в кожному з яких обчислена косинусні міра близькості між парою будь-яких багатовимірних векторів менше наперед заданого значення;
- розраховують вектор-центроїд кожного із згаданих підмножин як середньоарифметичне всіх багатовимірних векторів цієї підмножини;
- приписують кожен багатовимірний вектор до підмножини з ближа�имной близькості багатовимірних векторів для кожної пари згаданих кластерів;
- об'єднують у відповідний топік ті кластери, для яких знайдені заходи взаємної близькості їх багатовимірних векторів не перевищують заздалегідь задане порогове значення;
- визначають для цього топіка його багатовимірний вектор;
- приймають в якості теми цього топіка тему того з вхідних в нього кластерів, для якого міра близькості його багатовимірного вектора до певного багатовимірного вектора цього топіка мінімальна.

7. Спосіб за п. 6, додатково містить етапи, на яких:
- знаходять міру взаємної близькості багатовимірних векторів для кожної пари згаданих топіків;
- об'єднують у відповідний супертопик ті топіки, для яких знайдені заходи взаємної близькості їх багатовимірних векторів не перевищують заздалегідь заданий поріг;
- визначають для згаданого супертопика його багатовимірний вектор;
- приймають в якості теми згаданого супертопика тему того з вхідних в нього топіків, для якого міра близькості його багатовимірного вектора до певного багатовимірного вектора цього супертопика мінімальна.

8. Спосіб за п. 7, в якому будують граф, вузлами якого є згадані супертопики, топіки і документи, а кожне з ребер цього графа являє особливій складають глобальний словник термів для забезпечення можливості подальшого проведення пошуку фрагментів графа, релевантних конкретному пошуковому документа.

10. Спосіб пошуку в сукупності кластерних по семантичній близькості документів, який полягає в тому, що:
- здійснюють кластеризацію електронних документів згідно способу за п. 9;
- виконують пошук релевантних пошуковому запиту електронних документів як фрагментів згаданого графа.

11. Машиночитаемий носій, призначений для безпосередньої участі в роботі обчислювального засобу і містить програму, яка при її виконанні в згаданому обчислювальному засобі забезпечує виконання способу по кожному з пп.1-9.

12. Машиночитаемий носій, призначений для безпосередньої участі в роботі обчислювального засобу і містить програму, яка при її виконанні в згаданому обчислювальному засобі забезпечує виконання способу п. 10.



 

Схожі патенти:

Оркестровка служб для інтелектуального автоматизованого помічника

Винахід відноситься до комп'ютерної техніки, а саме до систем інтелектуальних автоматизованих помічників. Технічним результатом є підвищення точності представлення користувачу релевантної інформації за рахунок обліку параметрів задачі, логічно виведених з контекстної інформації. Запропоновано спосіб функціонування інтелектуального автоматизованого помічника. Спосіб виконується в електронному пристрої, що містить процесор і пам'ять, в якій збережені інструкції, що виконуються процесором. Процесор виконує інструкції, на яких приймають користувальницький запит, що включає мовний enter, прийнятий від користувача. Ідентифікують, на основі подання наміри користувача, безліч релевантних параметрів задачі для потоку завдань, причому безліч релевантних параметрів задачі включає в себе, щонайменше, один параметр завдання, явно виражений у мовному введенні, і, щонайменше, один параметр задачі, логічно виведений з контекстної інформації, пов'язаної з голосовим уведенням. 3 н. і 8 з.п. ф-ли, 50 іл., 5 табл.

Спосіб формування та експлуатації бази даних

Винахід відноситься до формування та експлуатації бази даних інформації про вакансії та кадрових ресурсах. Технічним результатом є підвищення швидкодії пошуку при ранжируванні даних про кадри або вакансії. Пошукова система для кожного обраного інформаційного елемента визначає його рейтинг, обробка інформації, в БД включає структурування в реляційній формі даних про структурі, термінах і взаємозв'язках, що стосуються посадових характеристик, з урахуванням таксономії і онтології предметної області, а також складання рейтингу показників, що складають матрицю, і їх ранжування, клієнти-фізичні особи самі визначають пріоритети критеріїв для виконуваної роботи і вибору компанії, а також проставляють обов'язкові значення критеріїв і варіює ранжируемие показники для відбору вакансій, які система автоматично обробляє в режимі скорингу, для чого їх ранжує, попередньо визначивши їх середнє арифметичне, клієнт-юридична особа визначає обов'язкові значення критеріїв і варіює ранжируемие показники для відбору персоналу, які система обробляє в режимі скорингу, для чого автоматично ранжує, попередньо опрЂериев, отримують рейтинг у списку резюме відібраних кандидатур, щодо яких клієнт-юридична особа приймає рішення. 7 з.п. ф-ли, 1 іл.

Використання попередньої обробки на сервері для розгортання уявлень електронних документів в комп'ютерній мережі

Винахід відноситься до галузі комп'ютерних мереж, а саме до клієнт-серверних комп'ютерним мережам. Технічний результат полягає в збільшенні продуктивності мережі і зниження затримки в доставці електронних документів, запитуваних користувачами. Технічний результат досягається за рахунок використання попередньої обробки на сервері для розгортання статичних уявлень електронних документів в комп'ютерній мережі. Електронний документ може бути опублікований з клієнтського комп'ютера на першому серверному комп'ютері в комп'ютерній мережі. Під час публікації перший серверний комп'ютер може створювати статичне подання електронного документа та переглядач для перегляду статичного подання електронного документа на клієнтському комп'ютері. Перший серверний комп'ютер може зберігати статичне подання електронного документа і програму перегляду на другому серверному комп'ютері для доставки на клієнтський комп'ютер. 2 н. і 5 з.п. ф-ли, 5 іл.

Контрольні точки для файлової системи

Винахід відноситься до засобів забезпечення контрольних точок. Технічний результат полягає в зменшенні часу відновлення. Вказують, що перший набір оновлень підлягає зв'язування з першою контрольною точкою. Визначають необхідність запису даних контрольної точки, що належать до першої контрольної точки, в сховище файлової системи, яка використовує копіювання при записі для оновлення даних файлової системи. Вказують, що будь-які оновлення, які відбуваються після першого набору оновлень, підлягають скріпленню з наступної контрольної точки. Генерують плани запису для першого набору оновлень, причому кожен план запису вказує, щонайменше, заплановане місце розташування в сховище для даних, що представляють щонайменше одне з першого набору оновлень. Оновлюють метадані для вказівки даних виділення файлової системи, а також розташування в сховище для об'єктів файлової системи, модифікованих відповідно до згаданих планів запису. Створюють логічну копію метаданих. 3 н. і 12 з.п. ф-ли, 8 іл.

Спосіб поліпшення забезпечення дорожньою інформацією

Винахід відноситься до поліпшення дорожньої інформації до управління приводом транспортного засобу на основі цієї інформації. Спосіб поліпшення забезпечення дорожньої інформацією, в якому дорожню інформацію використовують для керування приводом транспортного засобу з використанням електронного блоку управління, який має доступ до дорожньої інформації, що міститься в різних джерелах (А, В, С) дорожньої інформації, і до датчика (Р) місцезнаходження. Джерела (А, В, С) дорожньої інформації включають цифрову карту (А), базу (В) даних автотранспортної компанії і локальну базу (С) даних транспортного засобу. Електронний блок керування виконаний з можливістю вибору між масивами дорожньої інформації, що містяться у джерелах (А, В, С) дорожньої інформації. Вибір здійснюється відповідно з показником якості дорожньої інформації, що міститься в різних джерелах (А, В, С) дорожньої інформації. Досягається поліпшення забезпечення дорожньої інформацією, так що забезпечується максимально можлива ймовірність отримання актуальної дорожньої інформації щодо майбутнього маршруту транспортного засобу. 14 з.п. ф-ли, 1 іл.

Пристрій пошуку інформації

Винахід відноситься до області електрозв'язку і може бути використане для пошуку і оперативної ідентифікації інформації в мережах передачі даних з комутацією пакетів і в інформаційно-довідкових (пошукових) системах. Технічним результатом є підвищення ймовірності своєчасного пошуку інформації в мережах передачі даних з комутацією пакетів, інформаційно-довідкових (пошукових) системах, на основі динамічно корегованих значень (меж) максимального часу пошуку для кожного пошукового запиту. Пристрій пошуку інформації містить N≥2 блоків зберігання маски 11-1N, N блоків селекції 21-2N, дільник частоти 3, формувач часових інтервалів 4, регістр стратегії пошуку 5, блок формування адреси маски переходів 6, блок індикації 7, N селекційних контролерів часу пошуку 81-8N, головний контролер часу пошуку 9, генератор тактових імпульсів 10. 3 з.п. ф-ли, 11 іл.

Спосіб надання інформаційної підтримки розробника програмного забезпечення для мікроконтролерів і реалізує його система

Винахід відноситься до обчислювальної техніки. Технічний результат полягає у прискоренні процесу виробництва програмного забезпечення для мікроконтролерів за рахунок підвищення якості та швидкості надання розробнику інформаційної підтримки. Спосіб надання інформаційної підтримки, в якому надають пошук за технічним описам мікроконтролерів, по серверам RSS, веб-серверів, які надають контекстну довідку за елементами графічного інтерфейсу середовища розробки програмного забезпечення, при цьому з кожного файлу технічного опису мікроконтролера витягується його структура та елементи цієї структури об'єднуються по заздалегідь заданим правилам узагальнюючі розділи, після чого створюють запис у базі даних, потім створюють індексний файл, при цьому структуру технічного опису мікроконтролера та індекс його текстового вмісту зберігають окремо на сервері бази даних і сервері індексації відповідно. 2 н. і 1 з.п. ф-ли, 1 іл.

Система моніторингу

Винахід відноситься до засобів моніторингу системного статусу даних. Технічний результат полягає в спрощенні доступу до несекретной інформації. Емулюють та/або використовують сервіс модифікованого присутності для отримання інформації про спостережуваних, що підлягають моніторингу з метою визначення системного статусу статусу модифікованого присутності в сервісі модифікованого присутності. Добувають, щонайменше з однієї бази даних, з допомогою вихідного значення щонайменше однієї динамічної спостережуваної, дані/інформацію про спостережуваних з метою визначення їх системного статусу для динамічної спостерігається. Поєднують зазначене вихідне значення з розподілом системного статусу для подання системного статусу зазначеної динамічної спостерігається. Звертаються до системного статусу для принаймні однієї динамічної спостерігається. Зчитують в якості вхідних даних порцію інформації щодо здоров'я приватної особи або іншу конфіденційну інформацію. Розпізнають поле індивідуальних даних щодо розподілу інформації для вказаного приватного особи на основі збору критеріїв. Записують в базу даних вказану порцію інформації онних зазначеного приватного особи. 6 н. і 7. з.п. ф-ли, 27 іл., 7 пр.

Спосіб оцінки ефективності використання пошуку гео-об'єктів і система для здійснення способу

Винахід відноситься до способу і системи оцінки просування рекламного ринку товарів і послуг з використанням мобільних версій Інтернет сайтів. Технічний результат - підвищення ефективності просування товарів і послуг, наближення їх до споживача і підвищення зручності пошуку товарів і послуг споживачем. Спосіб оцінки характеризується тим, що створюють і зберігають на сервері довідник, що містить задовольняє відвідувача інформацію про гео-об'єктах, товарах і послугах, за яким у подальшому проводять пошук. За допомогою мобільного терміналу відвідувач на сайті вибирає потрібний йому гео-об'єкт, на адресу якого згодом направляється. За адресою цього гео-об'єкта відвідувач, за допомогою свого мобільного терміналу, входить на сайт цього об'єкта, де здійснює реєстрацію, використовуючи одну з доступних соціальних мереж. При цьому на сервері фіксують і зберігають у базі даних статистики мобільного сайту інформацію про факт натискання відвідувачем посилання засоби здійснення цільового дії, дату і час натискання на посилання, географічне положення відвідувача, IP-адресу відвідувача, модель мобільного терміналу відвідувача та інформацію про успішному проведенні послуги. Шляхом срадят про ефективність використання пошуку гео-об'єкта. 2 н. п. ф-ли, 1 іл.

Спосіб і пристрій пошуку складеного зразка в послідовності

Винахід відноситься до обчислювальної техніки. Технічний результат полягає в розширенні функціональних можливостей за рахунок модернізації зв'язків осередків характеристичної матриці і введення додаткових елементів в характеристичну матрицю. Спосіб пошуку складеного зразка в аналізованої послідовності, відрізняється поєднанням паралельної побітовою обробки елементів у складі діагоналей характеристичної матриці, довжина яких дорівнює довжині зразка складеного в аналізованої послідовності, з построчним обчисленням стартових значень пошукових осередків характеристичної матриці, що дозволяє врахувати позиційно нерегулярне розташування символів зразка складеного в аналізованої послідовності і з'єднати в один пошуковий об'єкт позиційно нерегулярні розташування символів зразка складеного в аналізованої послідовності. 2 н. п. ф-ли, 5 іл.

Спосіб виявлення персональних даних неструктурованої інформації відкритих джерел

Винахід відноситься до галузі інформаційних технологій. Технічним результатом є забезпечення високої релевантності результатів видачі при виявленні персональних даних у відкритих інформаційних джерелах і в текстових файлах найбільш поширених форматів. Виявлення персональних даних досягається за допомогою лінгвістичних технологій, реалізованих за допомогою сервера збору даних, сервера лінгвістичної обробки, сервера додатків. У пропонованому способі створюють завдання на основі вступників через АРМ адміністратора параметрів з обходу відкритих джерел. Потім завантажують текст, роблять обхід відкритих джерел і завантаження текстів або передачу текстів з зовнішньої системи. Виділяють посилання завантажених текстів для їх додавання до адрес подальшого обходу. Витягують текст, бінарні файли перетворюються до текстового формату. Підготовлений до розбору текст розбирають і виявляють сутності, виробляють виділення сутностей персональних даних у тексті. Виявляють персональні дані, виділяють факти (сутності, виявлені на попередньому етапі, пов'язані з персонами) персональних даних у тексті. 6 з.п. ф-ли, 3 іл.

Итеративное поповнення електронного словника

Винахід відноситься до способів поповнення електронних словников - списків термінів з мітками. Технічним результатом є підвищення ефективності використання електронних словников в задачах аналізу тексту за рахунок забезпечення можливості призначення термінам осмислених ваг і автоматичного поповнення словников з допомогою навчальної множини текстів. У способі поповнення словника з навчальної множини електронних документів з допомогою обчислювальної машини (персонального комп'ютера, сервера тощо) формують навчальне підмножина, тексти всіх електронних документів якого містять терміни словника. До слів, що зустрічаються в навчальному підмножині, застосовують критерії вибору характеристик. Обраним за допомогою критеріїв словами призначають мітки, обраним словами опціонально призначають ваги. Вибрані слова додають в словник з відповідними позначками (і вагами). 2 н. і 14 з.п. ф-ли, 13 іл.
Винахід відноситься до способу виявлення текстових об'єктів. Технічним результатом є розширення арсеналу технічних засобів за рахунок створення порівняно швидкого способу виявлення текстових об'єктів. Спосіб виявлення текстових об'єктів полягає в тому, що формують для кожного підлягає виявленню текстового об'єкта список регулярних виразів, кожне з яких описує даний текстовий об'єкт; створюють синтаксичний аналізатор, призначений для здійснення синтаксичного аналізу регулярних виразів; генерують на основі синтаксичного аналізатора індивідуальний кінцевий автомат для кожного регулярного виразу; об'єднують індивідуальні кінцеві автомати всіх регулярних виразів щонайменше один пошуковий автомат, призначений для пошуку текстових об'єктів; запускають пошукові автомати на тексті підлягає перевірці документа для виявлення в ньому рядків, що представляють собою текстові об'єкти. 6 з.п. ф-ли.

Обробка електронних чорнил

Винахід відноситься до обробки електронних чорнил

Дозвіл кореференции в чутливою до неоднозначності системі обробки природної мови

Винахід відноситься до способів дозволу кореференции в чутливою до неоднозначності системі обробки природної мови, зокрема до інтеграції функціональних можливостей вирішення кореференции в систему обробки документа

Спосіб вивчення системи письма китайськими ієрогліфами і заснованих на китайських ієрогліфах систем письма інших мов

Винахід відноситься до способу вивчення системи письма китайськими ієрогліфами і заснованої на китайських ієрогліфах системи письма для інших мов

Спосіб і система для створення, зберігання, управління і споживання специфічних культурі даних

Винахід відноситься до систем локалізації контенту та програмного забезпечення

Пристрій крос-кластерної керованої перестановки інформації, збереженої в персональній еом

Винахід відноситься до галузі обчислювальної техніки, зокрема до кодування інформації, і може бути використано в системах комунікації і захисту інформації від несанкціонованого доступу

Спосіб і система форматування за умовою, що активується одним клацанням миші, для програм

Винахід відноситься до засобів форматування за умовою відображуваних даних
Up!